Mundial de Fórmula 1
Prob. Absoluta de Libertadores
Futebol Nacional
Campeonato Brasileiro - Série A
Campeonato Brasileiro - Série B
Campeonato Brasileiro - Série C
Campeonato Brasileiro - Série D
Copa do Brasil
Primeira Liga
Futebol Internacional
Taça Libertadores
Copa Sul-Americana
Campeonato Alemão
Campeonato Espanhol
Campeonato Inglês
Campeonato Italiano
Futebol de Seleções
Eliminatórias - América do Sul
Eliminatórias - CONCACAF
Eliminatórias - Europa
Eliminatórias - Ásia
Eliminatórias - África
Eliminatórias - Oceania
Eliminatórias - Repescagens
Rankings Chance de Gol
Ranking de Seleções
Ranking Mundial de Clubes
Ranking de Clubes Brasileiros
Como Funciona
Entenda os Cálculos
Curso Rápido - Parte I
Curso Rápido - Parte II
Estatísticas e Medidas
Cursos e Palestras
Mais Sobre o Chance de Gol
Placar Chance de Gol
Campeonatos Passados
Chance de Gol no Facebook
Chance de Gol no Twitter
Chance de Gol no Youtube
Rádio Chance de Gol
Fale Conosco
O Autor
Quem Sou Eu
Colunas No Ângulo
Acertando as Contas
Artigo - Medalhas de 2012
Artigo - Copas em 2013
Artigo - 1000 jogos da Seleção
Artigo - Gigantes rebaixados
Artigo - Proposta de calendário
Artigo - Sugestão de Copa do Mundo
Outros - Ranking matemático
Outros - Ranking da Fórmula 1
Outros - Ranking de torcidas
Outros - Seleções históricas
Links
Sites Parceiros
Futebol ao Vivo
        
  

COMO TUDO FUNCIONA - Estatísticas e Medidas
(Quanto o Chance de Gol "erra" e "acerta")



Nos artigos anteriores, eu muitas vezes chamei a atenção para a questão de que não se deve confundir a atribuição de probabilidades altas com afirmações de que um evento "VAI acontecer" e, por conseguinte, não se deve tomar a ocorrência ou não de tal evento como "acerto" ou "erro" de previsão. Apesar desses constantes alertar, é mais do que natural que alguém pergunte sobre a qualidade das previsões estatísticas do Chance de Gol, até para que possa se estabelecer termo de comparação com outros sites do gênero ou com "valores-padrão de referência".

Depois de muitos anos de trabalho (o Chance de Gol surgiu em 1999, mas as previsões estatísticas já eram realizadas desde a Copa do Mundo de 1998), já existe histórico suficiente para podermos aplicar algumas medidas de qualidade existentes na literatura estatística. Do início da Copa do Mundo de 1998 até hoje (17/10/2017), foram calculadas probabilidades para exatos 29.864 jogos, válidos por um total de 332 campeonatos (sendo 313 encerrados e 19 em andamento). A partir dessa considerável massa de dados, podemos então calcular duas relevantes medidas da qualidade do Chance de Gol.

Antes de entrar nessas medidas, porém, julgo importante mostrar uma estatística ligada ao erro freqüentemente cometido por não-estatísticos e alvo dos constantes alertas citados no primeiro parágrafo deste artigo. Rotulando os três resultados possíveis de cada jogo (vitória, empate e derrota) como "favorito" (o resultado com maior probabilidade de ocorrência), "médio" (o segundo resultado com mais chances de acontecer) e "zebra" (o menos provável dos três resultados), a história do Chance de Gol registra, até o presente momento:
  • 52.3% de jogos em que o resultado "favorito" aconteceu;
  • 26.0% de jogos em que o resultado "médio" aconteceu;
  • 21.6% de jogos em que a "zebra" aconteceu.
Considerando-se que a grande maioria dos jogos contabilizados são confrontos minimamente equilibrados, pode-se considerar esse escore de 52.3% de "favoritos" como uma boa medida de "acerto". Porém, a ocorrência de um resultado "zebra" para o que se previa uma probabilidade de 1% estava contemplada e medida (exatamente em 1%) de modo que, reitero mais uma vez, é enganoso e incorreto tomar as ocorrências ou não de "favoritos" como "acertos" e "erros". O exemplo a seguir, espero, exibirá inquestionavelmente as deficiências desse pensamento e, espero, sepultará definitivamente essa forma de "avaliação" de qualidade.
Imagine que dois estatísticos façam as seguintes previsões para os jogos Time A x Time B e Time C x Time D:

Estatístico X:

Time A 90%
empate 5%
Time B 5%

Time C 34%
empate 33%
Time D 33%
Estatístico Y:

Time A 30%
empate 30%
Time B 40%

Time C 25%
empate 30%
Time D 45%

Imagine agora que os Times B e C venceram esses jogos. Pela contagem de "favoritos", os dois modelos seriam iguais entre si, empatados com 1 “acerto” e 1 “erro” cada. Analisando atentamente, porém, não é difícil ver que o “erro” do Estatístico X no jogo Time A x Time B é muito mais “grave” que o erro do Estatístico Y no jogo Time C x Time D! Logo, a simples contabilização de “resultados mais prováveis efetivamente ocorridos” negligencia aspectos muito importantes da qualidade de um modelo de previsão estatística.

As medidas que serão apresentadas a seguir, por outro lado, possuem amplo embasamento matemático e levam em consideração aspectos como essa “gravidade” supracitada. Vamos a elas, então:

1 - Medida de Confiabilidade

Eventos que tenham, digamos, 30% de probabilidades de acontecer, espera-se que aconteçam 30% das vezes, certo? É esse o raciocínio básico por trás dessa medida. Se estivéssemos analisando uma moeda, diríamos que ela é "confiável" (daí o nome dessa medida) se a freqüência observada de caras e coroas no longo prazo for condizente com as probabilidades atribuídas à ocorrência de cada face. Para o futebol, onde cada jogo é uma "moeda" diferente e onde todas as "moedas" têm três "faces" (vitória, empate e derrota), a matemática fica mais complicada, mas a essência do raciocínio é a mesma e pode ser sintetizada na tabela abaixo:

De todos os resultados
cuja probabilidade estava
efetivamente aconteceram
entre 0% e 10% 10.4%
entre 10% e 20% 18.9%
entre 20% e 30% 25.3%
entre 30% e 40% 33.0%
entre 40% e 50% 43.9%
entre 50% e 60% 54.2%
entre 60% e 70% 60.6%
entre 70% e 80% 68.3%
entre 80% e 90% 77.1%
entre 90% e 100% 88.2%

Então, uma medida de confiabilidade pode ser calculada a partir das distâncias entre os valores da segunda coluna e os pontos médios dos intervalos da segunda coluna:

Intervalo Ponto médio Freqüência observada Distância
0 a 10% 5% 10.4% (0.05 - 0.104)² = 0.002923
10 a 20% 15% 18.9% (0.15 - 0.189)² = 0.001504
20 a 30% 25% 25.3% (0.25 - 0.253)² = 0.000011
30 a 40% 35% 33.0% (0.35 - 0.330)² = 0.000384
40 a 50% 45% 43.9% (0.45 - 0.439)² = 0.000120
50 a 60% 55% 54.2% (0.55 - 0.542)² = 0.000070
60 a 70% 65% 60.6% (0.65 - 0.606)² = 0.001940
70 a 80% 75% 68.3% (0.75 - 0.683)² = 0.004536
80 a 90% 85% 77.1% (0.85 - 0.771)² = 0.006217
90 a 100% 95% 88.2% (0.95 - 0.882)² = 0.004692

Assim, a Medida de Confiabilidade do Chance de Gol é igual à soma dos valores da coluna "Distância" (a quarta coluna desta tabela): MC = 0.022398. Evidentemente, quanto menor for o valor dessa medida, melhor será o modelo de previsão. Isso fica visível se calcularmos essas medidas para os estatísticos X e Y do exemplo mostrado mais acima. O estatístico X (que "errou feio" no primeiro jogo) tem MC = 0.925278, enquanto o estatístico Y (que "errou menos" no segundo jogo) tem MC = 0.625. Além disso, em comparação com as medidas dos estatísticos X e Y, a medida do Chance de Gol (MC = 0.022398) é muitíssimo menor e, conseqüentemente, podemos afirmar que, sob esse quesito, o desempenho do Chance de Gol é muito bom!

2 - Distância ao Resultado

Essa medida, também conhecida como Distância de DeFinetti (nome do estatístico que a desenvolveu), se baseia no raciocínio intuitivo de que, quanto mais alta é a probabilidade de um evento acontecer, "mais correta" terá sido a previsão se ele de fato acontecer e "mais errada" terá sido a previsão se esse evento não vier a acontecer.

Matematicamente falando, trata-se de observar as probabilidades sempre como um terno, isto é, um conjunto formado por três números. Antes de o jogo começar, o terno é formado pelos números (prob. de vtória, prob. de empate e prob. de derrota). Depois que o jogo terminou, por outro lado, o resultado já é conhecido e consumado e portanto o terno passa a ser (100%, 0, 0) se o time tiver vencido, (0, 100%, 0) se tiver empatado ou (0, 0, 100%) se tiver perdido o jogo. A Distância ao Resultado é, portanto, simplesmente a medida da distância entre o terno correspondente às probabilidades calculadas antes do jogo e o terno correspondente ao resultado efetivamente conhecido ao final do jogo.

Tomemos como exemplo, as previsões efetuadas pelo estatístico X para o primeiro jogo do exemplo apresentado no início deste artigo. O terno correspondente às probabilidades previamente calculadas é (90%, 5%, 5%). Conseqüentemente as possíveis Distâncias ao Resultado desse jogo seriam:

(0.90 - 1)² + (0.05 - 0)² + (0.05 - 0)² = 0.015 se o Time A tivesse vencido o jogo;
(0.90 - 0)² + (0.05 - 1)² + (0.05 - 0)² = 1.715 se o Time A tivesse empatado o jogo;
(0.90 - 0)² + (0.05 - 0)² + (0.05 - 1)² = 1.715 se o Time A tivesse perdido o jogo.

Calculadas essas distâncias individualmente para todos os jogos analisados desde 1998 e posteriormente tomando a sua média aritmética, obtemos o valor de DR = 0.5959 para o Chance de Gol. Assim como a Medida de Confiabilidade, a Distância ao Resultado tem como característica evidente o fato de que, quanto menor o valor da medida, melhor será o modelo de previsão. Assim, calculando as medidas para os estatísticos X e Y do exemplo inicial, nós podemos perceber que o estatístico X (que "errou feio") tem DR = 1.1842, medida pior que a do estatístico Y (que "errou menos"), que tem DR = 0.6975. E podemos novamente observar que, em comparação com as medidas dos estatísticos X e Y, a medida DR = 0.5959 do Chance de Gol é muitíssimo menor e, portanto, que sob esse quesito o desempenho do Chance de Gol também é muito bom!

Há ainda um outro valor de referência útil para o balizamento da Distância ao Resultado: trata-se de considerar o escore que seria obtido pelo "preguiçoso" que, sem efetuar análise ou cálculo algum, preguiçosamente atribui probabilidades iguais a (1/3, 1/3, 1/3) para todo e qualquer jogo que venha a ser realizado.

A Distância ao Resultado do "preguiçoso" será sempre igual a (1/3 - 1)² + (1/3 - 0)² + (1/3 - 0)² = 0.6667. Isso significa dizer que o mínimo que se espera de um bom modelo estatístico é que sua Distância ao Resultado seja melhor (i.e. menor) que 0.6667. Afinal de contas, se o modelo do estatístico X é pior que o do "preguiçoso", então mais eficiente (e presumivelmente mais barato) do que insistir nesse modelo, será fechar os olhos e atribuir probabilidades (1/3, 1/3, 1/3) para todos os jogos do planeta! Também nesse aspecto, o Chance de Gol com sua medida 0.5959, também é aprovado com louvor!

Espero, sinceramente, que com essas explicações os equivocados conceitos de "erro" e "acerto" sejam definitivamente esquecidos e que as medidas de qualidade do Chance de Gol, bem como seus conceitos, estejam agora adequadamente compreendidas.

Seção acrescentada em 31/07/2013

Além das medidas (MC e DE) anteriormente citadas, é importante citar que os bancos de dados do Chance de Gol possuem limitações diretamente decorrentes da estrutura das competições consideradas. Por exemplo, competições disputadas em fases de grupos seguidas de etapas de mata-mata, tendem a contribuir com sensivelmente menos informações (resultados) sobre as equipes participantes do que campeonatos em que todos os participantes se enfrentem pelo menos uma vez. Além disso, em competições disputadas em formatos eliminatórios, as comparações entre times que integraram grupos diferentes e não chegaram a efetivamente se enfrentar são apenas "abstratas", o que torna a mensuração das qualidades técnicas de cada time menos consistente do que num cenário em que todas as equipes efetivamente se confrontaram ao menos uma vez.

Nesse sentido, algumas medidas podem ser propostas para a aferição de quanto um banco de dados contém de informação e de quão "concreta" (ou "abstrata") essa informação é para efeito de cálculo de probabilidades de jogos e/ou campeonatos futuros. A primeira dessas medidas é a Média de jogos por time, valor autoexplicativo, que visa apurar quanto, em média, o banco de dados possui de informação sobre cada uma das equipes consideradas. Essa medida está diretamente relacionada à "consistência" (ou à "densidade") do banco de dados e por isso pode ser chamada de Medida de Consistência.

A segunda medida é obtida a partir da noção de "distância" entre os times. Aqui, entende-se por "distância" entre duas equipes o menor número de passos (confrontos) intermediários para que se possa estabelecer uma comparação entre essas equipes, num conceito similar à conhecida teoria dos "seis graus de separação". Tomemos como exemplo, para ilustração e melhor entendimento desse conceito, o banco de dados atual (31/07/2012 a 30/07/2013) de Clubes Brasileiros (que inclui jogos do Campeonato Brasileiro Séries A, B, C e D, da Copa do Brasil, da Copa do Nordeste e dos principais campeonatos estaduais). Então, nesse banco de dados:

- estão a uma distância 1 da Ponte Preta, todos os clubes contra os contra os quais o clube campineiro jogou (por exemplo, o Goiás está a uma distância 1 da Ponte Preta, pois ambos se enfrentaram pelo Brasileiro 2013).
- estão a uma distância 2 da Ponte Preta, todos os clubes que não enfrentaram a Macaca mas jogaram contra adversários que a enfrentaram (por exemplo, o América-RN está a uma distância 2 da Ponte Preta, pois ambos não se enfrentaram mas o América enfrentou o São Caetano pela Série B 2012 e o São Caetano enfrentou a Ponte Preta pelo Paulista 2013).
- estão a uma distância 3 da Ponte Preta, todos os clubes que não a enfrentaram nem jogaram contra adversários que a enfrentaram, mas que jogaram contra adversários que se enfrentaram (por exemplo, a Tuna Luso está a uma distância 3 da Ponte Preta, pois ambos não se enfrentaram nem enfrentaram adversários em comum, mas a Tuna Luso enfrentou o Paragominas pelo Paraense 2013, o Paragominas enfrentou o Nacional-AM pela Série D 2013 e o Nacional enfrentou a Ponte Preta pela Copa do Brasil 2013.
- e assim sucessivamente, definem-se as distâncias 4, 5, 6 etc.

Essa medida está relacionada à "coesão" dos dados, uma vez que quanto mais "disperso" for o banco de dados (i.e. quanto maiores forem as distâncias entre os seus times) mais "abstrata" tenderá a ser a comparação entre as equipes que o integram. Assim, podemos definir uma Medida de Coesão como a distância média entre todos os pares possíveis de times constantes do banco de dados.

No presente momento (17/10/2017), então, são essas as medidas de consistência e coesão dos principais bancos de dados do Chance de Gol:

Banco de Dados Seleções Clubes Brasileiros Clubes Internacionais
Número de Jogos 2856 2812 3196
Número de Times 216 230 820
CONSISTÊNCIA (Média de jogos por time) 26.4 24.5 7.8
COESÃO (Distância média entre times) 2.82 2.73 6.45

Espero que essas explicações ajudem a compreender o porquê de ocasionalmente serem veiculadas previsões probabilísticas tão "bizarras" e contrárias à intuição do "torcedor comum". Por mais acurado que o modelo probabilístico possa ser, os cálculos apontam somente aquilo que os dados considerados lhes permitem apontar.


Leia também:
- Entenda os cálculos do Chance de Gol
- Matemágicos, não senhor! (ou: Curso Rápido de Probabilidade Aplicada ao Futebol)
- Curso Rápido de Probabilidade - Parte II (Probabilidades Baseadas em Parâmetros)
- Cursos e palestras sobre Probabilidade, Estatística e o Chance de Gol





Voltar para o Início
  







Design by alexveiga.com