![blog_copa do mundo.jpg](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1539970853052-EJEQCDRLE4VKWZDOFNBV/blog_copa+do+mundo.jpg)
Hoje começa a Copa do Mundo. E nessa edição nós vamos poder contar com um novo personagem, que pode ter aparecido de forma discreta nas últimas duas ou três, mas agora certamente vai tomar o palco principal: os dados.
Com as novas tecnologias, aumento da capacidade de processamento de dados e incremento das técnicas estatísticas, será gerado muito conhecimento sobre as partidas e os jogadores, como nunca antes na história. Esse post dá uma boa ideia desse conjunto de tecnologias que serão usadas, como IoT, drones, inteligência artificial, algoritmos e dashboards com visualizações cada vez mais sofisticadas.
![copa1.png](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1531716999580-NBLJ2JN5CANAI0WL096G/copa1.png)
Selecionamos aqui dois materiais interessantes, que são dois jeitos de fazer uso de Data Science, aplicáveis facilmente a contextos de negócios que vivemos todos os dias. De um lado, um ótimo trabalho de data collection e visualization, feito pela equipe da Globo. De outro, um modelo preditivo desenvolvido por pesquisadores das universidades de Ghent na Bélgica, Dortmund e Munich na Alemanha.
1. DATA COLLECTION
O pessoal do GloboEsporte.com se valeu de uma lógica de ETL [Extract, Transformation e Load], propondo-se a analisar os vídeos de todos os gols feitos e sofridos do Brasil em Copas do Mundo [284 disponíveis em um total de 323] e construir um database a partir de algumas variáveis que julgaram relevante:
-
Tipo de lance [falta, penalti, bola rolando etc]
-
Posição do gol em que a bola entrou
-
Posição do campo em que o jogador estava quando fez o gol
-
Parte do corpo que o jogador usou para fazer o gol
-
Momento do jogo em que os gols foram feitos
Com o database em mãos, partiram para um competente trabalho de visualization, usando verde/vermelho como color code de “gols feitos” e “gols sofridos”, mouse over em cada um dos pontos para que possamos saber a que jogo cada um se refere e slides de linhas do tempo quando necessário.
![copa2.png](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1531717097188-GSBWOZUE3XDML6A8TNP0/copa2.png)
Apesar de impressionar, no fundo, é uma lógica muito simples. Qualquer material pode ser destrinchado a partir de critérios pré-determinados, que, convertidos em variáveis, podem compor um banco de dados.
E hoje em dia vemos cada vez mais esse tipo de trabalho sendo publicado na mídia. Bons veículos jornalísticos já contam com equipes qualificadas para tal. Mas é interessante notar que os jornalistas tendem a se importar apenas com os dados em si, quase que por pura e simples curiosidade. Pela lógica editorial, realmente faz sentido e tem um valor importante.
A grande questão é que hoje vemos essa mesma lógica no mundo dos negócios. Cada vez mais vemos empresas [gringas principalmente] montando grandes data lakes, war rooms, dashboards etc. com uma série de informações que muitas vezes não são usadas para nada além desse encantamento curioso, essa sensação de ter acesso fácil e intuitivo a uma série de dados que são, aparentemente, importantes para o negócio.
Na prática, essas lógicas de Data Science só fazem sentido se há uma hipótese clara e os dados serão usados de forma gerencial, com padrões de ação acionáveis. Se não é apenas um exercício contemplativo, custoso, mas sem valor prático.
![copa3.png](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1531717144726-BFLKBUFX5KVFLFF9B17F/copa3.png)
Pense o que um técnico de futebol pode fazer com essas informações do estudo da Globo. Por exemplo, é relevante que ele saiba com qual parte do corpo historicamente a seleção brasileira faz mais gols? Isso o ajuda a preparar melhor nosso time para vencer?
Dados são muito úteis e podem gerar inteligência transformadora para um negócio. Mas no fundo, Data Science é uma lógica, que precisa estar a serviço de um pensamento estratégico, com total foco em resolução de problemas e eficiência
2. PREDICTIVE MODELING
No paper científico chamado “Prediction of the FIFA World Cup 2018 — A random forest approach with an emphasis on estimated team ability parameters”, o objetivo dos pesquisadores é o mais simples e o mais complicado possível: descobrir quem vai ganhar a Copa. Ou, pelo menos, ter um chute baseado em dados.
Eles comparam três formas diferentes de modelagem estatística realizadas com dados sobre as equipes nos últimos 4 mundiais, usando como variável dependente os resultados dos jogos [gols e vitórias]. O aprendizado desta modelagem foi usado em simulações dos jogos que ocorrerão nos próximos dias. As principais variáveis que compuseram o modelo foram:
-
Ranking de seleções da FIFA
-
Se o país joga ou não em casa
-
Idade do técnico
-
Tempo de carreira do técnico
-
Se o técnico é natural do seu país ou não
-
Quantidade de jogadores que jogam juntos em clubes
-
Número de jogadores que disputam a Champions League e Copa da UEFA
-
Média de idade
-
Número de jogadores que jogam no seu país de origem ou fora dele
-
Habilidade dos jogadores [score que consolida o número de gols feitos pelos jogadores levando em conta a importância das partidas]
![copa4.png](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1531717247771-RFM14EFQXE285DPM095T/copa4.png)
![obrigado@2x.png](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1531443548344-FC15UTKBLK9M9YBK5WK2/obrigado%402x.png)
Essa última variável, que se mostrou a mais relevante para o modelo, ainda tem a sofisticação de usar uma lógica de “time-decay function”, que aumenta a pontuação nas partidas mais recentes, assumindo o velho jargão que “futebol é momento”.
A partir disso, foi usada a técnica Random Forest, algoritmo de Machine Learning que processa várias árvores de decisão simultaneamente e utiliza seus resultados para gerar uma predição com menos risco de “overfit”. Tecnicamente, um modelo com overfit (sobreajuste) seria extremamente ajustado para explicar os resultados das Copas anteriores mas impreciso para prever o futuro. Com esses padrões em mãos, os autores rodaram 10.000 simulações para prever os resultados de 2018.
Ao fim do estudo, o resultado nos leva a uma arrepiante final Brasil vs Alemanha, em que nossos adversários tem 64% de chance de vitória. Como diria o outro, haja coração.
![copa5.png](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1531717299544-025HT4UXF852R90Y1AV7/copa5.png)
Mas além do resultado final, a análise nos traz a uma série de outros cenários interessantes. Por exemplo, a Espanha tem 88% de probabilidade de passar da primeira fase. E a Alemanha 86%. Apesar de serem resultados parecidos, a Espanha tem mais probabilidade de chegar às quartas de final do que a Alemanha (75% contra 58%). Isso porque os scores dos adversários da Alemanha são mais competitivos na modelagem.
![copa6.png](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1531717325836-7RP2HK3N8ZAGXP9O7AX9/copa6.png)
Independentemente dos resultados, é interessante entender que este é um modelo claramente focado no mundo de apostas: modelos complexos que levam em conta muitas variáveis pouco acionáveis.
Caso quiséssemos pensar em um modelo preditivo que tenha um padrão de ação para decisão do técnico da seleção brasileira, precisaríamos pensar em outras variáveis.
Por exemplo: condição do clima (parecido ou diferente do que os jogadores brasileiros estão acostumados), condicionamento físico dos jogadores, faltas sofridas (probabilidade de contusão), padrão de eficácia das substituições, padrão de reação da equipe ao tomar ou fazer um gol, faltas cometidas e sofridas perto da área, cartões amarelos etc.
Seriam variáveis da “operação”, não do “contexto”.
Em resumo
Data Science é um assunto que só cresce e certamente aparecerá bastante daqui até o fim do mês relacionado à Copa do Mundo. No mundo dos negócios, pode ajudar a vencer qualquer jogo e, se bem usada, por 7×1.
Mas o que tentamos mostrar aqui é que apesar de ser uma ferramenta poderosíssima e ainda tecnicamente muito distante para a maioria das pessoas e executivos, a parte mais importante de todo processo é conseguir entender PARA QUE se usará Data Science.
A menos que tenhamos um pensamento estratégico sólido e lógico e entendamos minimamente as bases dessa disciplina, terminaremos eternamente encantados com as possibilidades que esse mundo gera, mas na prática, não sairemos do 0x0.