Os modelos matemáticos são aproximações da realidade e não refletem resultados exatos. É a utilização de dados para entender padrões e buscar evidências melhores para embasar decisões.
Com a pandemia do Coronavírus, o que não faltam são previsões acerca dos impactos da Covid-19 no país e no mundo. Diversos agentes projetam cenários variados em relação à quantidade de pessoas infectadas, taxas de transmissão, mortes, entre outras informações. Tudo para embasar decisões de ações de saúde, governo e iniciativa privada. Porém, por que as previsões divergem tanto umas das outras?
Parte dessa resposta gira entorno da questão do volume dos dados. Como o vírus é novo, não há base histórica para se amparar e criar um modelo robusto. Por outro lado, há uma heterogeneidade muito grande entre os continentes, países, estados, cidades etc, o que dificulta muito estimar a previsibilidade do comportamento do vírus – como já explicamos neste post.
E a realidade é que, ainda que os dados fossem homogêneos e em grande volume, modelos matemáticos por essência dificilmente conseguem explicar 100% de um fenômeno. Isso significa que não podemos assumir que, por exemplo, as vendas de determinada empresa vão crescer exatamente 40% em 12 meses, como prevê seu modelo.
Apesar de isso nunca ser divulgado na imprensa, todos os modelos matemáticos que vemos de universidades sobre o coronavírus tem um poder de explicação, que varia de 0 a 100%. Muitos modelos podem conseguir explicar apenas 30, 40% de um fenômeno. É uma aproximação da realidade, não a descrição dela.
Vale à pena utilizar modelos que não são exatos?
Então, diante de tanta possibilidade de erros, para que utilizar modelos preditivos? Acontece que, como diz a máxima atribuída a George Box: “Essencialmente, todos os modelos estão errados, mas alguns são úteis”.
Os modelos matemáticos são aproximações, suposições da realidade e não refletem resultados exatos. Não é um jogo de adivinhação do futuro. É utilizar dados para entender padrões e buscar evidências melhores para embasar decisões. Nesse sentido, é melhor ter uma ideia de, por exemplo, 50% do comportamento de determinado fenômeno do que não fazer ideia nenhuma.
Aqui, vamos reforçar: um dos pontos cruciais é ter dados precisos para alimentar os algoritmos. Data Preparation é o x da questão. Em relação ao Coronavírus, por exemplo, um número baixo de testes ou a falta de informações sobre novos casos, subnotificação ou mesmo informações erradas sobre casos e mortes pela doença impactam diretamente as previsões calculadas.
É preciso decidir, afinal
Todas estas considerações também auxiliam os líderes nas tomadas de decisões, pois não é saudável confiar cegamente nos modelos e nas projeções, mas sim pensar mais criticamente sobre os números, entendendo que as previsões são probabilidades e não verdades absolutas. Sempre haverá caminhos a escolher e os modelos matemáticos ajudam a comparar as opções com maior nível de precisão.
Em entrevista ao Information Week, Ben Moseley, professor na Tepper School of Business da Universidade Carnegie Mellon, explica que:
“Existem limitações significativas para a ciência de dados e o aprendizado de máquina. Nós pegamos um problema do mundo real e o transformamos em um problema matemático limpo e, nessa transformação, perdemos muitas informações porque você precisa simplificá-las de alguma forma para se concentrar nos aspectos principais do problema”.
Ou seja, é a representação em dados e números de algo subjetivo e variável, não 100% exato. Em reportagem do Tab, da Uol, Caetano Souto Maior, pesquisador no National Institutes of Health (NIH), nos Estados Unidos, argumenta que também há falta de compreensão do fazer científico:
“Uma questão essencial é que a interpretação de resultados científicos seja ensinada na escola. Fica parecendo que a ciência é uma coisa feita por um pessoal de cabelos brancos, descabelados, e ninguém mais pode entender. Ou que para compreender matemática tem que ser igual ao filme ‘Uma Mente Brilhante’ e enxergar equações na janela. A falta de compreensão é de onde vem a negação ou a ideia de que há interesses específicos. Não que a ciência seja perfeita, mas o conhecimento permite que você discuta esses pontos da forma mais aberta possível”.
Aqui, fica evidente como a alfabetização em dados é um ponto importante nesse cenário, o que podemos chamar de Data Literacy.
A incapacidade de ser perfeito
Por exemplo, a equação mais básica é a de Y = f (X). “Y é uma função de X”. Insira um valor para X e o modelo lhe dirá o valor provável para Y. Quanto mais complexo o modelo há necessidade de mais variáveis no cálculo e a equação que começa simples se torna muito mais complicada.
Com Big Data, os métodos de previsão ficaram mais precisos em relação aos modelos matemáticos existentes, mas obviamente o comportamento humano e da natureza não podem ser perfeitamente previsíveis. Os furacões seguem trajetórias não previstas pelos modelos climáticos. Os tumores crescem mais devagar ou mais rápido do que o previsto. Os cientistas, como qualquer outra pessoa, raramente, se é que alguma vez, preveem perfeitamente.
Portanto, os cientistas precisam permitir erros na equação fundamental. Ou seja, Y = f (X) + E, onde “E” abrange nossa incapacidade de prever perfeitamente. Podemos dizer que é a parte da equação que nos mantém humildes, que insere a variável humana de utilizar seu livre-arbítrio e fazer escolhas.
Um exemplo prático pode ser conferido neste post, onde contamos a história de um case da Ilumeo sobre retenção de clientes. Nele, mostramos que uma determinada abordagem de venda do Call Center de uma seguradora pode reduzir em até 78% a probabilidade de churn em relação a outros argumentos. A questão é que, quando o atendente utiliza o argumento em questão, é provável que 7,8 pessoas em cada 10 permaneça como cliente e não cancele o plano contratado, mas isso não é uma verdade absoluta. É uma previsão, baseada em diversos fatores subjetivos, que pode ou não se concretizar. Logo, o “E” desta equação são é a incapacidade de prever com perfeição o comportamento do consumidor.
E como diria o filósofo e logicista Carveth Read, “é melhor estar vagamente certo do que precisamente errado”.