Modelos Preditivos: o ponto de partida é o ponto de chegada

 


Imagem2.png

Para construir um Modelo Preditivo que realmente funcione, entregue análises assertivas e apoie decisões estratégicas de negócio é preciso ter claro qual é, exatamente, o objetivo que queremos alcançar. Uma boa aplicação de Data Science pode nos fazer ver inconsistências e propor melhorias que passam despercebidas no dia-a-dia da operação.

Podemos utilizar um conjunto de dados para construir um Modelo Preditivo buscando melhorar a performance das abordagens comerciais do time de vendas, por exemplo. Porém, se utilizarmos o mesmo conjunto de dados, mas com outro objetivo, como o de atrair prospects com mais aderência de compra ao nosso produto, a análise pode sair totalmente diferente.

A melhor prática para o método ser considerado científico e confiável é levantar uma única hipótese, coletar dados para testá-la e analisar os resultados para verificar se ela se sustenta. Por isso, ao utilizar Data Science para ajudar a tomar decisões empresariais, o ponto de partida é, na verdade, o ponto de chegada. É interessante iniciar pelo final, pelo objetivo que queremos alcançar, e aí lançar a pergunta que o cientista de dados vai ajudar a responder através do seu trabalho.

Qual é pergunta que, respondida, vai trazer um ganho exponencial ao meu negócio?

  • Como prever o churn de clientes?

  • Quais características definem o melhor cliente para meu time de vendas prospectar?

  • Qual será o meu faturamento nos próximos meses se eu continuar dessa forma?

  • Quanto preciso investir em tráfego pago para dobrar minhas vendas?

  • Qual o preço ideal para meu produto vender mais e com a melhor margem de lucro possível?

  • Qual a melhor época para lançar meu produto em São Paulo?

A partir da hipótese formulada, começa a coleta e preparação dos dados. E, após chegar a respostas sobre essa hipótese, pode-se partir para outra hipótese, que envolve outra coleta de dados e o processo se inicia novamente. Porém, aqui entra um ponto crucial.

Uma hipótese para cada processo de coleta de dados

Como escrevemos neste post, há grande dificuldade em prever o comportamento da pandemia do Coronavírus porque os dados disponíveis são distintos. Por exemplo, na contagem de mortes pelo vírus, países diferentes contam coisas diferentes como mortes por Corona vírus. Alguns contam apenas mortes hospitalares, outros incluem internações e outras mortes não hospitalares, que podem ter um impacto grande nos números finais.

A coleta de dados também não é uniforme dentro de cada país: estratégias de teste diferentes, testes físicos disponíveis diferentes e maneiras distintas de medir mortes significam que geralmente não comparamos maçãs com maçãs. Também esperamos que as métricas dentro de um país mudem ao longo do tempo, a medida que mais testes se tornem disponíveis e os governos adaptem seus indicados para refletir melhor sua compreensão da crise (por exemplo, incluindo mortes em domicílios nos totais relatados).

Ainda assim, os modelos procuram seguir o método científico de que, se os dados colhidos são utilizados para a análise A, tornam-se inválidos para os usos B, C ou D.

Inclusive, um famoso pesquisador norte-americano teve suas pesquisas interrompidas pelo que é chamado de p-hacking. Brian Wansink, ex-diretor do laboratório de Alimentos e Marcas da Universidade de Cornell deixou o cargo após ser acusado de má conduta acadêmica em suas pesquisas por conta da declaração incorreta de dados, técnicas estatísticas problemáticas e falha em documentar e guardar de forma adequada os dados coletados de forma manual em campo. Um de seus erros mais flagrantes foi testar continuamente os dados já coletados em busca de novas hipóteses até que um ficasse preso, depois que sua hipótese inicial falhou.

P-hacking é quando os pesquisadores brincam com dados para chegar a resultados que parecem cientificamente significativos. Por exemplo, eles podem escolher os pontos de dados, analisar novamente os dados de várias maneiras ou interromper um experimento mais cedo.

“Digamos que você jogue uma moeda um milhão de vezes. Em algum momento, você receberá 10 cabeças seguidas”. Isso não significa que a moeda seja pesada, mesmo que olhar para essa faixa de dados faça com que um resultado aleatório pareça que não é devido ao acaso, declarou Andrew Althouse, estatístico da Universidade de Pittsburgh, que seguiu a controvérsia em torno dos métodos de pesquisa de Wansink.

Dados falhos, decisões falhas

A questão dos dados confiáveis e do método científico é tão delicada que uma pesquisa descobriu que a falta de dados ou problemas de qualidade dos dados são um dos principais gargalos para a adoção adicional da Inteligência Artificial por empresas na fase de avaliação da tecnologia e é o principal gargalo para empresas com práticas maduras de Inteligência Artificial.

A entrada de dados com falhas leva a resultados, algoritmos e decisões de negócios com falhas. Por exemplo, se o algoritmo de tomada de decisão de um carro autônomo for treinado em dados de tráfego coletados durante o dia, você não o colocaria nas ruas à noite. Ou se um algoritmo desse tipo é treinado em um ambiente com carros dirigidos por seres humanos, como você pode esperar que ele tenha um bom desempenho nas estradas com outros carros autônomos?

Dessa forma, pergunte-se qual objetivo você quer alcançar primeiro na sua empresa e foque a sua modelagem de dados a responder esta hipótese. Esgote as suas possibilidades em cima deste ponto, explore os insights surgidos, programe testes e meça os resultados para chegar a uma tomada de decisão que irá impactar o negócio em escala maior. Se fizer sentido, somente aí parta para a próxima hipótese e recomece o processo de coleta e organização dos dados para criar um novo modelo preditivo. Seja fiel à transparência do método para que os resultados e decisões também sejam transparentes – e completos!