fbpx

Quanto mais dados, melhores as previsões?

 


eleicao-dados-1.png

Quando os métodos de coleta não são eficazes, aumentar a quantidade de dados buscando previsões melhores pode ter efeito contrário e distorcer os resultados

 

É comum pensarmos que quanto mais dados tivermos sobre um assunto, mais assertivas serão as previsões sobre o que vai acontecer. A questão é que dependem quais são os dados em questão e como eles são utilizados para alcançar o objetivo do projeto.

Por exemplo, os dados adicionais serão irrelevantes senão estiverem alinhados com o que o modelo de Machine Learning está tentando aprender. Mais do que isso, eles trarão uma previsão errada dos resultados. Porém, nem sempre sabemos se as informações extras são relevantes e realmente fazem diferença até concluirmos o processo de descoberta.

Prevendo vendas para perfis diferentes de clientes

Em um exemplo de Aaron Lipeles no Towards Data Science a questão fica mais evidente. Uma concessionária de automóveis vende carros japoneses, como o Subaru Outback e o Toyota Prius. Outra concessionária vende carros alemães, como uma Mercedes de última geração e um VW Beatle. Ambos os revendedores acreditam que podem melhorar a eficiência das equipes de vendas prevendo qual carro um cliente provavelmente irá se interessar de acordo com seu perfil.

Então, os recepcionistas coletam informações sobre o possível comprador quando ele chega na loja e passam para o vendedor que fará o atendimento. A hipótese é de que os dados com maior probabilidade de prever a escolha são o poder de compra, ou seja, quanto o cliente pode gastar, e a urgência com que deseja ou precisa adquirir o carro.

Depois de coletar dados por um ano, a primeira concessionária cria um lote de dados:


Gráfico com separação parcial dos dados. Os pontos azuis representam as compras do Outback e os pontos laranja representam as compras do Prius.

Gráfico com separação parcial dos dados. Os pontos azuis representam as compras do Outback e os pontos laranja representam as compras do Prius.

O gráfico mostra que ambos os dados influenciam o resultado e parece que não há um fator mais relevante que o outro, pois há muita sobreposição sem uma separação clara dos compradores do Prius e do Outback. Então decidem adicionar outra informação.

O Prius é um carro híbrido menor com alto consumo de combustível, então começam a levar em consideração a importância da eficiência da performance do combustível para o cliente. Os novos dados são assim:


carros-2.png

Adicionando uma terceira dimensão de dados, o gráfico mostra uma separação mais clara em dois grupos. Nesse caso, a entrada adicional torna mais fácil aprender com esses dados.

Agora, um exemplo em que uma terceira dimensão não ajuda. Na segunda concessionária, a coleta de dados inicial já apresenta resultados promissores:


carros3.png

Neste gráfico, os pontos laranja representam Mercedes e os pontos azuis representam VWs. As duas categorias são claramente separadas em clusters com poucos valores discrepantes. Eles executam um algoritmo de ML nos dados e encontram os dois clusters circulados.

No entanto, um vendedor da concessionária de automóveis alemã acredita que o nível de educação é um bom indicador de quem comprará uma Mercedes.  Assim, adicionam uma entrada ao modelo refletindo o número de anos de faculdade concluídos e produz este gráfico:


carros4.png

Como no primeiro gráfico, há uma divisão clara dos dados em dois grupos. Mas a nova informação é uma pista falsa.

O nível de educação é agrupado em torno de zero e quatro anos, com poucos valores intermediários. É provável que a maioria dos clientes frequentou faculdades durante quatro anos ou não cursou faculdade nenhuma, mas cada cluster contém aproximadamente o mesmo número de compradores de Mercedes e VW.

A terceira dimensão, com os dados do nível de educação, revelou uma distância entre os pontos que não está relacionada com o tipo de carro que eles provavelmente comprarão.

Tornar um conjunto de dados mais amplo, adicionando muitos campos extras, aumenta a probabilidade de que algo, em algum lugar, pareça estar relacionado, quando na verdade não está. 

Errando o presidente com milhões de dados

Outro exemplo do problema aconteceu nas eleições presidenciais dos Estados Unidos que elegeu Franklin Delano Roosevelt, no distante ano de 1936, conforme conta a matéria do Built In. Não existiam algoritmos de Machine Learning naquela época, é verdade, mas já se coletavam e analisavam dados buscando prever o vencedor das eleições. Tudo de forma manual.

A revista Literary Digest realizou uma enquete sobre as preferências de voto dos americanos. Desde 1916, a publicação havia previsto com exatidão todos os presidentes. Para a eleição atual, a revista contava com uma impressionante amostra de dados: ¼ dos votantes do país. As preferências de dez milhões de eleitores seriam coletadas, processadas e destiladas para “saber com uma fração de 1 por cento o voto popular real de 40 milhões de eleitores”.

A Digest concluiu sua pesquisa de intenção de voto prevendo uma vitória do candidato Alf Landon, governador republicano do Kansas, com 57% dos votos, contra 43% de Roosevelt. Em contraponto, surgiu um desconhecido pesquisador chamado George Gallup, que utilizou uma amostra de apenas 50 mil americanos para fazer uma previsão que acabou se confirmando nas urnas: vitória gritante de Franklin Roosevelt. Então, qual foi a diferença entre as pesquisas?

A estratégia de amostragem da Digest foi pesquisar pessoas selecionados a partir de números de telefone listados, registros de automóveis, listas de membros de clubes de campo e listas de assinantes de revistas. Porém, o país passava pela crise da Grande Depressão, onde telefones, carros e revistas eram considerados luxos, acessíveis somente à população mais rica, que por sua vez era mais propensa a votar nos candidatos republicanos ao invés dos democratas.

Já a pesquisa da Gallup entrevistou americanos escolhidos aleatoriamente em uma seção representativa da demografia e faixas de renda dos EUA. 

Este exemplo histórico ilustra um problema central da análise de dados: mais dados não fornecem necessariamente melhores insights. Se a estratégia de amostragem for mal considerada, a medição dos dados pode ser errônea e pode enganar os pesquisadores. A fonte do erro na coleta de dados e como isso afeta não apenas os impactos das variáveis medidas em um resultado, mas também as relações entre as variáveis medidas, pode resultar em estimativas estatísticas super ou subestimadas. 

Literary Digest aprendeu essa lição da maneira mais difícil. Após o seu erro nas pesquisas presidenciais, a publicação foi extinta, vendendo sua lista de assinantes para a revista Time. Já o nome de George Gallup continua vivo em sua organização, que é referência em pesquisas.