Quando os métodos de coleta não são eficazes, aumentar a quantidade de dados buscando previsões melhores pode ter efeito contrário e distorcer os resultados
É comum pensarmos que quanto mais dados tivermos sobre um assunto, mais assertivas serão as previsões sobre o que vai acontecer. A questão é que dependem quais são os dados em questão e como eles são utilizados para alcançar o objetivo do projeto.
Por exemplo, os dados adicionais serão irrelevantes senão estiverem alinhados com o que o modelo de Machine Learning está tentando aprender. Mais do que isso, eles trarão uma previsão errada dos resultados. Porém, nem sempre sabemos se as informações extras são relevantes e realmente fazem diferença até concluirmos o processo de descoberta.
Prevendo vendas para perfis diferentes de clientes
Em um exemplo de Aaron Lipeles no Towards Data Science a questão fica mais evidente. Uma concessionária de automóveis vende carros japoneses, como o Subaru Outback e o Toyota Prius. Outra concessionária vende carros alemães, como uma Mercedes de última geração e um VW Beatle. Ambos os revendedores acreditam que podem melhorar a eficiência das equipes de vendas prevendo qual carro um cliente provavelmente irá se interessar de acordo com seu perfil.
Então, os recepcionistas coletam informações sobre o possível comprador quando ele chega na loja e passam para o vendedor que fará o atendimento. A hipótese é de que os dados com maior probabilidade de prever a escolha são o poder de compra, ou seja, quanto o cliente pode gastar, e a urgência com que deseja ou precisa adquirir o carro.
Depois de coletar dados por um ano, a primeira concessionária cria um lote de dados:
O gráfico mostra que ambos os dados influenciam o resultado e parece que não há um fator mais relevante que o outro, pois há muita sobreposição sem uma separação clara dos compradores do Prius e do Outback. Então decidem adicionar outra informação.
O Prius é um carro híbrido menor com alto consumo de combustível, então começam a levar em consideração a importância da eficiência da performance do combustível para o cliente. Os novos dados são assim:
Adicionando uma terceira dimensão de dados, o gráfico mostra uma separação mais clara em dois grupos. Nesse caso, a entrada adicional torna mais fácil aprender com esses dados.
Agora, um exemplo em que uma terceira dimensão não ajuda. Na segunda concessionária, a coleta de dados inicial já apresenta resultados promissores:
Neste gráfico, os pontos laranja representam Mercedes e os pontos azuis representam VWs. As duas categorias são claramente separadas em clusters com poucos valores discrepantes. Eles executam um algoritmo de ML nos dados e encontram os dois clusters circulados.
No entanto, um vendedor da concessionária de automóveis alemã acredita que o nível de educação é um bom indicador de quem comprará uma Mercedes. Assim, adicionam uma entrada ao modelo refletindo o número de anos de faculdade concluídos e produz este gráfico:
Como no primeiro gráfico, há uma divisão clara dos dados em dois grupos. Mas a nova informação é uma pista falsa.
O nível de educação é agrupado em torno de zero e quatro anos, com poucos valores intermediários. É provável que a maioria dos clientes frequentou faculdades durante quatro anos ou não cursou faculdade nenhuma, mas cada cluster contém aproximadamente o mesmo número de compradores de Mercedes e VW.
A terceira dimensão, com os dados do nível de educação, revelou uma distância entre os pontos que não está relacionada com o tipo de carro que eles provavelmente comprarão.
Tornar um conjunto de dados mais amplo, adicionando muitos campos extras, aumenta a probabilidade de que algo, em algum lugar, pareça estar relacionado, quando na verdade não está.
Errando o presidente com milhões de dados
Outro exemplo do problema aconteceu nas eleições presidenciais dos Estados Unidos que elegeu Franklin Delano Roosevelt, no distante ano de 1936, conforme conta a matéria do Built In. Não existiam algoritmos de Machine Learning naquela época, é verdade, mas já se coletavam e analisavam dados buscando prever o vencedor das eleições. Tudo de forma manual.
A revista Literary Digest realizou uma enquete sobre as preferências de voto dos americanos. Desde 1916, a publicação havia previsto com exatidão todos os presidentes. Para a eleição atual, a revista contava com uma impressionante amostra de dados: ¼ dos votantes do país. As preferências de dez milhões de eleitores seriam coletadas, processadas e destiladas para “saber com uma fração de 1 por cento o voto popular real de 40 milhões de eleitores”.
A Digest concluiu sua pesquisa de intenção de voto prevendo uma vitória do candidato Alf Landon, governador republicano do Kansas, com 57% dos votos, contra 43% de Roosevelt. Em contraponto, surgiu um desconhecido pesquisador chamado George Gallup, que utilizou uma amostra de apenas 50 mil americanos para fazer uma previsão que acabou se confirmando nas urnas: vitória gritante de Franklin Roosevelt. Então, qual foi a diferença entre as pesquisas?
A estratégia de amostragem da Digest foi pesquisar pessoas selecionados a partir de números de telefone listados, registros de automóveis, listas de membros de clubes de campo e listas de assinantes de revistas. Porém, o país passava pela crise da Grande Depressão, onde telefones, carros e revistas eram considerados luxos, acessíveis somente à população mais rica, que por sua vez era mais propensa a votar nos candidatos republicanos ao invés dos democratas.
Já a pesquisa da Gallup entrevistou americanos escolhidos aleatoriamente em uma seção representativa da demografia e faixas de renda dos EUA.
Este exemplo histórico ilustra um problema central da análise de dados: mais dados não fornecem necessariamente melhores insights. Se a estratégia de amostragem for mal considerada, a medição dos dados pode ser errônea e pode enganar os pesquisadores. A fonte do erro na coleta de dados e como isso afeta não apenas os impactos das variáveis medidas em um resultado, mas também as relações entre as variáveis medidas, pode resultar em estimativas estatísticas super ou subestimadas.
O Literary Digest aprendeu essa lição da maneira mais difícil. Após o seu erro nas pesquisas presidenciais, a publicação foi extinta, vendendo sua lista de assinantes para a revista Time. Já o nome de George Gallup continua vivo em sua organização, que é referência em pesquisas.