fbpx

Quanto confiamos nossas decisões em modelos de machine learning?

 


decision-ml.png

Experiências empíricas, conselhos de outros humanos e vieses psicológicos são levados em consideração mais do que as previsões de algoritmos – e isso reduz o potencial dos dados

 

Um artigo publicado na revista Nature chama a atenção para um aspecto interessante no processo de tomadas de decisões baseadas em dados. O estudo investigou o quanto os humanos confiam, de fato, nas predições de modelos de Machine Learning e como os usam. A conclusão é que “confiamos desconfiando” nas previsões. Na prática, antes de os utilizarmos, priorizamos nossas experiências empíricas anteriores, os conselhos de outros especialistas humanos e nos deixamos levar por vieses comportamentais. No fim das contas, as decisões chamadas “data-driven” não são tão direcionadas por dados assim.

A pesquisa é de autoria de Andrés Abeliuk, Daniel M. Benjamin, Fred Morstatter e Aram Galstyan, da Information Sciences Institute da University of Southern California, nos EUA.

 

Crowdsourcing e Machine Learning

Na pesquisa, os autores partem do ponto de que o crowdsourcing é benéfico e ajuda os desenvolvedores a criarem modelos melhores de Machine Learning. É uma abordagem que se tornou popular entre as organizações porque permite executar tarefas complexas de forma rápida e econômica, pois utiliza a inteligência coletiva disponível na internet para “encurtar” o caminho no desenvolvimento de modelos e utilização de base de dados. O crowdsourcing também possibilita melhorar os julgamentos individuais porque:

  1. Unifica conhecimentos diferentes;

  2. Mitiga erros individuais;

  3. Constrói credibilidade do julgamento do grupo.

Este efeito de “sabedoria da multidão” (wisdom of the crowd – WOC) tem sido demonstrado como uma abordagem bem-sucedida em diversos domínios para a resolução de problemas complexos.

Claro que os modelos WOC e de Machine Learning têm limitações. O WOC depende não apenas do compartilhamento de conhecimento suficiente sobre o assunto em que é utilizado, mas também da diversidade de conhecimentos e experiências que podem ser difíceis de avaliar. Os pools humanos também são propensos a vieses cognitivos que afetam a qualidade de seus julgamentos. Vieses individuais, como negligência e excesso de confiança, e vieses de grupo, como influência social, podem impactar negativamente o julgamento dos pools de opinião.

Já as previsões geradas por máquina são bem-sucedidas em certas configurações, especialmente quando um resultado é autorregressivo, mas mostram sucesso limitado quando os fatores causais não são bem compreendidos ou multifacetados.

 

Modelo híbrido

Logo, o que os pesquisadores propõem é uma abordagem híbrida, visando desenvolver um sistema que alavanque os pontos fortes dos modelos de máquina e crowdsourcing para equilibrar a generalização entre as fontes de dados e tipos de problemas com a flexibilidade para lidar com problemas novos e imprevistos.

Ele pode ser uma boa opção, por exemplo, em problemas de previsão que são relevantes para a tomada de decisões políticas e econômicas, pois elas dependem de um sistema global complexo com estruturas causais mal compreendidas. Além disso, as fontes de dados aplicáveis variam em volatilidade, estrutura e formato. O sucesso dessa abordagem híbrida depende da confiança que os analistas humanos colocam nele e também da escolha deles em utilizar essas previsões do modelo para tomar suas decisões.

O que chama a atenção é que, apesar dos avanços recentes na modelagem de máquina no domínio da previsão, tem havido ampla pesquisa nos últimos anos mostrando que os humanos têm relutância em adotar modelos de machine learning.

Os médicos relutam em confiar em métodos estatísticos para decisões de alto risco, como diagnósticos de saúde mental, apesar das evidências acumuladas que mostram a superioridade dos métodos estatísticos nos estudos. Os meteorologistas dão mais peso ao conselho de especialistas humanos do que aos modelos estatísticos, por exemplo. Essa “aversão” aos algoritmos é um fenômeno onde as pessoas punem os modelos de máquina desproporcionalmente aos humanos por cometerem os mesmos erros. Essa prática pode inibir a adoção de modelos de máquina na geração de previsões e pode, em última instância, levar a previsões abaixo do ideal.

Misturando dados e crenças

Os pesquisadores supõem que, no sistema híbrido, os usuários incorporam modelos de máquina com suas próprias crenças. Geralmente, os indivíduos superestimam suas próprias informações e subestimam os conselhos dos outros.

No experimento realizado no trabalho, os pesquisadores investigaram previsões sobre eventos geopolíticos. Essas previsões foram criadas em uma plataforma de previsão híbrida chamada Antecipação Sinérgica de Eventos Geopolíticos (SAGE, na sigla em inglês), projetada exclusivamente para a pesquisa.

Uma das principais inovações da plataforma é que ela permite que os analistas interajam com a saída gerada pelo computador durante o processo de geração de previsões. Essa saída gerada pelo computador pode assumir a forma de dados históricos relativos à pergunta ou modelos de máquina que mostram uma previsão gerada pela máquina em relação ao seu resultado. 

Eles atribuíram os usuários duas condições: uma condição de tratamento em que os previsores são expostos a modelos de máquina e uma condição de controle em que os modelos de máquina estão ausentes. Em ambas as condições, os participantes viram gráficos de dados históricos.


A figura mostra a distribuição de probabilidade projetada na opção correta (portanto, mais perto de um é mais preciso) para a mesma pergunta em duas janelas de tempo diferentes. A linha de referência representa a previsão do modelo e os histogramas coloridos correspondem às duas condições. Este exemplo corresponde à seguinte pergunta: “Qual será a taxa de câmbio diária do won sul-coreano por dólar americano em 29 de junho de 2018?”.

A figura mostra a distribuição de probabilidade projetada na opção correta (portanto, mais perto de um é mais preciso) para a mesma pergunta em duas janelas de tempo diferentes. A linha de referência representa a previsão do modelo e os histogramas coloridos correspondem às duas condições. Este exemplo corresponde à seguinte pergunta: “Qual será a taxa de câmbio diária do won sul-coreano por dólar americano em 29 de junho de 2018?”.

A figura mostra a distribuição de probabilidade projetada na opção correta (portanto, mais perto de um é mais preciso) para uma pergunta em uma janela de tempo específica. No início (figura à esquerda), tanto o grupo de controle quanto o de tratamento têm distribuições semelhantes; conforme o tempo passa (figura à direita), as previsões do grupo de controle (isto é, crenças anteriores) mudam para a opção correta, no entanto, os participantes expostos às previsões da máquina permanecem mais próximos da máquina. Este exemplo mostra uma mudança clara da média e diminuição da variância como consequência da exposição dos participantes a uma previsão de referência.

Para incorporar experiência na análise, foram identificados analistas de alta e baixa qualificação avaliando a precisão da previsão dos usuários em um conjunto de perguntas de previsão independentes. Os participantes de ambas as condições também produziram previsões em um conjunto de 126 perguntas independentes, a maioria categóricas, que não tinham dados históricos ou previsões de máquina disponíveis. Esses itens independentes permitiram dividir os grupos em níveis de habilidade baixos (50% inferior) e altos (50% superior), com base na precisão dos participantes.

Resultados

Os pesquisadores investigaram o problema de medir quanta confiança os analistas humanos em uma plataforma de previsão híbrida atribuem a um modelo de máquina específico. Eles desenvolveram um modelo que compara as previsões dos usuários expostos ao modelo com aqueles que não o são, a fim de aprender o peso que os usuários atribuem a cada coisa. Estudar a confiança entre humanos e máquinas revela que os usuários que podem identificar quando o modelo é útil são mais precisos. Também aproveitaram esses pesos para detectar viés de confirmação no sistema, que é prejudicial apenas quando os modelos de máquina apresentam baixo desempenho.

As hipóteses cognitivas foram divididas em duas categorias: estratégicas e preconceitos. A partir da análise estratégica, descobriu-se que os usuários se envolvem com previsões de modelos de máquinas de maneira semelhante a como os indivíduos usam o conselho de especialistas. Eles usam suas próprias informações na maioria das vezes e só incorporam os conselhos em certas situações – quando a tarefa é difícil. Apenas os melhores previsores humanos reconhecem intuitivamente quando o modelo é mais útil em comparação com outras questões.

A partir da análise de vieses, descobriu-se que o viés de confirmação tem um efeito mais forte do que o viés de ancoragem, o que implica que os analistas são influenciados mais por sua previsão anterior do que pela previsão do modelo. Onde os modelos de máquina são subótimos, os preconceitos cognitivos são os mais prejudiciais para o sistema. Nesses casos, os usuários fariam melhor em confiar em seu anterior e apenas usar o modelo quando a questão for altamente incerta. Essas melhorias podem ser alcançadas empurrando os usuários na direção correta, por meio de intervenções ou degradação estatística. 

Por outro lado, é difícil mitigar o impacto de crenças anteriores deficientes. Uma intervenção mais realista seria melhorar a confiabilidade dos antecedentes. Um sistema de previsão pode ser melhorado encorajando, se não exigindo, que os analistas humanos conduzam pesquisas abrangentes antes de fazer uma previsão. Um sistema híbrido pode ajudar ainda mais os usuários a acessar melhores informações. Os anteriores também poderiam melhorar com a combinação cuidadosa da experiência do analista com os tópicos de perguntas. Além disso, fornecer informações sobre quais questões são mais difíceis para o modelo em relação aos humanos ajudaria a encorajar a ancoragem no modelo quando for apropriado e a fazer mais pesquisas quando não for.

Conclusão

Por mais que a utilização de dados e tecnologia se intensifique nas organizações e se torne um ecossistema cada vez mais sofisticado, é preciso trabalhar os cérebros humanos por trás dessas decisões, que acabam sem perceber o quanto são contaminados por vieses, como de confirmação e ancoragem. Claro que isso pode ocorrer de forma inconsciente, sem a intenção dos profissionais, mas conhecendo a existência dessa possibilidade de se tornar tendencioso, é possível pensar etapas e práticas para que isso não ocorra e impacte negativamente as tomadas de decisões estratégicas. Afinal, não adianta investir tanto tempo, energia e recursos em ativos de dados se eles não forem utilizados em seu potencial máximo.