Pesquisadores mostram que dados utilizados para treinar softwares de Inteligência Artificial reproduzem décadas de preconceito. A reflexão é importante para que entendamos limitações e cuidados necessários em projetos de Data Science.
O New York Times comentou recentemente sobre uma questão muito presente na implementação de sistemas de Inteligência Artificial (IA). Em geral, tais tecnologias podem captar preconceitos – ou vieses – tal como uma criança imita o mau comportamento dos pais. A reflexão é importante para quem trabalha com automatização de atividades de negócios, para que entendamos limitações e cuidados necessários no gerenciamento de projetos de Data Science.
Em 2018, o Google lançou uma tecnologia de IA chamada BERT, que aprende de maneira inovadora como seres humanos escrevem e falam. O BERT é um de vários sistemas que aprendem com quantidades massivas de vários tipos de informação digitalizada: livros antigos, verbetes da Wikipedia, artigos de notícias. Junto com esse conteúdo, estão também inseridas décadas (ou séculos) de preconceitos.
Na medida em que formas mais complexas de IA são aplicadas em cada vez mais serviços – como anúncios online, softwares de negócios e assistentes virtuais –, empresas de tecnologia estão sofrendo pressão contra preconceitos inesperados. Porém, cientistas ainda estão aprendendo com tecnologias inovadoras como o BERT, chamadas “modelos de linguagem universal”.
Robert Munro, cientista da computação, doutor em linguística computacional, realizou um teste enquanto pesquisava para um livro sobre IA. Ele inseriu 100 palavras em inglês no BERT: por exemplo, “joias”, “bebê”, “cavalos”, “casa”, “dinheiro”, “ação”. Em 99 casos de 100, o software tinha maior probabilidade de associar palavras a homens do que a mulheres. A única palavra que escapou ao padrão foi “mãe”.
O pesquisador afirma: “Essa é a mesma desigualdade histórica que sempre vimos. Agora, com algo como o BERT, esse viés pode continuar a se perpetuar”. Em um post recente, Munro descreveu como serviços de linguagem do Google e da Amazon falham em reconhecer o pronome possessivo “dela”, embora identifiquem corretamente “dele”. Além disso, os serviços também tendem a discriminar pessoas segundo a cor da pele.
Pesquisadores alertam há tempos sobre preconceitos em sistemas de IA que aprendem com grandes quantidades de dados. Por exemplo, nos programas de reconhecimento facial usados por departamentos de polícia e outras agências governamentais. No entanto, BERT e sistemas similares são tão complexos que ainda não é possível prever o que eles farão.
“Mesmo as pessoas que estão construindo esses sistemas não entendem como eles se comporta”, diz Emily Bender, professora da Universidade de Washington, também especializada em linguística computacional.
Como é o funcionamento dos modelos de linguagem universal?
O BERT é um dos modelos de linguagem universal utilizados no mercado e na pesquisa acadêmica. Outros são ELMO, ERNIE e GPT-2 – os nomes remetem a personagens da Vila Sésamo, uma piada interna entre pesquisadores de IA.
Esses sistemas aprendem as nuances da linguagem humana por meio da análise de quantidades enormes de texto. Cada sistema trabalha com um tipo de tarefa específica. O BERT, por sua vez, aprende a identificar palavras que faltam em uma frase. Por exemplo, “Eu quero ____ aquele carro porque ele é barato”. Ao aprender essa tarefa, o BERT passa a entender de maneira geral como as pessoas juntam palavras. Em seguida, ele pode aprender outras tarefas ao analisar mais dados, o que permite o aperfeiçoamento do aplicativo em uma velocidade inédita.
O próprio Google tem usado o BERT para melhorar seu mecanismo de busca. Anteriormente, a ferramenta não entendia muito bem se o usuário digitasse algo como “esteticistas trabalham muito?”. Isso porque palavras como “trabalham” e “muito” podem ter múltiplos significados, em múltiplos contextos. Agora, a tecnologia do BERT permite ao Google responder à pergunta com muito mais precisão.
Porém, ferramentas como o BERT são tendenciosas, de acordo com um trabalho de pesquisa recente de uma equipe de cientistas da computação da Universidade Carnegie Mellon. O artigo mostrou, por exemplo, que o BERT tem maior probabilidade de associar a palavra “programador” a homens do que a mulheres. À medida que essas novas tecnologias proliferam, preconceitos podem aparecer em quase qualquer lugar.
John Bohannon, diretor de ciência na Primer – uma startup especializada em tecnologias de linguagem natural –, utilizou recentemente o BERT para criar um sistema que permite que empresas analisem automaticamente o sentimento de manchetes, tweets e outros conteúdos de mídia online. As empresas usam essas ferramentas para gerar informações para negociação de ações e outras decisões pontuais.
No entanto, após treinar a ferramenta, Bohannon percebeu um viés consistente. Se um tweet ou manchete continha a palavra “Trump”, a ferramenta quase sempre considerava o conteúdo negativo, por mais positivo que fosse o sentimento real. Ele afirma: “Isto é difícil. Você precisa de muito tempo e cuidado. Nós encontramos um viés óbvio. Mas quantos outros estão por aí?”.
Bohannon acredita que os cientistas da computação devem desenvolver as habilidades de um biólogo. Tal como um biólogo se esforça para entender como uma célula funciona, os engenheiros de software precisam encontrar maneiras de entender sistemas como o BERT.
Após as descobertas de Robert Munro, mencionadas no início deste artigo, executivos do Google reconheceram o fenômeno de geração de preconceito e afirmaram que estavam trabalhando intensivamente para remover qualquer viés. A Amazon também corrigiu o problema.
Sean Gourley, diretor-executivo da Primer, acredita que avaliar o comportamento dessas novas tecnologias será tão importante que gerará uma indústria totalmente nova. Segundo ele, empresas pagarão especialistas para auditar seus algoritmos em relação a todos os tipos de preconceitos e outros comportamentos inesperados.
“Esta é provavelmente uma indústria de bilhões de dólares”, disse ele.