Criminosos parecem criminosos?
Em uma crítica semelhante, Blaise Agüera y Arcas e Margaret Mitchell, também pesquisadores do Google, e Alexander Todorov, da Universidade de Princeton, assinaram um artigo recente no qual expressam preocupação com a utilização de Inteligência Artificial no reconhecimento de criminosos.
Os autores realizaram um levantamento exaustivo de todas as fragilidades do artigo “Automated Inference on Criminality Using Face Images”, que demonstra como técnicas de Machine Learning seriam capazes de reconhecer quem teria ficha criminal, somente por meio de fotos faciais, com 90% de precisão.
No controverso artigo, os autores usaram como dados 1.856 fotos de documentos de identidade expedidos pelo governo chinês. Dentre elas, 730 pertenciam a criminosos e as outras 1.126 foram extraídas aleatoriamente na internet. A partir desses exemplos já rotulados, eles realizaram um processo de aprendizado supervisionado. O computador foi treinado para olhar uma imagem de rosto e reconhecer se ela veio do grupo “criminoso” ou “não criminoso”.
Eles experimentam quatro técnicas diferentes de Machine Learning, com graus variados de sofisticação. Esses graus referem-se ao número de parâmetros utilizados para identificar uma imagem. As técnicas de aprendizado mais sofisticadas exigem uma quantidade gigantesca de dados rotulados para um treinamento adequado da ferramenta. Assim, os pesquisadores críticos ao artigo afirmam que a precisão de 90%, teoricamente encontrada, é irreal. As 1.856 fotos não seriam suficientes para treinar um modelo de alto nível.
Dentre outras críticas, os pesquisadores afirmam que não é possível saber se as 1.126 imagens encontradas na internet pertencem, de fato, a indivíduos sem antecedentes criminais. Pelo contrário, se a amostra realmente é uma representação aleatória da população, alguma fração estatística teria se engajado em atividades criminosas.
A imagem anterior são os únicos exemplos dos dados que foram tornados públicos pelo controverso artigo. Na parte superior, há indivíduos do grupo “criminoso” e, na parte inferior, “não criminoso”. A imagem evidencia outra fragilidade do estudo, uma vez que os três indivíduos de baixo estão usando camisas brancas e paletó, diferentemente dos criminosos. Como somente esses exemplos são conhecidos, não é possível averiguar se representam todo o conjunto de dados. No entanto, Blaise Agüera y Arcas e seus colegas chamam a atenção:
Machine Learning não distingue correlações com significado de causalidade e aquelas que são acidentais.
É provável que os autores do artigo criticado tenham escolhido essas imagens como exemplo propositalmente. Enquanto os indivíduos de baixo parecem sorrir, aqueles da parte superior estão franzindo a testa. No entanto, embora seja aceito cientificamente que formamos impressões, de maneira quase reflexiva, a partir da aparência facial, isso não significa que essas impressões estejam necessariamente corretas. Aliás, a evidência sugere que não.
Para quem trabalha com Data Science
O artigo de Blaise Agüera y Arcas e seus colegas explora profundamente não só aspectos ligados a Machine Learning, mas também sobre vieses relacionados a “tipos criminais”. Críticas semelhantes ao julgamento errôneo de modelos preditivos podem ser lidas no livro “Future Politics – Living Together in a World Transformed by Tech”, de Jamie Susskind.
Para nosso intuito de desvendar o melhor uso dos métodos da Data Science, vale usar os casos mencionados como exemplos do cuidado necessário com os dados que usamos como input dos modelos que tentamos construir. É essencial investigar as diferenças entre relações de causalidade e meras correlações. E, por fim, nunca é demais explorar a pesquisa científica preexistente em outras áreas e, assim, sustentar os objetivos explorados por meio da Inteligência Artificial.