Algoritmos são mesmo capazes de prever crimes?

 


crime.jpg

O uso de Inteligência Artificial na previsão de crimes tem gerado uma série de controvérsias. A análise das críticas ensina sobre treinamento de dados e possíveis riscos de viés.

Recentemente, ganhou atenção da mídia global a prisão de um homem que estava prestes a realizar um roubo em Mestre, pequena cidade próxima de Veneza, na Itália. O homem se dirigia para roubar o bar de um hotel, porém foi impedido pela polícia, que já o esperava na saída do local. Os agentes chegaram tão rápido porque estavam patrulhando a área com informações do X-Law, um sistema baseado em algoritmo, que alerta sobre áreas onde possivelmente ocorrerá um delito.

 

Ainda que o caso mencionado seja um exemplo de aplicação bem-sucedida, o uso de Inteligência Artificial na previsão de crimes tem gerado uma série de controvérsias. Para quem trabalha com Data Science, a análise da prática ensina sobre treinamento de dados e evidencia os possíveis riscos de viés na utilização de Machine Learning.

 

Vyacheslav Polonski, pesquisador de user experience do Google, criticou recentemente o uso de modelos preditivos no ambiente judiciário, uma vez que que os modelos de aprendizado de máquina somente são confiáveis na medida em que os dados com os quais são treinados também são confiáveis. Uma vez que dados tendenciosos sejam utilizados para treinamento, existe risco de que “vieses injustos não sejam apenas replicados, mas também amplificados”.

 

O pesquisador usa o experimento “Quick, Draw!”, promovido pelo Google em 2017, para ilustrar a questão. O projeto convidou usuários de todo o mundo para participar de um jogo de desenho. A cada rodada, os participantes eram desafiados a desenhar um objeto em até 20 segundos. Na sequência, um sistema de Inteligência Artificial tentava adivinhar quais eram os objetos rabiscados. Mais de 20 milhões de pessoas de 100 países participaram do jogo, o que gerou mais de dois bilhões de desenhos. Dentre eles, gatos, cadeiras, borboletas e muitos outros.

 

Porém, quando os responsáveis pelo projeto examinaram os desenhos de sapatos no conjunto de dados, eles perceberam que estavam lidando com um forte viés cultural. Um grande número de usuários que aderiu ao jogo logo no início desenhou sapatos com a aparência do tênis Converse All Star. Isso levou o modelo a entender que os aspectos visuais típicos desse modelo de tênis seriam um protótipo do que seria um “sapato”. Consequentemente, calçados com uma aparência diferente, como saltos altos ou tamancos, não eram reconhecidos como sapatos.

 

Criminosos parecem criminosos?

 

Em uma crítica semelhante, Blaise Agüera y Arcas e Margaret Mitchell, também pesquisadores do Google, e Alexander Todorov, da Universidade de Princeton, assinaram um artigo recente no qual expressam preocupação com a utilização de Inteligência Artificial no reconhecimento de criminosos.

 

Os autores realizaram um levantamento exaustivo de todas as fragilidades do artigo “Automated Inference on Criminality Using Face Images”, que demonstra como técnicas de Machine Learning seriam capazes de reconhecer quem teria ficha criminal, somente por meio de fotos faciais, com 90% de precisão.

 

No controverso artigo, os autores usaram como dados 1.856 fotos de documentos de identidade expedidos pelo governo chinês. Dentre elas, 730 pertenciam a criminosos e as outras 1.126 foram extraídas aleatoriamente na internet. A partir desses exemplos já rotulados, eles realizaram um processo de aprendizado supervisionado. O computador foi treinado para olhar uma imagem de rosto e reconhecer se ela veio do grupo “criminoso” ou “não criminoso”.

 

Eles experimentam quatro técnicas diferentes de Machine Learning, com graus variados de sofisticação. Esses graus referem-se ao número de parâmetros utilizados para identificar uma imagem. As técnicas de aprendizado mais sofisticadas exigem uma quantidade gigantesca de dados rotulados para um treinamento adequado da ferramenta. Assim, os pesquisadores críticos ao artigo afirmam que a precisão de 90%, teoricamente encontrada, é irreal. As 1.856 fotos não seriam suficientes para treinar um modelo de alto nível.

 

Dentre outras críticas, os pesquisadores afirmam que não é possível saber se as 1.126 imagens encontradas na internet pertencem, de fato, a indivíduos sem antecedentes criminais. Pelo contrário, se a amostra realmente é uma representação aleatória da população, alguma fração estatística teria se engajado em atividades criminosas.

 


fotos.png

A imagem anterior são os únicos exemplos dos dados que foram tornados públicos pelo controverso artigo. Na parte superior, há indivíduos do grupo “criminoso” e, na parte inferior, “não criminoso”. A imagem evidencia outra fragilidade do estudo, uma vez que os três indivíduos de baixo estão usando camisas brancas e paletó, diferentemente dos criminosos. Como somente esses exemplos são conhecidos, não é possível averiguar se representam todo o conjunto de dados. No entanto, Blaise Agüera y Arcas e seus colegas chamam a atenção:

 

Machine Learning não distingue correlações com significado de causalidade e aquelas que são acidentais.

 

É provável que os autores do artigo criticado tenham escolhido essas imagens como exemplo propositalmente. Enquanto os indivíduos de baixo parecem sorrir, aqueles da parte superior estão franzindo a testa. No entanto, embora seja aceito cientificamente que formamos impressões, de maneira quase reflexiva, a partir da aparência facial, isso não significa que essas impressões estejam necessariamente corretas. Aliás, a evidência sugere que não.

 

Para quem trabalha com Data Science

 

O artigo de Blaise Agüera y Arcas e seus colegas explora profundamente não só aspectos ligados a Machine Learning, mas também sobre vieses relacionados a “tipos criminais”. Críticas semelhantes ao julgamento errôneo de modelos preditivos podem ser lidas no livro “Future Politics – Living Together in a World Transformed by Tech”, de Jamie Susskind.

 

Para nosso intuito de desvendar o melhor uso dos métodos da Data Science, vale usar os casos mencionados como exemplos do cuidado necessário com os dados que usamos como input dos modelos que tentamos construir. É essencial investigar as diferenças entre relações de causalidade e meras correlações. E, por fim, nunca é demais explorar a pesquisa científica preexistente em outras áreas e, assim, sustentar os objetivos explorados por meio da Inteligência Artificial.