![03.08 - radar1.png](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1628000060600-0GWQENR7R0Y8BYFOBY58/03.08+-+radar1.png)
O quanto os dados refletem uma realidade objetiva e verdadeira?
Parece lógico considerar que os dados são objetivos e diretos, representando a realidade de forma verdadeira. Nas empresas data-driven, a tendência é transformar em dados até as informações mais subjetivas, afinal o que não pode ser medido não pode ser melhorado. Surgem até bordões como “contra dados não há argumentos”. Bem, pode até ser, mas há um ponto importante a ser considerado nesse jogo: há escolhas de como fazer isso que mudam tudo.
Mensurar algo não é uma ação apenas objetiva: é o resultado de escolhas subjetivas. Reconhecer isso é o princípio para prevenir erros de análises, preconceitos e danos que os algoritmos podem nos levar a cometer a partir dos dados que lhe são fornecidos.
Na obra The Art of Statistics – Learning from Data, David Spiegelhalter mostra como os dados acabam se tornando uma medida imperfeita daquilo que temos interesse e queremos acreditar. Por exemplo, para contar todas as árvores do planeta, devemos primeiro definir o que é considerado uma árvore. Há mais de uma maneira de fazer isso e nem todos concordarão sobre a maneira correta.
Outro exemplo conceitual: um pai pode dizer que a altura de seu filho de 15 anos é de 1,50m; e um britânico pode dizer que Londres é a capital do Reino Unido – dois pontos de dados que refletem a realidade. Outro pai já diria a altura de seu filho é de cerca de 1,52m, dependendo de como fica a fita métrica na hora da medição; e outro britânico pode dizer que Edimburgo, País de Gales e Belfast são todas capitais do Reino Unido também.
Logo, devemos assumir que tornar as coisas mensuráveis é um processo de escolher como medi-las. É responder a perguntas como: Que aspectos de uma realidade devem ser contados? Como esses aspectos serão classificados e quantificados? Quais métricas serão usadas? Que qualidades essas métricas captam e refletem?
Essas escolhas geralmente conduzem ao chamado datafication, um processo pelo qual pessoas, objetos, práticas e todos esses itens qualitativos e subjetivos são ‘transformados’ em dados: algo objetivo e numérico. Então os algoritmos pegam os resultado dessa datafication – produtos de escolhas subjetivas sobre como fazer algo mensurável – e os codificam por meio de processos fixos em saídas supostamente objetivas. Deixar de levar em conta essa natureza subjetiva desse processo é a causa de muitos enganos e falhas ao interpretar o que os algoritmos querem dizer.
Exemplos da subjetividade dos dados
Em artigo no Medium, Aidan Peppin, pesquisador sênior do Ada Lovelace Institute, elenca dois exemplos de como isso acontece na realidade: o rastreamento de contatos como medida de combate à Covid-19 e o reconhecimento de emoções a partir de expressões faciais.
Uma das medidas de combate à pandemia de Covid-19 defendida por especialistas em Saúde Pública foi o rastreamento de contatos. Realizar esse trabalho de forma manual consome tempo e recursos humanos e financeiros consideráveis. Para acelerar isso, muitos países buscaram soluções digitais. Muitas delas consistia em rastrear as pessoas que tiveram contato com um contaminado por meio dos sinais bluetooth dos smartphones. Assim, se o telefone entrar em contato com outra pessoa que depois testou positivo para Covid-19, o aplicativo envia uma notificação avisando seu usuário para se isolar e fazer o teste também. Mas a solução se mostrou menos eficaz que o rastreamento manual. Algumas razões são a precisão dos sensores bluetooth ou mesmo a forma como a exposição é calculada, já que simplesmente registra ‘eventos de contato’ e o fato de que dois telefones estiveram próximos um do outro com o bluetooth ativado por um determinado período de tempo. E isso não explica muita coisa.
Então, tecnicamente, os aplicativos de rastreamento digital de contatos são o produto de uma escolha que reduz a complexa tarefa de rastreamento de contatos em uma proxy quantitativa imperfeita: a distância entre telefones celulares. Isso está muito longe de ser uma compreensão rica dos contatos sociais de uma pessoa, com detalhes sobre a interação que eles tiveram e a probabilidade de terem espalhado o vírus entre eles.
A confiança nesta proxy definida subjetivamente como uma medida objetiva de contato arriscou lacunas na resposta da saúde pública, e tempo e dinheiro foram desviados dos esforços manuais de rastreamento de contatos.
Outro exemplo dos riscos de ignorar a subjetividade da datafication é visto na chamada tecnologia de reconhecimento de emoções. Aqui, questões mais profundas são envolvidas, como injustiça social e ética.
Os sistemas de reconhecimento de emoções são ferramentas baseadas em IA que pretendem identificar a emoção que uma pessoa está sentindo com base na análise de uma imagem de seu rosto.
O problema é que esses sistemas são baseados principalmente em categorias finitas e específicas de emoções humanas. Além disso, eles presumem que a expressão em seu rosto é um reflexo direto de seu estado emocional interior, e qualquer pessoa que já riu e chorou sabe que isso não é verdade.
Nosso estado emocional em qualquer momento é um reflexo de nossa genética, nossa educação, nossa cultura, a situação em que estamos atualmente, as emoções de outras pessoas que estão conosco, o quão faminto estamos no momento e assim por diante: a emoção é profundamente social, cultural e psicológica, tudo ao mesmo tempo. Reunir tudo isso em um único cálculo de probabilidade quantitativo baseado em um punhado de categorias simplistas predeterminadas depende de inúmeras escolhas subjetivas sobre como interpretar e classificar todos esses fatores qualitativos. O resultado é que o que é mensurável aqui não é a emoção humana, mas as formas particulares que um rosto humano pode ter. Os algoritmos de reconhecimento de emoção não reconhecem verdadeiramente a emoção, eles simplesmente detectam expressões e aplicam rótulos simplificados a elas.
Em ambos os casos, rastreamento de contato e reconhecimento de emoção, o problema não é necessariamente o método quantitativo de análise. São as escolhas arbitrárias ou redutoras feitas sobre como tornar algo mensurável.
O quanto um processo de dados tem interferência humana?
O etnógrafo e cientista de dados Christian Ramsey traz a temática à tona ao analisar o caso do Facebook, que passou por investigação do Senado norte-americano a respeito de seus algoritmos serem tendenciosos. A empresa precisou se defender da acusação de que seus funcionários “rotineiramente suprimiram notícias de interesse para leitores conservadores da influente seção de notícias ‘tendências’ da rede social”.
O fato é que, excluindo toda a questão política, ideológica e de interesses alheios aqui e focando apenas no que diz respeito à tecnologia, não existe resultado de algoritmo sem intervenção humana, seja no input de dados, na construção do próprio algoritmo ou para tratar os insights gerados.
No caso em questão, o algoritmo do Facebook eventualmente gerava tópicos considerados “tendências” e adicionados a uma fila de revisão para serem considerados para o recurso “Tópicos de tendência”. A equipe de revisão fazia seu trabalho “revisando”; que supostamente envolve ver se o tópico já existe, se é relevante ou se encaixa em outros tópicos com outros nomes. O que é investigado é a orientação da empresa para os revisores, sobre rejeitar especificamente determinados tópicos e aceitar outros. Essa interferência estaria enviesando os resultados em relação às opiniões das pessoas a partir dos conteúdos que leem na rede.
Então, se não houvesse a intervenção humana, com o algoritmo gerando e disparando as tendências para os usuários por conta própria, esse processo seria OK, sem questionamentos? Isso é um mito.
Tecnicamente, o algoritmo produz uma saída “estatisticamente significativa e logicamente correta” com base nas regras e nos dados de entrada. Ou seja, o computador faz o que dizem para ele fazer, mas tem limites. A intervenção humana é necessária para chegar ao resultado esperado. Os revisores são humanos, o que significa que existe a subjetividade da avaliação, mas é a subjetividade que os torna ideais para o trabalho. Um humano, sem nenhum cálculo consciente, pode saber quais tópicos se encaixam em um instante, mas isso não é trivial para um computador e sua capacidade de fazer tais tarefas é limitada pelo que você pode “alimentá-lo”.
Esta é uma questão complexa e alguns podem dizer que não tem solução, mas a preocupação levantada por Ramsey é a simplificação da relação homem-máquina. Por exemplo, pode ser OK aceitarmos alguns tipos de intervenção humana, como na escrita de código ou na depuração, mas pode ser considerado tendenciosa outras intervenções, como a curadoria.
Nesse contexto, a frase de Kathy O’Neill não deixa de ser verdade: “algoritmos são opiniões embutidas no código”. São nas escolhas dos dados que os vieses, falhas e preconceitos se infiltram nos algoritmos e nos resultados dos projetos de tecnologia. Mas não podemos, de nenhuma maneira, fazer terra arrasada. Quando todo esse processo é projetado com cuidado, os dados e os algoritmos possuem um valor muito grande e são muito eficazes. Apenas é importante chamar a atenção para o fato de que a ciência de dados e os algoritmos sempre exigirão um elemento de datafication, ou seja, tornar as coisas mensuráveis exige escolhas e elas sempre serão subjetivas.
A questão é ficar atento a essas escolhas, reconhecer quando e como elas são feitas e quem as faz, considerando na tomada de decisão que entradas e saídas de um algoritmo nunca estão livres de subjetividade. Reconhecer essa natureza dos algoritmos é a chave para projetá-los buscando impactos mais positivos e menos prejudiciais para as pessoas, empresas e a sociedade num todo.