O que a Data Science tem a aprender com as fake news?

 


blog_fakenews.jpg

Observar como estão sendo conduzidas as investigações científicas sobre fake news pode prover interessantes insights para quem trabalha com Data Science.

 

Neste momento em que as fake news ocupam um lugar de destaque na discussão sobre a formação da opinião política, há várias iniciativas científicas debruçadas sobre o intuito de detectar e conter a disseminação de notícias falsas. Observar como estão sendo conduzidas tais investigações pode prover interessantes insights para quem trabalha com Data Science.

 

Um estudo publicado recentemente levantou um estado da arte das pesquisas feitas sobre identificação de fake news – estado da arte é um termo usado na pesquisa acadêmica para definir uma revisão exaustiva da literatura científica a respeito de determinado tema. O levantamento fala sobre as razões que tornam as fake news tão viralizáveis e por onde caminha a pesquisa científica sobre o assunto.

Por que fake news viralizam?

 

Para começo de conversa, a pesquisa define fake news como toda “notícia que seja falsa de maneira intencional e verificável”. E por que elas viralizam tão facilmente? A explicação está em fundamentos psicológicos e sociológicos.

 

Fundamentos psicológicos

 

Dois fatores psicológicos fazem com que os espectadores sejam naturalmente vulneráveis às fake news: 1) Realismo ingênuo: espectadores tendem a acreditar que as suas percepções da realidade são as únicas acuradas, enquanto aqueles que discordam são desinformados, irracionais ou enviesados. 2) Viés de confirmação: espectadores preferem receber informações que confirmem pontos de vista já existentes. Por causa desses vieses cognitivos, inerentes à natureza humana, as fake news podem frequentemente ser percebidas como verdadeiras.

 

Além disso, estudos na psicologia mostram que corrigir uma informação falsa com a verdade não só é inútil, como pode até aumentar os equívocos, especialmente entre grupos ideológicos.

 

Fundamentos sociológicos

 

Segundo a prospect theory, decisões são tomadas segundo um processo pelo qual indivíduos fazem escolhas de acordo com uma avaliação de possíveis ganhos e perdas que podem sofrer em comparação com seu estado atual. O desejo de aumentar a recompensa após uma decisão implica em ganhos sociais – por exemplo, a aceitação por parte dos seguidores de uma rede social.

 

Teorias psicológicas como a teoria da identidade social e a teoria da influência normativa explicam que essa preferência por aceitação e afirmação social é essencial na formação da identidade do indivíduo e sua auto-estima. As pessoas tendem a consumir e disseminar informações que sejam “socialmente seguras”, seguindo as normas estabelecidas pela comunidade, mesmo que as notícias compartilhadas sejam falsas.

Como as mídias sociais auxiliam nesse processo?

 

As mídias sociais permitem a utilização de contas maliciosas – em alguns casos, nem ao menos humanas. O custo baixo de criação de uma conta encoraja a criação de perfis maliciosos como bots, ciborgues e trolls.

 

Bots: Contas de mídia social que são controladas por um algoritmo de computador para automaticamente produzir conteúdo e interagir com humanos (ou outros bots).

 

Trolls: Usuários humanos que visam pertubar comunidades online, provocar respostas emotivas dos usuários e disseminar fake news.

 

Ciborgues: Usuários que espalham fake news em uma maneira que combina atividades automatizadas com input humano. Usualmente, essas contas são registradas por humanos como uma maneira de camuflar programas automatizados, que desempenham atividades em mídias sociais.

 

Efeito câmara de eco

 

Além de possibilitar a criação de contas maliciosas, as mídias sociais permitem com que os usuários selecionem os conteúdos a que serão expostos, o que aumenta os desafios psicológicos na dissipação das fake news.

 

Por exemplo, usuários no Facebook tendem a seguir pessoas que pensam como eles e, logo, recebem notícias que favorecem narrativas já existentes. Portanto, usuários de mídias sociais tendem a formar grupos que contêm pessoas com ideias parecidas, onde polarizam ainda mais suas opiniões, o que resulta em um efeito câmara de eco.

 

Esse efeito facilita o processo pelo qual as pessoas consomem e acreditam em notícias falsas devido aos seguintes fatores psicológicos:

 

1) Credibilidade social: indivíduos são mais propensos a perceber uma fonte como confiável se outros percebem que essa fonte é confiável, especialmente quando não há informações suficientes para acessar a veracidade da fonte.

 

2) Frequência heurística: indivíduos podem naturalmente favorecer informações que recebem frequentemente, mesmo que sejam falsas. Estudos já mostraram que aumentar a exposição a uma ideia é suficiente para gerar uma opinião positiva sobre ela. Nas câmaras de eco, os usuários continuam a compartilhar e consumir as mesmas informações.

 

Como detectar fake news?

 

Um processo de data mining para detecção de notícias falsas consiste em duas fases: extração de recursos – na qual são criadas representações do conteúdo – e construção de modelos – na qual modelos de machine learning detectam fake news com base nas representações extraídas.

 

Extração de recursos

 

A detecção de fake news nas mídias tradicionais só contava com a análise do conteúdo da notícia. Já nas mídias sociais, informações sobre o contexto social também são altamente relevantes.

 

  • Recursos do conteúdo da notícia: São coletadas informações como autor, manchete, texto da notícia e imagens ilustrativas. Programas de computador podem extrair características de fake news dessas informações a partir de análises lingüísticas e visuais.

    Recursos lingüísticos permitem capturar estilos de escrita diferentes, tais como manchetes sensacionalistas. Além disso, uma vez que as fake news exploram vulnerabilidades dos indivíduos e usam imagens provocativas para incentivar respostas emotivas, recursos visuais também são extraídos para capturar características de notícias falsas.

  • Recursos de contexto social: Além dos recursos relacionados ao conteúdo da notícia, o engajamento social do usuário pode ajudar a aferir a veracidade das informações. Três aspectos de contexto social auxiliam nesse processo: usuários, posts e redes.

    Os recursos dos usuários identificam a credibilidade do indivíduo segundo informações demográficas, número de seguidores, número de publicações etc. Além disso, informações sobre as comunidades a que o indivíduo pertence também dão pistas sobre sua credibilidade.

    Recursos do post são aqueles focados em detectar veracidade nos posts publicados pelos usuários. Por exemplo, as abordagens lingüísticas mencionadas anteriormente podem ser aplicadas não só ao conteúdo das fake news, mas também aos posts publicados pelos usuários.

    Por fim, recursos de rede são construídos a partir do mapeamento das redes de usuários que propagam fake news. Esse tipo de estudo pode prover informações valiosas sobre padrões de disseminação, tais como as câmaras de eco.

 

Construção de modelos

 

  • Modelos do conteúdo da notícia: Para detectar os recursos de conteúdo mencionados, a maneira mais direta é a checagem dos fatos. Ela pode ser feita por experts humanos, mecanismos de crowdsourcing ou sistemas automatizados. Além disso, algoritmos também podem checar estilos suspeitos de escrita – por exemplo, linguagens extremistas e títulos clickbait.

  • Modelos de contexto social: Como dissemos, informações sobre o engajamento do usuário podem ser usadas para detectar fake news. As interações podem indicar a credibilidade de determinado conteúdo. De maneira similar, as relações entre diferentes notícias também podem prever o quão confiáveis elas são.

Conclusão

 

Com a crescente popularidade das mídias sociais, mais e mais pessoas consomem notícias desses ambientes no lugar da mídia tradicional. Se, por um lado, as mídias sociais oferecem um local propício para veiculação de fake news, são as mesmas mídias sociais que oferecem recursos para a detecção de conteúdo pouco confiável.

 

As maneiras como esses recursos têm sido trabalhados ensinam muito sobre as possibilidades da Data Science.