Uma das buscas do Twitter é pela definição de métricas para identificação de uma conversa saudável. O caso ilustra bem os desafios envolvidos em uma abordagem de strategy-to-metrics.
Quem trabalha com Data Science sabe que um dos desafios fundamentais dessa atividade é a definição das métricas adequadas para que consigamos entender os resultados de nossas estratégias. Como afirmou Jack Dorsey, CEO do Twitter, “se você quer melhorar algo, você precisa ser capaz de medir isso”. No marketing, essa questão é comumente chamada de “strategy-to-metrics” – em português, “da estratégia para as métricas”.
A menção ao criador do Twitter não é gratuita. Recentemente, ele concedeu uma entrevista para Chris Anderson e Whitney Rodgers, no TED, a respeito das mudanças que a plataforma de microblogging pretende realizar em prol de conversas mais saudáveis.
Desde o início de 2018, Jack Dorsey afirma estar debruçado sobre o desafio de “aumentar a saúde coletiva, a abertura e a civilidade das conversas públicas”. Ele diz que as pessoas se aproveitaram dos serviços do Twitter em prol de abuso, assédio, manipulação por bots, campanhas de desinformação e a empresa não conseguiu lidar com esses problemas com rapidez suficiente.
Em um primeiro momento, a resposta foi remover conteúdos que violassem os termos da plataforma. Agora, a estratégia da companhia é “criar uma estrutura sistêmica para incentivar debates mais saudáveis, conversações e pensamento crítico”. O raciocínio parte da premissa de que, se o Twitter puder identificar quais interações de usuários são saudáveis, então talvez a plataforma possa ser alterada para encorajar mais esses comportamentos e desestimular as condutas antissociais.
Porém, quais seriam as métricas capazes de calcular a saúde de uma conversa?
A ideia de medir a saúde do Twitter foi responsabilidade de Deb Roy, ex-cientista chefe de mídia da plataforma. Ele é pesquisador do MIT e iniciou lá o Laboratory for Social Machines – uma iniciativa para estudar conversas públicas – e a Cortico – uma organização sem fins lucrativos que promove o trabalho do laboratório fora da universidade. O Twitter investiu 10 milhões de dólares para financiamento do laboratório em 2014.
A Cortico desenvolveu um conjunto de quatro indicadores para uma esfera pública saudável:
-
Atenção compartilhada: existe sobreposição dos assuntos sobre os quais estamos falando?
-
Realidade compartilhada: estamos analisando os mesmos fatos?
-
Variedade: Estamos expostos a opiniões diferentes, baseadas em realidade compartilhada?
-
Receptividade: Estamos abertos, civilizados e ouvindo opiniões diferentes?
Na época de divulgação, Jack Dorsey admitiu que ainda não sabia se esses eram os indicadores corretos da saúde da conversa no Twitter. Mais do que isso, admitiu que ainda não sabia como mensurá-los.
O desafio é tão grande que o Twitter convocou pesquisadores de todo o mundo a solucionarem a questão. Mais de 230 propostas foram enviadas e dois grupos de pesquisa foram selecionados como parceiros oficiais da empresa: um da Universidade de Leiden, na Holanda, e um da Universidade de Oxford, na Inglaterra. A colaboração ainda não avançou porque a condução dos estudos necessita de dados sensíveis de usuários do Twitter. Os diretores da empresa ficaram reticentes diante do escândalo da Cambridge Analytica.
O grupo de pesquisa da Universidade de Leiden propôs métricas diferentes daquelas sugeridas pela Cortico. Elas são:
-
Reconhecimento mútuo: as pessoas estão engajando com outras pessoas, de crenças diferentes? Ou elas estão simplesmente conversando com quem concorda com elas?
-
Diversidade de perspectivas: há pessoas que não estão sendo ouvidas em uma conversa ou são excluídas completamente?
-
Incivilidade: trata-se de uma conversação “contra-normativa”, que pode incluir insultos ou palavrões, mas não é necessariamente ruim ou insalubre.
-
Intolerância: já a intolerância não é saudável. Os usuários estão atacando ou criticando outros grupos que possam estar protegidos?
Para criar essas métricas, o grupo de pesquisa de Leiden planeja estudar conversas nos EUA e no Reino Unido a respeito de duas questões importantes. A primeira é imigração – uma fonte de discussão calorosa, com crenças profundas e linguagem difícil. A outra é horário de verão – um tópico que gera discussão, mas não é tão carregado politicamente.
Porém, o grupo afirma que a brevidade dos tweets dificulta a análise das conversas. Eles são limitados a 280 caracteres, o que pode conter o espaço para uma discussão mais detalhada. Além disso, os algoritmos promovem tweets com muitos retweets ou curtidas e, como se sabe, isso nem sempre é sinal de uma conversa saudável.
O Twitter também já desenvolveu suas próprias métricas de saúde. Uma delas é a “toxicidade”. Ela é utilizada para medir a saúde de tweets únicos e é baseada em algoritmos de Machine Learning criados pelo Google.
A segunda métrica ainda não tem nome e serve para medir a saúde conversacional por meio de três fatores: civilidade, receptividade e construtividade. O Twitter ainda está em fase de experimentação da métrica, o que basicamente significa coleta de dados.
O processo é, em grande parte, manual. Funcionários pedem que usuários reais revejam conversas e as avaliem para cada um dos três fatores: foi civilizado? Foi construtivo? Os participantes foram receptivos às idéias e contribuições de outras pessoas? As classificações são então usadas para treinar um algoritmo de software destinado a entender as características de conversas saudáveis.
A difícil busca do Twitter serve como um interessante exemplo do desafio envolvido na definição das melhores métricas para atender nossas estratégias. É uma questão central para quem trabalha com Data Science, nos negócios ou em qualquer outro ambiente.