Análise de dados exige uma abordagem científica, não só tecnológica

 


abordagens.jpg

Estudo promete indicar quais características provocam engajamento no Instagram. No entanto, as limitações teóricas do artigo evidenciam as diferenças entre uma abordagem meramente tecnológica de uma abordagem verdadeiramente científica.

Vivemos em um momento em que existe um frenesi natural pela busca de inteligência a partir da imensurável abundância de dados que nos cerca. No entanto, é fundamental notar que só faz sentido buscar respostas quando as perguntas que estão sendo feitas estão bem resolvidas.

 

Em outras palavras, só faz sentido chafurdar os dados em busca de comprovação empírica quando as hipóteses estabelecidas a priori estão fundamentadas em uma teoria sólida. É esse cuidado – essencial – de procedimento que confere a diferença entre uma abordagem meramente tecnológica e uma abordagem verdadeiramente científica.

 

Um artigo publicado no portal Towards Data Science apresentou um estudo realizado com o intuito de identificar quais características são preditoras de popularidade em posts no Instagram. Embora o artigo parta de uma lógica de programação interessante, ele apresenta fragilidades que ilustram a importância de que premissas teóricas sejam previamente estabelecidas de maneira fundamentada.

 

Como foi realizado o estudo?

 

O autor parte da intenção de identificar quais variáveis poderiam aumentar o número de curtidas que um post recebe no Instagram. O primeiro passo foi treinar os modelos com dados obtidos a partir dos 1000 maiores influenciadores do Instagram segundo o site HypeAuditor.

 

Em seguida, um processo de scraping – extração automatizada de dados – baixou os posts mais recentes de cada usuário. Com esses dados em mãos, o autor passou a analisar o tamanho das correlações entre as características desses posts e o número de curtidas que cada post recebeu.

 

Nessa análise, ele percebeu, por exemplo, que publicações realizadas no fim da manhã tinham melhor desempenho do que aquelas postadas muito cedo ou muito tarde. Percebeu também que os piores dias para publicação eram terça, quarta e quinta-feira.


correlacoes.png

Além dessas correlações, o estudo mapeou uma série de outras características que poderiam predizer o desempenho de um post. O autor chamou de “características gerais” informações como número de seguidores da conta, número de usuários que a conta seguia, data e hora da publicação, freqüência de postagens e número médio de comentários e curtidas que a conta costumava receber.

 

O autor analisou também “características da imagem”. Ele partiu da premissa de que “um post funciona melhor quando há um sujeito humano em comparação com quando não há”. Além disso, levantou a hipótese de que “imagens com muitas pessoas, como fotos de grupo, não recebem tantas curtidas quanto imagens com um único indivíduo”. Por fim, também testou se a presença de um sorriso afetaria ou não o número de curtidas de um post.

 

A última análise foi em relação a “características de processamento de linguagem natural”. O estudo analisou as legendas das fotos por meio de algoritmos, com o intuito de descobrir se: a) línguas diferentes recebiam mais ou menos curtidas, b) palavras negativas ou positivas tinham efeito diferente no desempenho do post, e c) a utilização de palavras frequentemente publicadas impactaria o número de likes.

 

Então, o autor rodou modelos de regressão e redes neurais para descobrir quais, entre todas essas características, eram as melhores preditoras de popularidade no Instagram. Curiosamente, o artigo original se detém no complicado processo de escolha do melhor modelo estatístico, mas não menciona quais características, enfim, seriam as melhores preditoras.

 

Quais são as fragilidades do estudo?

 

A atenção concedida aos testes estatísticos – e negligenciada aos resultados acionáveis – já fala um pouco sobre o problema. Uma característica dos estudiosos da tecnologia é a busca por padrões existentes nos dados. Porém, embora essa busca seja fundamental, ela não pode ser um fim em si mesma.

 

Uma abordagem científica – que vai além da tecnológica – exige que premissas teóricas sejam estabelecidas. São elas que darão origens às hipóteses que serão testadas nos dados coletados.

 

No caso do estudo em questão, as hipóteses são frágeis e desprovidas de fundamentação teórica. Por exemplo, seria importante entender quais estudos anteriores levaram o autor a imaginar que a quantidade de pessoas ou sorrisos em uma imagem teria efeito sobre o número de curtidas.

 

Felizmente, há autores comprometidos com um olhar mais científico a respeito dos fenômenos da comunicação. Jonah Berger, professor da escola de negócios da Universidade da Pensilvânia, é um especialista em marketing viral que apresenta, no vídeo anterior, as relações complexas que resultam em engajamento.

 

Inspirados por esse tipo de fundamentação científica é que são conduzidos os estudos da Ilumeo. A ideia é destrinchar os elementos de um post e entender as emoções que eles geram, em quais situações e em quais contextos.

 

A intenção de clicar ou compartilhar um post está relacionada a circunstâncias mais amplas do que as meras características de um post. Somente quando esse panorama geral se torna apreendido é que devemos partir para uma lógica de automação – ao contrário do que é proposto pelo artigo sobre o Instagram.

 

Um exemplo simples: um post sobre happy hour publicado em uma segunda-feira à tarde não gera tanto engajamento quanto o mesmo post publicado em uma sexta-feira. Esse é o tipo de entendimento que só pode ser obtido por meio de uma compreensão de como o contexto interage com as características do post – e não por meio das características em si.

 

Além disso, vale observar que o autor do artigo cometeu um erro grave ao selecionar sua amostra. Os 1000 perfis mais populares do Instagram seguramente não são a melhor fonte para investigação do que causa o engajamento de um post, pois celebridades e influenciadores naturalmente recebem um grande número de curtidas, que não estão necessariamente conectadas somente ao conteúdo. Para descobrir o que causa a popularidade de um post, seria crucial coletar perfis aleatoriamente.

 

Essas limitações mostram a diferença entre uma abordagem meramente tecnológica de uma abordagem verdadeiramente científica. Somente esta última é capaz de explicar com propriedade os fenômenos da comunicação e, assim, gerar recomendações acionáveis para a gestão.