Mesmas estatísticas, gráficos diferentes: a importância da visualização de dados

 


datassauro.jpg

Pesquisadores demonstram como gráficos diferentes podem ser gerados com base nas mesmas propriedades estatísticas. A partir do curioso exemplo do Datassauro, o estudo gera uma interessante reflexão sobre o poder da visualização de dados.

A visualização de dados tem importância vital para quem se interessa por análise de dados. Quem se depara com a enorme quantidade de dados disponíveis em qualquer segmento de negócios é esmagado pelo desafio de geração de inteligência a partir daquelas informações. Diante desse cenário, quem se torna grande aliada para análise de dados – e, logo, para análise estatística – é a visualização de dados.

Um exemplo simples, mas que funciona como bom ponto de partida, é pensar como a visualização de dados pode ser utilizada para evoluir conhecimentos obtidos por meio de estatísticas descritivas, como média e correlação. Observar essas estatísticas isoladamente pode nos dizer pouco sobre os dados, ao passo que a utilização de gráficos pode dizer mais.

Por exemplo, se a única informação que temos sobre a altura de uma população é que ela tem 1,70 metros em média, não é possível dizer se essa população é feita de anões e gigantes ou de vários indivíduos de estatura média.

Na realidade dos negócios, um possível exemplo seria uma loja que venda produtos entre R$1,00 e R$100,00. Se a média das vendas em dado dia for de R$50,00, isso não nos diz se foi vendido somente um produto de R$50,00 (o que daria uma média de R$50,00) ou dois produtos diferentes, um de R$25,00 e outro de R$75,00 (o que também daria uma média de R$50,00). A utilização de gráficos pode ser uma boa solução para esse problema.

A distribuição dos dados ao longo de um gráfico mostra como esses dados se comportam naquela amostra. Embora essa distribuição possa ter os mais diversos comportamentos, algumas distribuições são comuns na natureza. Por exemplo, a distribuição normal.

Já é sabido há séculos que a distribuição da altura dos seres humanos obedece a uma distribuição normal. Ou seja, a maioria dos indivíduos tem estatura média, há poucos demasiadamente altos, como há poucos demasiadamente baixos. O comportamento desses dados é facilmente visível por meio de um gráfico.


Fonte: ReStore.

Fonte: ReStore.

Dessa maneira, a visualização de dados é tão importante que cientistas criaram métodos para mostrar como as mesmas estatísticas podem gerar gráficos completamente diferentes. Por exemplo, o Quarteto de Anscombe. Desenvolvido por Frank Anscombe, em 1973, ele é uma ferramenta eficaz (e frequentemente usada) para demonstrar a importância da visualização de dados.

Ele é um conjunto de quatro conjuntos de dados, cada um deles com as mesmas propriedades estatísticas (média, desvio padrão e correlação). Embora o impulso inicial seja imaginar que tais conjuntos de dados seriam bastante semelhantes, a visualização dos dados demonstra que, na verdade, eles são muito diferentes.

 


Anscombe.png

Embora o Quarteto de Anscombe seja muito popular e eficaz para ilustrar a importância da visualização de dados há quase 45 anos, não se sabe como Anscombe criou seus conjuntos de dados. Dessa maneira, pesquisadores da Autodesk Research desenvolveram uma técnica para criar esses tipos de conjuntos de dados – que são idênticos nas propriedades estatísticas, mas produzem gráficos diferentes.

 

Os pesquisadores se inspiraram no trabalho de Aberto Cairo, um pesquisador que criou um conjunto de dados para gerar o Datassauro – um gráfico que exibe a inusitada forma de um dinossauro, criado, a partir de estatísticas comuns, para instigar o seguinte lema: “nunca confie apenas em estatísticas resumidas; sempre visualize seus dados”.

 

Inspirados pelo Quarteto de Anscombe e pelo Datassauro, os pesquisadores da Autodesk Research criaram uma série de gráficos diferentes a partir das mesmas estatísticas. Os treze conjuntos de dados a seguir apresentam as mesmas estatísticas de resumo (média, desvio padrão e correlação) até duas casas decimais, embora tenham uma aparência drasticamente diferente.


AllDinosGrey_1.png

Método

 

O principal insight por trás da abordagem é que, embora seja relativamente difícil gerar, a partir do zero, um conjunto de dados com determinadas propriedades estatísticas, é relativamente fácil pegar um conjunto de dados existente, modificá-lo ligeiramente e manter essas propriedades.

 

Assim, os pesquisadores escolhiam um ponto aleatório, moviam-no um pouco, e verificavam se as propriedades estatísticas do conjunto não eram alteradas para além dos limites aceitáveis – no caso, o limite estabelecido era de que média, desvio padrão e correlação permanecessem os mesmos em até duas casas decimais. 


SmallChange.gif

A repetição desse processo de “perturbação” dos dados resulta em gráficos visualmente distintos e claramente diferentes. Para alcançar as formas pretendidas, os pesquisadores enviesavam os movimentos dos pontos aleatórios em direção a formas particulares. Por exemplo, a animação a seguir mostra o processo de 200.000 iterações (repetições) de perturbações que deram origem a um círculo. 


CloudToCircle.gif

Para mover os pontos em direção a uma forma específica, foi realizada uma verificação adicional em cada perturbação aleatória. Além de verificar se as propriedades estatísticas ainda eram válidas, também foi verificado se o ponto se aproximou da forma pretendida. Se ambas as condições fossem atendidas, a nova posição era aceita e passava-se para a próxima iteração.

 

Os pesquisadores criaram 12 formas para direcionar os pontos. Cada um dos gráficos resultantes tem as mesmas estatísticas de resumo que o Datassauro original, tal como todos os gráficos intermediários, criados até as formas finais. O processo de conversão do Datassauro em cada uma dessas formas pode ser visto a seguir. Naturalmente, a técnica não se limita a essas formas, qualquer coleção de segmentos de linha pode ser usada como um objetivo. 


AllDinosAnimatedSmaller.gif

A iteração sequencial dos conjuntos de dados permite observar como os pontos dos dados se transformam de uma forma para outra, ao mesmo tempo em que mantêm os mesmos valores estatísticos de resumo, em até duas casas decimais, ao longo de todo o processo. 


DinoSequentialSmaller.gif

Além das variações do Datassauro, os pesquisadores criaram vários outros conjuntos de dados para exemplificar o uso da técnica, todos disponíveis em um artigo científico.

Muito mais do que um exercício lúdico, o estudo conduzido gera uma interessante reflexão sobre o poder da visualização de dados – uma preocupação central para quem precisa tirar conclusões a partir da análise de dados.