
A aplicação da lógica de Data Science exige conceitos básicos como padrões estatísticos, métricas de tendência e dispersão, outliers e tipos de variáveis.
Quando queremos responder perguntas sobre nossos negócios, é necessário identificar quais são os padrões dos dados envolvidos nas questões. Afinal, é o tipo de padrão que determinará a técnica estatística que será utilizada. Neste blog, já falamos sobre causalidade e agora trataremos de padrões de associação e frequência.
Associação
A associação é um padrão menos sofisticado de relação entre dados, pois ele não implica causalidade. O gráfico a seguir mostra os resultados de diversas empresas diante da associação entre os benefícios oferecidos aos funcionários e o clima organizacional.

É tentador imaginar que empresas com muitos benefícios e clima bom apresentam melhores resultados. Porém, também seria razoável imaginar que empresas com bons resultados acabem por ter um clima organizacional melhor. Somente o conhecimento teórico sobre as variáveis envolvidas seria capaz de entender se existe aí uma relação de causalidade.
Frequência
Frequências são conceitos fundamentais para quem quer abrir a caixa preta da estatística. Estatísticas descritivas, como média, mediana e moda, são importantes na explicação dos cenários analisados.

A mediana é o número que ocupa a posição central de uma lista de dados – no caso do exemplo anterior, “1200”. Ela é útil para entender qual é a maior concentração no centro dos dados. Já a moda ajuda na redução de incertezas, uma vez que apresenta os dados mais frequentes – no exemplo, o número “800”.

Simultaneamente, é preciso analisar métricas de tendência (como média) e de dispersão (como desvio padrão) para saber como os dados estão distribuídos. Tudo isso ajuda, por exemplo, na definição de metas – no marketing, comumente arbitrárias e pouco embasadas.
Outro conceito importante são os outliers. Eles são pontos que estão exageradamente fora da base analisada. Deve-se questionar se tais indivíduos devem ser levados em conta, uma vez que eles reduzem a variância dos dados e atrapalham a identificação de padrões. Ainda que os outliers às vezes sejam importantes para geração de insights.
Tipos de variáveis
Além de identificar os padrões envolvidos nas perguntas que queremos responder, é também fundamental reconhecer os tipos de variáveis envolvidas na questão. São elas que ditarão o teste estatístico que poderá ser utilizado. Variáveis contínuas são quantitativas e têm, a rigor, níveis infinitos de mensuração (como idade, peso e temperatura). Variáveis categóricas são qualitativas e formadas por categorias nas quais cada uma expressa um atributo do fenômeno (como gênero ou times de futebol).
Em geral, variáveis categóricas têm pouco poder de explicação, enquanto variáveis contínuas têm alto poder de explicação. Logo, é mais interessante que os dados sejam coletados de maneira contínua e, se necessário, transformados posteriormente em variáveis categóricas.
Da mesma maneira, é importante cuidado na escolha das variáveis. É difícil alcançar grandes conclusões com dados macro como, por exemplo, “investimento em mídia vs geração de leads”. Para realmente entender o que acontece, é interessante desagregar os dados e analisar quais são as variáveis moderadoras dos efeitos. No exemplo, investimento em mídia e geração de leads não são uma relação necessariamente causal, embora estejam normalmente associados.
Por fim, é importante treinar corretamente os profissionais que efetivamente inserem os dados que serão analisados depois. Um vendedor que não conseguiu fechar um negócio e inseriu um feedback tal como “o cliente estava desanimado” talvez não gere grandes insights. Porém, coletar os dados de maneira contínua e fazer as perguntas certas talvez dê esclarecimentos valiosos.
As perguntas certas
O primeiro passo de quem busca uma abordagem de data science nos negócios é desenhar o problema. Em outras palavras, é necessário, antes de tudo, entender para que faremos essa pergunta.
A pergunta orienta o tipo de padrão que será buscado. O tipo de padrão orienta a técnica estatística a ser utilizada. Por sua vez, a técnica orienta o tipo de métrica para coleta dos dados. Em textos futuros, falaremos sobre padrões e técnicas que respondam a outros tipos de perguntas.
Para saber mais
Tudo o que foi descrito neste artigo foi apresentado no curso Data Lab – Entendendo a Ciência por Trás dos Dados, uma parceria entre a Ilumeo e a Sandbox. Quer participar das próximas edições do curso ou saber mais sobre Data Science? Cadastre o seu e-mail no campo abaixo e vamos aprender juntos.