Data Science e Business Intelligence são ambas ferramentas para geração de insights. Especialistas em análise de dados explicam as diferenças entre as duas áreas – diferentes e complementares.
Amazon, Facebook e Uber são empresas que carregam a análise de dados em seu DNA. É o sucesso dessas companhias que tem levado negócios tradicionais à corrida para transformarem-se em insight driven organizations – ou organizações orientadas pelo insight. Data Science e Business Intelligence são ambas ferramentas para geração de insights, mas operam de maneira diferente.
Data Science é uma evolução do BI? O time de BI deve adquirir habilidades de Data Science? Stefan van Duin e Bas Schmidt, especialistas em análise de dados, comentaram, no blog da Deloitte, qual é a diferença entre essas ferramentas. Confira a seguir.
Estratégias e objetivos
BI e Data Science transformam dados em insights. BI, no entanto, geralmente está focado em informações para gestão. Frequentemente, ele é incorporado em ciclos de planejamento e controle, como uma fonte de análise do desempenho dos negócios. Na maioria dos casos, essa área gera relatórios periódicos e padronizados, que apresentam números confiáveis, baseados em dados internos e estruturados. Geralmente, o BI oferece recursos de análise e visualização, por meio de “ferramentas de descoberta de dados”.
Essas atividades implicam em um processo que, periodicamente, extrai dados de sistemas operacionais e transforma-os em conjuntos com definições padronizadas. Tudo isso sempre com a presença de um supervisor que cuida da qualidade e confiabilidade da entrega. Logo, o BI apresenta insights descritivos, seres humanos (por exemplo, gerentes) interpretam, tiram conclusões e tomam decisões.
Data Science tende a ter um foco diferente. Ela tem o objetivo de gerar insights daqueles dados que os humanos potencialmente não conseguem supervisionar. Por exemplo, análises descritivas complexas – nas quais há múltiplas relações entre variáveis e eventos – ou modelos preditivos. Embora os dados sejam usados como base, eles podem ser uma combinação de dados internos e externos. Ainda, podem incluir fontes de dados não estruturados, como documentos, imagens ou vídeos. Usualmente, o resultado não é um relatório, mas um modelo de Machine Learning. Por exemplo, um pedaço de algoritmo que aprendeu a reconhecer a fraude, prever a lucratividade do cliente ou determinar a próxima oferta que deverá ser apresentada para os clientes.
Ao contrário do BI, Data Science não se baseia necessariamente em quesitos previsíveis, mas em ideias inovadoras, experimentais, cuja viabilidade não é conhecida por completo previamente.
Insight driven organizations
Para entender as diferenças e similaridades entre BI e Data Science, Stefan van Duin e Bas Schmidt sugerem cinco pilares fundamentais para que uma organização seja orientada pelo insight: estratégia, pessoas, processo, dados e tecnologia. Dentro desse contexto, como atuam BI e Data Science?
Estratégia: “Tornar-se uma organização orientada pelo insight tem qual significado para nossos negócios?”
As equipes de BI visam uma entrega de informações feita com alta qualidade, para toda a organização. Os times se concentram em acessar as informações mais relevantes para os tomadores de decisão e outras equipes baseadas em dados, com o intuito de otimizar os processos de negócios e decisão. Usualmente, profissionais de BI monitoram periodicamente as metas estratégicas, reportam os principais indicadores de desempenho (KPIs) e procuram entender os fatores que determinam o desempenho. Para essas equipes, é essencial que relatórios e análises estejam alinhados com a estratégia corporativa.
Já as equipes de Data Science estão concentradas em soluções para problemas de negócios específicos, criadas por meio de algoritmos avançados e complexos, aplicados a várias fontes de dados, em combinação com expertise de negócios. Quem trabalha com Data Science tem um foco em novas proposições de valor, criadas com um toque experimental e em busca de estabelecer vantagem competitiva no mercado. É importante que essas equipes se alinhem com as prioridades de negócios e foquem nos problemas certos, de alto impacto.
Pessoas: “Temos as pessoas certas, no lugar certo, no momento certo, prontas para realizar as ações certas?”
Os desenvolvedores de BI são mais especializados em recursos de armazenamento de dados, linguagens de query (por exemplo, SQL) e ferramentas de visualização de dados (QlikView, Tableau ou PowerBI). Esses profissionais têm uma preocupação com a eficiência do armazenamento de dados e o desempenho das queries. As habilidades dessas pessoas são focadas em fornecer confiabilidade, desempenho, qualidade e facilidade de uso.
O trabalho dos cientistas de dados é normalmente mais experimental, ad hoc e imprevisível. Requer criatividade e improvisação na solução de um problema, mesmo que as circunstâncias (como disponibilidade e qualidade dos dados) não sejam perfeitas. Alguns projetos podem não resultar em um produto final, já que muitas vezes não é claro se a solução funcionará.
O que ambos têm em comum é um forte sentimento de qualidade. Tanto um relatório quanto um modelo preditivo devem obedecer aos mais altos padrões de qualidade. Isso requer pessoas que possam trabalhar com governança e bons métodos.
Processo: “Desenvolvemos um processo ponta a ponta, no qual podemos identificar com precisão, priorizar corretamente e controlar satisfatoriamente a entrega de insights acionáveis para nossos negócios?”
Em geral, as equipes de BI exigem um número maior de pessoas do que as equipes de Data Science. Além disso, os profissionais de BI trabalham, na maioria das organizações, por meio de requisitos de negócios ou solicitações de mudança, com métodos de trabalho agile. Solicitações de informações – em relatórios ou dashboards – são aprovadas, desenvolvidas, testadas e entregues de forma estruturada e, preferencialmente, automatizada.
Os times de Data Science, por outro lado, trabalham as ideias da empresa de uma maneira experimental. Os projetos podem ser vistos como um funil, no qual iniciativas precisam passar por vários “gargalos de valor” até alcançar a implementação. Em primeiro lugar, as iniciativas são avaliadas e priorizadas com base na comparação entre impacto (por exemplo, redução de custos ou aumento de receita) versus complexidade (por exemplo, planejamento de recursos, restrições de privacidade ou qualidade de dados). Após a priorização, os cientistas de dados trabalham em estreita colaboração com a empresa, com o intuito de construir uma “prova de conceito” – ou seja, um protótipo da solução. Esses protótipos são avaliados e possivelmente testados no negócio. Eventualmente, se tornam parte do processo de tomada de decisões do dia a dia.
Dados: “Criamos um campo de visão claro, das decisões de negócios até as fontes de dados, com o gerenciamento de dados preparado para apoiar e informar esses processos?”
Os dados são o elemento chave que conecta os desenvolvedores de BI e os cientistas de dados. Em outras palavras, tudo começa nos dados. No entanto, a proporção, estrutura ou formato pode diferir entre as duas funções. Os times de BI procuram uma solução estruturada, consistente e de alta qualidade, com o intuito de armazenar e apresentar os dados de forma repetitiva. Muitas vezes, esse trabalho é armazenado em grandes warehouses, com muitos dados históricos, em sua maioria estruturados.
Enquanto isso, as equipes de Data Science geralmente trabalham com bancos de dados separados, dados internos e externos e, às vezes, com uma combinação de dados estruturados e não estruturados. Várias organizações referem-se a essa configuração como um ambiente de “sandbox”: um repositório de dados no qual os cientistas de dados podem armazenar e usar todos os formatos de dados, para o desenvolvimento experimental de algoritmos.
Eventualmente, essas soluções experimentais podem acabar sendo parte dos fluxos de dados da estrutura, se isso oferecer suporte aos negócios. O data lake é uma maneira de armazenar todos os dados brutos da empresa e permite com que eles sejam usados tanto pelas equipes de Data Science quanto de BI.
Tecnologia: “Construímos uma arquitetura e uma infraestrutura de tecnologia integrada que se expandam para sustentar nossa visão de longo prazo de nos tornarmos uma organização orientada pelo insight?”
Teradata, Oracle, Amazon, Microsoft e IBM são exemplos de líderes em soluções de gerenciamento de dados para analytics (DMSA). A consultoria Gartner define o DMSA como um sistema para armazenamento, acesso, processamento e entrega de dados. As equipes de BI geralmente trabalham com grandes fornecedores de data warehouse, tais como as empresas citadas. Do ponto de vista de visualização de dados e do dashboard, as equipes de BI geralmente recorrem a fornecedores comuns – como Qlik, Tableau, SAP ou Microsoft – para dar suporte à organização.
Os cientistas de dados usam uma variedade de ferramentas, de acordo com o que melhor se ajusta aos objetivos específicos do projeto. Em geral, os times de Data Science usam ferramentas de código aberto, como Python ou R. Essas ferramentas têm uma ampla comunidade e são fáceis de instalar e usar se você tiver alguma experiência em programação. Em alguns casos, como problemas de geospatial analytics ou otimização, ferramentas específicas como Qgis ou AIMMS são melhores. As plataformas de cloud big data – como Amazon Web Services (AWS) e Microsoft Azure – oferecem bibliotecas de dados prontas e podem dimensionar e implementar códigos R e Python em um ambiente de produção.
Papéis diferentes, porém complementares
Data Science e BI são ambas atividades dedicadas à geração de insights, embora interpretem papéis diferentes em prol desse objetivo. Elas podem se apoiar mutuamente e melhorar a si mesmas, aproveitando as habilidades e os recursos uma da outra. De acordo com Stefan van Duin e Bas Schmidt, a organização que busca ser orientada pelo insight precisa de ambas as ferramentas, Data Science e BI, para alcançar totalmente o valor de seus dados e se distinguir dos concorrentes.