As áreas de dados nas empresas são super novas e ainda não é tão simples entender e medir suas performances. Por isso, neste post apresentamos um scorecard voltado mais especificamente para a liderança dessas áreas, representada na figura do Chief Data Officer – CDO.
Desde o primeiro CDO nomeado em 2002, na Capital One, até a maioria das companhias que possuem CDOs hoje, os dados realmente se tornaram se ativos importantes em todos os mercados verticais. No entanto, a função do CDO não está bem definida e varia significativamente entre as empresas. No Brasil ela ainda engatinha e é comum que outros C-levels assumam a responsabilidade pela liderança da área – como o CTO [Chief Technology Officer], por exemplo.
Este movimento acompanha o cenário que surgiu a partir da quantidade crescente de dados combinada com a evolução da computação em nuvem, estruturas de processamento de Big Data e a democratização do Machine Learning. Estes são alguns dos fatores que estão impulsionando a transformação digital nas empresas, com os dados se consolidando como um ativo estratégico para tomada de decisões em praticamente quaisquer áreas, do marketing e vendas a gerenciamento de riscos e desempenho operacional.
CDO Scorecard
O CDO Scorecard é exibido a seguir. Antes de explicar os conceitos, é importante dizer que o peso das categorias pode variar entre as empresas. Além disso, embora o scorecard seja comum, os pesos das categorias individuais variam de acordo com as prioridades táticas e estratégicas da empresa em relação às necessidades de negócios, monetização de dados e estratégia de produto, maturidade dos processos de dados e cultura orientada a dados.
Construir uma plataforma de dados de autoatendimento
O CDO define a estratégia e a execução da plataforma de dados usada para coletar, preparar, construir e operacionalizar insights. A plataforma deve ser de autoatendimento para profissionais de marketing, gerentes de produto, analistas, cientistas de dados, engenheiros, entre outros.
Os principais pontos dentro desta categoria são:
-
Construir um ecossistema de data lake escalável e econômico para agregar dados estruturados, não estruturados e semiestruturados em toda a empresa;
-
Construir suporte para requisitos de processamento de consulta, desde retrospectiva, interativa, streaming até percepções preditivas;
-
Projetar a plataforma para ser de autoatendimento para diversos usuários de dados com diferentes experiências e habilidades – de profissionais que trabalha com planilhas do Excel a especialistas em consulta SQL e experts de programação em Big Data.
Agregar conjuntos de dados de alta qualidade
O CDO desempenha um papel fundamental na eliminação de silos de dados entre equipes e grupos de negócios para agregar os dados em um único repositório. Os principais marcos nesta categoria são:
-
Catalogar dados documentando a sintaxe e a semântica dos atributos de dados, além de catálogos de metadados, ferramentas de linhagem, etc.;
-
Simplificar o processo de preparação / transformação de dados, que envolve estruturar, limpar, enriquecer e validar os dados – um processo iterativo para selecionar erros, outliers, valores ausentes, imputação de valores, desequilíbrio de dados, codificação de dados, etc.
-
Monitoramento da qualidade do conjunto de dados conforme os dados são ingeridos de várias fontes internas e externas para datalake. Evitar que dados de baixa qualidade se misturem ao conjunto de dados existente é fundamental para garantir a qualidade geral.
Padronizar métricas de negócios e ativos de conhecimento
Criação de armazenamentos de recursos para padronizar os recursos em modelos de Machine Learning para acelerar a agilidade e a consistência. Isso também garante que o cálculo de recursos em treinamento e predição use uma definição comum. Com o tempo, isso reduz o custo de novos projetos de ML.
É importante também padronizar as definições de negócios das métricas centrais e garantir processos para controle de versão e governança de mudança para consistência, além de construir uma base de conhecimento de ativos de conhecimento reutilizáveis, como painéis de BI existentes, UDFs, ETLs, consultas ad-hoc, etc.
Governar e protejer os dados
As empresas são guardiãs dos dados dos clientes. Os CDOs precisam garantir o nível certo de proteção. Além disso, fazer cumprir o número crescente de regulamentações de dados de forma que o uso de dados esteja de acordo com as preferências do cliente, ficando atento a regulamentos como a LGPD e tomando cuidados éticos com IA, por exemplo, para que os dados estejam livres de preconceito e discriminação. Outra questão sensível é garantir a proteção dos dados, com autenticação, autorização, criptografia, auditoria proativa e alertas de última geração. Isso é especialmente crítico na nuvem, pois uma política de acesso incorreta pode tornar os dados disponíveis na Internet.
Democratizar Experimentações
Os CDOs conduzem a cultura de experimentação dentro da empresa. Os principais marcos nesta categoria são:
-
Escalonamento para executar milhares de experimentos simultaneamente, sem afetar a experiência do usuário;
-
Evangelizar a instrumentação do produto para coletar o fluxo de cliques e outras atividades comportamentais dos usuários online;
-
Reduzindo o tempo para analisar os resultados da experimentação. Este é um gargalo comum para interpretar corretamente os resultados dos dados.
Promover a alfabetização e uma cultura baseada em dados
Uma das principais funções do CDO é evangelizar o uso de dados para uma melhor tomada de decisão em todas as facetas do negócio. Frequentemente, há um palpite e os usuários procuram dados relevantes para validar. Em vez disso, orientado por dados significa estar realmente aberto para aprender com os dados.
Aqui, o essencial é aumentar a acessibilidade aos dados sem comprometer a governança e a segurança dos dados, além de possibilitar ferramentas aos usuários de dados, promovendo a democratização. Tudo isso exige a alfabetização em dados dentro da empresa, incluindo a compreensão de conjuntos de dados, interpretando o significado de diferentes métricas e como elas são calculadas, interpretando resultados, reconhecendo tendências em modelos e assim por diante.
Acompanhamento da saúde da empresa (o quê, por quê, como fazer)
Uma das principais funções do CDO é liderar a função de análise de dados para rastrear o estado dos negócios. Isso normalmente envolve a compreensão do que está acontecendo nos negócios, por que isso ocorre com base na correlação de várias tendências e como melhorar as métricas de negócios. Isso pode ser feito gerando métricas e painéis de saúde consistentes e oportunos e com pró-atividade na sinalização de problemas com base na detecção de tendências, mudanças nos padrões semanais e sazonais. A análise precisa ser acionável para a empresa em termos das próximas etapas.
Monetização de dados
Dependendo do tipo de vertical, os CDOs podem passar muito tempo nessa categoria. A monetização pode ser de diferentes formas – desde produtos de dados voltados para o cliente, venda explícita de dados, até o uso dos dados para explorar novas oportunidades de negócios.
Construindo a Estratégia de Ciência de Dados
Enquanto a análise se concentra na retrospectiva, a Data Science se concentra na análise preditiva. Os principais marcos nesta categoria são:
-
Construir uma equipe forte de cientistas de dados com experiência na aplicação de técnicas matemáticas, analíticas e de IA a problemas de negócios;
-
Simplificar a plataforma de ML para treinamento, ajuste, implantação e monitoramento do ciclo de vida do modelo de ML. Isso inclui a aplicação do rigor das práticas de engenharia de software aos modelos de ML que são uma combinação de código, configuração e dados;
-
Identificação de problemas de negócios viáveis para iniciativas de Ciência de Dados. Hoje, a grande maioria dos projetos de Data Science nunca são implantados em produção.
Gerenciando orçamentos e SLAs operacionais
Os CDOs são essenciais para garantir que os relatórios de negócios sejam atualizados dentro dos SLAs. Com as empresas migrando para a nuvem, o gerenciamento de orçamentos é ainda mais crítico, devido ao custo linear ilimitado dos modelos de pagamento conforme o uso.
Importante atentar aqui para a implementação de ferramentas de otimização para desempenho de consulta, análise de causa raiz, análise de custo, entre outros e monitorar a pontualidade de pipelines de dados e painéis de negócios e lidar com as atualizaçõe do modelo de ML para atender às necessidades de negócios.
Por fim, dado o escopo abrangente e crucial das atividades relacionadas a dados no processo de transformação digital, é fundamental para os CDOs e líderes de dados alinharem seus recursos e esforços com as categorias mais críticas para os negócios