Como a ciência de dados deu um boom no Shopify

 


shopify3.png

Com um ritmo de crescimento turbinado pela digitalização das vendas durante pandemia, a equipe de dados da plataforma compartilha os principais eixos de sua cultura data-driven.

 

A canadense Shopify, plataforma de comércio eletrônico atuante em 175 países, cresceu mais de 120% durante a pandemia de Covid-19, acompanhando o movimento dos lojistas que migraram para as vendas online. Hoje, avaliada em mais de US$ 100 bilhões, tornou-se a companhia mais valiosa do Canadá, com promessa de aumentar 75% ao ano nos próximos cinco anos – a ponto de ameaçar a soberania da Amazon. A equipe de profissionais de Dados foi uma das mais impactadas e requisitadas pela empresa para acompanhar tamanho crescimento.

Esse trabalho inclui testes de unidade em cada trabalho de pipeline de dados, capacidade de consulta de dados em toda a empresa, um sistema rigoroso de modelagem e proteção de dados que verifica cada entrada e saída das transações online.

Em um episódio do podcast do Towards Data Science, a chefe de ciência e engenharia de dados, Solmaz Shahalizadeh, contou que um ponto crucial tem sido a integração vertical da ciência de dados com o produto, pois um único cientista de dados é encarregado da limpeza de dados, da construção de modelos e de todas as etapas envolvidas na implantação do aprendizado de máquina em produção. Assim, eles conseguem tirar proveito de todos os insights de ponta a ponta.

Outro aprendizado citado por Solmaz é a de que modelos complexos nem sempre são a melhor solução. Em um contexto onde a confiabilidade das previsões é fator fundamental, já que as vendas dos comerciantes depende disso, modelos simples e facilmente interpretáveis são geralmente os melhores. Isso não quer dizer que o Shopify não faça aprendizado profundo ou ML de ponta – mas não é a primeira escolha deles. O pensamento aqui é: por que construir um modelo sofisticado com muitas partes móveis quando um simples – ou mesmo um sistema baseado em regras – vai servir?


Imagem da Shopify

Imagem da Shopify

A empresa possui um blog exclusivo sobre Ciência de Dados, onde compartilha um post mensal com insights sobre o assunto. Em um deles, Marc-Olivier Arsenault, gerente de ciência de dados, descreveu 10 princípios básicos de engenharia e ciência de dados da empresa. Abaixo listamos as principais lições mais relevantes:

Dados modelados

Na Shopify, cada profissional da área de Dados segue os princípios contidos no livro The Data Warehouse Toolkit de Ralph Kimball. A obra se concentra em esquemas de dados e melhores práticas para modelagem dimensional e é nela que a equipe se baseia para construir o data warehouse da empresa. Ele responde a perguntas como: “Como você deve projetar suas tabelas para que possam ser facilmente unidas?” ou “Qual tabela faz mais sentido para abrigar uma determinada coluna?”.

Basicamente, ele explica como pegar dados brutos e colocá-los em um formato que pode ser consultado por qualquer pessoa e permitindo navegar facilmente por modelos de dados produzidos por outra equipe – “sem nulos sorrateiros destruindo silenciosamente as linhas após a união”, exemplifica Arsenault.

 

Consistência de dados e acesso aberto

A Shopify utiliza uma única plataforma de modelagem de dados, construída sobre o Spark em um único repositório GitHub que todos podem acessar. Qualquer profissional pode, simplesmente, escolher um nome de tabela e ver 100% do código que construiu o modelo. Essa abertura e consistência tornam as coisas escaláveis, deixando os dados facilmente detectáveis e democratizando a utilização dos dados para que todos possam obter vantagens deles em suas posições.

ETL rigoroso (extrair, transformar, carregar)

Arsenault destaca que todas as situações possíveis são testadas: erros, casos extremos, etc. e, embora isso possa atrasar um pouco o desenvolvimento, evita muitas armadilhas e também garante que o pipeline de dados não permita que as tarefas falhem em silêncio, confiando que os dados são consistentemente atualizados e precisos.

 

Painéis controlados

A Shopify possui um mecanismo de visualização principal. Todos os relatórios finalizados são centralizados em um site interno. Isso aumenta a velocidade de descoberta de novos insights e diminui o retrabalho, pois é possível ver tudo o que já foi publicado pelos colegas e muitas métricas importantes estão acessíveis a poucos cliques. E o código base de cada painel é centralizado, então já é um ótimo ponto de partida para novos projetos.

Tudo é revisado duas vezes

Todo o trabalho dos cientistas de dados são revisado por pares, geralmente por pelo menos dois outros cientistas de dados. Dashboards, pontos de dados controlados, modelos dimensionais, testes de unidade, extração de dados, etc., é tudo revisado. Quando o trabalho integra mais de uma equipe, são envolvidos revisores de ambas as equipes. Quando envolvem dados brutos, os desenvolvedores fazem a revisão. Isso implica em um alto nível de confiança nos dados da empresa e uma boa qualidade geral das saídas de dados.


Imagem do escritório da Shopify em Ottawa, Canadá

Imagem do escritório da Shopify em Ottawa, Canadá

Cultura forte de dados

A Shopify construiu uma forte cultura data-driven envolvendo todas as partes da organização e compartilhar essas práticas são muito valiosas para quem quiser seguir os mesmos passos. Ninguém na equipe de dados da empresa precisa começar do zero. Anos de trabalho com dados são aproveitados para descobrir insights valiosos, onde alguns são obtidos de painéis existentes e pontos de dados verificados e, em outros casos, os dados modelados permitem calcular novas métricas com menos de 50 linhas de SQL.

“O Shopify não é perfeito. No entanto, nossa ênfase em fundamentos e construção de longo prazo está valendo a pena. A cultura de compartilhamento de dados, colaboração e tomada de decisão informada garante que esses insights se transformem em ação. Estou orgulhoso de que nosso investimento em fundações está impactando positivamente a equipe de dados e nossos comerciantes”, conclui o gerente de ciência de dados, Marc-Olivier Arsenault.