Data Science é um dos quatro pilares da fintech que multiplicou de tamanho em sete anos. Formação de equipes, infraestrutura tecnológica, acesso liberado a dados, práticas de governança e aplicações concretas são alguns destaques da cultura data-driven do Nubank
Grande expoente das fintechs nos últimos anos, o Nubank causou uma grande disrupção no mercado financeiro e, como não poderia deixar de ser, formatado sobre uma forte cultura data-driven. Na realidade, se conceitua como uma empresa de tecnologia que, por acaso, possui um cartão de crédito e serviços financeiros.
Neste post vamos contar como a Ciência de Dados atua no dia-a-dia do Nubank, com base em conteúdos compartilhados abertamente pela empresa em seu blog e canal do YouTube exclusivos da área.
Data Science como pilar
O Nubank baseia a sua cultura interna em quatro pilares. O que chama a atenção é que um deles é a própria Ciência de Dados:
-
Tecnologia
Desenvolvem a própria tecnologia com linguagens funcionais e projetos de código aberto -
Projeto
Questionam a complexidade dos serviços financeiros tradicionais para inovar e melhorar -
Ciência de Dados
Testam ideias e aprendem rapidamente, usando modelos e tomando decisões com base em dados -
Experiência do Cliente
Querem tornar a vida dos clientes o mais fácil possível com foco na resolução de problemas
Mais do que um diferencial competitivo ou um setor que agrega valor dentro da instituição, a Ciência de Dados é uma prerrogativa para a empresa existir. Os modelos de ciência de dados têm tomado decisões automatizadas desde o início da empresa. Isso se evidencia na forma como ela se organiza e por diversas iniciativas internas, pois há infraestrutura e plataforma de dados que permitem que qualquer Nubanker manipule os dados como fazer mais sentido para o seu trabalho.
A formação das equipes
Em um meetup da empresa, o cientista de dados do Nubank, Luis Moneda, contou como se estruturam as equipes de Dados. Elas são formadas pelas funções de Data Analyst e Data Engineer, mais responsáveis pela infraestrutura de dados (esses são, em sua maioria, locados em Berlim, na Alemanha); Machine Learning Engineer, mais preocupados em colocar os modelos em produção e escalar, colocando bastante a mão-na-massa no código, e cerca de 50 Data Scientists, que recebem problemas únicos e se preocupam em fornecer os insights mais precisos para a tomada de decisão, construindo os modelos preditivos; e há os Business Analysts e Financial Analysts, funções mais voltadas às áreas de negócios e financeiras – sempre baseada em dados, é claro.
Há rituais internos criados para compartilhar conhecimento e enriquecer o trabalho, como o Design Review, que serve para compartilhar projetos com profissionais de outras equipes a cada duas ou três semanas a fim de receber feedbacks e insights, tornando o processo mais colaborativo.
A integração com negócios
Houve um tempo em que os Cientistas de Dados do Nubank trabalhavam mais juntos em seu próprio squad, ficando mais longe dos analistas de negócios. Porém, após algumas experiências negativas, os squads se tornaram multidisciplinares. O que acontecia era que as áreas interagiam pouco e os Cientistas de Dados criavam modelos que os Analistas de Negócios não utilizavam porque não faziam sentidos para suas análises e não influenciava de forma vantajosa na tomada de decisão, como um modelo anti-fraude, por exemplo.
Agora os profissionais estão juntos na mesma equipe e podem conversar melhor e checar se os modelos que estão criando ou querem criar são relevantes para o negócio. É um trabalho focado em resolver problemas como a análise de crédito, por exemplo, buscando a melhor forma de utilizar dados para tomar decisões assertivas e que gerem impacto na empresa.
Mas como esse time atua na prática? Eles operam, por exemplo, na tomada de decisão de quem vai ter o cartão de crédito aprovado ou não na abertura da conta, após a solicitação inicial dos aspirantes a clientes.
O que acontece é que, para qualquer negócio envolvendo cartão de crédito ser sustentável, depende de um bom gerenciamento de risco. Ao submeter as informações de solicitação do cartão, o usuário tem a resposta da solicitação em poucos minutos. O que acontece nesse intervalo de tempo? Bem, hoje de forma automatizada graças ao trabalho das equipes, o sistema do Nubank busca dados externos no mercado e informações de cadastro preenchidas, cruza os dados e atribui um score de, por exemplo: 827 pontos. O que significa esse score? Ele é comparado com os scores de todos os outros clientes para checar a probabilidade dele ser um bom pagador e ter seu crédito aprovado.
Nesta altura, acontece uma análise de cluster, onde são aproximados em um conjunto os usuários de score semelhantes, da pontuação 810 a 840, por exemplo, e através de seu histórico no Nubank, é feita uma análise de risco preditiva a respeito do futuro daquele cliente dentro da instituição
Depois de se tornar um cliente, são levadas em consideração outras questões, como quantidade de gastos, se convidou mais pessoas para abrir a conta, se tem parcelas futuras a vencer, se fez compras internacionais, se atrasou parcelas ou pagou somente o mínimo, etc.
Esses dados ajudam a reduzir os graus de incerteza considerando o longo-prazo do cliente, se ela tende ficar um bom tempo sendo rentável para o Nubank. Quando mais tempo a cliente fica e interage, mais dados se tem sobre ele e mais personalizável podem ser as ações da empresa, como aumentar o limite de conta, por exemplo.
Práticas de governança de dados
O gigantesco crescimento do Nubank, que em 7 anos conquistou 25 milhões de clientes, foi um desafio em termos de organização de pessoas (são mais de 100 equipes autônomas) e de arquitetura e engenharia (mais de 500 microsserviços). Isso significa equipes multifuncionais focadas em um projeto ou objetivo específico da empresa, juntamente com algumas equipes centrais horizontais.
Ariane Hoffenberg, Analytics Productivity Squad Lead, conta que o Horizontal Data Team se concentra em democratizar o acesso aos dados por meio da implementação de infraestrutura de fluxos de dados (ETL), integração com ferramentas de BI e reforço da proteção da privacidade dos dados. No entanto, como cada squad tem liberdade para criar suas próprias tabelas, análises e modelos de ciência de dados, a qualidade dos dados varia muito. Assim, fica responsável pela execução do processo de Extract, Transform, Load, para transferir dados dos microsserviços de produção para o Data Lake e Data Warehouse. Porém, qualquer squad pode adicionar uma nova fonte de dados ao ETL, ou uma nova tabela, apenas usando as ferramentas de autoatendimento desenvolvidas internamente.
O destaque aqui é que os centenas de analistas das equipes sabem como escrever SQL, Scala, usar Git e escrever testes para suas transformações. A intenção dessa democratização é para que todos possam contribuir com pouco atrito.
A equipe de Produtividade Analítica da qual Ariane é líder foi criada em janeiro de 2020, quando a organização percebeu que poderia aumentar a eficiência, consistência e compreensão da análise de dados se coordenasse a qualidade dos dados em uma equipe central. Afinal, a verificação da qualidade dos dados tornou-se cada vez mais demorada conforme cresciam a quantidade de dados gerados e transformados.
São cerca de 20 mil tabelas de dados brutos com a diversificação dos produtos financeiros oferecidos, de cartão de crédito até pontos de recompensa e empréstimos e mais cerca de 10 mil tabelas transformadas com o número crescente de contribuintes (mais de 500, entre os quais engenheiros analíticos, analistas, engenheiros de dados e cientistas de dados).
Conforme a nova equipe de Produtividade Analítica assumiu a propriedade da qualidade dos dados para a empresa, ela abordou a organização do data warehouse juntamente com um conjunto de regras (convenções de nomenclatura, requisitos de documentação), processos (contribuição e manutenção) e iniciativas de comunicação.
Os princípios para a qualidade dos dados definidos pela equipe são:
-
Os dados devem ser precisos (ou tão precisos quanto possível) e mantidos para permanecerem precisos.
-
As métricas devem ter convenções e definições de nomenclatura coerentes e consistentes em todas as tabelas dessa camada.
-
Qualquer Nubanker deve encontrar e usar a fonte da verdade, dados “mestres” para os principais objetos e processos de negócios.
-
As tabelas são calculadas com base em dados brutos ou outros conjuntos de dados principais para garantir que a precisão seja mantida.
-
Com cada tabela sempre existe uma documentação atualizada para garantir que seus consumidores entendam o conteúdo de forma rápida.
“A estrutura de dados principais é uma forma de separar uma categoria de tabelas que seguem um conjunto rígido de regras e implementar processos para garantir que sejam mantidos ao longo do tempo e que a contribuição mantenha um ritmo que siga nossas novas necessidades de dados. A comunicação também é fundamental em toda a empresa para garantir que a iniciativa seja compreendida e conhecida”, finaliza Ariane.