fbpx

O Produto Mínimo Viável – MVP – para Dados

 


just start.png

Neste post contamos os benefícios de aplicar o conceito de MVP em Ciência de Dados e como fazer isso. Em essência, trata-se de começar pequeno e depois alavancar o que deu certo, mas não existem atalhos fáceis nesse processo

 

No desenvolvimento de software, criar um MVP [Mínimo Produto Viável] é uma parte comum do ciclo de desenvolvimento. É uma forma de explorar um mercado e aprender sobre os desafios relacionados ao produto, mas usando o mínimo possível de recursos – leia-se tempo e dinheiro. 

E o mesmo raciocínio que é aplicado a startups faz muito sentido no campo de data science. Pense no desenvolvimento de um algoritmo com base em modelos preditivos. Se a fraqueza do modelo se originar da má qualidade dos dados, todos os investimentos posteriores para melhorar o modelo estarão na rota do fracasso, não importa a quantidade de dinheiro investido. Da mesma forma, se o modelo apresentar desempenho inferior porque não foi implantado ou monitorado corretamente, todo dinheiro gasto na melhoria da qualidade dos dados também será desperdiçado.

As equipes de desenvolvimento podem evitar essas armadilhas desenvolvendo primeiro um MVP e aprendendo com as tentativas fracassadas.

MVP: a origem do conceito

O conceito de MVP foi popularizado por Eric Ries, em seu livro A Startup Enxuta. É a metodologia mais utilizada atualmente para o desenvolvimento de novos negócios ou produtos nas áreas de tecnologia. Sua ideia central é que, ao construir produtos ou serviços iterativamente – integrando constantemente o feedback do cliente – é possível reduzir o risco de investir muitos recursos em algo com muita chance de fracassar. O MVP permite coletar o máximo de aprendizado validado sobre os clientes com o mínimo esforço possível. É um constante ciclo ‘construir-medir-aprender’.

Um exemplo bem conhecido é o Airbnb. Em 2007, Brian Chesky e Joe Gebbia queriam começar seu próprio negócio, mas também não tinham dinheiro para se manter pagando o aluguel em San Francisco. Ao mesmo tempo, havia uma conferência de design chegando à cidade. Eles decidiram alugar sua casa para participantes da conferência que não encontraram um hotel nas proximidades. O que eles fizeram foi tirar fotos de seu apartamento, anunciar em um site simples e logo eles tiveram três convidados pagantes durante a conferência. Esse pequeno teste forneceu informações valiosas de que as pessoas estariam dispostas a pagar para ficar na casa de outra pessoa, em vez de em um hotel, e que não apenas recém-formados se inscreveriam. Depois eles começaram o Airbnb e o resto é história.


O site do Airbnb em 2008, quando se chamava AirBed&Breakfast

O site do Airbnb em 2008, quando se chamava AirBed&Breakfast

MVP aplicado a ciência de dados

Em um projeto de data science, o tempo é um componente crítico por vários motivos. Aguardar muito para colocar em operação um sistema de Machine Learning ou alimentado por Inteligência Artificial pode dar espaço para os concorrentes chegarem com a mesma proposta de valor. E também porque os projetos de dados levam tempo para ser desenvolvidos e aperfeiçoados. E, como a maioria dos produtos, aliás, não ficam 100% corretos na primeira tentativa. Como os dados são de natureza dinâmica e fluída – principalmente os do comportamento de pessoas ou usuários – o aperfeiçoamento não pode acontecer em uma área restrita ou ambiente de design, como uma Sandbox. Precisa acontecer em tempo real e com dados reais.

É por isso que os projetos de dados se encaixam bem na metodologia MVP. Se a melhor maneira de ver o desempenho de um modelo é na produção, isso significa que a chave para projetos de dados bem-sucedidos é colocar os modelos em produção antecipadamente, ajustar e enviar novos modelos com frequência.


mvp-dados.jpg

Os princípios do MVP para projetos de dados

Existem alguns princípios-chave do mindset MVP que se aplicam bem para utilização nos projetos de dados, especialmente nos primeiros projetos de dados:

Ficar atento a casos de uso concretos

É fácil se empolgar quando se trata de iniciativas de dados, comprando todas as melhores e mais recentes tecnologias de imediato e descobrindo como usá-las mais tarde. Dessa forma, um risco é acabar com muitas ferramentas sofisticadas – para não dizer caras – que não são utilizáveis na prática. Portanto, antes mesmo de falar sobre projetos de dados, é bom pensar em MVP também em termos de equipe e infraestrutura. Um dos objetivos do MVP é ser capaz de testar uma hipótese com recursos mínimos, o que significa não fazer grandes investimentos em infraestrutura até que estejam claras quais são as necessidades de um projeto específico.

Começar pequeno e simples, depois trabalhar para uma visão mais ampla

A diretriz de executivos de uma equipe de dados pode ser lançar, por exemplo, a otimização de preços em tempo real em toda a empresa. Essa é uma tarefa difícil que levará muito tempo para ser construída completamente e, mesmo quando concluída, pode não funcionar como esperado em um ambiente real. Em vez disso, cabe o questionamento: como o projeto de dados pode ser dividido em partes menores, executado como um MVP e depois se expandir para atender às metas maiores?


mvp-rosquinha.jpg

Teste A/B em produção

O objetivo do teste A/B de diferentes modelos é ser capaz de avalia-los em paralelo e, em seguida, comparar o desempenho esperado do modelo com os resultados reais. Esta é uma maneira rápida de testar várias abordagens do MVP para obter uma visão mais ampla com mais rapidez. No entanto, o teste offline não é suficiente para validar o desempenho de um produto de dados. Em casos como pontuação de crédito e detecção de fraude, por exemplo, apenas testes do mundo real podem fornecer a saída de dados necessária. Os testes offline não vão conseguir transmitir eventos em tempo real, como autorizações de crédito, ou de dar conta de problemas mais complexos, como a oferta de crédito estar alinhada á capacidade de reembolso do cliente.


ROI em Machine Learning

Iniciativas de aprendizado de máquina requerem um enorme trabalho, como o design de novos pipelines de dados, estruturas de gerenciamento e sistemas de monitoramento. Isso causa uma curva de retorno do investimento em forma de ‘S’, a que a maioria dos líderes de tecnologia não está acostumada. Os líderes da empresa que não entendem que esse ROI em forma de S é inerente aos projetos de aprendizado de máquina podem abandonar os projetos de forma prematura, considerando um fracasso.


A curva de retorno do investimento das iniciativas de aprendizado de máquina mostra uma curva S em comparação com os projetos de desenvolvimento de software tradicionais, que têm um ROI mais linear.Extraído de: https://venturebeat.com/2018/11/24/bef…

A curva de retorno do investimento das iniciativas de aprendizado de máquina mostra uma curva S em comparação com os projetos de desenvolvimento de software tradicionais, que têm um ROI mais linear.

Extraído de: https://venturebeat.com/2018/11/24/before-you-launch-your-machine-learning-model-start-with-an-mvp/

O encerramento prematuro de um projeto acontece na fase de “construção dos alicerces” da curva de ROI e muitas organizações nunca permitem que suas equipes avancem o suficiente para as fases seguintes.

Modelos reprovados oferecem boas lições

Identificar possíveis deficiências com antecedência é ainda mais importante com produtos de dados. Porque as causas básicas para um sistema de recomendação abaixo da média, por exemplo, podem ser de diversas naturezas: escolhas da tecnologia, qualidade/quantidade dos dados, desempenho de modelo, integrações, entre outros.

Para ilustrar: imagine que um modelo de machine learning foi lançado e fracassou no mercado porque seu algoritmo de coleta não conseguia identificar e barrar dados de baixa qualidade. Aconteceu o pior: a empresa perdeu clientes para a concorrência e teve que não apenas corrigir o processo de coleta de dados, mas também refazer todas as etapas subsequentes, incluindo o desenvolvimento do modelo. Isso resultou em investimentos em tecnologias erradas e em seis meses de ‘pagamentos por hora’ para uma equipe de 10 engenheiros e cientistas de dados. Isso também levou à demissão de vários membros-chave dessa equipe. Cada funcionário que partiu custa R$ 70.000 por pessoa para substituir. E tudo isso teria sido evitado se o MVP do modelo tivesse sido lançado para testar apenas o algoritmo de coleta de dados. Tendo detectado o problema mais cedo, grande parte de todo esse problema teria sido evitado.

Outro ponto importante nesse contexto são os testes A/B, particularmente relevantes para produtos de aprendizado de máquina, já que costumam ser desenvolvidos com base em métricas teóricas que nem sempre são tão relacionadas ao sucesso na vida real. No entanto, muitas empresas usam testes A/B para identificar os pontos fracos de seus algoritmos. Ao usá-los como um ponto de verificação de garantia de qualidade (QA), se perde a oportunidade de interromper os modelos e sistemas mal desenvolvidos antes de enviar um protótipo para produção. 

Para obter as maiores chances de sucesso, é preciso testar os modelos de Machine Learning com um MVP e investir o tempo e dinheiro necessários para diagnosticar e corrigir seus pontos fracos logo no começo. Em essência, trata-se apenas de começar pequeno e depois alavancar o que deu certo. Não existem atalhos fáceis nesse processo.