Métodos para que a tomada de decisões data-driven seja assertiva e como faz a Netflix
Em qualquer negócio, tomar decisões é extremamente fácil. O difícil é tomar as decisões certas. Ou melhor, ter certeza de que essas decisões realmente estão proporcionando uma melhor experiência para seus usuários e clientes. Que aquilo que foi pensado em teoria realmente se aplica na prática. E uma boa forma de alcançar isso é basear as decisões de sua empresa em dados. Contudo, como ter confiança de que esses dados realmente levarão para o melhor caminho?
Para tornarmos nosso raciocínio mais claro, tomaremos como exemplo uma gigante do universo streaming, e também uma das marcas mais consolidadas no mercado de entretenimento atualmente: a Netflix. De acordo com um conteúdo dividido em cinco partes e divulgado no blog da empresa, existem diversas maneiras pelas quais a Netflix pode basear suas decisões. Seja através do consenso entre seus líderes, da contratação de especialistas em design, gerenciamento de produtos, UX, etc., ou a partir de um debate interno entre diferentes times, permitindo que variados pontos de vista sejam adicionados à questão.
O problema é que, em cada um desses métodos de tomada de decisão, um número sempre limitado de perspectivas acaba tornando difícil saber se a decisão é realmente a mais acertada. Além disso, esses paradigmas não fornecem uma maneira sistemática de tomar decisões ou resolver pontos de vista conflitantes. Por isso, a empresa encontrou uma forma mais específica de melhorar suas tomadas de decisão: o uso de testes A/B.
O problema, novamente, é que nem sempre o resultado de um teste A/B é um reflexo fiel da realidade. E, por isso, é preciso primeiro definir um método de obtenção e análise desses dados. E a partir daí criar confiança no uso dos resultados obtidos para encontrar as melhores soluções. A seguir, veremos um pouco melhor como esse processo é feito dentro da empresa.
Testes A/B e a jornada até o processo de tomada de decisão
Em primeiro lugar, é preciso entender a importância de definir a taxa de obtenção de falsos positivos, e então projetar um experimento que possa detectar resultados verdadeiros de magnitudes razoáveis e significativas. Ou seja, separar aquilo que aparentemente funciona daquilo que funciona de fato. De acordo com a empresa, tais conceitos auxiliam a reduzir e entender as taxas de erro, e consequentemente tomar boas decisões, mesmo diante da incerteza.
Portanto, uma maneira prática de avaliar as evidências em relação aos dados é construir uma visão sólida em relação à experiência do novo produto: afinal, há evidências suficientes para concluir, mesmo com certa porcentagem de incerteza, que de fato existe um efeito verdadeiro e que beneficie os usuários? Para chegar a essa conclusão, é necessário fazer algumas perguntas úteis, que podem ajudar a interpretar os resultados obtidos. Vamos a elas.
Os resultados estão de acordo com a hipótese?
O primeiro ponto é conferir se o resultado faz sentido com a hipótese inicial. Por exemplo, se a hipótese fosse sobre otimizar recursos de computação para infraestrutura de back-end, e os resultados demonstrassem um aumento importante e estatisticamente significativo na satisfação do usuário, ainda seria possível estar diante de um falso positivo. Ou, quem sabe, de um bug ou um erro na execução do experimento. Isso porque, apesar de às vezes resultados surpreendentes estarem corretos, eles também podem ser o resultado de algum erro de implementação.
A história da métrica se encaixa?
Quando falamos sobre testes A/B, é importante descrever o mecanismo causal pelo qual uma mudança feita no produto impacta tanto as métricas secundárias quanto a métrica de decisão primária especificada para o teste. Dessa forma, ao avaliar os resultados do teste, é importante observar as alterações nessas métricas secundárias, para avaliar se alguma alteração na métrica primária segue a cadeia causal hipotética.
No caso da Netflix, no experimento de seu Top 10 de mais assistidos, foi verificado se a inclusão na lista Top 10 aumenta o engajamento no nível do título em questão, e se os membros realmente estão encontrando mais títulos que assistem na página inicial do que em outras áreas do produto. Portanto, o aumento do envolvimento com os 10 melhores títulos vindos da página inicial ajudariam a aumentar a confiança de que é, de fato, a lista dos 10 melhores que está aumentando a satisfação geral dos membros.
Por outro lado, se a principal métrica de satisfação dos membros estivesse no Top 10, mas a análise não demonstrasse um aumento no engajamento, talvez o resultado não seja o que esperado, e a lista Top 10 não tenha se concretizado como uma boa experiência para os usuários.
Há evidências adicionais de apoio ou refutação?
Ao analisar dados recolhidos a partir de testes A/B, é comum encontrar variações de uma ideia em um único experimento. Por exemplo, na experiência do Top 10 da Netflix, foi possível testar diferentes variantes de design, além de várias maneiras diferentes de posicionar a linha Top 10 na página inicial. Se a experiência do Top 10 for ótima para os assinantes da Netflix, esperamos ver ganhos semelhantes nas métricas primárias e secundárias em muitas dessas variantes. Alguns designs podem ser melhores que outros, mas ver resultados amplamente consistentes em ambas as variantes sinaliza as chances de construir uma experiência melhor. Se, por outro lado, fossem testadas 20 variantes de design e posicionamento, e apenas uma produzisse um movimento significativo na métrica de decisão primária, seria preciso desconfiar dos resultados.
Os resultados se repetem?
Por fim, a maneira mais segura de construir confiança para tomar decisões a partir destes dados é conferir se os resultados se repetem em diferentes testes. Se os resultados de um teste A/B inicial forem sugestivos, mas não conclusivos, o ideal é realizar um teste de acompanhamento, com a intenção de aprimorar a hipótese com base nos aprendizados gerados no primeiro teste. Novamente, no caso do Top 10 da Netflix, a empresa observou que certas escolhas de design e posicionamento geralmente levavam a movimentos métricos positivos. O passo seguinte foi refinar essas variantes e executar um novo teste, para testar se o resultado positivo se repetiria.
Consideremos o exemplo de uma moeda jogada para cima. Sabemos que a probabilidade de o resultado ser cara ou coroa não é de 50%. Por isso, tomar decisões com base em um único teste não seria confiável. Portanto, para decidir se a moeda é justa, seria preciso jogá-la 100 vezes e calcular a fração de resultados obtidos. Por conta da aleatoriedade, ou “ruído”, mesmo se a moeda fosse perfeitamente justa, não esperaríamos exatamente 50 caras e 50 coroas, certo? Mas… quanto de um desvio de 50% é “demais”? O quanto é aceitável? É esta a pergunta que precisa ser feita.
Conectando resultados com a teoria da decisão
Além disso tudo, é preciso entender que, na prática, cada pessoa pode interpretar os resultados de um teste de forma diferente, e tomar uma decisão diferente. Isso porque, além dos dados, cada indivíduo traz, muitas vezes de forma implícita, informações prévias baseadas em suas experiências anteriores com testes A/B semelhantes. Por isso é tão importante formalizar essas análises sobre riscos e benefícios estimados usando uma metodologia. Uma bem conhecida é a Teoria de Decisão Bayesiana, por exemplo, através do Teorema de Bayes.
Na prática, a teoria da decisão combina resultados estatísticos com tomada de decisão e, portanto, é uma alternativa atraente para abordagens baseadas em dados no momento da tomada de decisão. No entanto, as abordagens da teoria da decisão podem ser difíceis de generalizar em um grande número de experimentos.
Outro desafio na interpretação dos resultados do teste A/B é racionalizar esses resultados através dos movimentos de múltiplas métricas, tanto primárias quanto secundárias. O desafio aqui é que as próprias métricas geralmente são independentes – ou seja, podem se mover na mesma direção ou em direções opostas. Portanto, o ideal é aplicar conceitos mais avançados de inferência estatística e teoria da decisão, a exemplo da inferência Bayesiana.
Para concluir
Por fim, é preciso ressaltar que diferentes tipos de experimentos garantem diferentes níveis de julgamento humano no processo de tomada de decisão. Nem sempre o teste A/B pode ser útil para o processo de tomada de decisão. Contudo, ele pode ajudar sua empresa em diversas situações.
Fica claro que a tomada de decisões sob incerteza, incluindo a atuação em resultados de testes A/B, é complexa, e nem sempre é simples aplicar corretamente as ferramentas disponíveis. Mas essas ferramentas vêm se mostrando essenciais no dia a dia das empresas, e resistindo ao teste do tempo, conquistando cada vez mais a confiança de gestores, cientistas de dados e programadores de diferentes empresas. O uso desses testes, da forma correta, é ferramenta importante e essencial para uma melhor análise do seu negócio, e não deve ser deixado de lado.
Enfim, é importante entender a importância de compartilhar e debater publicamente os resultados destes testes com toda a equipe, possibilitando análises mais amplas e pontos de vistas diferenciados, para tirar o melhor da combinação entre captação de dados e julgamento humano. Apenas assim, através de método, experimentação, confirmação e transparência, será possível chegar a um grau de confiança no uso de dados que realmente beneficie sua empresa.