Quantos dados são necessários para criar um modelo de aprendizado de máquina que atinja uma boa acurácia preditiva? Bem, podemos ser tentados a dizer que o máximo possível de dados disponível, ou seja, quanto mais dados melhor. Mas há uma teoria chamada princípio da parcimônia que mostra que a história não é bem assim.
A parcimônia é um conceito útil que pode ajudar a orientar o raciocínio e a tomada de decisão em vários cenários. O conceito sugere que, com todas as opções sendo parecidas, é melhor ficar com a explicação mais simples possível para um fenômeno ou a solução mais simples possível para um problema.
A parcimônia na ciência de dados
Modelos parcimoniosos são simples e com grande poder preditivo explicativo. Eles explicam os dados com um número mínimo de parâmetros ou variáveis preditoras. A ideia por trás dos modelos parcimoniosos deriva da navalha de Occam, ou “a lei da brevidade”. A lei alega que não devemos usar mais “coisas” do que o necessário. No caso de modelos parcimoniosos, essas “coisas” são os parâmetros. Modelos parcimoniosos têm parcimônia ideal ou apenas a quantidade certa de variáveis necessárias para explicar bem o modelo.
Geralmente, há uma compensação entre qualidade de ajuste e parcimônia: modelos de baixa parcimônia (ou seja, modelos com muitos parâmetros) tendem a ter um melhor ajuste do que modelos de alta parcimônia. Adicionar mais parâmetros geralmente resulta em um bom ajuste do modelo para os dados disponíveis, mas esse mesmo modelo provavelmente será inútil para prever outros conjuntos de dados.
Ou seja: complexidade não significa qualidade. O modelo que tem poucos parâmetros, mas atinge um nível satisfatório de qualidade de ajuste, deve ser preferido em vez de um modelo que tem uma tonelada de parâmetros e atinge apenas um nível ligeiramente mais alto de qualidade de ajuste.
Há duas razões para isso:
Modelos parcimoniosos são mais fáceis de interpretar e entender;
Modelos parcimoniosos tendem a ter mais capacidade de previsão. Com menos parâmetros, tendem a ter melhor desempenho quando aplicados a novos dados.
Importante não deixar de destacar algo bem importante: sem dados de alta qualidade, a construção de modelos se torna apenas vaidade. Logo, não confunda simplicidade e parcimônia com baixa qualidade de dados.
Um exemplo visual de parcimônia
Vamos considerar os três gráficos a seguir. Todos eles compartilham os mesmos dados originais (os pontos cinza), mas cada um contém um modelo diferente (a linha azul), que é usado para explicar esses dados:
O primeiro gráfico (à esquerda) é um exemplo de explicação não parcimoniosa. Esta explicação é ajustada demais para os pontos de dados particulares que foram coletados nesta situação específica, o que significa que, embora explique esses pontos de dados, não captura com precisão o fenômeno geral subjacente que é responsável por eles, que é o que se destina a capturar.
O segundo gráfico (no meio) é um exemplo de uma explicação adequada e parcimoniosa. Esta explicação captura com precisão o fenômeno subjacente que é responsável por esses pontos de dados específicos, de uma maneira generalizável.
O terceiro gráfico (à direita) é um exemplo de explicação excessivamente parcimoniosa. Essa explicação é inadequada, o que significa que é tão simples que não consegue capturar com precisão o fenômeno subjacente.
No geral, este exemplo ilustra a importância de escolher explicações parcimoniosas, que capturam com precisão o fenômeno em questão de uma maneira generalizável.
Como a Netflix lidou com a parcimônia vs. acurácia
A Netflix passou por um episódio que retrata bem esse paralelo entre parcimônia e acurácia. Em 2006, a empresa lançou um concurso aberto que premiaria com US$ 1 milhão o grupo que chegasse mais próximo de melhorar seu sistema de recomendação de filmes e séries em 10%. O objetivo era reduzir o erro quadrático médio de 0,9525 para 0,8527 ou menos. Após um ano de competição, o erro quadrático médio foi melhorado em 8,43% e um modelo com uma combinação final de 107 algoritmos foi desenvolvido para esse sistema de recomendação. Dois anos depois, a marca mágica de 10% foi quebrada.
No entanto, a Netflix analisou alguns dos métodos usados para o modelo que reduziram o erro quadrático médio abaixo de 0,8527 e concluiu que os ganhos adicionais de precisão não justificaram o esforço, tempo e recursos de engenharia necessários para trazer os métodos para um ambiente de produção. Portanto, a Netflix escolheu outro modelo para implementar, que era menos preciso, mas mais parcimonioso.
Em outras palavras, podemos dizer que aumentar ou não a complexidade para obter precisão adicional não é uma decisão de ciência de dados, é uma decisão de negócios.
A importância da parcimônia versus acurácia depende do objetivo e dos recursos de uma empresa. Optar por um modelo parcimonioso ou complexo e com boas previsões é uma escolha a ser feita. Não existe um modelo superior e precisamos de parcimônia e precisão no estudo da estatística.
A máxima de “quanto mais dados, melhor” deve ser questionada, até porque lidar com muitas variáveis e fontes de dados pode tornar um modelo impossível de gerenciar. Assim, precisamos de poucos e bons dados, capazes de oferecer insights preciosos, mas que permitam que mexamos poucas (mas boas) alavancas para fazê-los gerar diferencial competitivo.