A revista científica Sloan Management Review, do MIT, comenta sobre a importância da qualidade dos dados em um cenário em que algoritmos de Machine Learning estão se tornando commodity.
A revista científica Sloan Management Review, do MIT, comentou recentemente sobre a importância da qualidade dos dados na corrida pelo Machine Learning, uma vez que essa tecnologia tem se tornado, cada vez mais, um tipo de commodity. As empresas estão passando a descobrir que implementar algoritmos que tornam computadores inteligentes a respeito de um conjunto de dados ou problema é a parte fácil. Há soluções plug-and-play que ajudam a viabilizar toda a pesada programação necessária, tais como TensorFlow (Google), Azure (Microsoft) e SageMaker (Amazon). Porém, diferente dos algoritmos, dados não estão se tornando commodity. Pelo contrário, eles emergem como o principal diferencial na corrida pelo Machine Learning, pois bons dados são raros.
Dados úteis são valiosos e raros
Dados estão se tornando um diferencial porque muitas empresas não possuem os dados que precisam. Há décadas, as organizações têm sido mensuradas de maneira sistemática por meio de princípios amplamente aceitos da contabilidade. Porém, essas mensurações são focadas em ativos físicos e financeiros – ou seja, coisas e dinheiro. Tanto é que um prêmio Nobel foi oferecido em 2013 pela precificação de ativos de capital.
Entretanto, as empresas mais valiosas de hoje comercializam redes e softwares, não só bens físicos e ativos de capital. Nos últimos 40 anos, o foco dos ativos foi completamente invertido. Em 1975, o mercado era dominado por 83% de ativos tangíveis. Em 2015, por 84% de ativos intangíveis. Ao invés de fabricar cafeteiras e vender máquinas de lavar, os gigantes corporativos atuais conectam as pessoas e oferecem aplicativos. Essa mudança criou um desencontro entre o que medimos e o que, de fato, orienta o valor.
O resultado – problemático – é que dados úteis são raros. Há um intervalo crescente entre os valores contábeis e de mercado. Por causa desse intervalo, empresas estão correndo para aplicar Machine Learning em decisões de negócios importantes – até mesmo substituindo caros consultores – para, então, perceber que os dados necessários ainda não existem. Em outras palavras, sistemas sofisticados de Inteligência Artificial estão aplicando novas técnicas para o mesmo velho material.
Tal como acontece com as pessoas, um sistema de Machine Learning aprende sobre um tópico quando é ensinado. Comparados com seres humanos, computadores precisam de uma quantidade muito maior de dados para aprender – embora leiam esses dados com maior velocidade. Assim, enquanto existe uma corrida visível entre empresas que estão lançando iniciativas de Inteligência Artificial, há também uma corrida nos bastidores em prol de dados adequados.
Na área financeira, por exemplo, decisões de investimento são influenciadas por dados que vão muito além de relatórios governamentais e apresentações de investidores. Dados alternativos, como análise de sentimento em mídias sociais ou número de patentes ganhas, são essenciais. Isso porque dados tradicionais são focados em ativos tradicionais, o que não é amplo o suficiente na era dos ativos intangíveis. Além disso, não faz sentido usar técnicas de Machine Learning para estudar os mesmos dados que todos no mercado estão analisando. Todos os interessados já tentaram correlacionar tendências do setor, margens de lucro, taxas de crescimento, lucros diante de juros e impostos, giro e retorno de ativos.
Procurar conexões entre dados que todos possuem não vai ajudar uma empresa a vencer. Ao invés disso, as organizações que quiserem usar Inteligência Artificial como um diferencial precisarão encontrar relações entre novos conjuntos de dados. E, talvez, esses conjuntos de dados deverão ser criados pelas próprias empresas, com o objetivo de medir ativos intangíveis.
Escolha os dados segundo o que você precisa saber de fato
A criação de conjuntos de dados é mais complexa do que meramente agregar informações fornecidas por clientes ou no ponto de venda e jogá-las em uma base. A maioria das organizações acredita erroneamente que o caminho é reunir qualquer fragmento de dado possível, vasculhá-los meticulosamente e esperar que seja gerado algum insight – ou seja, uma característica que prevê ou categoriza algo que tenha importância.
Embora técnicas de Machine Learning possam nos surpreender com insights brilhantes e inéditos, a tecnologia não é capaz de provê-los de maneira consistente. Logo, é necessário aplicar as ferramentas com sabedoria, algo nem sempre fácil de ser alcançado. A equipe do MIT pesquisou o mercado de dados alternativos e descobriu que mais da metade dos novos provedores ainda estão focados na mensuração de ativos físicos e financeiros.
O passo importante que muitas organizações deixam de lado é a criação de hipóteses sobre o que importa. Afinal de contas, onde Machine o Learning realmente se destaca é na absorção de um insight desenvolvido por humanos – baseado em senso comum, percepções genéricas ou relações pouco compreendidas – e no posterior desenvolvimento de um método mais rápido, melhor compreendido, mais escalável e menos propenso a erros para aplicação desse insight.
Para usar Machine Learning dessa maneira, o sistema não é alimentado com qualquer dado conhecido, de qualquer campo. Ele deve ser alimentado com um conjunto de conhecimentos cuidadosamente escolhidos, com a esperança de que o sistema possa aprender e, talvez, estender o conhecimento que as pessoas já têm.
A utilização perspicaz de Machine Learning precisa de dados diferenciados
Tudo isso gera as seguintes implicações para empresas que desejam criar aplicações de Machine Learning valiosas e impactantes:
Dados diferenciados são fundamentais para uma administração de Inteligência Artificial bem-sucedida. Nada novo será descoberto quando se trabalha com os mesmos dados dos concorrentes. É necessário identificar internamente quais são os conhecimentos exclusivos da organização e criar um conjunto de dados com esses insights. As aplicações de Machine Learning precisam de um grande número de dados, mas isso não significa que o modelo tenha que considerar uma enorme gama de recursos. Concentre seus esforços de dados onde sua organização já é diferenciada.
Dados significativos são melhores que dados abrangentes. É possível ter dados detalhados sobre um tópico que simplesmente não é muito útil. Se as informações não ajudarem a tomada de decisões ad hoc, esses dados provavelmente não serão valiosos do ponto de vista de Machine Learning. Um programador fará perguntas difíceis sobre quais campos realmente importam e como esses campos serão importantes para aplicação dos insights obtidos. Se essas perguntas forem difíceis de responder, você não refletiu o necessário para produzir valor prático.
O que você já sabe deveria ser o ponto de partida. As empresas que melhor usam Machine Learning começam com apenas um insight sobre o que é mais relevante para elas tomarem decisões importantes. Isso as orienta a respeito de quais dados devem coletados e quais tecnologias devem ser utilizadas. Uma maneira fácil de começar é dimensionar e desenvolver um conhecimento que sua equipe já possui e que poderia criar mais valor para a organização.
Embora os softwares sejam centrais no mundo contemporâneo, eles precisam de novos dados e novas tecnologias para continuar criando valor. Procure internamente pelas suas próprias perspectivas e identifique quais dados você pode e deve produzir. A partir desses passos, você descobrirá insights que manterão sua empresa competitiva.