fbpx

Como a Data Science pode ajudar a prever doenças?


doencas.jpeg

 

Eric Horvitz, diretor global dos laboratórios de pesquisa da Microsoft, acredita que, a partir do momento em que você está online, seus rastros podem ser usados para diagnosticar antecipadamente problemas de saúde. Em outras palavras, seu comportamento online pode ajudar a prever doenças ainda não identificadas.

 

Após perder um amigo por causa de um câncer de pâncreas, o pesquisador passou a estudar as buscas sobre a doença realizadas no site de pesquisas Bing — o Google da Microsoft. O primeiro passo foi coletar dados de usuários cujas buscas sugeriam um diagnóstico recente de câncer de pâncreas.

 

Ele identificou, dentre os 6,4 milhões de usuários da ferramenta, quais haviam buscado termos como “eu acabei de ser diagnosticado com câncer de pâncreas” e “câncer de pâncreas, quanto tempo de vida eu tenho?”. Após olhar as buscas subsequentes — planos para o fim da vida, laudos médicos, efeitos colaterais do tratamento –, a equipe de Eric Horvitz tinha evidência dos usuários acometidos pela doença.

 

Em seguida, os pesquisadores passaram a analisar as buscas feitas pelos mesmos usuários meses antes do diagnóstico. Eles usaram machine learning para identificar padrões de sintomas que eram buscados antes do momento de descoberta da doença. Também foram levadas em consideração outras variáveis que aumentariam a probabilidade do diagnóstico, como quantidade e freqüência de buscas relevantes, tipos de sintomas e perfis demográficos de risco.

Todo esse trabalho deu origem a um modelo preditivo publicado no Journal of Oncology Practice, capaz de identificar o diagnóstico em 5% a 15% dos usuários que fizeram buscas relacionadas ao câncer de pâncreas, com pouquíssimos erros.

Eric Horvitz estendeu essa abordagem para vários outros estudos. Em 2016, criaram um modelo preditivo sobre câncer de pulmão. Além das buscas no Bing, os pesquisadores usaram também informações geográficas do usuário, com o intuito de examinar riscos como exposição à radiação e viagens aéreas freqüentes.

 

No ano seguinte, levantaram um estudo sobre a associação entre horas de sono e desempenho. Durante 18 meses, os padrões de uso de teclado e mouse de 31.000 participantes foram registrados. Além disso, o grupo utilizava o relógio inteligente Microsoft Band para registrar informações sobre sono. Os resultados mostraram uma relação forte entre horas de sono, tempo desde o despertar e a velocidade de cliques e digitação. Aqueles que dormiam menos do que seis horas por duas noites consecutivas ficavam mais lentos pelos próximos seis dias.

 

Em um estudo consecutivo, Eric Horvitz relacionou as buscas no Bing aos movimentos do cursor do mouse, com o intuito de facilitar o diagnóstico do Mal de Parkinson. Os resultados, publicados no periódico NPJ Digital Medicine, mostraram que os tremores detectados durante as buscas aumentavam a probabilidade de detecção da doença. O próximo passo deve ser usar o mesmo tipo de abordagem na identificação de disfunções neurodegenerativas como o Alzheimer.

 

Segundo Horvitz, dados podem possibilitar o diagnóstico de doenças porque as pessoas compartilham informações privadas sobre sua saúde por meio de mecanismos de busca (como Bing e Google). Informações essas que, talvez, não seriam compartilhadas nem ao menos com médicos. O acréscimo de dados biométricos e geográficos pode revelar segredos que não seriam descobertos nem pelos próprios usuários.

Controvérsias

Os estudos de Eric Horvitz são calcados em sua experiência com Inteligência Artificial — a capacidade de máquinas tomarem decisões –, especialmente no ramo de machine learning. O pesquisador foi um dos pioneiros na área e enfrentou também a crise que o campo sofreu no fim dos anos 1980. Os financiamentos de pesquisa desapareceram quando os estudiosos fracassaram na produção de robôs inteligentes.

 

Na época, ainda não havia recursos para lidar com as incertezas do mundo real. Além disso, os vastos dados da era do Big Data ainda não estavam disponíveis e os computadores não eram sofisticados o suficiente para lidar com informações tão complexas. Mas o pesquisador da Microsoft insistiu em seus estudos e hoje colhe os resultados.

 

No entanto, as limitações que assombravam os estudos de Inteligência Artificial no passado ainda são desafiadoras. Por exemplo, o estudo de Horvitz a respeito do câncer de pâncreas não consegue garantir com 100% de certeza se um usuário que busca informações sobre a doença necessariamente foi diagnosticado com ela. Como ele mesmo afirma: “A questão é: já sabemos o suficiente para não enviar erroneamente dezenas de milhares de pessoas para o médico?”.

O pesquisador acredita que novas tecnologias devem complementar o trabalho de um médico, não substituí-lo.

Google Flu Trends

O fracasso do Google Flu Trends, criado para prever a eclosão de epidemias de gripe, é um bom exemplo dos cuidados necessários no uso de Inteligência Artificial na detecção de doenças.

 

Em 2008, pesquisadores do Google lançaram uma página que apresentava as buscas relacionadas a sintomas da gripe. A ideia, publicada na respeitada revista científica Nature, era que um aumento nas buscas sobre gripe sinalizaria quase instantaneamente a ocorrência de uma epidemia. O artigo mostrou que as buscas no Google detectavam a prevalência de gripe duas semanas antes dos dados do CDC — o centro norte-americano de controle de doenças.

 

Porém, a capacidade preditiva da ferramenta foi colocada em cheque em 2013, quando ela errou o pico de gripe em 140%. O programa foi descontinuado e se tornou um símbolo de fracasso na utilização de Big Data. Um artigo publicado na Science em 2014 apresentou as causas do desastre. Por exemplo, o algoritmo do Google contabilizava termos que não eram relacionados à epidemia de gripe, além de não levar em conta mudanças de comportamento de busca ao longo do tempo.

Big Data Hubris

O Google Flu Trends deve ser usado como modelo por quem não quer sucumbir ao big data hubris. Em bom português, a “arrogância do big data” se refere a uma confiança excessiva na capacidade preditiva dos dados. No vídeo a seguir, o professor Jevin West, da Escola de Ciência da Informação da Universidade de Washington, apresenta a mesma cautela que o pesquisador da Microsoft, Eric Horvitz.

West comenta que os dados são extremamente úteis, mas devem ser utilizados de maneira complementar, não substitutiva. A arrogância do big data é a ideia de que dados são a única fonte necessária de conhecimento, em detrimento de métodos estatísticos tradicionais. No fim das contas, a evolução da ciência depende da evolução conjunta de métodos.

 

Para quem tem interesse em se aprofundar no assunto, o Canal USP oferece um curso online gratuito, realizado em parceria com a Faculdade de Saúde Pública (FSP), chamado “Inteligência Artificial em saúde: o uso de machine learning em saúde”. Confira a seguir.