fbpx

Tendências de Data Science para 2020

 


tendencias.jpg

Utilização de Data Science em áreas conservadoras, privacidade de dados por design e mitigação de preconceitos são algumas das tendências para este ano.

Para começar este ano, listamos algumas tendências que devem se desenvolver no campo de Data Science em 2020, segundo Hugo Lopes – gerente de Data Science no Google – e outros pesquisadores dos portais TDWI e Towards Data Science. Confira a seguir.

Utilização de Data Science em áreas conservadoras

Em 2019, foi destaque a aplicação de soluções de Machine Learning em áreas conservadoras (e mais regulamentadas), como a medicina. Por exemplo, para identificação de pneumotórax por meio de radiografias, um diagnóstico difícil e sutil. Mais do que desafios tecnológicos elaborados por cientistas de dados, há cada vez mais participação das instituições reais que estudam tais condições. Nos EUA, já houve inclusive aprovação de sistemas pelo departamento de saúde FDA.

É importante chamar a atenção para a participação notória de gestores de alta hierarquia – os tomadores de decisão – na permissão de que esse tipo de tecnologia possa ser utilizado em áreas que antes eram muito cautelosas na adoção de novas tecnologias. Como muitos cientistas de dados sabem, esse geralmente é um dos gargalos mais difíceis de superar em novos projetos. Outro exemplo é a utilização de Data Science para identificar a interação entre medicamentos e suplementos alimentares.

Privacidade de dados por design

À medida que os usuários se tornam mais preocupados com o manuseio e a propriedade de seus dados, engenheiros e cientistas de dados precisam encontrar maneiras de satisfazer essas novas exigências. Um número impressionante de vazamento de dados ocorreu em 2019. Isso pode ser mitigado a partir do momento em que as empresas não detiverem, de fato, os dados dos usuários para suas finalidades comerciais.

Já existente há alguns anos, o Federated Learning se tornou um tópico importante na questão da privacidade de dados. Em essência, é uma técnica de Machine Learning que treina um algoritmo em vários dispositivos descentralizados (como celulares) e mantem os dados locais, sem troca de amostras.

Fazer mais com menos dados é contraintuitivo dentro da lógica de Data Science, mas a confiança será um tópico importante em 2020. Como garantir que os usuários confiem seus dados para as empresas de software? O Federated Learning pode ser utilizado, por exemplo, para treinar modelos de previsão para teclados de celulares sem o upload de dados confidenciais de digitação. Afinal, as empresas não precisam conhecer todos os dados que você gera.


teclado.png

Mitigação de preconceitos e discriminação em modelos preditivos

Em novembro de 2019, ganhou mídia a discriminação de gênero no cartão de crédito da Apple e Goldman Sachs. Os usuários perceberam que, aparentemente, eram oferecidas linhas de crédito menores para as mulheres do que para os homens. O caso remete a um velho problema de decisões de máquina totalmente automatizadas: quais foram os principais fatores que levaram à decisão final?

Por mais assustador que possa parecer, cientistas de dados sabem que, mesmo sem incluir o gênero como uma entrada do modelo, ele pode ser acusado por discriminação de gênero. É importante lembrar que modelos sofisticados, treinados com dados tendenciosos, podem aprender padrões discriminatórios que, por sua vez, podem levar a decisões distorcidas. Esses modelos podem encontrar proxies que levam à discriminação, mesmo que não sejam incluídos os recursos que, a princípio, poderiam conter vieses históricos.

A tendência é que a discriminação por viés continue sendo um tópico em destaque até que o assunto seja levado a sério por um grande número de empresas. Os cientistas de dados podem ajudar com análises de dados exploratórias que assegurem que os dados sejam representativos de toda a população. Além disso, podem explorar arquiteturas que possam identificar e atenuar esses vieses.

Python como linguagem de Data Science

Python é a linguagem de programação que mais cresce. Stack Overflow e outros sites especializados mencionam Python como uma das melhores apostas para quem planeja começar na programação. Há uma enorme comunidade de suporte e rapidez na implementação de projetos. Python se consolida com segurança como a linguagem de programação “de fato” da ciência de dados.

Cientistas de dados cidadãos

A TDWI aponta que o big data continuará em alta em 2020, com uma demanda crescente por cientistas de dados qualificados e, logo, uma escassez contínua de talentos. Embora plataformas que automatizam o trabalho de Machine Learning tenham aliviado parte da pressão sobre as equipes de Data Science, elas ainda não resultaram nos ganhos de produtividade que as organizações buscam com suas iniciativas de Inteligência Artificial. Assim, as empresas precisam de melhores soluções para ajudá-las a aproveitar seus dados para obter informações de negócios.

Em 2020, será vista uma rápida adoção de plataformas novas de Data Science, mais amplas e de “ciclo completo”, que simplificarão significativamente as tarefas que antes só podiam ser concluídas por cientistas de dados. Aumentará a produtividade dos cientistas de dados cidadãos – analistas de negócios e outros especialistas em dados que possuem experiência no domínio, mas não são necessariamente cientistas de dados. Essa democratização contínua levará a cases que estarão mais próximos das necessidades dos gestores de negócios e permitirá um time-to-market mais rápido das soluções.

Habilidades de Data Science

O portal Towards Data Science afirma que as principais habilidades que deverão ser desenvolvidas em Data Science são: 1) probabilidade e estatística, 2) cálculo multivariado e álgebra linear, 3) linguagens de programação, 4) Data Wrangling – o processo de preparação dos dados para análise), 5) gerenciamento de banco de dados, 6) Data Visualization, 7) Machine Learning e Deep Learning, 8) computação em nuvem, 9) Microsoft Excel e 10) DevOps – a parceria entre desenvolvimento e operação de software.