Assistentes virtuais como Alexa, Siri e Google Assistant executam tarefas a partir de comandos de voz. Elas funcionam a partir de três etapas principais: fala para texto, texto para intenção e intenção para ação.
Assistentes virtuais como Alexa, Siri e Google Assistant têm recebido cobertura midiática extensa, especialmente após polêmicas ao redor dos riscos à privacidade oferecidos por smart speakers como Amazon Echo, Apple HomePod e Google Home.
O pesquisador Nagesh Chauhan levantou um pequeno histórico sobre o funcionamento desses softwares, que nada mais são do que assistentes de voz baseados em Inteligência Artificial.
Assistentes de voz executam tarefas a partir de comandos verbais. Ou seja, interpretam a fala humana e respondem por meio de vozes sintetizadas. Os usuários podem fazer perguntas aos assistentes, controlar dispositivos de automação residencial e executar tarefas básicas, como buscas na internet, ouvir música e fazer pedidos online.
História dos assistentes de voz
O grande salto na popularidade das assistentes de voz veio com o advento da Siri, de propriedade da Apple. Porém, a linha do tempo dessa evolução começou em 1962, na Feira Mundial de Seattle, um evento concebido para promover ciência e tecnologia no contexto da Guerra Fria.
No evento, a IBM apresentou um novo aparelho chamado Shoebox (em português, “caixa de sapato”). Ele, de fato, tinha o tamanho de uma caixa de sapatos e conseguia executar funções matemáticas, reconhecer 16 palavras e dígitos numéricos de zero a nove.
Durante a década de 70, pesquisadores da Universidade Carnegie Mellon, do Departamento de Defesa dos EUA e da Agência de Projetos de Pesquisa Avançada de Defesa (DARPA), criaram um sistema chamado Harpy. Ele conseguia entender quase 1.000 palavras – aproximadamente o vocabulário de uma criança de três anos de idade.
No início dos anos 90, grandes organizações, como Apple e IBM, começaram a criar dispositivos que utilizavam reconhecimento de voz. Em 1993, os computadores Macintosh começaram a usar reconhecimento de fala com as tecnologias PlainTalk.
Em abril de 1997, o Dragon NaturallySpeaking foi o primeiro software capaz de compreender cerca de 100 palavras e transformá-las em conteúdo legível. Então, só nos anos 2000 que o Google Voice Search – que reconhece a voz para buscas no Google – e a mencionada Apple Siri espalharam a verdadeira popularidade desse tipo de tecnologia.
Como esses assistentes funcionam?
Segundo a Escola de Negócios da Universidade do Sul da Califórnia, o trabalho das assistentes de voz é baseado em três etapas principais de transformação: fala para texto, texto para intenção e intenção para ação.
A primeira etapa, fala para texto, essencialmente converte o comando de voz em uma entrada de texto para o computador ou smartphone. O software é capaz de se ajustar ao ruído ambiente e às variações de tom e sotaque da voz, de uma maneira que permita tradução em vários idiomas.
O software divide a fala em pequenas partes chamadas fonemas – existem apenas 44 delas no inglês, por exemplo. É a ordem, combinação e contexto desses fonemas que permitem que um sofisticado software de análise de áudio descubra exatamente o que está sendo dito.
Para palavras com pronúncia semelhante, o software analisa o contexto e a sintaxe da frase para descobrir a melhor correspondência entre os textos do banco de dados e as palavras ditas.
O segundo passo, texto para intenção, interpreta o que exatamente o usuário quer dizer. Por exemplo, se é dito “fale-me sobre Paris”, qual seria a verdadeira intenção? Solicitar as últimas notícias sobre Paris, opções de voo até Paris, informações sobre o clima atual em Paris ou notícias sobre Paris Hilton?
Mecanismos de pesquisa online resolvem esse desafio. É feita uma busca pelo termo e as respostas são classificadas em ordem decrescente de intenção. Um bom exemplo de software que consegue vencer esse desafio é o IBM DeepQA e seu processamento de linguagem natural.
O DeepQA analisa a pergunta realizada e elabora algumas respostas possíveis. Em seguida, cria um encadeamento para cada resposta. Cada encadeamento usa centenas de algoritmos para estudar evidências: analisa o que as informações dizem, quais tipos de informações são, qual é a confiabilidade e qual a probabilidade de serem relevantes. Assim, cria uma ponderação individual com base no que o Watson, mecanismo de Inteligência Artificial da IBM, aprendeu anteriormente. Assim, é gerada uma classificação final das respostas, com evidências para cada uma de suas opções.
A etapa final, intenção para ação, visa atender à necessidade do usuário. A maioria das assistentes de voz está deixando de meramente responder a perguntas simples (por exemplo, condições climáticas) em prol de atividades mais sofisticadas, por meio de integração com carros, geladeiras, termostatos, lâmpadas e fechaduras.
Por exemplo, a BBC lançou a comédia em áudio “The Inspection Chamber”, na qual o ouvinte coescreve a narrativa. Ele ouve três personagens separados: Dave, a robô feminina, e dois cientistas, Kay e Joseph. Os dois cientistas, que podem ser alienígenas, precisam identificar corretamente uma nova forma de vida – o ouvinte –, antes de voltar para casa. Então, o ouvinte passa por um exame científico e responde perguntas como “você se sente especial?” e “você está de bom ou mau humor?”. A história dura cerca de 20 minutos e há três variações de final, segundo as respostas do ouvinte.
Esses três recursos principais ficam mais precisos na medida em que recebem mais dados. Eles estão disponíveis nos softwares de muitos fornecedores.
Qual será o futuro?
De volta ao histórico de Nagesh Chauhan, o pesquisador afirma que, ao longo da história da computação, as interfaces com o usuário tornaram-se progressivamente naturais. A tela e o teclado foram um passo nessa direção. O mouse e a interface gráfica foram outra. As telas com tecnologia touchscreen são o desenvolvimento mais recente.
O próximo passo provavelmente consistirá em uma mistura de realidade aumentada, gestos e comandos de voz. Afinal, é frequentemente mais fácil emitir um comando de voz do que digitar algo ou inserir detalhes em um formulário online.
Quanto mais uma pessoa interage com dispositivos ativados por voz, mais tendências e padrões o sistema identifica a partir das informações que recebe. Esses dados podem ser utilizados para determinar as preferências e os gostos do usuário. No longo prazo, esses são os dados que serão utilizados para tornar a casa mais inteligente.