Sagar Savla, coordenador de produto do Google AI

De acordo a Organização Mundial da Saúde (OMS), a população mundial de pessoas com deficiência auditiva ou de fala é de 466 milhões de pessoas, ou seja, duas vezes maior que a população brasileira e a terceira maior do mundo, atrás apenas de Índia e China. A OMS estima ainda que esta população será de 900 milhões de pessoas em 2055.

Procurando ajudar essa população Sagar Savla, coordenador de produto do Google AI, criou um aplicativo de Transcrição Instantânea (Android) de fala e som na tela do smartphone. O executivo esteve na última terça-feira, 26, em São Paulo e conversou comigo sobre esta plataforma que está disponível em mais de 70 idiomas, inclusive o português brasileiro.

Na conversa, Savla explicou que o intuito do app é ajudar pessoas com essas deficiências na comunicação com outras, ao transcrever voz em texto direto na tela do smartphone em tempo real. Para isso, o app utiliza as bases de inteligência artificial de voice-to-speech que está no Google Assistente e na legenda automática do YouTube, além de treinamento por pedaços de áudio (como acontece no Google Assistente) e informações de domínio livre na web, como dicionários dos idiomas.

“O meu trabalho com o app é ser assertivo e possibilitar conversas em tempo real. Ou seja, ajudar uma pessoa a se comunicar. Através de informações, tento ajudar as máquinas (inteligência artificial) a entender o mundo como os humanos fazem e agem”, disse o executivo.

Tecnologia e uso

Baseado em inteligência artificial e aprendizado de máquina, o Transcrição Instantânea tem um sistema automático de reconhecimento de fala (ASR System) que possui três módulos: acústico, que transforma fonemas em palavras; pronúncia, que transforma fonemas em palavras; e de linguagem, para distinguir as palavras. Todo o processo do ASR System demora em média 200 m/s.

Para usá-lo, basta baixar o app, abri-lo e permitir o acesso dele nas configurações de acessibilidade. Após configurá-lo, ele começa a transcrever a fala mais próxima. O app consegue reconhecer não apenas fala, mas ações, como aplausos e assobios; permite uso de dois idiomas simultaneamente e automaticamente, como português e inglês; e tem uma função de conversa bidimensional, que permite ao usuário digitar e reproduzir o que deseja falar em texto.

As transcrições da conversa ficam salvas por três dias.

Testes

Testei este app por aproximadamente três meses para meu trabalho como jornalista. E, sim, ele funciona muito bem para transcrições de conversas com uma pessoa. Mas há problemas no aplicativo, como na captação de voz em ambientes barulhentos, em conversa com mais de uma pessoa, e em áudio vindo de equipamentos eletrônicos, como TVs e gravadores. Isso em português, inglês e espanhol.

Savla disse que as resoluções desses problemas estão sendo endereçadas. Mas são difíceis de resolver, em especial a separação de vozes em conversas múltiplas. Com isso, o executivo indica o uso do app em conversas 1 a 1. E uma opção para facilitar a comunicação transcrita é posicionar o smartphone mais perto da boca ou usar microfones externos para melhorar a captura e transcrição das falas.

Tela do app traduzindo parte da conversa com Savlar