Sirlene Honório, diretora de marketing e vendas do CPQD; Ricardo Garrido, gerente geral da Alexa, da Amazon; Eduardo Santos, diretor de conteúdo e serviços da Samsung; Walquiria Saad, country lead de parcerias no Brasil para o Google Assistente; Roberto Valente, CEO da Interactive Media; e Fernando Paixa, Editor do Mobile Time

Mensagens limpas, com poucos ruídos, ajudam o processamento da voz nos assistentes pessoais virtuais, que ficam mais rápidos e assertivos. Outro fator que contribui é uma parte do processamento ser feito no device e outra em nuvem. Mas a grande virada para os assistentes de voz acontecerá com a chegada da rede 5G e sua baixa latência. É o que apostam os executivos de CPQD, Interactive Media, Alexa, Bixby e Google Assistente. A discussão da melhoria dessa tecnologia aconteceu durante o evento virtual Super Bots Experience 2020 nesta quinta-feira, 17, promovido por Mobile Time.

Ricardo Garrido é gerente geral da Alexa, da Amazon

Ricardo Garrido, gerente geral da Alexa, da Amazon, descreveu todo o processo, do entendimento do que o usuário disse até a resposta do robô, que acontece em segundos: “Você faz uma pergunta, por exemplo: Alexa, quanto foi o jogo do Corinthians? O computador da nuvem decodifica, a Alexa busca nos nossos softwares a informação, joga pro text-to-speech e volta com a resposta para o device. É tudo muito rápido, mas tem um papel importante da Internet e da computação na nuvem”, resumiu o executivo.

Eduardo Santos é diretor de conteúdo e serviços da Samsung

Eduardo Santos, diretor de conteúdo e serviços da Samsung, explicou que, com a chegada e a implementação da rede móvel 5G – e com a promessa de latência muito baixa –, os assistentes serão ainda mais rápidos por conta do tempo de conexão mais baixo. “Vai ser um divisor de águas. O poder de processamento será gigantesco. A resposta será praticamente imediata”, aposta o executivo da Samsung.

Mas Santos também lembrou sobre a qualidade dos áudios, que pode fazer toda a diferença  “Se mandar um áudio sujo e sem filtro, o servidor terá dificuldade em reconhecer. Tem que ter um filtro e um pré-processamento no device. É preciso limpar a voz e quanto mais capacidade de processamento, melhor o filtro e o reconhecimento. Mas o outro lado (os servidores) é fundamental também para fazer o processamento do contexto”, resume Santos.

Sirlene Honório é diretora de marketing do CPQD

Sirlene Honório, diretora de marketing do CPQD, explicou durante o evento promovido por Mobile Time que o processamento de compreensão das intenções do usuário geralmente é feito na nuvem. “Síntese e reconhecimento podem ser feitos das duas formas (tanto no device como na nuvem), mas a síntese voltada para a acessibilidade geralmente é embarcada e processada no dispositivo. Tecnicamente, as duas coisas são possíveis, mas claro que um servidor com muita capacidade é melhor porque o nível de processamento em um smartphone, por exemplo, é limitado. Mas é preciso avaliar custo versus benefício. Um processamento local tem perda de qualidade.”, ponderou Honório.

Saad lembrou que os últimos smartphones Pixel, do Google, possuem um processamento chamado Next Generation Assistent. Com ele, o dispositivo é 10 vezes mais rápido no tempo de resposta.