As tecnologias de voz do CPQD estão em mais de 70 clientes – em especial a text-to-speech (TTS) e automatic speech recognition, voltadas para o segmento de call center. A demanda por esses produtos faz com que o centro de pesquisa tenha um roadmap para evolução e criação de novas soluções baseadas em voz.
“Grande parte dos nossos clientes são integradores para contact centers. Há grandes chances de você já ter recebido uma ligação automatizada que utilize uma das nossas tecnologias”, comentou Fernando Marino, gerente de produtos do CPQD, em conversa com Mobile Time. O executivo antecipou algumas novidades, como novos sotaques, agilidade na produção de voz e criação de voz 100% digitalizada, além da criação de uma marca d’água nas vozes criadas pelo centro para protegê-las de golpes.
Criação de voz mais rápida e 100% digital
Marino destaca que um dos trabalhos mais árduos é a criação de uma voz digital. Até então, era necessário ter um locutor que falasse por “horas e horas” em um estúdio para garantir a qualidade do som, gerar os modelos e, em seguida, fazer uma curadoria da voz para detecção de falhas e regravações desses trechos. Todo esse vai-e-vem levava em torno de seis meses. Hoje em dia, o CPQD é capaz de criar do zero uma voz em 15 dias.
“A solução ficou muito mais inteligente com o avanço do TTS Neural para aprender uma nova voz”, comenta.
O próximo passo do CPQD é reduzir o tempo de áudio do locutor, de “horas e horas” para apenas quatro minutos. Ou seja, será possível fazer o treinamento para gerar uma nova voz com alguns minutos de áudio. A estimativa é que esta atualização esteja disponível ainda este ano.
“Isso representa flexibilidade, oportunidade para o cliente ter uma personalização e agilidade em pouco tempo. Graças ao uso de técnicas mais avançadas de inteligência artificial, passando por uma IA estatística, machine learning e agora estamos no deep learning”, resume o executivo.
Essa nova função ainda depende do locutor. Mas o CPQD trabalha em uma outra solução capaz de criar uma voz 100% sintética. Com ela, será possível determinar alguns parâmetros, como voz jovem, rouca, séria, animada, por exemplo. A partir de uma base de treinamento do TTS Neural será possível criar uma voz sem que ela tenha vínculos com uma voz específica, humana.
“Essa solução está em estágio avançado de desenvolvimento”, comentou Marino, sem dar um prazo de lançamento.
Marca d’água na voz do CPQD
O avanço é tamanho que o centro de pesquisa decidiu inserir de forma discreta uma marca d’água em suas produções de voz como uma proteção para o seu uso. A proposta é evitar que a tecnologia acabe sendo usada para golpes e fraudes.
Marino explica que a marca não é audível, mas o microfone que captura o áudio decodifica um sinal colocado pelo CPQD que faz com que o áudio perca a qualidade, ficando uma voz robotizada.
“A gente avançou tanto na qualidade da voz que tivemos que tomar medidas para o seu uso consciente. Essa marca não é audível, mas o microfone é capaz de capturar e é possível decodificar o sinal que o CPQD colocou naquela voz e identificar que ela é uma voz gerada pela IA do CPQD. Isso impede a clonagem dessa voz”, explica.
Sotaques

Fernando Marino, gerente de produtos do CPQD. Crédito: divulgação
Outro avanço será com relação aos sotaques das vozes. Se, atualmente, o CPQD oferece o paulistano (classificado como neutro pelo centro) e o carioca, até o final deste ano serão oferecidos os sotaques soteropolitano e gaúcho.
E, muito em breve, será possível fazer uma mistura de estilos e sotaques, como inserir o sotaque carioca na voz paulistana, por exemplo, e vice-versa. “No caso, seria, por exemplo, pegar o estilo da voz do carioca e transferir para o modelo gerado com a voz do locutor paulista. Com isso, o cliente consegue sua voz preferida com o sotaque que a empresa queira ter. Isso cria uma satisfação para o cliente final, que terá a oportunidade de receber uma ligação e falar com uma voz com o sotaque com o qual está mais habituado. Acreditamos que vai haver um aumento da satisfação e da conversão porque gera mais empatia, acolhimento”, explica.
“O regionalismo não seria possível se não fosse pelo deep learning, uma inteligência artificial mais avançada. E podemos disponibilizar o sotaque que o cliente quiser. Com o modelo que criamos conseguimos disponibilizar essa hiperpersonalização. Não estamos falando de hiperpersonalização na teoria, mas na prática”, afirma.
Reconhecimento de emoções
O CPQD também inseriu recentemente o reconhecimento de emoções em sua solução de automatic speech recognition, como o neutro, feliz, o triste e o irritado. Dentro desses quatro grupos existem derivações.
No triste, por exemplo, é possível identificar se o sentimento está ligado à frustração (do atendimento).
“A ideia é dar contexto. E se usado com outras tecnologias, como LLM e IA generativa, é possível dar atendimento com mais empatia e com mais personalização”, explica Marino.
Ao detectar o sentimento, o assistente vai procurar um tom de voz mais condizente com a situação, e perguntar, por exemplo, se está tudo bem. “Coletamos sinais na voz do indivíduo, usando IA, aprendizado de máquina e detectamos por meio do padrão de voz (pelo tom de voz, ou ton analyzer) e, com isso, conseguimos dar um direcionamento melhor para aquele atendimento. Evoluímos cada vez mais para trazer mais empatia como se fosse uma pessoa do outro lado da linha. É a IA nos ajudando a trazer mais acolhimento, mais empatia e a lidar melhor com as emoções”, resume.
Marino reforçou que, em um futuro ainda incerto, essa mesma tecnologia será capaz de reconhecer sinais de doenças na garganta (como câncer), sinais de Alzheimer e outras doenças degenerativas, mas também déficit de atenção. Já existem artigos acadêmicos que mostram o potencial do reconhecimento de fala como detector dessas doenças em seus estágios iniciais. “Com 15 minutos de áudio gravado você consegue identificar padrões do início doenças que hoje não são detectáveis porque são sinais sutis e que o profissional não detecta, mas a IA consegue. Ainda está em nível de pesquisa, mas isso vai acontecer”.