A Atento desenvolveu uma ferramenta tecnológica para aprimorar a seleção de candidatos em centros de atendimento ao cliente por meio da análise de voz. O SR-Voice utiliza uma arquitetura híbrida para avaliar não somente o conteúdo do que é dito, mas também emoção, comunicação e ritmo. A solução virou artigo científico, cujo título é: Um módulo multilingue de análise de voz para contratação em centrais ce atendimento.
O sistema combina um modelo de áudio nativo com um auditor baseado em linguagem para gerar pontuações precisas e justificativas baseadas em evidências acústicas e prosódicas. Os testes realizados em português brasileiro demonstram que a solução oferece alta calibração probabilística, sendo ideal para apoiar decisões humanas no recrutamento. Além da eficácia técnica, o estudo enfatiza a rastreabilidade das avaliações e o compromisso com a privacidade dos dados coletados.
A avaliação feita pelo SR-Voice acontece por meio de uma arquitetura híbrida em duas etapas, que combina um modelo nativo de áudio (ALM) com um auditor de linguagem baseado em inteligência artificial (LLM). O sistema analisa trechos curtos de fala, de até 30 segundos, e atribui notas de 0 a 10 acompanhadas de justificativas objetivas, considerando as três dimensões principais: comunicação, emoção e ritmo.
No quesito comunicação, a ferramenta da Atento verifica se a fala é clara e inteligível e apresenta poucos defeitos. Para isso, cruza o áudio com elementos da transcrição e identifica sinais como repetições imediatas de palavras, interrupções causadas por hesitação, vícios de linguagem e pausas excessivas que indiquem dificuldade na formulação das frases.
Na dimensão emocional, o sistema busca avaliar se a voz do candidato transmite calma e profissionalismo. A análise utiliza parâmetros acústicos da fonética, como estatísticas de tom de voz, além de indicadores como jitter e shimmer, relacionados à estabilidade vocal, aspereza e clareza da fala.
Já o critério de ritmo mede a fluência temporal da fala, observando cadência e naturalidade das pausas. O modelo considera fatores como velocidade da fala — em palavras por minuto e sílabas por segundo — e a proporção de pausas durante a gravação, características associadas à percepção de confiança e eficácia na comunicação.
Segundo a empresa, a principal vantagem do modelo em relação a avaliadores que analisam apenas transcrições está na capacidade de identificar aspectos como estabilidade vocal, controle rítmico e fluência de forma rastreável, características consideradas relevantes para prever o nível de profissionalismo e a qualidade do atendimento ao cliente.
O SR-Voice é um módulo de análise de fala multilíngue projetado para o português, inglês dos Estados Unidos e Espanhol. Porém, os experimentos e as avaliações de desempenho descritos no estudo foram restritos ao português do Brasil.
Próximos passos do SR-Voice
De acordo com o artigo, a ferramenta deverá passar por testes para explorar e validar sua funcionalidade multilingue do modelo no mundo real.
Outro ponto a ser desenvolvido é a expansão do conjunto de dados para incluir áudios conversacionais mais longos para diversificar as amostras e, com isso, conseguir avaliar casos mais complexos com ruídos, sobreposição de falas e amostras de disfluência (que são interrupções, hesitações ou quebras no fluxo contínuo da fala).
A equipe também quer mitigar riscos relacionados à justiça ou imparcialidade – como possíveis julgamentos por conta de um sotaque ou velocidade da fala. Os próximos lançamentos vão focar em realizar análises estratificadas e auditorias de viés. O sistema também continuará aprimorando suas salvaguardas éticas ligadas à privacidade.

