A ElevenLabs lançou recentemente a segunda versão para o seu modelo de transcrição automática de fala em texto (Speech to Text), o Scribe v2 Realtime. A solução chega ao Brasil disponível para português e mais 90 idiomas.

O seu diferencial para a versão anterior é a capacidade de computar o que é falado praticamente em tempo real. Ele opera com uma latência de 150 milissegundos, menor do que a latência humana, que varia entre 200 e 300 milissegundos.

A velocidade da latência também está atrelada à possibilidade de a inteligência artificial prever a próxima palavra a ser dita pela pessoa, baseado no contexto da fala. A “latência negativa” garante assertividade e rapidez na transcrição.

Brunno Santos, general manager da ElevenLabs no Brasil, explica que a ferramenta da empresa especializada em voz tem um nível de acuracidade de 93,5%.

As possibilidades do Scribe V2

O Scribe V2 Realtime está disponível para clientes brasileiros e pode ser usado como uma solução de transcrição com modelo SaaS com precificação baseada em caracteres/créditos, ou seja, um caractere é um crédito, mas também pode ser aplicada e otimizada dentro da plataforma de agentes da ElevenLabs.

Entre os casos de uso estão:

– Transcrição de ligações de call center para fins de auditoria e monitoramento;

– Documentação de consultas médicas, permitindo que o profissional capte o que é dito para uma análise posterior. Vale lembrar que para este uso é necessário o consentimento do paciente;

– Transcrições de reuniões;

– Transcrição para a provisão de legendas em tempo real. Neste caso, a oferta foca em mídia e entretenimento.

Além da transcrição básica, a solução incorpora tecnologia proprietária de detecção de atividade de voz, que identifica quem está falando e conecta a voz à transcrição. O resultado é um texto ainda mais assertivo.

Perspectivas da ElevenLabs no Brasil

ElevenLabs

Brunno Santos, country manager da ElevenLabs (Crédito: Marcos Mesquita/Mobile Time)

O Brasil é considerado pela empresa como uma das dez principais regiões do mundo e possui um dos cinco websites com maior tráfego. Sua estratégia está fundamentada na consolidação do mercado de agentes de IA por voz e aposta que, para 2026, a versão brasileira da plataforma ganhe ainda mais regionalismo, com sotaques dos mais variados.

“Temos mais de 10 mil vozes e um marketplace com diversificação de sotaques, velocidade, tom de voz, entre outras características porque acreditamos que a personalização é importante para as empresas”, explica Santos. “A ideia é pegar essas nuanças culturais, essa capacidade de sotaque para que tenha uma comunicação mais assertiva”.

“A próxima evolução é termos agentes de IA por voz humanizada e fluida para o atendimento humano focado em uma camada transacional. Aqui, a IA por voz consegue resolver e otimizar a experiência do cliente, com resposta imediata. Acreditamos que, depois do trauma da URA e da evolução para o chatbot, a voz vai virar padrão por sua assertividade, por ser capaz de aumentar o NPS e ter um propósito de otimização de custo”, complementa.

 

*********************************

Receba gratuitamente a newsletter do Mobile Time e fique bem informado sobre tecnologia móvel e negócios. Cadastre-se aqui!

E siga o canal do Mobile Time no WhatsApp!