No fim do século 19, houve uma tentativa de criar uma língua universal chamada esperanto – que significa “aquele que tem esperança”. O objetivo do seu inventor, o oftalmologista polonês Ludwig Lázaro Zamenhof (1859-1917), era gerar maior conexão e entendimento entre os diferentes povos. O esperanto não se popularizou, mas hoje, com o uso de tecnologia, é possível perseguir esse objetivo de aproximar os povos não com um idioma universal, mas com a preservação de línguas diversas, muitas delas ameaçadas de extinção, por meio da tecnologia. Pelo menos três grandes empresas têm projetos nesse sentido: Motorola, Google e Meta.

Nheengatu e Kaingang

Com uma lista de critérios para escolher os idiomas na qual a Motorola iria trabalhar, a gerente de globalização e chefe de linguística da Motorola Mobility, Juliana Rebelatto, conta que sua equipe decidiu verificar quais línguas estavam em extinção, de acordo com o Atlas of the World’s Languages in Danger (Atlas Mundial das Línguas em Perigo) da Unesco, para entender qual seria a aceitação da comunidade indígena sobre o engajamento deles com o seu idioma.

Inicialmente, decidiram trabalhar com dois idiomas indígenas da América Latina que estão ameaçados: o Nheengatu, ou Tupi moderno, e o Kaingang. O Guarani, idioma mais falado, foi descartado por contar com diferentes ortografias e dialetos conforme as regiões do Brasil, sendo mais difícil para a equipe decidir qual usar.

O Nheengatu, apesar de não ser uma das línguas mais faladas, é considerado o idioma oficial da Amazônia, pois foi introduzido pelos colonizadores e jesuítas no século 19, que estavam acompanhados do povo Tupinambá. Ao longo dos anos, inúmeras comunidades indígenas foram substituindo seus idiomas pelo Nheengatu. A língua é falada por cerca de 14 mil pessoas na região amazônica brasileira, colombiana e venezuelana. Contudo, com apenas 6 mil falantes no Brasil e 8 mil na Colômbia, a língua corre risco de extinção.

O Kaingang, por sua vez, é a terceira língua indígena mais falada no Brasil, de acordo com o censo do IBGE (Instituto Brasileiro de Geografia e Estatística). O idioma é falado por mais de 30 mil pessoas distribuídas nos estados do Paraná, Rio Grande do Sul, Santa Catarina e região oeste do estado de São Paulo. O problema é que apenas metade dessa comunidade se comunica prioritariamente por essa língua. Isso significa que as crianças não aprendem mais em casa como seu primeiro idioma.

Depois da escolha dos idiomas, o projeto foi desenvolvido em parceria com o professor e pesquisador de antropologia cultural Wilmar da Rocha D’Angelis, da Universidade Estadual de Campinas (Unicamp), que há mais de quatro décadas se dedica à pesquisa de povos indígenas e de seus idiomas. Ele, que já tinha um contato com as regiões que falam essas línguas, fez a ligação entre a comunidade e a equipe da Motorola.

Durante o desenvolvimento, a gerente de globalização da companhia comenta que, por ter se desenrolado no meio da pandemia, o encontro presencial com a comunidade não aconteceu. Tudo se deu de forma online, fazendo “todas as traduções por reuniões de vídeo”, cada pessoa em sua casa. A ponte para esse contato foi feita pelo professor D’Angelis, que esteve acompanhando de perto, fazendo algumas visitas à comunidade.

Ozias Yaguarê Yamã Glória de Oliveira Aripunãguá, ao lado da filha. Falante do Nheengatu, colaborou com a Motorola no projeto. (Foto: Divulgação/Motorola)

Em 2019, o objetivo desse trabalho – até então não realizado – era adicionar as duas línguas indígenas no sistema operacional dos smartphones da Motorola. Desde o início, Rebelatto relata que o intuito não era vender mais celulares, e sim gerar mais inclusão digital. Após dois anos, no início de 2021, o projeto foi lançado, e a Motorola anunciou a inclusão de dois idiomas indígenas do Brasil em seus aparelhos atualizados com Android 11, que poderiam ter acesso às línguas Kaingang e Nheengatu.

Processo

Foram necessários oito tradutores, quatro para cada idioma. Ela conta que, normalmente, as traduções para as línguas que adicionam no sistema operacional costumam passar pelo inglês. No entanto, as pessoas das comunidades e os tradutores e revisores de Kaingang e Nheengatu preferiram passar do português para os idiomas indígenas, o que fez o processo se alongar, por fazer a tradução em três etapas.

Idiomas como italiano, mandarim, português, russo ou japonês, por exemplo, já estão incorporados ao sistema. Isto é, os caracteres já existem, as pessoas conseguem digitar e ler, e a digitalização acontece em questão de horas, ressalta a chefe de linguística. No caso das duas línguas indígenas, o processo é outro, visto que, primeiramente, é preciso criar caracteres específicos para ser integrado e habilitado em um telefone móvel.

Para a tradução, a Motorola usa uma ferramenta comercializada externamente, chamada XTM. Ela é uma ferramenta de gestão de tradução. “As empresas compram licença para poder utilizá-la, e isso permite que não tenha que ficar mandando arquivo, tudo acontece de forma mais automatizada. Tem reaproveitamento de tradução entre uma linha e outra e melhora o tempo de trabalho”, explica.

Depois da tradução feita, eles precisam revisar para ver se aquela linha que traduziram em uma lista faz sentido naquele contexto. Rebelatto dá o exemplo de que muitas vezes o usuário abre o telefone e tem um botão que está escrito “aberto” ao invés de “abrir”. Isso acontece porque a tradução não foi feita naquele contexto.

No caso da revisão, eles forneceram acesso aos revisores locais para uma ferramenta proprietária do time da Motorola, que permite que as telas sejam comparadas lado a lado. Então, do lado esquerdo, estava a tela do celular em português. Do lado direito, em Nheengatu, “para que eles pudessem olhar como isso ficaria no telefone para o usuário final”. Além disso, a empresa enviava kits com arquivos de tradução para que traduzissem usando as suas ferramentas. Ela destaca que todos os processos tiveram explicações sobre como eram feitas e utilizadas essas funcionalidades.

“Nem sempre a palavra era fácil. É uma língua que está em risco de extinção. Então, isso significa que o número de falantes ali está sendo reduzido e até a continuidade da língua está em risco. As crianças não aprendem. Às vezes a criança fala, mas não quer aprender mais, não consegue conversar com avô e avó”, aponta Rebelatto.

Uma das tradutoras do Kaingang, Sueli Krengre Cândido, relatou que sua filha adolescente não estava interessada em aprender a língua, mas que, durante o processo de ver a mãe traduzindo e sabendo que era para ser incorporado no sistema operacional de um celular, começou a perguntar sobre o idioma e falou que “tinha que aprender”. “Então, esse processo de enaltecer a língua, de fortalecer como forma de preservação das línguas indígenas, do povo originário e de toda a bagagem ancestral que a língua traz, é o nosso maior e mais poderoso feedback, o maior impacto que a gente pode causar”, finaliza.

Google Tradutor

No caso do Google, o objetivo de inserir as línguas indígenas surgiu para expandir seu serviço de tradução com idiomas que não são representados na maioria das tecnologias, afirma o engenheiro sênior de software do Google Tradutor, Isaac Caswell. No momento, o serviço suporta um total de 133 idiomas. Desse total, 24 foram adicionados no primeiro semestre do ano passado. A atualização foi feita com a participação de falantes nativos, professores e linguistas usando uma nova tecnologia.

Entre os mais de cem idiomas, três são línguas indígenas sul-americanas: guarani, quíchua e aimará. O guarani é falado por cerca de 7 milhões de pessoas no mundo, sendo uma das línguas oficiais do Paraguai, e quíchua e aimará são falados por povos nativos do Peru, Bolívia e Argentina, estimados em 10 milhões e 2 milhões de pessoas, respectivamente.

Pela primeira vez, a empresa usou o recurso de tradução automática Zero-Shot, ou zero-resource translation, com apenas textos monolíngues, ou seja, o Google Tradutor aprende a traduzir diferentes idiomas sem a necessidade prévia de exemplos. A ideia surgiu do conceito apresentado no artigo Building Machine Translation Systems for the Next Thousand Languages, publicado por um grupo de pesquisadores do Google, no qual os cientistas revelaram como a companhia pode expandir a capacidade dos mecanismos de tradução para idiomas sub-representados sem uma extensa ou bem documentada base de dados na Internet, como é o caso das línguas indígenas.

Em material de estudo, Caswell explica como criaram, de forma detalhada, conjuntos de dados monolíngues de alta qualidade para mais de 1 mil idiomas que não possuem grupos de dados de tradução disponíveis e demonstraram como usar apenas conjuntos de dados monolíngues para treinar modelos de MT (Machine Translation).

Relacionado aos idiomas lançados em 2022, foram criados conjuntos de dados monolíngues desenvolvendo e usando modelos especializados de identificação de linguagem neural combinados com novas abordagens de filtragem. “As técnicas que introduzimos complementam modelos massivamente multilíngues com uma tarefa autossupervisionada para permitir a tradução de texto”, detalha.

Inteligência Artificial (IA)

Em todo o processo de desenvolvimento de recursos, foram necessários mecanismos de machine learning (ML) que reproduzem o mesmo comportamento previsto em idiomas conhecidos e com a maior quantidade de dados de qualidade disponíveis para coletar, treinar e desenvolver os modelos de linguagem que entendem e traduzem os idiomas inseridos.

O engenheiro sênior destaca alguns exemplos de ferramentas de ML usadas durante o projeto, incluindo modelos de detecção e processamento de linguagem natural: o Compact Language Detector v3 – usado para localizar os dados necessários para o trabalho – e modelos de identificação de linguagem com Masked Sequence-to-Sequence, responsável por remover informações a partir dos dados obtidos e treinando a inteligência artificial do Google Tradutor.

“As nossas equipes passaram por diferentes etapas, que envolveram a documentação e a filtragem do material linguístico disponível e existente na Internet, a criação de modelos e o teste dos resultados”, ressalta. Os pesquisadores do Google colaboraram com os falantes nativos dos idiomas e com outras instituições que falam as línguas – sem detalhar quais são elas.

Nas etapas de planejamento e produção do modelo, contaram com o apoio de voluntários que ajudaram a desenvolver filtros e retirar conteúdos ou informações fora da linguagem gerada pela plataforma – situação que pode acontecer durante a automação. Segundo Caswell, os falantes nativos também foram essenciais na revisão dos formatos e padrões de redação de seus idiomas de origem e na aprovação da qualidade do que foi traduzido pela ferramenta.

O projeto ainda está em andamento e em desenvolvimento, e o Google está treinando e testando rigorosamente seu sistema, pois quer “garantir que cada idioma que lançamos atenda a um determinado padrão de qualidade para que as traduções sejam úteis para nossos usuários”, conclui.

Meta

Também no último ano, foi anunciado pela Meta uma iniciativa de longo prazo para criar ferramentas de idiomas e tradução automática que incluirão a maioria dos idiomas do mundo, e isso inclui dois projetos. O primeiro é o No Language Left Behind (NLLB, ou Nenhum Idioma Deixado para Trás, em português), que consiste em construir e treinar um novo modelo de inteligência artificial avançada capaz de aprender com idiomas que têm menos exemplos para treinamento, similar ao projeto do Google Tradutor. Até o momento, são 200 línguas cobertas.

Já o segundo é o Universal Speech Translator (Tradutor de Fala Universal, em português), no qual estão projetando novas abordagens para traduzir a fala em um idioma para outro em tempo real. Assim, será possível incluir idiomas que não têm um sistema de escrita padrão da mesma forma que aqueles que são falados e escritos.

Neste ano, em maio, foi apresentado outro novo projeto, o Massively Multilingual Speech, que expande a tecnologia de fala (fala para texto e texto para fala) para mais de 1,1 mil idiomas – representando um aumento de 10 vezes em relação aos modelos de reconhecimento de fala disponíveis atualmente. Dentro desses 1,1 mil idiomas, o MMS abrange mais de 250 línguas e dialetos presentes na América Latina, incluindo guarani, yanomamö, kamayurá, sanumá, entre outras.

Projeto C4AI e IBM

Além disso, outros projetos estão sendo desenvolvidos, como é o caso de um na USP, por meio do Centro de Inteligência Artificial (C4AI) e IBM Research, que estão em contato, há cerca de um ano, com a comunidade indígena da Terra Indígena Tenonde Porã, no sul da cidade de São Paulo. Com o uso de Processamento de Linguagem Natural (PLN), estão trabalhando na parte de processamento de texto e começando um projeto na área de síntese de texto para voz. A comunidade fala como língua primária o guarani mbya, porém os jovens e as crianças ainda apresentam dificuldades na parte escrita.

A equipe do projeto está desenvolvendo um corretor ortográfico, um completador de palavra e de sentença, e um tradutor, dado um modelo calibrado de IA, através de grandes modelos que foram tratados com milhões de frases de muitas línguas, além de calibrar com outros materiais que procuram no dicionário, nos websites e em textos. É um projeto que busca fortalecer, documentar e preservar o uso das línguas indígenas, e que percorrerá ainda um ou dois anos, estima o vice-diretor do C4AI, Claudio Pinhanez. Seus primeiros protótipos de pesquisa poderão ser testados ainda no segundo semestre de 2023.

O pesquisador destaca que o C4AI e a IBM estão na busca ativa por mais pessoas que tenham interesse em integrar a equipe, entre elas: professores, profissionais, estudantes e alunos indígenas. A ideia é que o projeto conte com indígenas que atuem como professores, linguistas, programadores e profissionais de TI e tradutores.

Se o sonho do esperanto não se concretizou, pelo menos a humanidade, com ajuda da tecnologia, está conseguindo fomentar a comunicação entre pessoas com idiomas diferentes e preservar uma grande diversidade de línguas.