O desenvolvimento de inteligência artificial não está restrito às big techs e aos países mais desenvolvidos. É possível construir projetos sofisticados de IA em qualquer lugar, desde que se tenha dados. Essa foi a mensagem de Marcelo Finger, professor titular do departamento de Ciência da Computação do Instituto de Matemática e Estatística, da USP, no evento Super Bots Experience, realizado por Mobile Time nesta terça-feira, 1. O professor apresentou cinco exemplos de projetos brasileiros em andamento baseados em inteligência artificial, incluindo dois ligados diretamente à linguística e que podem se aplicar a chatbots, que detalhamos a seguir.

Corpus Carolina

Carolina é um corpus – ou seja, um conjunto de documentos – com um extenso volume de textos em Português Brasileiro contemporâneo (1970-2021), com informações para um estudo relacionado à tipologia e proveniência, assuntos relacionados à linguística.

O corpus está disponível em acesso aberto, para download gratuito, desde março do ano passado, em 2022. A versão atual, Ada 1.2 (8 de março de 2023), inclui cerca de 830 milhões de tokens, dois milhões de textos, mais de 11 GB, contendo material do âmbito judiciário e legislativo brasileiros, obras literárias em domínio público, textos jornalísticos, textos de redes sociais e wikis. O projeto é desenvolvido por uma equipe multidisciplinar de linguistas e cientistas da computação, membros do Laboratório Virtual de Humanidades Digitais (LaViHD) e do Centro de Inteligência Artificial da Universidade de São Paulo (C4AI).

Com o objetivo de desenvolver sistemas que avancem o estado do Processamento de Linguagem Natural (PLN) para o português brasileiro, o Carolina será um corpus do português contemporâneo para amplo uso, inclusive servindo como uma “nave-mãe” com relação aos demais corpora produzidos no C4AI-USP (englobando as transcrições de áudio do CORAA, os textos brutos não rotulados do Portinari e outros corpora futuros).

Ou seja, o trabalho inicial da equipe busca abordar a tipologia textual como uma ferramenta metodológica no desenvolvimento de um acervo de textos, permitindo a organização das buscas, da seleção e do balanceamento dos textos. Além disso, estão em treinamento de LLMs (BERT-like) com publicação prevista para outubro deste ano.

Alfabetização

O projeto Alfabetização é um trabalho que tem como objetivo a medição automática de fluência em leitura de crianças em processo de alfabetização, além de apoiar os professores na melhoria da leitura e contribuir para a aferição do MEC do estado de leitura no Brasil ao longo dos anos. Na prática, a criança lê um texto e, a partir daí, a equipe mede alguns fatores como, por exemplo, se a criança lê devagar ou rápido, se está lendo corretamente ou não, entre outros fatores.

O projeto mede palavras por minuto, palavras corretas por minuto, lista de palavras e de pseudo-palavras. Existe uma dificuldade que os pesquisadores ainda estão enfrentando relacionada aos sotaques do território brasileiro. A equipe formada pelo projeto Alfabetização envolve o ITA, USP, Santa Casa e UFMG.

Super Bots Experience

O Super Bots Experience 2023 segue na quarta-feira, 2, com painéis sobre a maturidade dos robôs, as melhores práticas e técnicas de analytics na análise de conversas com bots e IA generativa. Ao longo do dia, executivos de Bradesco, Claro, Rede Globo, Itaú, SAS, Google Brasil, entre outras empresas e entidades, abordarão os temas no WTC, em São Paulo. Mais informações, acesse o site do evento.

Foto: Augusto Monteiro/Mobile Time