Algoritmos de inteligência artificial precisam de dados para serem treinados. Quanto maior e mais próxima da variabilidade do mundo real for a base de dados utilizada, melhor será o treinamento e, consequentemente, melhor será o desempenho do algoritmo criado. O problema é que leis de proteção de dados pessoais, como a LGPD, dificultam o acesso a dados, especialmente quando se trata de imagens que serviriam para o treinamento de modelos de reconhecimento facial, por exemplo. Uma possível solução respeitando a lei seria a utilização de dados sintéticos, ou seja, produzidos por IA generativa, para treinar os algoritmos. Essa é uma das apostas da pesquisadora Soraia Raupp Musse, professora dos cursos de graduação e pós-graduação em Ciência da Computação da PUC-RS e coordenadora do VHLab – Laboratório de Simulação de Humanos Virtuais.

Bases de dados mal construídas geram problemas e prejudicam o desempenho do algoritmo. “A detecção facial, por exemplo, funciona pior para negros e para mulheres porque os algoritmos foram mais treinados para homens brancos”, cita Musse, em entrevista para Mobile Time. “Não é o programador que é preconceituoso, nem o algoritmo. O problema são os dados e os métodos usados”, explica.

Soraia Raupp Musse

Soraia Raupp Musse, professora dos cursos de graduação e pós-graduação em Ciência da Computação da PUC-RS e coordenadora do VHLab: “Não é o programador que é preconceituoso, nem o algoritmo. O problema são os dados e os métodos usados”. Foto: divulgação

Mas como construir uma base que reproduza a diversidade do mundo real se a legislação dificulta o acesso a dados reais? Musse enfrenta essa dificuldade em sua principal área de pesquisa, que é a simulação de multidões. Ela precisa de imagens de câmeras públicas para treinar seus algoritmos, mas é muito difícil conseguir acesso, por conta das restrições da LGPD. Em geral, a pessoa responsável por uma câmera em uma empresa ou instituição fica receosa em ceder as imagens por medo de infringir a lei, por mais que seja informada que os dados servirão apenas para treinamento de um algoritmo ou para uma pesquisa científica, não para identificação de pessoas. Segundo a especialista, esse é um problema enfrentado por pesquisadores no mundo inteiro, não apenas no Brasil.

“Ao dificultar o acesso de dados da vida real, a lei faz com que algoritmos sejam treinados de forma errada, com bases erradas. Se queremos que algoritmos funcionem melhor, precisamos de mais dados. Sem dados, nunca vai funcionar bem”, resume.

A solução pode estar na produção de dados sintéticos para o treinamento dos modelos, com o objetivo de melhorar a qualidade da amostra utilizada, aproximando-a da diversidade do mundo real. Assim, imagens criadas por IA generativa poderiam servir para complementar uma base de dados reais. Ou seja, combinando dados reais e sintéticos pode-se corrigir a falta de diversidade de uma base de dados e melhorar o treinamento do algoritmo, aumentando a sua precisão.

A coordenadora do VHLab já experimentou essa combinação em uma pesquisa para simular multidões. Ela misturou dados reais e virtuais para treinar redes que analisam vídeos reais. No seu experimento, o algoritmo aprendeu bem desde que tivesse pelo menos 50% de dados reais. Mas isso foi feito oito anos atrás. Hoje em dia existem outros métodos de IA que talvez se comportem melhor frente à mistura dos dados

Musse é uma das referências no Brasil em pesquisa de simulação de multidões com humanos virtuais. Seu trabalho ajuda a entender como multidões e comportam em diferentes situações, como, por exemplo, na evacuação de um grande evento. Ela e sua equipe ajudaram em simulações no estádio do Engenhão, no Rio de Janeiro, e também em boates, prédios e escolas em Porto Alegre.

Crédito da imagem no alto: ilustração produzida por Mobile Time com IA generativa