Mais uma nova inteligência artificial generativa é lançada no mercado. Dessa vez, a autora é a ByteDance, a mesma empresa do TikTok – e que está tentando sobreviver nos Estados Unidos. O novo modelo de IA produz vídeos a partir de uma foto. Seu nome é OmniHuman.
De acordo com os pesquisadores da ByteDance, a ferramenta é capaz de gerar vídeos realistas de pessoas falando, cantando e se movimentando naturalmente. A equipe treinou o OmniHuman com mais de 18,7 mil horas de vídeos de seres humanos, utilizando uma abordagem que combina múltiplos tipos de entrada — texto, áudio e movimentos corporais. Essa estratégia de treinamento, chamada de “omni-condições”, permite que a IA aprenda com conjuntos de dados muito maiores e mais diversos do que os métodos anteriores.
“No OmniHuman, introduzimos uma estratégia de treinamento misto com condicionamento por múltiplas modalidades, permitindo que o modelo se beneficie do aumento da escala de dados com condicionamento misto. Isso resolve o problema enfrentado por abordagens anteriores de ponta a ponta devido à escassez de dados de alta qualidade. O OmniHuman supera significativamente os métodos existentes, gerando vídeos humanos extremamente realistas a partir de sinais de entrada fracos, especialmente áudio. Ele suporta imagens de qualquer proporção, sejam retratos, metade do corpo ou corpo inteiro, proporcionando resultados mais realistas e de alta qualidade em diversos cenários”, escreveram os criadores.
OmniHuman aceita inputs dos mais diversos, como cartuns, objetos artificiais, animais, poses das mais variadas e desafiadoras.
Por conta do treinamento com condicionamento misto do OmniHuman, a IA generativa da ByteDance pode suportar não apenas o direcionamento por áudio, mas também o direcionamento por vídeo para imitar ações específicas, além da combinação de áudio e vídeo para controlar partes específicas do corpo, como ocorre em métodos recentes.
Confira alguns exemplos da OmniHuman: