A OpenAI apresenta nesta quinta-feira, 15, o Sora, seu modelo de IA generativa que transforma texto em vídeo. Imagens realistas e cenas de até um minuto são criadas a partir de textos descritivos.

Segundo a empresa, Sora é capaz de gerar imagens complexas com vários personagens, tipos específicos de movimento e detalhes precisos do assunto e do fundo do vídeo. O modelo entenderia não apenas o que o usuário descreveu, mas como é aquilo no mundo físico. Sora também pode criar várias tomadas em um único vídeo gerado.

A OpenAI admite que o modelo text-to-video é falho e apresenta pontos fracos. Pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. O exemplo dado na divulgação da plataforma foi uma pessoa dando uma mordida em um biscoito, mas, logo em seguida, a marca da mordida pode sumir.

Outra falha observada pela empresa é que Sora pode confundir detalhes especiais de um prompt, misturando, por exemplo, esquerda com direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como uma câmera seguir uma trajetória específica.

A OpenAI também está, no momento, criando ferramentas para ajudar a detectar conteúdo enganoso, inclusive uma solução capaz de identificar quando um vídeo foi gerado por Sora.

De todo modo, a empresa está aproveitando os métodos de segurança existentes no Dall-E 3, que são aplicáveis a Sora.

Além de poder gerar um vídeo apenas a partir de instruções por meio de texto, o modelo é capaz de pegar uma imagem estática já existente e gerar um vídeo a partir dela. O modelo também pode pegar um vídeo existente e estendê-lo ou preencher os quadros ausentes.

Sora está disponível para a avaliação de red teamers – especialistas em áreas como desinformação, conteúdo de ódio e preconceito – à procura de danos ou riscos. A OpenAI oferecerá a ferramenta a artistas visuais, designers e cineastas para testarem a plataforma em troca de feedback sobre como fazer com que o modelo seja mais útil para profissionais criativos.

Imagem extraída de vídeo criado pela OpenAI com o modelo de IA generativa Sora. Divulgação