Gemini: Google apresenta novidades para seus LLMs

O Google apresentou uma série de novidades com relação aos seus modelos de linguagem durante o Google I/O, evento voltado para desenvolvedores que aconteceu nesta terça-feira, 19. Entre os lançamentos estão o Gemini 3.5, Gemini Omni Flash e Gemini Spark, um agente de IA que começará a operar no Chrome.

Gemini Spark

O Gemini Spark será o agente de IA pessoal do usuário. Ele utiliza o modelo 3.5 Flash do Gemini e Google Antigravity – ferramenta de desenvolvimento de software (IDE) com inteligência artificial, projetada para a criação autônoma de aplicativos – e tem como premissa realizar ações sob orientação.

Este modelo, por sua vez, vai operar diretamente no Chrome como um navegador agêntico pela web e poderá agir pelo usuário e tomar decisões, de acordo com as orientações da pessoa. Essa funcionalidade estará disponível entre julho e setembro deste ano.

No evento voltado para desenvolvedores, o Google informou que está construindo uma base dedicada para seus agentes, a Android Halo, que será lançada ainda este ano para Android 17.

“É seu agente de IA que te ajuda a navegar pela sua vida digital, tomando ações em seu nome e sob sua direção. Ele roda em máquinas virtuais no Google Cloud e é 24/7. E, sim, você pode fechar seu laptop”, resumiu Sundar Pichai.

A ferramenta agêntica está disponível para um seleto grupo de testadores e sua versão beta deverá ser lançada para assinantes Google Ultra e Pro, nos Estados Unidos, na próxima semana.

Gemini Omni Flash

Este LLM pretende entender e simular o mundo real. É capaz de reproduzir a gravidade e traduzir ideias complexas em vídeos com bastante acurácia, segundo a companhia. A ideia é que o modelo preveja o que acontecerá em seguida com base nas ações do usuário. Modelos de mundo são frequentemente utilizados em robótica e jogos, e vêm sendo amplamente pesquisados pela Google DeepMind ao longo dos anos.

De acordo com os executivos, a versão Omni é capaz de começar com outputs em vídeos, mas poderá gerar qualquer coisa a partir de qualquer input.

Segundo a empresa, o Omni funcionará no Flash, no aplicativo Gemini, no Google Flow e no YouTube Shorts, com suporte a imagem e áudio. Em uma publicação separada no blog, o Google acrescentou que os usuários poderão usar o Omni para editar vídeos e criar imagens mais realistas.

“Pegue um vídeo que você gravou e simplesmente peça ao Omni para mudar o que está acontecendo”, afirma a publicação. A IA pode “editar a ação, adicionar novos personagens ou objetos”.

Gemini 3.5 Flash

O Gemini 3.5 Flash é uma versão do LLM mais leve que oferece capacidades de ponta pela metade — ou, em alguns casos, por quase um terço — do preço de modelos de fronteira comparáveis, segundo o CEO Sundar Pichai. A ideia é que este LLM seja o modelo padrão do aplicativo Gemini e do modo IA na Busca.

Este é o modelo de agentes e programação mais potente até o momento, superando o Gemini 3.1 Pro em benchmarks de programação e agentes desafiadores, como Terminal-Bench 2.1 (76,2%), GDPval-AA (1656 Elo) e MCP Atlas (83,6%), e liderando em compreensão multimodal (84,2% no CharXiv Reasoning). Quando se analisa o número de tokens de saída por segundo, ele é quatro vezes mais rápido do que outros modelos de fronteira.

A companhia informou também que reforçou as defesas de cibersegurança do Gemini 3.5 Flash, tornando-o “menos propenso a gerar conteúdo nocivo e a se recusar erroneamente a responder consultas seguras”.

E sua versão Pro, a mais robusta, já está sendo usada internamente, mas só estará pronta para distribuição mais ampla no próximo mês.

Google apresenta novidades nos modelos de linguagem; entre eles, Spark, um agente de IA

Gemini Spark

Gemini Omni Flash

Gemini 3.5 Flash

Isabel Butcher

Assine nossa newsletter

Email cadastrado com sucesso.

Google apresenta novidades nos modelos de linguagem; entre eles, Spark, um agente de IA

Gemini Spark

Gemini Omni Flash

Gemini 3.5 Flash

Isabel Butcher

Notícias Relacionadas

Assine nossa newsletter

Email cadastrado com sucesso.