O Google apresentou uma série de novidades com relação aos seus modelos de linguagem durante o Google I/O, evento voltado para desenvolvedores que aconteceu nesta terça-feira, 19. Entre os lançamentos estão o Gemini 3.5, Gemini Omni Flash e Gemini Spark, um agente de IA que começará a operar no Chrome.
Gemini Spark
O Gemini Spark será o agente de IA pessoal do usuário. Ele utiliza o modelo 3.5 Flash do Gemini e Google Antigravity – ferramenta de desenvolvimento de software (IDE) com inteligência artificial, projetada para a criação autônoma de aplicativos – e tem como premissa realizar ações sob orientação.
Este modelo, por sua vez, vai operar diretamente no Chrome como um navegador agêntico pela web e poderá agir pelo usuário e tomar decisões, de acordo com as orientações da pessoa. Essa funcionalidade estará disponível entre julho e setembro deste ano.
No evento voltado para desenvolvedores, o Google informou que está construindo uma base dedicada para seus agentes, a Android Halo, que será lançada ainda este ano para Android 17.
“É seu agente de IA que te ajuda a navegar pela sua vida digital, tomando ações em seu nome e sob sua direção. Ele roda em máquinas virtuais no Google Cloud e é 24/7. E, sim, você pode fechar seu laptop”, resumiu Sundar Pichai.
A ferramenta agêntica está disponível para um seleto grupo de testadores e sua versão beta deverá ser lançada para assinantes Google Ultra e Pro, nos Estados Unidos, na próxima semana.
Gemini Omni Flash
Este LLM pretende entender e simular o mundo real. É capaz de reproduzir a gravidade e traduzir ideias complexas em vídeos com bastante acurácia, segundo a companhia. A ideia é que o modelo preveja o que acontecerá em seguida com base nas ações do usuário. Modelos de mundo são frequentemente utilizados em robótica e jogos, e vêm sendo amplamente pesquisados pela Google DeepMind ao longo dos anos.
De acordo com os executivos, a versão Omni é capaz de começar com outputs em vídeos, mas poderá gerar qualquer coisa a partir de qualquer input.
Segundo a empresa, o Omni funcionará no Flash, no aplicativo Gemini, no Google Flow e no YouTube Shorts, com suporte a imagem e áudio. Em uma publicação separada no blog, o Google acrescentou que os usuários poderão usar o Omni para editar vídeos e criar imagens mais realistas.
“Pegue um vídeo que você gravou e simplesmente peça ao Omni para mudar o que está acontecendo”, afirma a publicação. A IA pode “editar a ação, adicionar novos personagens ou objetos”.
Gemini 3.5 Flash
O Gemini 3.5 Flash é uma versão do LLM mais leve que oferece capacidades de ponta pela metade — ou, em alguns casos, por quase um terço — do preço de modelos de fronteira comparáveis, segundo o CEO Sundar Pichai. A ideia é que este LLM seja o modelo padrão do aplicativo Gemini e do modo IA na Busca.
Este é o modelo de agentes e programação mais potente até o momento, superando o Gemini 3.1 Pro em benchmarks de programação e agentes desafiadores, como Terminal-Bench 2.1 (76,2%), GDPval-AA (1656 Elo) e MCP Atlas (83,6%), e liderando em compreensão multimodal (84,2% no CharXiv Reasoning). Quando se analisa o número de tokens de saída por segundo, ele é quatro vezes mais rápido do que outros modelos de fronteira.
A companhia informou também que reforçou as defesas de cibersegurança do Gemini 3.5 Flash, tornando-o “menos propenso a gerar conteúdo nocivo e a se recusar erroneamente a responder consultas seguras”.
E sua versão Pro, a mais robusta, já está sendo usada internamente, mas só estará pronta para distribuição mais ampla no próximo mês.

