Durante o Google I/O, nesta terça-feira, 14, a empresa apresentou avanços em sua inteligência artificial com o Gemini 1.5 Pro e a versão 1.5 Flash do modelo de linguagem. Enquanto a primeira é capaz de lidar com conteúdo em larga escala – a ferramenta pode resumir 1,5 mil páginas de texto enviadas por um usuário, por exemplo –, a segunda é uma versão mais leve, econômica e para funções mais simples.

Durante o evento, Sundar Pichai, CEO do Google, também destacou melhorias nas traduções do Gemini. A IA generativa da empresa estará disponível para todos os desenvolvedores em todo o mundo em 35 idiomas.

Dentro do Gmail, o Gemini 1.5 Pro analisará PDFs e vídeos anexados, fornecendo resumos, entre outras funcionalidades. Na prática, caso uma pessoa precise averiguar um email, o Gemini poderá resumi-lo, inclusive os anexos.

O Gemini também deve facilitar as pesquisas dentro do Gmail. Entre o exemplo dado pela empresa está a comparação de preços de diferentes empreiteiros que mandaram emails com seus orçamentos para consertar um telhado. No caso, a IA generativa poderá resumir as cotações, mostrar as datas de início previstas por cada um dos profissionais, por exemplo.

Android

Aos poucos, a ideia do Google é que o Gemini substitua o Google Assistente nos smartphones Android.

Veo

No evento, o Google também apresentou o Veo, modelo de IA para geração de vídeo de alta definição, a versão de Sora, da OpenAI, e também o Imagen 3, seu modelo de texto para imagem, que promete imagens realistas.

As ferramentas estarão disponíveis para um grupo de desenvolvedores na próxima segunda-feira, 20, e chegarão ao Vertex AI, a plataforma de aprendizado de máquina do Google que permite aos desenvolvedores treinar e implantar aplicativos de IA. Até lá, haverá uma lista de espera.

Music AI Sandbox

A empresa também apresentou o “Music AI Sandbox”, uma gama de ferramentas generativas de IA para criar músicas e sons do zero, com base nas instruções do usuário.

Projeto Astra

O Projeto Astra também recebeu atualizações durante o Google I/O. A versão do assistente de IA desenvolvido pela unidade DeepMind ainda é um protótipo, mas a empresa espera lançá-lo oficialmente ainda este ano.

O Projeto Astra permite que, com áudio e vídeo, o bot interaja com o usuário, respondendo suas perguntas. No vídeo de apresentação da ferramenta, a pessoa fez um passeio com a câmera do celular e fazia perguntas aleatórias para o assistente virtual, como sobre o código desenvolvido em uma tela do computador, em que bairro ela estava – ao apontar a câmera para a janela; pediu um nome para uma dupla inusitada – um cachorro Golden Retriever e uma pelúcia de tigre (a sugestão foi Golden Stripes). No fim, é perguntado ao bot onde ela tinha deixado os óculos e ele responde exatamente onde eles estavam, graças à câmera que tudo “via”.

A conversa no vídeo de demonstração aconteceu em tempo real, sem atrasos.

No palco do Google I/O, Demis Hassabis, o CEO da DeepMind, disse que “reduzir o tempo de resposta para algo conversacional é um difícil desafio de engenharia”.

Confira abaixo o vídeo da apresentação:

Imagem: Demis Hassabis, o CEO da DeepMind. Crédito: reprodução de vídeo/Google I/O