Lançado em 7 de dezembro, o Gemini ganhou uma nova versão, a Gemini 1.5, nesta quinta-feira, 15. A atualização do grande modelo de linguagem do Google está disponível para desenvolvedores e usuários corporativos e promete lidar com quantidades maiores de dados e trabalhar com tarefas mais complexas do que o modelo anterior. A IA generativa deverá ser lançada em breve para o consumidor final – lembrando que a empresa lançou sua versão paga na semana passada e que, neste período, seu app alcançou 300 mil downloads.

O modelo Gemini 1.5 Pro está aparentemente no mesmo nível do Gemini Ultra, LLM de última geração que a empresa lançou no fim do ano passado, e superou o Gemini 1.0 Pro em 87% nos testes de benchmark.

O Gemini 1.5 foi concebido usando a técnica conhecida como “Mixture of Experts” (MoE), o que significa que ele executa apenas parte do modelo geral quando lhe é enviada uma consulta, em vez de processar tudo o tempo todo. Essa abordagem deve tornar o modelo mais rápido para se usar e mais eficiente para o Google executar.

Outro ponto de destaque da nova versão do LLM é que ele possui uma grande janela de contexto, ou seja, ele consegue lidar com consultas muito maiores e analisar muito mais informações de uma só vez. No caso, alguns desenvolvedores poderão testar uma janela de contexto de 1 milhão de tokens. Para se ter uma ideia, Gemini 1.0 Pro trabalha com 32 mil tokens. Já o ChatGPT 4.5, da OpenAI, com 128 mil tokens. E o Claude 2.1, 200 mil.

Vale dizer que o Gemini 1.5 chega em uma janela de contexto padrão, ou seja, de 128 mil tokens. E o Google também está testando em pesquisas ainda, uma versão com 10 milhões de tokens.

Apesar do uso de 1 milhão de tokens, os desenvolvedores que estão testando a novidade deverão esperar por uma latência mais longa, porém o Google informou que está trabalhando para reduzi-la.

Gemini 1.5

Animação que compara os contextos de janela dos principais modelos básicos: Gemini 1.0 Pro, com 32 mil tokens, GPT-4 Turbo, com 128 mil tokens, Claude 2.1, com 200 mil tokens, e Gemini 1.5 Pro, com 1 milhão de tokens e até 10 milhões de tokens testados em pesquisa. Animação: divulgação/Google

O que é janela de contexto

A “janela de contexto” de um modelo de IA é composta de tokens, que são os blocos de construção usados para processar informações. Os tokens podem ser partes inteiras ou subseções de palavras, imagens, vídeos, áudio ou código. Quanto maior a janela de contexto de um modelo, mais informações ele pode receber e processar em um determinado prompt — tornando sua saída mais consistente, relevante e útil.

O Gemini 1.5 estará disponível por meio do Vertex AI e AI Studio do Google. Eventualmente, esta versão substituirá o Gemini 1.0, e a versão padrão do Gemini Pro será a 1.5 Pro com uma janela de contexto de 128 mil tokens. Para utilizar a opção com 1 milhão de janelas de contexto será necessário pagar mais caro. O Google também está testando os limites éticos e de segurança do modelo, especialmente em relação à janela de contexto maior.