O ChatGPT agora é capaz de ver e de falar. As novas habilidades, anunciadas nesta segunda-feira, 25, pela OpenAI, tornam a conversa com o assistente virtual ainda mais multimídia.

Durante bate-papo com o ChatGPT, além do texto, o usuário passa a poder enviar fotos tiradas direto da câmera do celular. O assistente então analisa a imagem levando em conta o contexto da conversa. No exemplo fornecido pela OpenAI em seu blog, uma pessoa pede para o ChatGPT ensiná-la a abaixar o banco da sua bicicleta, e manda uma foto do veículo. O assistente responde perguntando de quais ferramentas a pessoa dispõe, e esta envia outra imagem, agora da sua caixa de ferramentas aberta. O assistente indica então qual chave usar. Outros exemplos: pedir uma receita a partir da foto do que tem dentro da geladeira; analisar gráficos complexos; ajudar a responder um problema matemático etc. O ChatGPT também é capaz de entender se o usuário fizer um círculo ou desenhar uma seta por cima da imagem, para indicar algum objeto no qual o assistente deve focar sua atenção. 

As possibilidades são infinitas. Mas, para evitar o mau uso, foram feitos testes com equipes de avaliação de riscos e definidas algumas restrições, como, por exemplo, evitar fazer afirmações sobre figuras humanas que apareçam nas imagens.

Fala

A outra novidade é que o ChatGPT ganhou voz. Ou melhor, vozes. Foi usado um novo software de text-to-speech (TTS) capaz de falar com a naturalidade de um ser humano a partir de pequenas amostras de áudio. São oferecidas cinco vozes diferentes, entre masculinas e femininas. O ChatGPT consegue recitar um poema, dar uma explicação técnica, fazer um discurso, ler uma história ou descrever uma receita culinária com uma entonação bastante natural – o blog da OpenAI fornece vários exemplos.

Com o novo recurso, os usuários poderão, portanto, manter uma conversa falada com o assistente, não mais apenas por escrito. A OpenAI ressalta, contudo, que a ferramenta funciona melhor em inglês.

Novamente, há uma preocupação em relação ao possível mau uso da tecnologia. A OpenAI reconhece que essa solução de TTS poderia ser aplicada em fraudes ou para imitar figuras públicas. Por isso, ao menos por enquanto, seu acesso está restrito à aplicação de bate-papo dentro do ChatGPT.

Disponibilidade

Os dois novos recursos serão disponibilizados progressivamente ao longo das duas próximas semanas para todos usuários corporativos e assinantes premium do ChatGPT. A voz poderá ser usada nos apps Android e iOS. E a visão, em todas as plataformas (web e apps).