O Google apresenta o Gemini, um avanço em IA que, ao incorporar compreensão multimídia, promete transformar as interações
O Google anunciou hoje, 6 de dezembro, o seu mais recente avanço em inteligência artificial com a introdução do Gemini, um modelo revolucionário que vai além da compreensão baseada em texto para entender fotos e vídeos. A principal novidade é a integração do Bard com o Gemini, que promete trazer recursos mais avançados de raciocínio, planejamento, compreensão e outras capacidades para o chatbot.
O Gemini marca uma mudança significativa em relação aos modelos tradicionais de IA, que se concentravam principalmente na comunicação baseada em texto. Ao contrário dos seus antecessores, o Gemini introduz suporte nativo para vídeo, áudio e fotos, permitindo que o chatbot de IA Bard do Google compreenda e responda a informações mais ricas.
Embora o lançamento inicial forneça capacidades avançadas de chat baseado em texto, o potencial completo da compreensão multimídia é esperado em breve.
O que você precisa saber:
- O Gemini, que possui três variantes — Ultra, Pro e Nano — permite sua execução em uma ampla gama de dispositivos, desde dispositivos móveis até data centers.
- O processo de implementação do Gemini no Bard ocorrerá em duas fases:
- Inicialmente, o Bard será atualizado com uma versão especificamente ajustada do Gemini Pro.
- No próximo ano, a Google introduzirá o Bard Advanced, oferecendo aos usuários acesso ao melhor modelo de IA, começando pelo Gemini Ultra.
- A versão do Bard com Gemini Pro estará inicialmente disponível em inglês em mais de 170 países e territórios em todo o mundo, com a promessa de inclusão de mais idiomas e países, incluindo a União Europeia e o Reino Unido.
- Antes de ser lançado ao público, o Gemini Pro passou por uma série de benchmarks padrão da indústria, superando o GPT-3.5 em 6 de 8 desses benchmarks, segundo informações da Google.
- Isso inclui melhor desempenho em tarefas de compreensão de linguagem multitarefa em massa (MMLU) e raciocínio matemático (GSM8K).
- O Bard com Gemini já está disponível a partir de hoje.
As melhorias tornarão o Bard mais capaz em termos de compreensão e resumo de conteúdo, raciocínio, brainstorming, escrita e planejamento, destaca a empresa.
Esta é a maior melhoria de qualidade única do Bard desde o seu lançamento.Sissie Hsiao, VP e GM do Assistente e Bard na Google
Sissie Hsiao, VP e GM do Assistente e Bard na Google
Os planos do Google
Inicialmente, o Gemini Pro alimentará prompts baseados em texto no Bard, mas a previsão é expandir para suporte multimodal — ou seja, textos e imagens, ou outras modalidades — nos próximos meses.
Em 2024, está programada a estreia do Bard Advanced, proporcionando uma nova experiência alimentada pelo modelo mais capaz do Gemini, o Ultra. Com o Gemini Ultra, a IA pode compreender e agir com diferentes tipos de informações, incluindo texto, imagens, áudio, vídeo e código, além de possuir capacidades de raciocínio multimodal.
O Google destaca que o Gemini Ultra pode também compreender, explicar e gerar código de alta qualidade em linguagens de programação populares, além de entender conteúdo de áudio e vídeo. Essa atualização parece ser a mais aguardada.
A empresa também anunciou um programa de testadores para o Bard Advanced antes de abri-lo mais amplamente aos usuários no início do próximo ano. Além disso, a empresa realizará verificações de segurança adicionais antes do lançamento do Bard Advanced.
Aprimoramentos no Bard
Essa atualização sucede uma série de aprimoramentos anteriores no Bard, desde seu lançamento há apenas oito meses. Nos últimos meses, a experiência de IA foi melhorada com recursos como a capacidade de responder a perguntas sobre vídeos do YouTube, bem como acessar os aplicativos Google dos usuários, como Gmail, Docs, Drive e muito mais, além de outros serviços Google, como Google Flights e hotéis.
O Bard também pode verificar suas respostas para ajudar a determinar se a IA está “alucinando”, isto é, fornecendo uma resposta com base em informações falsas.
Estamos abordando este trabalho de forma ousada e responsável. Isso significa ser ambicioso em nossa pesquisa e buscar as capacidades que trarão enormes benefícios para as pessoas e a sociedade, ao mesmo tempo em que incorporamos salvaguardas e colaboramos com governos e especialistas para lidar com os riscos à medida que a IA se torna mais capaz. E continuamos investindo nas melhores ferramentas, modelos fundamentais e infraestrutura, integrando-os aos nossos produtos e aos de outros, seguindo nossos Princípios de IA.
Sundar Pichai, CEO do Google, em post de blog
Texto: Ana Luiza Figueiredo