GPT-5.2 supera especialistas humanos em tarefas profissionais

13/12/2025

192

Nova série de modelos de IA supera especialistas humanos em 70,9% das comparações e economiza até 10 horas semanais para usuários intensivos do ChatGPT Enterprise.

A OpenAI lançou sua nova série de modelos de inteligência artificial GPT-5.2, voltada para trabalho profissional baseado em conhecimento, incluindo ciência e matemática. O lançamento ocorreu nesta quinta-feira (11), com três variantes: Instant, Thinking e Pro. Elas já estão disponíveis para usuários de planos pagos do ChatGPT e para todos os desenvolvedores via API.

Os novos modelos foram projetados para aumentar o valor econômico oferecido pela IA, apresentando melhorias em diversas áreas como criação de planilhas, montagem de apresentações e programação.

Aliás, o GPT-5.2 Thinking estabelece novos padrões em diversos benchmarks. Isso porque ele supera ou iguala profissionais especializados em 70,9% das comparações no GDPval, de acordo com avaliação de especialistas humanos.

Avanços significativos em desempenho

O GPT-5.2 Thinking é considerado o melhor modelo até o momento para uso profissional em ambiente real. Além disso, esta é a primeira versão da OpenAI a atuar em nível equivalente ou superior ao de especialistas humanos em tarefas profissionais.

Além disso, várias empresas de tecnologia já testaram o GPT-5.2 e confirmaram suas capacidades avançadas. Notion, Box, Shopify, Harvey e Zoom verificaram o raciocínio de longo alcance e desempenho em ferramentas. Databricks, Hex e Triple Whale destacaram a performance em tarefas de ciência de dados.

Para tarefas de programação, empresas como Cognition, Warp, Charlie Labs, JetBrains e Augment Code relataram melhorias em programação interativa, revisões de código e identificação de bugs.

Resultados em benchmarks técnicos

O GPT-5.2 Thinking demonstrou eficiência notável nas tarefas do GDPval, produzindo resultados mais de 11 vezes mais rápido e por menos de 1% do custo quando comparado a profissionais especializados.

Em tarefas de modelagem em planilhas típicas de analistas juniores de investment banking, o modelo alcançou uma pontuação média 9,3% superior ao GPT-5.1, elevando-se de 59,1% para 68,4%.

Na área de codificação, o GPT-5.2 Thinking atingiu um novo recorde de 55,6% no SWE-bench Pro e 80% no SWE-bench Verified. No benchmark de chamada de ferramentas, alcançou 98,7%.

Em termos de factualidade, o modelo apresenta 38% menos respostas com erro em comparação ao seu predecessor, em um conjunto de consultas desidentificadas do ChatGPT.

Desempenho em problemas complexos

No GPQA Diamond, um benchmark de perguntas e respostas em nível de pós-graduação, o GPT-5.2 Pro alcançou 93,2%, seguido pelo GPT-5.2 Thinking com 92,4%. Na avaliação FrontierMath, o GPT-5.2 Thinking estabeleceu um novo recorde ao resolver 40,3% dos problemas propostos.

No ARC-AGI-1, o GPT-5.2 tornou-se o primeiro modelo a ultrapassar o patamar de 90%, superando o resultado de 87% obtido pelo o3-preview no ano passado, com custo computacional reduzido em aproximadamente 390 vezes. No ARC-AGI-2, o GPT-5.2 Thinking alcançou 52,9%, enquanto o GPT-5.2 Pro chegou a 54,2%.

Disponibilidade e preços

O lançamento do GPT-5.2 está sendo implementado gradualmente para garantir estabilidade e confiabilidade do ChatGPT. As versões Instant, Thinking e Pro começaram a ser disponibilizadas inicialmente para usuários de planos pagos, enquanto na API já estão acessíveis para todos os desenvolvedores.

Na API, o GPT-5.2 tem preço de US$ 1,75 por 1 milhão de tokens de entrada. Além de US$ 14 por 1 milhão de tokens de saída, com desconto de 90% em Cached Inputs.

Avaliação de especialistas

Um avaliador do GDPval comentou sobre um resultado do GPT-5.2: “É um salto empolgante e perceptível na qualidade do resultado… [parece] ter sido feito por uma empresa profissional, com equipe, e tem um layout surpreendentemente bem desenhado e boas recomendações para as duas entregas, embora em uma delas ainda tenhamos alguns pequenos erros a corrigir.”

Próximos passos

A OpenAI não planeja descontinuar o GPT-5.1, GPT-5 ou GPT-4.1 na API no momento, e promete comunicar qualquer plano de descontinuação com antecedência aos desenvolvedores.

A empresa está nos estágios iniciais de implementação de um modelo de previsão de idade. Ele aplicará automaticamente proteções de conteúdo a usuários menores de 18 anos, limitando o acesso a conteúdo sensível.

A OpenAI reconhece que ainda há áreas para melhorias: “Embora esta versão traga ganhos importantes em inteligência e produtividade, sabemos que ainda há áreas em que as pessoas querem mais. No ChatGPT, estamos trabalhando em problemas conhecidos, como recusas excessivas e respostas inconsistentes, ao mesmo tempo em que continuamos elevando o nível geral de segurança e confiabilidade. Essas mudanças são complexas, e estamos focados em acertar.”

Fonte: Giz_Br

RECOMENDADOS

GPT-5.2 supera especialistas humanos em tarefas profissionais

Nova série de modelos de IA supera especialistas humanos em 70,9% das comparações e economiza até 10 horas semanais para usuários intensivos do ChatGPT Enterprise.

Avanços significativos em desempenho

Resultados em benchmarks técnicos

Desempenho em problemas complexos

Disponibilidade e preços

Avaliação de especialistas

Próximos passos

Inteligência artificial entra na corrida para salvar plantas da extinção

Crianças são alvo do lixo gerado por IA no TikTok

Goiás vai investir R$ 300 milhões para erguer polo de IA aplicada no país

MAIS POPULAR

Amazônia pode ficar irreconhecível em 100 anos

Mais de 60% dos jovens querem ser influenciadores, revela pesquisa dos EUA

Inteligência artificial entra na corrida para salvar plantas da extinção

Por que a China está desviando alguns dos maiores rios da Ásia

O que aconteceu com o “copiloto”?

Veículos elétricos podem salvar mais vidas do que há habitantes no Rio de Janeiro até 2050, aponta estudo

SOBRE NÓS

SIGA-NOS

GPT-5.2 supera especialistas humanos em tarefas profissionais

Nova série de modelos de IA supera especialistas humanos em 70,9% das comparações e economiza até 10 horas semanais para usuários intensivos do ChatGPT Enterprise.

Avanços significativos em desempenho

Resultados em benchmarks técnicos

Desempenho em problemas complexos

Disponibilidade e preços

Avaliação de especialistas

Próximos passos

MAIS POPULAR

SOBRE NÓS

SIGA-NOS

AVISO DE COOKIES