O que as GPUs e a corrida pela exploração de minerais críticos têm a ver com isso e o que falta para que nosso país possa desenvolver um modelo próprio de IA generativa?

Não há como falar no treinamento de modelos de linguagem, especialmente os de Inteligência Artificial generativa, sem passar pelas GPUs (Unidades de Processamento Gráfico) – os motores que impulsionam a revolução da IA vivenciada hoje.

As GPUs, construídas em um monocristal de silício altamente purificado, são eficientes em processamento paralelo, o que as torna adequadas para tarefas computacionalmente complexas que exigem muitos dados – daí o interesse do atual presidente dos Estados Unidos, Donald Trump, na Groenlândia e na Ucrânia para a exploração dos chamados minerais críticos: recursos essenciais para a tecnologia.

Fabrício Carrara, autor em AI e Program Manager na Alura, explica que a disparidade na quantidade de GPUs entre os EUA, China e Brasil, por exemplo, é gritante.

“Enquanto os EUA lideram com folga e a China busca alternativas para contornar as restrições, o Brasil enfrenta um grande desafio devido à falta de investimento e ao acesso limitado a hardwares essenciais para o desenvolvimento de um modelo proprietário de Inteligência Artificial”, avalia.

GPUs potentes para quem?

O especialista explica que empresas americanas têm acesso prioritário e facilitado às GPUS mais recentes como a H100 e a H200 da NVDIA – processadores que aceleram o processamento de dados e de Inteligência Artificial. Essas GPUs se tornaram componentes fundamentais para servidores de alto desempenho. Mas devido às suas altas potências, lembra que o acesso a elas é restrito a muitos países.

Para que a gente entenda onde o Brasil está nessa pauta, Fabrício entrega o panorama atual de GPUs espalhadas hoje, no mundo.

Estados Unidos:
  • Liderança absoluta: “Está claramente posicionado como o país com maior concentração de poder computacional para IA, tanto em empresas quanto em infraestrutura”, diz.
  • xAI (empresa de Inteligência Artificial fundada por Elon Musk): “Conta com o maior data center com GPUs em um único local, com 200 mil unidades, presumivelmente GPUs NVIDIA”.
  • Google, OpenAI, Amazon/Anthropic: “Detêm grandes clusters de GPUs, estimados entre 100 mil e 150 mil cada. Utilizam GPUs de ponta como H100 e H200 da NVDIA”.
China:
  • Investimento significativo: estima-se que a chinesa DeepSeek já possua cerca de 50 mil GPUs. “A China sofre com restrições impostas pelo governo dos EUA na compra de GPUs avançadas, mas tem se adaptado a utilizar GPUs mais antigas e investido em novas pesquisas”.
Brasil:
  • Déficit crítico: possui um número extremamente baixo de GPUs em comparação com os líderes globais. “O país inteiro tem entre 500 e 2000 unidades”, afirma.

De acordo com Carrara, embora o Brasil encontra-se em um grupo intermediário de países com restrições para a compra de GPUs – “aqui precisamos de aprovação para aquisições acima de um certo limite” –, a escassez de GPUs é diretamente relacionada à “falta de investimento público em pesquisa, ciência e tecnologia”, avalia.

Como a China deu vida ao DeepSeek-R1?

Para treinar seus modelos de linguagem, até 2023, a China podia adquirir a GPU H800, que, embora “um pouquinho piorada, na parte das conexões”, ainda era considerada uma “placa ótima”, explica Carrara.

A GPU NVIDIA H800 apresenta tensor cores (unidades de processamento especializadas que aceleram operações matriciais) de quarta geração e o Transformer Engine com modo de computação de ponto flutuante de 8 bits (FP8) adicionado, para melhor atender às necessidades de aprendizado profundo da época. A GPU conta com treinamento até 9x mais rápido e uma incrível aceleração de inferência de 30x em grandes modelos de linguagem.

Após a proibição da H800, as empresas chinesas tiveram que buscar alternativas para continuar desenvolvendo o próprio modelo de IA. Uma dessas alternativas, foi retomar o uso da GPU H20, que ainda está liberada para venda.

“Embora a H20 seja pior para fazer o treinamento dos modelos, ela é boa e serve bem para a fase de inferência – que é quando o modelo já treinado é utilizado para responder às solicitações dos usuários. Isso permitiu que a China continuasse a oferecer serviços de IA, mesmo com hardware menos potente”, explica o especialista.

Mas há especulações de que a China estaria obtendo GPUs de ponta, como a H100, por meio de canais não oficiais, como “compras através de Singapura” e laranjas. “A quantidade exata dessas GPUs obtidas ilegalmente é desconhecida, mas a suspeita indica uma tentativa de manter a competitividade na área de IA, apesar das restrições comerciais”.

No entanto, o barulho promovido pela chegada do DeepSeek-R1 em sua última versão, traz outro grande mérito dos chineses.

A grande sacada chinesa

Para Fabrício Carra, a DeepSeek inovou ao repensar o processo tradicional de treinamento de modelos de linguagem. O especialista explica que o método convencional envolve três etapas principais:

  1. Pré-treinamento: no qual o modelo aprende a completar textos, mecanismo similar às buscas por assuntos e temas pesquisados em plataformas de busca como o Google;
  2. Fine-tuning supervisionado: etapa que refina o modelo para seguir instruções;
  3. Aprendizado por reforço: fase em que o modelo é recompensado a cada vez em que entrega respostas corretas e estruturadas.

“A sacada do DeepSeek foi eliminar a etapa de fine-tuning supervisionado no treinamento do R1. Eles começaram com o pré-treinamento e, em seguida, partiram diretamente para o aprendizado por reforço”, detalha Carrara. “Ao pular o fine-tuning supervisionado, a DeepSeek permitiu que o próprio modelo aprendesse a responder corretamente, por meio de um sistema de recompensas e diretrizes”, complementa.

Para isso, o DeepSeek forneceu ao modelo diversos exemplos de perguntas e respostas, e o instruiu a gerar variações. “Eles deram cerca de 5 mil exemplos e pediram para o modelo gerar mais 600 mil. Esses dados gerados foram utilizados no treinamento final, resultando no modelo R1 que conhecemos hoje”.

Carraro explica que a abordagem inovadora não só acelerou o processo de treinamento, como também reduziu significativamente os custos com resultados impressionantes.

“O DeepSeek R1 alcançou um nível de desempenho comparável ao dos modelos da OpenAI, mas com um custo drasticamente menor”.

Estima-se que os gastos para o treinamento do modelo DeepSeek-R1 foram de cerca de US$ 6 milhões – valor considerado baixo se comparado aos US$ 100 milhões estimados para treinar o ChatGPT-4.

Segundo Carrara, o custo da API da OpenAI é 27 vezes maior para dar a mesma resposta que o R1.

E o que o Brasil tem a aprender com tudo isso?

DeepSeek demonstrou que é possível obter resultados de ponta em IA com menos recursos, desde que haja inovação e investimento em pesquisa. “A estratégia chinesa já está sendo replicada por outros players do mercado, comprovando a sua eficácia”, lembra Carrara.

Na avaliação do especialista, o país tem potencial para trilhar um caminho semelhante ao da China, mas seria necessário aporte, “algo que não falta no país do Ocidente”.

Com o aporte financeiro adequado e uma estratégia bem definida, ele avalia que nosso país poderá aproveitar seu potencial criativo e construir uma indústria de IA forte e competitiva, capaz de gerar valor para a economia e a sociedade.

“Com investimentos públicos ou privados, ou públicos mais privados, no cenário mais ideal, teríamos condições de fazer algo nesse sentido, ou até melhor, porque o aporte financeiro é fundamental para garantir o acesso necessário a hardwares como as GPUs de alta performance”, finaliza.

Por: Nayara de Deus