A Pruna AI , uma startup europeia que vem trabalhando em algoritmos de compressão para modelos de IA, está disponibilizando sua estrutura de otimização como código aberto na quinta-feira.
A Pruna AI vem criando uma estrutura que aplica vários métodos de eficiência, como cache, poda, quantização e destilação, a um determinado modelo de IA.
“Também padronizamos o salvamento e o carregamento dos modelos compactados, aplicando combinações desses métodos de compactação e também avaliando seu modelo compactado após compactá-lo”, disse o cofundador e CTO da Pruna AI, John Rachwan, ao TechCrunch.
Em particular, a estrutura do Pruna AI pode avaliar se há perda significativa de qualidade após a compactação de um modelo e os ganhos de desempenho obtidos.
“Se eu fosse usar uma metáfora, somos semelhantes a como a Hugging Face padronizou transformadores e difusores — como chamá-los, como salvá-los, carregá-los, etc. Estamos fazendo o mesmo, mas para métodos de eficiência”, acrescentou.
Grandes laboratórios de IA já vêm usando vários métodos de compressão. Por exemplo, a OpenAI tem contado com a destilação para criar versões mais rápidas de seus modelos principais.
Provavelmente foi assim que a OpenAI desenvolveu o GPT-4 Turbo, uma versão mais rápida do GPT-4. Da mesma forma, o modelo de geração de imagem Flux.1-schnell é uma versão destilada do modelo Flux.1 do Black Forest Labs.
Destilação é uma técnica usada para extrair conhecimento de um grande modelo de IA com um modelo “professor-aluno”. Os desenvolvedores enviam solicitações para um modelo de professor e registram as saídas. As respostas às vezes são comparadas com um conjunto de dados para ver o quão precisas elas são. Essas saídas são então usadas para treinar o modelo de aluno, que é treinado para aproximar o comportamento do professor.
“Para grandes empresas, o que elas geralmente fazem é construir essas coisas internamente. E o que você pode encontrar no mundo de código aberto geralmente é baseado em métodos únicos. Por exemplo, digamos um método de quantização para LLMs, ou um método de cache para modelos de difusão”, disse Rachwan. “Mas você não consegue encontrar uma ferramenta que agregue todos eles, os torne fáceis de usar e combinar. E esse é o grande valor que a Pruna está trazendo agora.”

Embora a Pruna AI suporte qualquer tipo de modelo, desde grandes modelos de linguagem até modelos de difusão, modelos de conversão de fala em texto e modelos de visão computacional, a empresa está se concentrando mais especificamente em modelos de geração de imagem e vídeo no momento.
Alguns dos usuários existentes do Pruna AI incluem Scenario e PhotoRoom . Além da edição de código aberto, o Pruna AI tem uma oferta empresarial com recursos avançados de otimização, incluindo um agente de otimização.
“O recurso mais empolgante que lançaremos em breve será um agente de compressão”, disse Rachwan. “Basicamente, você dá a ele seu modelo, você diz: ‘Quero mais velocidade, mas não diminua minha precisão em mais de 2%.’ E então, o agente fará sua mágica. Ele encontrará a melhor combinação para você, retornará para você. Você não precisa fazer nada como desenvolvedor.”
A Pruna AI cobra por hora por sua versão profissional. “É semelhante a como você pensaria em uma GPU quando aluga uma GPU na AWS ou em qualquer serviço de nuvem”, disse Rachwan.
E se seu modelo for uma parte crítica da sua infraestrutura de IA, você acabará economizando muito dinheiro em inferência com o modelo otimizado. Por exemplo, a Pruna AI tornou um modelo Llama oito vezes menor sem muita perda usando sua estrutura de compressão. A Pruna AI espera que seus clientes pensem em sua estrutura de compressão como um investimento que se paga.
A Pruna AI levantou uma rodada de financiamento inicial de US$ 6,5 milhões alguns meses atrás. Os investidores na startup incluem EQT Ventures, Daphni, Motier Ventures e Kima Ventures.
Por: Romain Dillet