A Microsoft desenvolve uma nova arquitetura que promete escalar o processamento de informações em modelos de linguagem de grande escala como os que alimentam o ChatGPT e outras ferramentas de IA generativa. Chamado de LongNet, o método pode ser até 250 mil vezes mais potente do que o ChatGPT.
Mudança de método no processamento de dados
No método atual de funcionamento das IAs, os modelos de linguagem de grande escala precisam ter a capacidade de lidar com sequências cada vez mais longas, enquanto os dados são interpretados pelos chamados modelos transformadores.
O problema na arquitetura atual é que a relação entre o comprimento da sequência e a necessidade de capacidade computacional é exponencial, à medida que quanto maior a sequência, muito mais uso de hardware é necessário para tratar os dados.
Para que os transformadores consigam processar essas informações, elas são divididas em pequenas unidades — os tokens. Atualmente, os modelos têm uma capacidade limitada de leitura, pois não conseguem assimilar todos os tokens de uma só vez sem perder dados ou velocidade.
A proposta que a Microsoft elabora é criar uma arquitetura que se assemelha com a lógica neural. O LongNet seria capaz de potencializar o processamento de tokens com um mecanismo de “atenção dilatada”.
Nesse método, a alocação de “atenção” diminui à medida que a distância entre os tokens fica maior, enquanto os tokens próximos são examinados com a atenção padrão. Dessa forma, o processamento é utilizado para focar nas relações mais próximas enquanto os tokens mais distantes recebem um nível de atenção mais grosseiro.
250 mil vezes mais poderosa que o ChatGPT
O ChatGPT da OpenAI processa 4.096 tokens por vez, o que representa cerca de 3 mil palavras, mas há variantes do GPT-3.5-turbo com 8 mil tokens e do GPT-4 de até 32 mil tokens. O LongNet, por sua vez, teria uma capacidade de leitura de até 1 bilhão de tokens, ou 750 milhões de palavras processadas ao mesmo tempo.
Com esse método, portanto, a Microsoft LongNet poderia elevar a capacidade de leitura de modelos de linguagem de grande escala para ser até 250 mil vezes mais potente do que o ChatGPT disponível gratuitamente.
Por enquanto, o LongNet ainda está em fase de estudo. O modelo foi publicado em um artigo acadêmico pela Univeridade Cornell, nos Estados Unidos. No entanto, se a arquitetura se mostrar viável, pode representar mais um salto tecnológico imenso na capacidade de processamento dos modelos que alimentam as IAs.
Fonte: Canal Tech