Seriam os dados de treinamento o calcanhar de Aquiles da inteligência artificial generativa?
No final de dezembro, o “The New York Times” entrou com uma ação contra a OpenAI e a Microsoft, alegando que as empresas usaram seu conteúdo para treinar sistemas de IA sem permissão ou compensação (os desenvolvedores de grandes modelos de linguagem coletam enormes conjuntos de dados da internet para que os sistemas processem e identifiquem padrões).
Mas não para por aí: os autores da ação argumentam que ambas as empresas codificaram os artigos do jornal na memória de seus modelos de linguagem. Isso permitiu que o ChatGPT e o Bing Chat (que agora se chama Copilot) acessassem e reproduzissem as informações publicadas – em alguns casos, integralmente e sem citar a fonte (o processo apresenta vários exemplos disso).
A ação exige que qualquer chatbot treinado com esses dados seja retirado do ar. A OpenAI parece ter sido pega de surpresa, já que um porta-voz da empresa informou à “Axios” que as duas partes estavam discutindo os termos de licenciamento de conteúdo.
Este processo trouxe um desfecho inesperado para 2023, um ano em que o setor de inteligência artificial avançou de forma acelerada, em grande parte sem restrições e praticamente sem regulamentação. Muitos na indústria de tecnologia esperavam que 2024 trouxesse uma aplicação muito mais ampla dos sistemas de IA.
No entanto, litígios sobre direitos autorais podem desacelerar esses planos, à medida que preocupações com exposição legal se tornam um elemento mais importante nos planos das empresas de IA sobre como e quando lançar novos modelos.
Seriam os dados de treinamento – em vez das questões com segurança e temores de que a tecnologia poderia acabar com empregos – o verdadeiro calcanhar de Aquiles do setor de inteligência artificial?
Os advogados da OpenAI podem argumentar que um modelo de IA não é muito diferente de um ser humano que absorve uma série de informações da internet para fundamentar seus próprios pensamentos.
Mas todo esse debate pode ser irrelevante se o “The New York Times” conseguir provar que foi prejudicado financeiramente quando os modelos da OpenAI e da Microsoft reproduziram linha por linha do conteúdo do jornal, sem permissão.
LICENCIAR OU BLOQUEAR?
A principal questão é que este é um território jurídico desconhecido. Uma ação dessas proporções poderia criar precedentes sobre como a lei de direitos autorais se aplica ao treinamento de modelos de IA.
Mesmo que a OpenAI acabe sendo condenada a pagar uma indenização, as duas partes ainda podem chegar a um acordo que permita que a empresa continue usando o conteúdo do jornal para treinamento.
EM 2023 O SETOR DE IA AVANÇOU DE FORMA ACELERADA, EM GRANDE PARTE SEM RESTRIÇÕES E PRATICAMENTE SEM REGULAMENTAÇÃO.
A postura dos veículos em relação às empresas de inteligência artificial varia: “The Wall Street Journal”, “News Corp” e “Gannett” querem licenciar suas publicações para desenvolvedores, enquanto outros, como “Reuters” e “CNN”, começaram a bloquear o acesso de empresas de IA ao seu conteúdo.
Existe ainda a possibilidade de que os tribunais norte-americanos ou a Comissão Federal de Comércio dos EUA (FTC, na sigla em inglês) possam ordenar que empresas excluam dados de treinamento já coletados. A FTC abriu uma investigação sobre as práticas de aquisição de dados de treinamento da OpenAI em julho do ano passado.
“Nos próximos meses, continuaremos a ver acordos de licenciamento entre veículos confiáveis e empresas de IA”, prevê Alon Yamin, cofundador e CEO da Copyleaks, que desenvolve uma ferramenta de detecção de plágio produzido por inteligência artificial. “E, sim, mais ações judiciais.”
Fonte: Fast Company Brasil