Recentemente, a empresa se reuniu com o governo dos EUA para regular atividades da IA, mas a procedência dos dados não foi uma delas
Grande parte dos treinamentos das IAs atuais, como o ChatGPT, da OpenAI, e o Bard, do Google, aconteceu na internet. Isso porque os modelos de linguagem são treinados a partir de conteúdos, palavras e frases já existentes – e que melhor lugar para isso do que online?
No entanto, a OpenAI é uma das empresas que não detalha exatamente de onde obteve seus dados, que pode ser desde trabalhos com direitos autorais a publicações pessoais de internautas. Agora, a desenvolvedora do ChatGPT anunciou que permitirá ao usuário bloquear o rastreador responsável por coletar os dados dos usuários.
Para que serve o bloqueador
A OpenAI publicou em seu blog que os programadores de sites podem proibir especificamente o rastreador GPTBot, responsável por rastrear páginas da web acessadas por um usuário, ou ainda bloquear seu endereço IP, que torna o dispositivo uma espécie de rastreador de dados.
Segundo a empresa, as páginas da web rastreadas com o recurso ajudam a treinar os modelos de linguagem das IAs.
Ainda segundo a desenvolvedora, se uma fonte não se enquadrar nos critérios delimitados acima, ela permite que “o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”.
Contexto
- O fornecimento de dados para o treinamento de IAs se tornou assunto controverso nas redes sociais, uma vez que essa permissão nem sempre é concedida pelas pessoas online;
- Segundo o The Verge, empresas, como Reddit e Twitter, já pressionaram para impedir que as desenvolvedoras de IA usem dados e publicações dos seus usuários para treinar a tecnologia;
- Porém, atualmente, a OpenAI não detalha de onde obteve os dados para o treinamento do ChatGPT ou outras ferramentas da companhia. Eles podem ter vindo de posts em redes sociais, trabalhos com direitos autorais ou literalmente qualquer parte da internet a qual a empresa conseguiu acesso;
- Ou seja, não é possível saber se a IA está ou não usando o que o usuário acessa para alimentá-la.
O que isso significa para a OpenAI
Com a possibilidade de bloquear o bot responsável por coletar atividades dos usuários, a OpenAI pode ficar sem esses dados.
Recentemente, a empresa se reuniu com o governo dos Estados Unidos para desenvolver sistema que aplicaria marca d’água em conteúdos gerados por IA. No entanto, a empresa de Sam Altman não concordou em parar de usar informações da internet para treinamento.
Fonte: Olhar Digital