OpenAI lançou um web crawler para coletar dados para o ChatGPT, mas ensinou como impedir seu acesso com um simples código
A OpenAI, criadora do ChatGPT, lançou um novo web crawler chamado GPTBot, projetado para percorrer a internet e coletar informações para treinar seus modelos de inteligência artificial (IA). No entanto, uma única linha de código foi descoberta para impedir o acesso do crawler aos dados de um site, destacando a complexa relação entre rastreio de dados, privacidade e preocupações de direitos autorais.
O que é um web crawler?
- Um web crawler é um software automatizado que percorre a internet, coletando informações de sites.
- Ele explora a web sistematicamente, seguindo links de página para página.
- Ele extrai texto, imagens, links e outros elementos das páginas visitadas, coletando dados.
- Usado por motores de busca para indexar páginas, por empresas para monitorar sites e por IA para treinar modelos.
- O web crawler começa com URLs iniciais, extrai links, navega pelas páginas e armazena dados coletados.
- Questões de privacidade e direitos autorais surgem devido à coleta automática de informações.
- Em resumo, um web crawler é um “explorador” digital que varre a web para coletar dados, com aplicações que variam de pesquisa a treinamento de IA.
OpenAI ensina como impedir o GPTBot de coletar dados
A implantação do GPTBot e sua suscetibilidade ao bloqueio foram relatadas por várias publicações, incluindo o Search Engine Journal, na segunda-feira. Este web crawler funciona vasculhando sites em busca de dados, semelhante ao funcionamento dos motores de busca como o Google.
Embora tal rastreamento seja essencial para o treinamento de modelos de IA, isso gerou debates sobre privacidade e uso não autorizado de dados.
A OpenAI tomou uma medida única ao não apenas introduzir o GPTBot, mas também fornecer um método para os proprietários de sites impedirem seu acesso. Ao incorporar uma linha simples de código no arquivo “robots.txt” de um site, os desenvolvedores podem evitar que o GPTBot colete dados de seu site.
Passo a passo para impedir acesso do GPTBot
Você pode conferir abaixo como impedir o acesso do web crawler do ChatGPT ao seu site. As informações foram retiradas do site da OpenAI, e podem ser encontradas (em inglês) aqui.
- GPTBot“O GPTBot é um rastreador da web da OpenAI e pode ser identificado pelo seguinte agente do usuário e sequência”, afirma a OpenAI em seu site.
Token do agente do usuário: GPTBot
String completa do agente do usuário:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
- Uso dos dados coletadosA OpenAI também explica em seu site como usa os dados coletados: “Páginas da web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que requerem acesso através de paywall, que são conhecidas por coletar informações de identificação pessoal (PII) ou que possuam texto que viole nossas políticas. Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e a melhorar suas capacidades gerais e segurança.”
- Como proibir o GPTBotPara proibir o acesso do GPTBot ao seu site, você pode adicionar o GPTBot ao arquivo robots.txt do seu site:
User-agent: GPTBot
Disallow: / - Como permitir acesso personalizadoA OpenAI também ensina como permitir que o GPTBot acesse apenas “partes específicas do seu site”, adicionando o token do GPTBot ao arquivo robots.txt de outra maneira:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Fonte: Olhar Digital