Código impede que o ChatGPT colete dados de sites; veja como fazer

OpenAI lançou um web crawler para coletar dados para o ChatGPT, mas ensinou como impedir seu acesso com um simples código

A OpenAI, criadora do ChatGPT, lançou um novo web crawler chamado GPTBot, projetado para percorrer a internet e coletar informações para treinar seus modelos de inteligência artificial (IA). No entanto, uma única linha de código foi descoberta para impedir o acesso do crawler aos dados de um site, destacando a complexa relação entre rastreio de dados, privacidade e preocupações de direitos autorais.

O que é um web crawler?

Um web crawler é um software automatizado que percorre a internet, coletando informações de sites.
Ele explora a web sistematicamente, seguindo links de página para página.
Ele extrai texto, imagens, links e outros elementos das páginas visitadas, coletando dados.
Usado por motores de busca para indexar páginas, por empresas para monitorar sites e por IA para treinar modelos.
O web crawler começa com URLs iniciais, extrai links, navega pelas páginas e armazena dados coletados.
Questões de privacidade e direitos autorais surgem devido à coleta automática de informações.
Em resumo, um web crawler é um “explorador” digital que varre a web para coletar dados, com aplicações que variam de pesquisa a treinamento de IA.

OpenAI ensina como impedir o GPTBot de coletar dados

A implantação do GPTBot e sua suscetibilidade ao bloqueio foram relatadas por várias publicações, incluindo o Search Engine Journal, na segunda-feira. Este web crawler funciona vasculhando sites em busca de dados, semelhante ao funcionamento dos motores de busca como o Google.

Embora tal rastreamento seja essencial para o treinamento de modelos de IA, isso gerou debates sobre privacidade e uso não autorizado de dados.

A OpenAI tomou uma medida única ao não apenas introduzir o GPTBot, mas também fornecer um método para os proprietários de sites impedirem seu acesso. Ao incorporar uma linha simples de código no arquivo “robots.txt” de um site, os desenvolvedores podem evitar que o GPTBot colete dados de seu site.

Passo a passo para impedir acesso do GPTBot

Você pode conferir abaixo como impedir o acesso do web crawler do ChatGPT ao seu site. As informações foram retiradas do site da OpenAI, e podem ser encontradas (em inglês) aqui.

GPTBot“O GPTBot é um rastreador da web da OpenAI e pode ser identificado pelo seguinte agente do usuário e sequência”, afirma a OpenAI em seu site.
Token do agente do usuário: GPTBot
String completa do agente do usuário: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Uso dos dados coletadosA OpenAI também explica em seu site como usa os dados coletados: “Páginas da web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que requerem acesso através de paywall, que são conhecidas por coletar informações de identificação pessoal (PII) ou que possuam texto que viole nossas políticas. Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e a melhorar suas capacidades gerais e segurança.”
Como proibir o GPTBotPara proibir o acesso do GPTBot ao seu site, você pode adicionar o GPTBot ao arquivo robots.txt do seu site:
User-agent: GPTBot
Disallow: /
Como permitir acesso personalizadoA OpenAI também ensina como permitir que o GPTBot acesse apenas “partes específicas do seu site”, adicionando o token do GPTBot ao arquivo robots.txt de outra maneira:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Fonte: Olhar Digital

Código impede que o ChatGPT colete dados de sites; veja como fazer

Kay Firth-Butterfield, especialista em ética tecnológica: “a IA Generativa não deveria estar nas mãos de poucas pessoas nos EUA ou na China”

Quarta Revolução Industrial e a onda anti-ESG: o novo capitalismo não precisa mais ser justo?

Repense a gestão para evitar a “inovação sob pressão”

Eduardo Saverin projeta o futuro das startups no BTG Tech Day em Nova York

Dados, um território em disputa

OpenAI lançou um web crawler para coletar dados para o ChatGPT, mas ensinou como impedir seu acesso com um simples código

O que é um web crawler?

OpenAI ensina como impedir o GPTBot de coletar dados

Passo a passo para impedir acesso do GPTBot

LEIA MAIS

Com novas funções de IA, Bloco de Notas agora escreve ‘sozinho’...

TikTok terá mega data center em cidade com histórico de seca...

Kay Firth-Butterfield, especialista em ética tecnológica: “a IA Generativa não deveria...

Orango: Senac lança plataforma digital com cursos gratuitos para geração Z

Mamógrafo baseado em micro-ondas criado por brasileiros oferece exame indolor e...

Recomendados

Com novas funções de IA, Bloco de Notas agora escreve ‘sozinho’ pra você

Kay Firth-Butterfield, especialista em ética tecnológica: “a IA Generativa não deveria estar nas mãos de poucas pessoas nos EUA ou na China”

Google apresenta Flow e Beam, plataformas com IA para cinema e comunicação 3D

SOBRE NÓS

SIGA-NOS

Código impede que o ChatGPT colete dados de sites; veja como fazer

OpenAI lançou um web crawler para coletar dados para o ChatGPT, mas ensinou como impedir seu acesso com um simples código

O que é um web crawler?

OpenAI ensina como impedir o GPTBot de coletar dados

Passo a passo para impedir acesso do GPTBot

LEIA MAIS

Recomendados

SOBRE NÓS

SIGA-NOS

AVISO DE COOKIES