O GPTBot é uma ferramenta de rastreamento de sites lançada pela OpenAI em agosto de 2023. Dessa forma, saiba o que é e como funciona a GPTBot da OpenAI no artigo a seguir.
O que é GPTBot da OpenAI?
Seu principal objetivo é rastrear sites e coletar conteúdo para treinar seus modelos proprietários de linguagem grande (LLMs), como o GPT-4 e o GPT-5.
O bot foi projetado não apenas para ajudar a OpenAI a melhorar seus dados de treinamento, mas também para aumentar a precisão e os recursos de suas soluções de IA como um todo.
De acordo com a página do GPTBot da OpenAI:
“As páginas da Web rastreadas com o agente de usuário GPT podem ser usadas para aprimorar modelos futuros e são filtradas para remover fontes que exigem acesso por paywall, são conhecidas por coletar informações de identificação pessoal (PII) ou têm texto que viola nossas políticas. Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar seus recursos gerais e sua segurança.”
Os proprietários de sites podem optar por não permitir o acesso do GPTBot modificando o arquivo robots.txt para não permitir o acesso.
As organizações que desejam permitir o acesso parcial podem personalizar o arquivo robots.txt para determinar quais diretórios podem ou não ser inspecionados.
O rastreador da Web da OpenAI pode ser reconhecido por meio de seu intervalo de endereços IP, que está listado no site da organização.
Para que o GPTBot é usado?
A coleta de dados do GPTBot permitirá que a OpenAI colete mais dados para treinar seus sistemas proprietários de IA.
Isso significa que, quando um usuário inserir um comando no ChatGPT ou em outra ferramenta, o chatbot poderá responder com informações mais pertinentes e relevantes.
Trata-se essencialmente de uma nova versão de um rastreador da Web tradicional, que examina cada página da Web em um site para indexar sites em toda a Web.
Quanto mais dados forem coletados pela OpenAI, mais sinais ela poderá treinar seus modelos de IA e aumentar sua precisão ao longo do tempo.
A possibilidade de optar por participar ou não permite que as organizações escolham se querem contribuir com seus dados para ajudar a OpenAI a aprimorar seus modelos proprietários ou não.
Polêmica inicial
Pouco depois de seu lançamento, o OpenAI recebeu muitas críticas por ter extraído dados disponíveis publicamente para treinar seus próprios sistemas de IA.
Isso fez com que vários provedores de conteúdo, incluindo Disney, Bloomberg, CNN, The New York Times, Reuters, The Washington Post, The Atlantic, Axios, Insider, ABC News, ESPN e Vox Media, bloqueassem totalmente o acesso do rastreador a seus sites.
No centro dessas preocupações está a questão de saber se é ético e legal que o GPTBot extraia propriedade intelectual e materiais protegidos por direitos autorais de sites para desenvolver seus próprios produtos internos de IA.
Embora a OpenAI tenha tentado aliviar essas preocupações permitindo que as organizações não permitam o acesso, não há transparência em relação a como os dados obtidos dos sites que permitem o acesso do GPTBot serão utilizados.