GPTBot

Fiabilidad

¿Qué es GPTBot?

GPTBot es una herramienta de rastreo de sitios web lanzada por OpenAI en agosto de 2023. Su objetivo principal es rastrear sitios web y recopilar contenidos para entrenar sus modelos de lenguaje de gran tamaño (“Large language models” o “LLM“), como GPT-3 y GPT-4.

El bot está diseñado no sólo para ayudar a OpenAI a mejorar sus datos de entrenamiento, sino también para aumentar la precisión y las capacidades de sus soluciones de IA en su conjunto.

Según la página GPTBot de OpenAI:

“Las páginas web rastreadas con el agente de usuario GPT pueden utilizarse para mejorar futuros modelos y se filtran para eliminar fuentes que requieran acceso mediante un muro de pago, que se sepa que recopilan información personal identificable (PII) o que contengan texto que infrinja nuestras políticas. Permitir que GPTBot acceda a su sitio puede ayudar a que los modelos de IA sean más precisos y a mejorar sus capacidades generales y su seguridad.”

Los propietarios de sitios web pueden excluir a GPTBot modificando su archivo robots.txt para desautorizarlo. Las organizaciones que deseen permitir un acceso parcial pueden personalizar el archivo robots.txt para determinar qué directorios pueden o no pueden ser rastreados.

El rastreador web de OpenAI puede reconocerse a través de su rango de direcciones IP, que aparece en el sitio web de la organización.

¿Para qué se utiliza GPTBot?

La recogida de datos de GPTBot permitirá a OpenAI recopilar más datos para entrenar sus sistemas de IA patentados. Esto significa que cuando un usuario introduzca una consulta en ChatGPT u otra herramienta, el chatbot podrá responder con información más pertinente y relevante.

Se trata básicamente de una nueva versión de un rastreador web tradicional, que escanea cada página de un sitio web para indexarlo. Cuantos más datos recopile OpenAI, más indicios podrá utilizar para entrenar sus modelos de IA y aumentar su precisión con el tiempo.

La posibilidad de participar o no ofrece a las organizaciones la opción de contribuir o no con sus datos para ayudar a OpenAI a mejorar sus modelos patentados.

Controversia inicial

Poco después de su lanzamiento, OpenAI recibió muchas críticas por utilizar datos públicos para entrenar sus propios sistemas de IA. Esto llevó a numerosos proveedores de contenidos, como Disney, Bloomberg, CNN, The New York Times, Reuters, The Washington Post, The Atlantic, Axios, Insider, ABC News, ESPN y Vox Media, a bloquear por completo el acceso del rastreador a sus sitios web.

En el centro de estas preocupaciones está la cuestión de si es ético y legal que GPTBot rastree propiedad intelectual y material protegido por derechos de autor de sitios web para desarrollar sus propios productos internos de IA.

Aunque OpenAI ha procurado aliviar estas preocupaciones al conceder a las organizaciones la posibilidad de desautorizarlo, no hay transparencia en cuanto a cómo se utilizarán los datos obtenidos de los sitios que permiten el acceso a GPTBot.

Temas relacionados

Tim Keary
Technology Writer
Tim Keary
Editor

Desde enero de 2017, Tim Keary ha sido un escritor y reportero de tecnología independiente que cubre tecnología empresarial y ciberseguridad.