La carrera para bloquear los Scraping Bots de OpenAI se está desacelerando

Es demasiado pronto para decir cómo se resolverá la brecha de acuerdos entre las empresas de IA y los editores. Sin embargo, OpenAI ya ha obtenido una clara victoria: sus internautas no están siendo bloqueados por los principales medios de comunicación tan rápidamente como antes.

El auge de la IA generativa desató una fiebre del oro por los datos, y una posterior fiebre por la protección de datos (para muchos sitios de noticias, al menos) en la que los editores intentaron bloquear los rastreadores de IA e impedir que su trabajo consistiera en entrenar datos sin permiso. Cuando Apple presentó por primera vez un nuevo agente de inteligencia artificial este verano, por ejemplo, muchos de los principales anuncios provinieron rápidamente del web scraping de Apple a través del Protocolo de exclusión de robots, o robots.txt, un archivo que permite a los propietarios de sitios web llamar para controlar los bots. Hay tantos robots de IA nuevos por ahí que puede parecer como jugar a golpear al topo para mantenerse al día.

GPTBot de OpenAI tiene los nombres más populares y ha sido bloqueado con más frecuencia que competidores como Google AI. La cantidad de sitios de noticias de alto perfil que utilizan robots.txt para “prohibir” el GPTBot de OpenAI aumentó dramáticamente desde su lanzamiento en agosto de 2023 hasta ese otoño, luego aumentó lenta (pero lentamente) desde noviembre de 2023 hasta abril de 2024, según una evaluación de 1.000. Popular Media es una startup de análisis de IA con sede en Ontario. IA original. En su apogeo, representaba más de un tercio de los sitios web; ahora ha bajado alrededor de una cuarta parte. Dentro del pequeño grupo de medios de noticias destacados, la tasa de bloqueo se mantiene por encima del 50 por ciento, pero está por debajo del máximo de principios de este año de casi el 90 por ciento.

Pero en mayo pasado, después de que Dotdash Meredith anunciara un acuerdo de licencia con OpenAI, ese número se redujo significativamente. Luego volvió a caer a finales de mayo en Vox. publicado su reestructuración, y nuevamente en agosto cuando la empresa matriz de WIRED, Condé Nast, llegó a un acuerdo. La tendencia hacia la contención parece haber terminado, al menos por ahora.

Estas caídas tienen un significado claro. Cuando las empresas celebran acuerdos y permiten que se utilicen sus datos, ya no se les anima a bloquearlos, por lo que pueden actualizar sus archivos robots.txt para permitir el rastreo; Haga suficientes concesiones y el porcentaje general de espacios de acceso disminuirá. Otros medios desbloquearon controladores OpenAI el mismo día que anunciaron el acuerdo, como The Atlantic. Otros han tardado de unos días a algunas semanas, como Vox, que anunció su asociación a finales de mayo pero desbloqueó su propiedad GPTBot a finales de junio.

Robots.txt no es legalmente vinculante, pero ha servido durante mucho tiempo como estándar que rige el comportamiento de los navegadores web. Durante la mayor parte de la existencia de Internet, los servidores web esperaban que todos se vincularan a un archivo. Cuando una investigación de WIRED a principios de este verano descubrió que la startup de inteligencia artificial Perplexity pudo haber optado por ignorar las instrucciones del archivo robots.txt, la división de nube de Amazon inició una investigación para determinar si Perplexity violaba sus reglas. No es una buena idea ignorar el archivo robots.txt, lo que probablemente explica por qué muchas empresas destacadas de IA, incluida OpenAI,indicar claramente que lo utilizan para saber qué están rastreando. El director ejecutivo de Originality AI, Jon Gillham, cree que esto aumenta las capacidades de negociación de OpenAI. “Está claro que OpenAI ve la prohibición como una amenaza para sus ambiciones futuras”, dice Gillham.

Fuente