Home Tecnología Reddit actualizará sus estándares web para bloquear la extracción automatizada de datos...

Tecnología

Reddit actualizará sus estándares web para bloquear la extracción automatizada de datos de su sitio web

3 July 2024

Plataformas de redes sociales Indonesio: Reddit dijo el martes que actualizaría los estándares web utilizados por la plataforma para bloquear la recopilación automatizada de datos de sus sitios web, luego de informes de que las nuevas empresas de inteligencia artificial estaban eludiendo esas reglas para recopilar contenido para sus sistemas.

La medida llega en un momento en que las empresas de inteligencia artificial son acusadas de plagiar contenido de los editores para crear resúmenes generados por IA sin dar crédito ni pedir permiso.

Reddit dijo que actualizaría su Protocolo de exclusión de robots, o “robots.txt”, un estándar ampliamente aceptado destinado a determinar qué partes de un sitio pueden rastrearse.

La compañía también dijo que mantendría la limitación de velocidad, una técnica utilizada para controlar la cantidad de solicitudes de una entidad en particular, y bloquearía a robots y rastreadores desconocidos para que no puedan extraer datos (recopilar y almacenar información sin procesar) en sus sitios web.

Recientemente, robots.txt se ha convertido en la principal herramienta que utilizan los editores para evitar que las empresas de tecnología utilicen su contenido de forma gratuita para entrenar algoritmos de inteligencia artificial y generar resúmenes en respuesta a múltiples consultas de búsqueda.

La semana pasada, una carta a los editores enviada por la startup de licencias de contenido TollBit decía que algunas empresas de inteligencia artificial estaban eludiendo los estándares web para eliminar los sitios de los editores.

Esto sigue a una investigación de Wired que encontró que Perplexity, la startup de búsqueda de inteligencia artificial, probablemente ignoró los esfuerzos para bloquear su rastreador web a través de robots.txt.

A principios de junio, la editorial de medios empresariales Forbes acusó a Perplexity de plagiar sus historias de investigación para usarlas en un sistema de inteligencia artificial generativa sin dar crédito.

Reddit dijo el martes que investigadores y organizaciones como Internet Archive seguirán teniendo acceso a su contenido para uso no comercial.

Los enlaces de afiliados pueden generarse automáticamente; consulte nuestra declaración de ética para obtener más detalles.

Fuente