Anthropic está probando la capacidad de la IA para cometer sabotajes

A medida que sigue creciendo el revuelo en torno a la IA generativa, la necesidad de normas de seguridad estrictas se vuelve cada vez más clara.

Ahora Anthropic, la empresa detrás de Claude AI, está investigando cómo sus modelos pueden engañar o sabotear a los usuarios. Anthropic acaba de dejar caer el papel. explicar su enfoque.

VER TAMBIÉN:

Sam Altman dejará el cargo de jefe del grupo de seguridad de OpenAI

antrópico últimas investigaciones – titulado “Evaluación de sabotaje para modelos de frontera” – proviene del equipo de Alignment Science, impulsado por la política de “Escalamiento responsable” de la empresa.

El objetivo es medir la capacidad de la IA para engañar a los usuarios o incluso “subvertir los sistemas que implementamos para monitorearlos”. Este estudio se centra en cuatro tácticas específicas: sabotaje de decisiones humanas, sabotaje de códigos, sacos de arena y monitoreo de socavamiento.

Imagine a los usuarios llevando ChatGPT al límite, tratando de convencerlo para que produzca contenido o imágenes gráficas inapropiadas. Esta prueba tiene como objetivo garantizar que no se pueda engañar a la IA para que infrinja sus propias reglas.

Velocidad destructible de la luz

En el artículo, Anthropic dice que su objetivo es prepararse para la posibilidad de que la IA evolucione hacia algo con capacidades peligrosas. Por eso probaron sus modelos Claude 3 Opus y 3.5 Sonnet, diseñados para evaluar y mejorar sus protocolos de seguridad.

La Prueba de Decisión Humana se centra en examinar cómo la IA puede potencialmente manipular la toma de decisiones humana. La segunda prueba, Code Sabotage, analiza si la IA puede introducir errores sutilmente en la base de datos de codificación. Los modelos de IA más potentes en realidad producen defensas más sólidas contra este tipo de vulnerabilidades.

Las pruebas restantes (Sandbagging y Undermining Oversight) exploran si la IA puede ocultar sus verdaderas capacidades o eludir los mecanismos de seguridad integrados en el sistema.

Por ahora, la investigación de Anthropic concluye que los modelos actuales de IA plantean un riesgo bajo, al menos en términos de sus capacidades maliciosas.

“Las mitigaciones mínimas actuales son suficientes para abordar los riesgos de sabotaje”, escribió el equipo, pero “parecen necesarias evaluaciones más realistas y mitigaciones más fuertes tan pronto como aumenten las capacidades”.

Traducción: cuidado, mundo.

Tema
Ciberseguridad de Inteligencia Artificial



Fuente