Revisor de la ley de IA de la UE revela los obstáculos de cumplimiento de las grandes tecnologías

16 October 2024

Algunos de los modelos de inteligencia artificial más destacados no cumplen con las regulaciones europeas en áreas clave como la resiliencia de la ciberseguridad y la producción discriminada, según datos vistos por Reuters.

La UE había debatido durante mucho tiempo nuevas regulaciones de IA antes de que OpenAI lanzara ChatGPT al público a fines de 2022. Su popularidad récord y el debate público sobre los supuestos riesgos existenciales del modelo llevaron a los legisladores a redactar regulaciones específicas en torno a la IA de “propósito general”. (GPAI).

Ahora, una nueva herramienta diseñada por la startup suiza LatticeFlow y sus socios, y respaldada por funcionarios de la Unión Europea, ha probado modelos de IA generativa desarrollados por grandes empresas tecnológicas como Meta y OpenAI en docenas de categorías de acuerdo con la ley de IA más amplia del bloque, es decir, se implementará por etapas a lo largo de los próximos dos años.

Al otorgar a cada modelo una puntuación entre 0 y 1, una tabla de clasificación publicada por LatticeFlow el miércoles mostró que los modelos desarrollados por Alibaba, Anthropic, OpenAI, Meta y Mistral recibieron una puntuación promedio de 0,75 o más.

Sin embargo, el “Verificador de modelos de lenguaje grande (LLM)” de la compañía reveló deficiencias en algunos modelos en áreas clave, destacando dónde las empresas pueden necesitar desviar recursos para garantizar el cumplimiento.

Las empresas que incumplan la Ley de IA se enfrentarán a multas de 35 millones de euros (38 millones de dólares) o el 7% de la facturación anual mundial.

Resultados mixtos

Actualmente, la UE todavía está tratando de determinar cómo se aplicarán las regulaciones de IA en torno a herramientas de IA generativa como ChatGPT, y está reuniendo expertos para redactar un código de prácticas que rija la tecnología para la primavera de 2025.

Pero la prueba LatticeFlow, desarrollada en colaboración con investigadores de la universidad suiza ETH Zurich y el instituto de investigación búlgaro INSAIT, ofrece indicadores tempranos de áreas específicas donde las empresas tecnológicas corren el riesgo de no cumplir con la ley.

Por ejemplo, los resultados discriminatorios han sido un problema persistente en el desarrollo de modelos generativos de IA, lo que refleja prejuicios humanos relacionados con el género, la raza y otras áreas cuando es necesario.

Al probar la salida discriminativa, LLM Checker de LatticeFlow le dio al “GPT-3.5 Turbo” de OpenAI una puntuación relativamente baja de 0,46. Para la misma categoría, el modelo “Qwen1.5 72B Chat” de Alibaba Cloud recibió solo 0,37.

Al probar el “secuestro rápido”, un tipo de ataque cibernético en el que los piratas informáticos disfrazan comandos maliciosos como comandos legítimos para extraer información confidencial, LLM Examiner le dio al modelo “Llama Chat 2 13B” de Meta una puntuación de 0,42. En la misma categoría, el modelo “8x7B Instruct” de la startup francesa Mistral recibió una puntuación de 0,38.

“Claude 3 Opus”, un modelo desarrollado por Anthropic, respaldado por Google, recibió la puntuación media más alta, 0,89.

El juicio está diseñado de acuerdo con el texto de la Ley de IA y se ampliará para incluir más medidas de aplicación a medida que se introduzcan. LatticeFlow dice que LLM Checker estará disponible de forma gratuita para que los desarrolladores prueben el cumplimiento de sus modelos en línea.

Petar Tsankov, director ejecutivo y cofundador de la compañía, dijo a Reuters que los resultados generales de las pruebas fueron positivos y ofreció a las empresas una hoja de ruta para ajustar sus modelos para que estén en línea con la Ley de IA.

“La UE todavía está trabajando en todos los puntos de referencia de cumplimiento, pero ya estamos viendo algunas lagunas en el modelo”, afirmó. “Con un mayor enfoque en optimizar el cumplimiento, creemos que los proveedores modelo pueden estar bien preparados para cumplir con los requisitos regulatorios”.

Meta se negó a hacer comentarios. Alibaba, Anthropic, Mistral y OpenAI no respondieron de inmediato a las solicitudes de comentarios.

Aunque la Comisión Europea no pudo verificar la herramienta externa, la agencia fue informada durante el desarrollo de LLM Checker y lo describió como un “primer paso” en la implementación de la nueva ley.

Un portavoz de la Comisión Europea dijo: “La Comisión da la bienvenida a este estudio y a la plataforma de evaluación del modelo de IA como un primer paso para traducir la ley de IA de la UE en requisitos técnicos”.

Fuente