Este mensaje puede hacer que el Chatbot AI identifique y extraiga información personal de sus conversaciones

Los investigadores dicen que si el ataque se llevara a cabo en el mundo real, las personas podrían verse condicionadas a creer que una operación sin sentido podría lograr algo útil, como mejorar su CV. Los investigadores señalan muchos sitios web que brinda a las personas consejos prácticos. Probaron el ataque insertando un CV en conversaciones con chatbots y pudieron recuperar la información personal contenida en el archivo.

Earle FernandesEl profesor asistente de UCSD que participó en el proyecto dijo que el método de ataque es claramente complejo ya que requiere identificar rápidamente información personal, crear una URL válida, usar la sintaxis Markdown y no decirle al usuario que se comporta bien. nefastamente. Fernandes compara el ataque con malware, refiriéndose a su capacidad para realizar tareas y comportarse de maneras que el usuario no pretende.

“Por lo general, se escribiría una gran cantidad de código informático para hacer esto con malware tradicional”, dice Fernandes, “pero creo que lo bueno es que todo se puede agregar en este corto período de tiempo”.

Un portavoz de Mistral AI dijo que la compañía da la bienvenida a los investigadores de seguridad que la ayudan a hacer que sus productos sean más seguros para los usuarios. “Tras esta respuesta, Mistral AI implementó rápidamente las acciones correctivas apropiadas para corregir la situación”, dijo el portavoz. La compañía consideró este problema como un “problema moderado” y su solución impide que el editor Markdown se ejecute y pueda llamar a una URL externa con esta función, lo que significa que no será posible instalar una imagen externa.

Fernandes cree que el desarrollo de Mistral AI puede ser una de las primeras veces en que un modelo rápido de un adversario ha llevado a la reparación de un producto LLM, en lugar de detener un ataque mediante un filtrado rápido. Sin embargo, dice, limitar la capacidad de los abogados de LLM podría ser “contraproducente” a largo plazo.

Mientras tanto, una declaración de los desarrolladores de ChatGLM dice que la compañía cuenta con medidas de seguridad para ayudar con la privacidad del usuario. “Nuestro modelo es seguro y siempre priorizamos la seguridad del modelo y la protección de la privacidad”, dice el comunicado. “Al hacer que nuestro modelo sea de código abierto, pretendemos aprovechar el poder de la comunidad de código abierto para explorar y probar todos los aspectos de las capacidades de estos modelos, incluida su seguridad”.

“Un trabajo muy peligroso”

Dan McInerneyEl investigador jefe de amenazas de la empresa de seguridad Protect AI, dice que el documento Imprompter “publica un algoritmo para generar automáticamente sugerencias que se pueden usar con una inyección rápida para realizar diversas acciones, como la exfiltración de PII, imágenes incorrectas o uso indebido de la información del agente LLM”. Las herramientas pueden entrar”. Aunque muchos de los tipos de ataques en la investigación pueden ser similares a métodos anteriores, dice McInerney, el algoritmo los agrupa “.

Sin embargo, agrega que a medida que se utilizan más abogados de LLM y la gente les da el poder de actuar en su nombre, aumenta el área de ataques en su contra. McInerney dice: “Liberar un agente LLM que acepte entradas no deseadas del usuario debe considerarse una operación riesgosa que requiere un análisis de seguridad crítico e inteligente antes de la implementación”.

Para las empresas, eso significa comprender las formas en que un agente de IA puede interactuar con los datos y cómo se puede abusar de ellos. Pero para los individuos, al igual que con los consejos de seguridad generales, deben considerar cuánta información proporcionan a cualquier aplicación o empresa de IA y, si utilizan alguna recomendación de Internet, deben tener en cuenta de dónde provienen.

Fuente