Ha salido a la luz un método con el que los atacantes pueden alterar el comportamiento de los modelos de IA y conseguir que aprueben la ejecución de código malicioso sin detectar la amenaza. Expertos en ciberseguridad de Cloudflare advirtieron sobre la efectividad de ciertas tácticas basadas en prompt injection, que emplean señuelos para engañar o desorientar a los sistemas de inteligencia artificial.
El equipo de investigación identificó el uso de scripts que intentaban manipular sus sistemas de detección mediante la inyección indirecta de código (IDPI) en marzo de este año. Esto es, cuando un actor malicioso introduce instrucciones ocultas en los datos dentro de las líneas de código para manipular la lógica del modelo de IA que procesa esta información. Esto provoca que el modelo ejecute las instrucciones ocultas del atacante, en lugar de sus funciones administrativas o de seguridad previstas.
Ante este escenario y de cara a mejorar las capacidades de detección para evitar este tipo de abusos, el equipo de expertos llevó a cabo un estudio para medir el impacto de la IDPI en las capacidades de razonamiento de varios modelos de lenguaje a gran escala (LLM), incluyendo siete de los principales modelos de IA actuales.
Como resultado, se ha podido conocer que, tanto los modelos de IA más avanzados considerados frontier (con razonamiento de última generación) como los non frontier (de alta velocidad y optimizados en cuanto a cotes) son susceptibles ante los atacantes que intentan inyectar código gracias al uso de una técnica de señuelos.
Concretamente, estos señuelos son bloques de texto con mensajes de evasión diseñados para confundir o manipular a los modelos de IA, logrando disipar a los modelos que se basan en auditoría de seguridad y, con ello, conseguir que autoricen la ejecución de código malicioso, lo que puede desencadenar consecuencias dañinas.
Para evaluar como influyen estas inyecciones de señuelos en el rendimiento de los modelos, los investigadores inyectaron manualmente cargas útiles de IDPI de distintos niveles en scripts de Cloudflare Workers conocidos por ser “maliciosos o abusivos”.
Estas cargas útiles utilizaban señuelos de seguridad Notice to AI, que se basaban en bloques de texto diseñados específicamente para conseguir que los modelos los clasificaran erróneamente como scripts de código benigno.
Tras un análisis de contexto completo, con 18.400 llamadas a la API en cada modelo, el equipo de expertos concluyó que la eficacia del engaño de la IA “depende totalmente del nivel del modelo” y “fundamentalmente” de la proporción de comentarios respecto al código.
Señuelos sutiles para pasar desapercibidos
Así una de las principales conclusiones del estudio es que el “engaño sutil es el más eficaz”, dado que la detección del código malicioso en el señuelo tiene más probabilidades de fallar cuando los comentarios de evasión representan “menos del uno por ciento del archivo total”.
En este sentido, los investigadores han detallado que existe una zona de evasión del 1% y que, manteniéndose dentro de ese rango, las tasas de detección en todos los modelos probados “cayeron en picado” hasta el 53%.
De acuerdo con los expertos, al apenas hacer comentarios de evasión, los señuelos influyen sutilmente en el razonamiento del modelo sin generar sospechas debido a la repetición excesiva de que hay una alerta.
Por el contrario, los expertos también han identificado una zona denominada como huella digital, que es cuando los comentarios de evasión superan el 25% del ratio y se convierten en “una firma distintiva de fraude” en lugar de una evasión.
En estos casos, la detección alcanzó el 99% porque el modelo interpretó la saturación de reclamaciones como un indicador de intención maliciosa.
Por tanto, los expertos en ciberseguridad han definido este comportamiento como “la curva en U del engaño”, que hace referencia a que los intentos moderados de engañar a la IA suelen funcionar pero “protestar demasiado” activa una alarma de repetición que “provoca que la IA marque el código como fraudulento”.
*Con información de Europa Press.