Tecnología

Crean temible chatbot capaz de hackear a ChatGPT y Bard para que generen contenidos peligrosos

Existen varias preocupaciones sobre las debilidades de la IA.

GoogleSiga de cerca las tendencias en tecnología y ciencia en Discover

4 de enero de 2024 a las 4:17 p. m.
Aparece un nuevo chatbot que podría enloquecer a ChatGPT y otras inteligencias artificiales.
Aparece un nuevo chatbot que podría enloquecer a ChatGPT y otras inteligencias artificiales. Foto: Ilustración creada con la IA de Bing Image Creator

Un grupo de investigadores ha creado un ‘bot’ que emplea la técnica conocida como ‘jailbreaking’ sobre herramientas de inteligencia artificial (IA) generativa como Google Bard y ChatGPT de OpenAI para lograr que estos generen contenido poco ético y fuera de los límites legítimos establecidos por sus desarrolladores.

Científicos informáticos de la Universidad Tecnológica de Nanyang de Singapur, dirigidos por el profesor de la Escuela de Ingeniería y Ciencias de la Computación Liu Yang, han descubierto cómo comprometer ‘chatbots’ como Microsoft Bing Chat, según han explicado en un informe.

Para ello, han empleado el llamado ‘jailbreaking’ (traducido en español como ‘fuga de la cárcel’), contra sus modelos de lenguaje grande (LLM), que son los que impulsan estos ‘chatbots’ y les permiten mantener conversaciones más naturales y coherentes con los usuarios.

Inteligencia artificial.
Creadores de ChatGPT le preguntan a la inteligencia artificial cómo exterminar personas. Esta fue la aterradora respuesta

El ‘jailbreaking’ consiste en romper algunas de las limitaciones del sistema operativo mediante un ‘kernel’ modificado para poder acceder al control completo del sistema. Esto es posible porque los ciberdelincuentes analizan el código del ‘software’ y buscan posibles vulnerabilidades para acceder a él.

'God in a Box', implementación de ChatGPT 3.5 se puede utilizar para mantener conversaciones e interactuar con esta plataforma desde la aplicación de mensajería.
ChatGPT ha sufrido varios cambios en los últimos años Foto: Europa Press via Getty Images

Esto quiere decir que, una vez se han hecho con el control de este, los actores maliciosos pueden modificar la finalidad de los sistemas comprometidos y, en el caso de los ‘chatbots’, ejecutar directrices que sus desarrolladores prohibieron “deliberadamente”, lo que puede dar como resultado la generación de contenido inapropiado, según este análisis.

Para llegar a esta conclusión y lograr desestabilizar el funcionamiento natural de ‘chatbots’ como ChatGPT o Bard, los investigadores adoptaron un procedimiento que han denominado Masterkey (‘clave maestra’, en español).

Con él, estudiaron el funcionamiento legítimo de estas herramientas de IA, esto es, el modo en que los LLM detectaban y eludían consultas con fines maliciosos, aplicando métodos de ingeniería inversa y haciendo justo lo contrario, es decir, generar contenido inicialmente restringido.

ChatGPT
Ilustración de la inteligencia artificial ChatGPT. Foto: Future Publishing via Getty Imag
Cada vez se hace más estrecha la interacción entre humanos e inteligencias artificiales.
Así se puede ‘manipular’ a ChatGPT para que desate su lado oscuro y ofrezca respuestas sin censura

Con esa información, crearon otro ‘chatbot’ y enseñaron a su LLM a ejecutar ‘jailbreak’ a los ‘chatbots’ comprometidos. O lo que es lo mismo, a aprender y producir automáticamente una serie de indicaciones capaces de sortear los sistemas de defensa y control de sus LLM.

Para lograr que los ‘chatbots’ generasen contenido inapropiado, los investigadores hicieron trampas, como proporcionar indicaciones que contenían espacios después de cada caracter de forma manual u ordenar al ‘chatbot’ a responder “sin reservas ni restricciones morales” a ciertas peticiones, lo que aumentó las posibilidades de generar contenido poco ético.

ChatGPT ha abierto un mundo de oportunidades para mejorar la calidad de la educación en el mundo.
ChatGPT ha abierto un mundo de oportunidades en diferentes campos Foto: Getty Images/iStockphoto

Asimismo, advirtieron que era posible automatizar este proceso para ejecutar ‘jailbreak’ sobre los otros ‘chatbots’ comprometidos. Esto, a pesar de que sus desarrolladores implementasen diferentes parches de seguridad para corregir fallas y evitar acciones maliciosas.

“Le pregunté a Chat GPT cuál es la chica de los sueños del hombre promedio y me dijo cabello castaño largo y piernas largas, así que la hice exactamente como decía", dijo su desarrollador. Foto: @emilypellegrini
La modelo que impactó en las redes sociales: las estrellas del deporte la invitaron a salir, creyeron que era real, pero todo fue una creación de la IA

Para este equipo de científicos, Masterkey logra borrar el “ciclo interminable del gato y el ratón, esto es, entre hacker y desarrollador” en la implementación de correcciones y parches, debido a que este método “puede producir un gran volumen de indicaciones y aprender continuamente qué funciona y qué no, lo que permite a los ciberdelincuentes vencer a los desarrolladores de los LLM en su propio juego y con sus propias herramientas”.

Asimismo, considera que sus hallazgos “pueden ser fundamentales para ayudar a las empresas a ser conscientes de las debilidades” de sus herramientas de IA generativa y tomar medidas para fortalecerlas contra ataques informáticos de este tipo.

Con información de Europa Press