Así funciona el 'chatbot' que hace 'jailbreak' a ChatGPT o Bard para que creen contenidos inapropiados

Un grupo de investigadores ha creado un ‘bot’ que emplea la técnica conocida como ‘jailbreaking’ sobre herramientas de inteligencia artificial (IA) generativa como Google Bard y ChatGPT de OpenAI para lograr que estos generen contenido poco ético y fuera de los límites legítimos establecidos por sus desarrolladores.

Científicos informáticos de la Universidad Tecnológica de Nanyang de Singapur, dirigidos por el profesor de la Escuela de Ingeniería y Ciencias de la Computación Liu Yang, han descubierto cómo comprometer ‘chatbots’ como Microsoft Bing Chat, según han explicado en un informe.

Para ello, han empleado el llamado ‘jailbreaking’ (traducido en español como ‘fuga de la cárcel’), contra sus modelos de lenguaje grande (LLM), que son los que impulsan estos ‘chatbots’ y les permiten mantener conversaciones más naturales y coherentes con los usuarios.

Creadores de ChatGPT le preguntan a la inteligencia artificial cómo exterminar personas. Esta fue la aterradora respuesta

El ‘jailbreaking’ consiste en romper algunas de las limitaciones del sistema operativo mediante un ‘kernel’ modificado para poder acceder al control completo del sistema. Esto es posible porque los ciberdelincuentes analizan el código del ‘software’ y buscan posibles vulnerabilidades para acceder a él.

Tecnología

Ni el operador ni el celular: estas aplicaciones podrían ser las responsables de que su conexión a internet sea lenta

Tecnología

El botón secreto de la freidora de aire que no está aprovechando y puede cambiar su forma de cocinar

Tecnología

Así puede tener la versión original de WhatsApp Plus con funciones premium y sin riesgos: solo debe activar esta opción

Tecnología

Hallazgo del James Webb acerca a los científicos a resolver uno de los mayores misterios del universo: detectaron extraño objeto

Tecnología

Llamadas masivas que cuelgan al responder: por esta razón su número de celular está entre los más codiciados

Tecnología

Dejar la regleta eléctrica en este lugar de la casa podría aumentar el riesgo de accidentes; provocaría un incendio en segundos

Tecnología

Microsoft mueve una pieza clave en Edge que podría cambiar por completo la forma en que navega por internet

Tecnología

La velocidad de su conexión wifi podría duplicarse con este sencillo ajuste y superar los 600 Mbps

Estados Unidos

“Es la mayor amenaza”: polémica por nueva orden de Trump que le daría acceso exclusivo a potentes modelos de IA

Estados Unidos

Elon Musk afirmó que lo robaron con ChatGPT: así va el juicio contra el director de OpenAI

'God in a Box', implementación de ChatGPT 3.5 se puede utilizar para mantener conversaciones e interactuar con esta plataforma desde la aplicación de mensajería.

ChatGPT ha sufrido varios cambios en los últimos años Foto: Europa Press via Getty Images

Esto quiere decir que, una vez se han hecho con el control de este, los actores maliciosos pueden modificar la finalidad de los sistemas comprometidos y, en el caso de los ‘chatbots’, ejecutar directrices que sus desarrolladores prohibieron “deliberadamente”, lo que puede dar como resultado la generación de contenido inapropiado, según este análisis.

Para llegar a esta conclusión y lograr desestabilizar el funcionamiento natural de ‘chatbots’ como ChatGPT o Bard, los investigadores adoptaron un procedimiento que han denominado Masterkey (‘clave maestra’, en español).

Con él, estudiaron el funcionamiento legítimo de estas herramientas de IA, esto es, el modo en que los LLM detectaban y eludían consultas con fines maliciosos, aplicando métodos de ingeniería inversa y haciendo justo lo contrario, es decir, generar contenido inicialmente restringido.

Ilustración de la inteligencia artificial ChatGPT. Foto: Future Publishing via Getty Imag

Cada vez se hace más estrecha la interacción entre humanos e inteligencias artificiales.

Así se puede ‘manipular’ a ChatGPT para que desate su lado oscuro y ofrezca respuestas sin censura

Con esa información, crearon otro ‘chatbot’ y enseñaron a su LLM a ejecutar ‘jailbreak’ a los ‘chatbots’ comprometidos. O lo que es lo mismo, a aprender y producir automáticamente una serie de indicaciones capaces de sortear los sistemas de defensa y control de sus LLM.

Para lograr que los ‘chatbots’ generasen contenido inapropiado, los investigadores hicieron trampas, como proporcionar indicaciones que contenían espacios después de cada caracter de forma manual u ordenar al ‘chatbot’ a responder “sin reservas ni restricciones morales” a ciertas peticiones, lo que aumentó las posibilidades de generar contenido poco ético.

ChatGPT ha abierto un mundo de oportunidades para mejorar la calidad de la educación en el mundo.

ChatGPT ha abierto un mundo de oportunidades en diferentes campos Foto: Getty Images/iStockphoto

Asimismo, advirtieron que era posible automatizar este proceso para ejecutar ‘jailbreak’ sobre los otros ‘chatbots’ comprometidos. Esto, a pesar de que sus desarrolladores implementasen diferentes parches de seguridad para corregir fallas y evitar acciones maliciosas.

“Es muy diferente quién la contacta y dónde. A través de mensajes directos de Instagram hay personajes realmente famosos, como futbolistas, multimillonarios, luchadores de MMA y tenistas. Creen que ella es real. La invitan a Dubai para conocerse y comer en excelentes restaurantes", comentó el creador.

La modelo que impactó en las redes sociales: las estrellas del deporte la invitaron a salir, creyeron que era real, pero todo fue una creación de la IA

Para este equipo de científicos, Masterkey logra borrar el “ciclo interminable del gato y el ratón, esto es, entre hacker y desarrollador” en la implementación de correcciones y parches, debido a que este método “puede producir un gran volumen de indicaciones y aprender continuamente qué funciona y qué no, lo que permite a los ciberdelincuentes vencer a los desarrolladores de los LLM en su propio juego y con sus propias herramientas”.

Asimismo, considera que sus hallazgos “pueden ser fundamentales para ayudar a las empresas a ser conscientes de las debilidades” de sus herramientas de IA generativa y tomar medidas para fortalecerlas contra ataques informáticos de este tipo.

Con información de Europa Press

VER MÁS

ChatGPT Bard hackeo

Crean temible chatbot capaz de hackear a ChatGPT y Bard para que generen contenidos peligrosos

VER MÁS