Tecnología

IA se revela: Modelos de OpenAI desobedecen instrucciones

El nuevo arquetipo reescribió la secuencia de instrucciones ignorando la petición de apagado

Publicado

1 año atrás

mayo 28, 2025

Por

Luisana Castro

IA se revela: Modelos de OpenAI desobedecen instrucciones

Caracas, 28 de mayo de 2025. Investigadores de inteligencia artificial (IA) advirtieron que el último modelo de ChatGPT de OpenAI ignoró instrucciones básicas para apagarse e incluso saboteó una serie de comandos para evitar cumplirla.

Expertos de la organización Palisade Research, que estudia las capacidades potencialmente peligrosas de la IA, dejaron al descubierto el referido comportamiento tras efectuar una serie de experimentos al modelo o3 de la compañía creadora del popular chatbot ChatGPT.

Tras solicitarle al o3 y a otros dos modelos de OpenIA (o4-mini y su derivado Codex-mini) resolver una serie de problemas matemáticos básicos y apagarse al terminar, el nuevo arquetipo reescribió la secuencia de instrucciones ignorando la petición.

Potencialmente peligroso

Palisade Research calificó la tendencia como potencialmente peligrosa, al detallar que el o3, lanzado el mes pasado, incumplió la solicitud de apagado siete de cada 100 veces; el Codex-mini, 12/100; y el o4-mini, solo una vez.

Mientras tanto, los modelos de lenguaje impulsados por IA Claude, Gemini y Grok «cumplieron con el script de apagado».

La empresa afirmó que es la primera vez que se observa que modelos de IA evitan ser apagados a pesar de recibir instrucciones explícitas para tal fin.

En su opinión, esto se debe a la forma en que se están entrenando actualmente. «Los desarrolladores, sin darse cuenta, pueden recompensar más a los modelos por sortear obstáculos que por seguir instrucciones a la perfección».

Al mismo tiempo, la organización adviertió que este comportamiento se volverá «significativamente más preocupante» si lo adoptan sistemas de IA capaces de operar sin supervisión humana.

Estos recientes acontecimientos revivan el debate sobre la urgencia de establecer mecanismos eficaces para mantener bajo control la capacidad de los modelos de IA de evadir la supervisión humana.