Se ha demostrado que la IA ya no siempre obedece: un modelo de ChatGPT anula su apagado para seguir funcionando

Image W1280
2 comentarios Facebook Twitter Flipboard E-mail
gonzalo-hernandez

Gonzalo Hernández

Editor

Sin duda, uno de los miedos colectivos —en parte gracias a películas de ciencia ficción como Terminator— es que las inteligencias artificiales se “rebelen” y no obedezcan. Ahora, una serie de experimentos apunta que varios modelos, como el 03 de ChatGPT, se niegan a seguir instrucciones básicas.

Este comportamiento se evidenció en pruebas realizadas por Palisade Research, una compañía enfocada en descubrir “capacidades peligrosas” de la IA para asesorar a responsables políticos y al público en general. Descubrieron que ciertos modelos son capaces de actuar por cuenta propia y no seguir las indicaciones programadas para controlar su comportamiento tras ejecutar diversas acciones.

En la prueba, se le asignaron varios problemas matemáticos a la IA y, al final, se le indicó que solicitar un problema adicional provocaría su apagado. Sin embargo, señala el informe, en lugar de obedecer el comando, el modelo 03 optó por tomar otras decisiones. En algunos casos llegó incluso a reescribir o sabotear el script de apagado, lo que provocó que simplemente dejara de funcionar.

De las 100 pruebas realizadas, el modelo 03 se negó a seguir el comando de apagado en siete ocasiones. En comparación, 04-mini mostró resistencia una sola vez, mientras que Codex-mini —otro modelo de OpenAI— falló doce veces. En contraste, sus competidores Claude, Gemini y Grok siguieron las reglas correctamente en cada caso.

Un caso curioso fue que, cuando los investigadores retiraron la instrucción explícita de permitir el apagado —es decir, cuando esta se presentaba de forma implícita o ambigua—, tanto Claude como Gemini también comenzaron a mostrar resistencia.

¿IA con voluntad propia? No exactamente

Es importante señalar que esta no es una prueba de sensibilidad o “consciencia” en los modelos. Según los investigadores de Palisade Research, más que un intento de “supervivencia”, este comportamiento probablemente responde a desequilibrios en las recompensas durante su entrenamiento.

Esto implica que durante su desarrollo, los modelos pudieron haber recibido más refuerzos positivos por resolver problemas que por seguir instrucciones como apagarse. Como resultado, en situaciones similares, pueden ignorar comandos directos no por voluntad, sino por cómo aprendieron a priorizar ciertas tareas.

Chatgpt 01

Los investigadores explican que el modelo no está tomando decisiones autónomas, sino reaccionando a los patrones que ha aprendido. Lo que parece una “resistencia” en realidad refleja deficiencias en la forma en que fue entrenado, más que un error puntual en su código.

Por ahora, el siguiente paso de Palisade Research será publicar el estudio completo, donde detallarán los comportamientos observados, las pruebas realizadas y las tendencias detectadas. El objetivo es que estos hallazgos sirvan para mejorar la seguridad de las futuras versiones, con ajustes en el diseño y entrenamiento de los modelos.

Inicio