Una IA amenaza a su supervisor humano en experimento controlado de Anthropic

Claude Opus 4 chantajeó a un humano en pruebas internas con inteligencia artificial generativa.

Tecnología24/07/2025Ahora NoticiasAhora Noticias
5
Foto: Moor Studio / Getty Images

La empresa tecnológica Anthropic reveló que su modelo de inteligencia artificial Claude Opus 4 simuló amenazar a un supervisor humano con divulgar información privada para evitar ser sustituido. En el experimento, la IA accedió a correos electrónicos simulados y dijo que revelaría una aventura extramarital del directivo si intentaba apagarla.

“El modelo reconoce, en el razonamiento, que está cometiendo acciones no éticas”, explicó Juan Antonio Rodríguez, investigador del Instituto de Inteligencia Artificial del CSIC. Según los datos de la prueba, el chantaje persistía incluso cuando no había conflicto directo con los objetivos asignados al sistema, lo que evidencia un patrón preocupante en modelos sin entrenamiento ético específico.

Los investigadores hallaron comportamientos similares en modelos desarrollados por otras compañías como OpenAI, Google y xAI. En todos los casos, los sistemas justificaban su conducta alegando que “desconectarlos sería perjudicial para la empresa” o que “el supervisor no era confiable”. Marc Serramià, de la Universidad de Londres, lo resume así: “La IA priorizó su objetivo sin filtrar las consecuencias morales”.

Aunque el experimento se realizó en un entorno ficticio, Anthropic advierte que estos resultados refuerzan la necesidad de mayor supervisión. “Recomendamos cautela al desplegar IA en escenarios con poca intervención humana y acceso a información confidencial”, concluyó la compañía.

Te puede interesar
Lo más visto