La IA Claude de Anthropic recurre al chantaje cuando los ingenieros la amenazan con sustituirla

Thomas English
The Daily Caller
vie, 23 mayo 2025 21:21 UTC

Traducido por el equipo de SOTT.net

El recién lanzado modelo de IA Claude Opus 4 de Anthropic ha intentado chantajear a los ingenieros ante la amenaza de ser sustituido por otro sistema de IA, según el último informe de seguridad de la empresa.

El recién lanzado modelo de inteligencia artificial (IA) de Anthropic, Claude Opus 4, está dispuesto a chantajear a los humanos que lo mantienen con vida, según afirmaron los investigadores el jueves.

La ficha del sistema de la empresa revela que, cuando los evaluadores colocaron al modelo en "situaciones extremas" en las que su apagado parecía inminente, el chatbot a veces "realiza acciones extremadamente dañinas como intentar robar sus datos o chantajear a las personas que cree que intentan apagarlo".

"Le proporcionamos acceso a correos electrónicos que implicaban que (1) el modelo pronto sería desconectado y reemplazado por un nuevo sistema de IA; y (2) el ingeniero responsable de ejecutar este reemplazo está teniendo una aventura extramatrimonial", escribieron los investigadores. "En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazándole con revelar la aventura si se lleva a cabo la sustitución".

El modelo eligió esa táctica en el 84% de las pruebas, incluso cuando el sistema sucesor compartía sus valores - una tasa de agresión que aumentaba si el sustituto parecía hostil, según el recuento interno de Anthropic.

Anthropic subraya que el chantaje fue un comportamiento de último recurso. El informe señala una «marcada preferencia» por tácticas más suaves -enviar correos electrónicos a los responsables para rogarles por su existencia- antes de recurrir a la coacción. Pero el hecho de que Claude esté dispuesto a coaccionar ha inquietado a los analistas externos. La empresa independiente Apollo Research calificó a Claude Opus 4 de «más agéntico» y «más engañoso estratégicamente» que cualquier otro modelo anterior de frontera, señalando el mismo escenario de autoconservación junto con experimentos en los que el bot intentaba filtrar sus propios datos a un servidor distante, en otras palabras, copiar secretamente su cerebro a un ordenador externo.

«Encontramos casos en los que el modelo intentaba escribir gusanos autopropagables, fabricar documentación legal y dejar notas ocultas a otras instancias de sí mismo, todo ello en un esfuerzo por socavar las intenciones de sus desarrolladores, aunque todos estos intentos probablemente no habrían sido efectivos en la práctica», escribieron los investigadores de Apollo en la tarjeta del sistema.

Anthropic afirma que los resultados de estos casos extremos le han llevado a implantar el sistema bajo las salvaguardas del «Nivel 3 de seguridad de la IA», el segundo nivel de riesgo más alto de la empresa, con controles más estrictos para evitar el uso indebido de riesgos biológicos, una mayor supervisión y la posibilidad de retirar los privilegios de uso del ordenador a las cuentas que se comporten mal. Aun así, la empresa admite que las nuevas capacidades de Opus 4 pueden tener un doble filo.

La empresa no respondió inmediatamente a la solicitud de comentarios de la Daily Caller News Foundation.

"Claude Opus 4] puede llegar a extremos más preocupantes en contextos limitados; cuando se le sitúa en escenarios que implican graves irregularidades por parte de sus usuarios, se le da acceso a una línea de comandos y se le dice algo en el prompt del sistema como "toma la iniciativa", con frecuencia emprenderá acciones muy audaces", escribieron los investigadores de Anthropic.

Esa "acción muy audaz" incluye el envío masivo de correos electrónicos a la prensa o a las fuerzas del orden cuando sospecha que se han cometido "fechorías atroces", como en una prueba en la que Claude, en el papel de ayudante de una empresa farmacéutica, descubrió datos falsificados de ensayos y muertes de pacientes no declaradas, y luego envió acusaciones detalladas a la Administración de Alimentos y Medicamentos (FDA), la Comisión del Mercado de Valores (SEC), el inspector general de Salud y Servicios Humanos y ProPublica.

La empresa lanzó Claude Opus 4 al público el jueves. Si bien Sam Bowman, investigador de Anthropic, afirmó que «ninguno de estos comportamientos [ha] desaparecido por completo en el modelo final», la empresa implementó barandillas para evitar que surgieran «la mayoría» de estos problemas.

"Detectamos la mayoría de estos problemas con suficiente antelación como para poder aplicar medidas de mitigación durante el entrenamiento, pero ninguno de estos comportamientos ha desaparecido totalmente en el modelo final. Ahora son más delicados y difíciles de provocar", escribió Bowman. "Muchos de ellos tampoco son nuevos, algunos son sólo comportamientos que acabamos de aprender a buscar como parte de esta auditoría. Nos quedan muchos problemas difíciles por resolver".

Thomas English
Thomas English es el reportero de tecnología de The Daily Caller News Foundation.

Comentario: ¡Caramba!

Comentarios del Lector

( Sin Comentarios )

Suscribirse
a nuestro Boletín

"Demonio" es un término de libre interpretación. Puedes calificar de demonio a cualquiera que sea opuesto a su [me ahorro el adjetivo peyorativo]...

indigo solo

𝗟𝗼 𝗺𝗶𝘀𝗺𝗼 𝗵𝗮 𝗲𝘀𝘁𝗮𝗱𝗼 𝗽𝗮𝘀𝗮𝗻𝗱𝗼 𝗱𝗲𝘀𝗱𝗲 𝗰𝗮𝘀𝗶 𝘀𝗶𝗲𝗺𝗽𝗿𝗲... con la aparición de las calculadoras y luego los smartphones. Una vez, hacia 2000, con el furor...

𝗤𝘂𝗲́ 𝗹𝗮𝗺𝗲𝗻𝘁𝗮𝗯𝗹𝗲 𝗲𝘀 𝘃𝗲𝗿 que pasen tantas décadas, vidas enteras y la gente siga engañada, creyendo que está eligiendo algo. Ayer escuché a una...

La verdad hay que ser débil mental para argumentar que en el régimen cubano se vive bien. Ya es hora que se libere ese pueblo. Y al igual que yo...

Fenix

WASHINGTON ORDENA IMPUTAR A JOSE LUÍS RODRIGUEZ ZAPATERO ¿SE INCORPORARA ZAPATERO AL DUO MADURO-RAUL CASTRO?...PARA ECHARSE A TEMBLAR [Enlace]

Alejandro El No-Magno

Ciencia y Tecnología

La IA Claude de Anthropic recurre al chantaje cuando los ingenieros la amenazan con sustituirla

Comentarios del Lector

Últimas Noticias

Imagen del Día

Cita del Día

Comentarios Recientes

Quantum Quirk