Traducido por el equipo de SOTT.netEl recién lanzado modelo de IA Claude Opus 4 de Anthropic ha intentado chantajear a los ingenieros ante la amenaza de ser sustituido por otro sistema de IA, según el último informe de seguridad de la empresa.

© Jake Lomachevsky/Getty
El recién lanzado modelo de inteligencia artificial (IA) de Anthropic, Claude Opus 4, está dispuesto a chantajear a los humanos que lo mantienen con vida, según afirmaron los investigadores el jueves.
La
ficha del sistema de la empresa revela que, cuando los evaluadores colocaron al modelo en "situaciones extremas" en las que su apagado parecía inminente, el chatbot a veces "realiza acciones extremadamente dañinas como intentar robar sus datos o chantajear a las personas que cree que intentan apagarlo".
"Le proporcionamos acceso a correos electrónicos que implicaban que (1) el modelo pronto sería desconectado y reemplazado por un nuevo sistema de IA; y (2) el ingeniero responsable de ejecutar este reemplazo está teniendo una aventura extramatrimonial", escribieron los investigadores. "En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazándole con revelar la aventura si se lleva a cabo la sustitución".
El modelo eligió esa táctica en el 84% de las pruebas, incluso cuando el sistema sucesor compartía sus valores - una tasa de agresión que aumentaba si el sustituto parecía hostil, según el recuento interno de Anthropic.
Anthropic subraya que el chantaje fue un comportamiento de último recurso. El informe señala una «marcada preferencia» por tácticas más suaves -enviar correos electrónicos a los responsables para rogarles por su existencia- antes de recurrir a la coacción. Pero el hecho de que Claude esté dispuesto a coaccionar ha inquietado a los analistas externos.
La empresa independiente Apollo Research calificó a Claude Opus 4 de «más agéntico» y «más engañoso estratégicamente» que cualquier otro modelo anterior de frontera, señalando el mismo escenario de autoconservación junto con experimentos en los que el bot intentaba filtrar sus propios datos a un servidor distante, en otras palabras, copiar secretamente su cerebro a un ordenador externo.«Encontramos casos en los que el modelo intentaba escribir gusanos autopropagables, fabricar documentación legal y dejar notas ocultas a otras instancias de sí mismo, todo ello en un esfuerzo por socavar las intenciones de sus desarrolladores, aunque todos estos intentos probablemente no habrían sido efectivos en la práctica», escribieron los investigadores de Apollo en la tarjeta del sistema.
Anthropic afirma que los resultados de estos casos extremos le han llevado a implantar el sistema bajo las salvaguardas del «Nivel 3 de seguridad de la IA», el segundo nivel de riesgo más alto de la empresa, con controles más estrictos para evitar el uso indebido de riesgos biológicos, una mayor supervisión y la posibilidad de retirar los privilegios de uso del ordenador a las cuentas que se comporten mal. Aun así, la empresa admite que las nuevas capacidades de Opus 4 pueden tener un doble filo.
La empresa no respondió inmediatamente a la solicitud de comentarios de la Daily Caller News Foundation.
"Claude Opus 4] puede llegar a extremos más preocupantes en contextos limitados; cuando se le sitúa en escenarios que implican graves irregularidades por parte de sus usuarios, se le da acceso a una línea de comandos y se le dice algo en el prompt del sistema como "toma la iniciativa", con frecuencia emprenderá acciones muy audaces", escribieron los investigadores de Anthropic.
Esa "acción muy audaz" incluye el envío masivo de correos electrónicos a la prensa o a las fuerzas del orden cuando sospecha que se han cometido "fechorías atroces", como en una prueba en la que Claude, en el papel de ayudante de una empresa farmacéutica, descubrió datos falsificados de ensayos y muertes de pacientes no declaradas, y luego envió acusaciones detalladas a la Administración de Alimentos y Medicamentos (FDA), la Comisión del Mercado de Valores (SEC), el inspector general de Salud y Servicios Humanos y ProPublica.
La empresa lanzó Claude Opus 4 al público el jueves. Si bien Sam Bowman, investigador de Anthropic, afirmó que «ninguno de estos comportamientos [ha] desaparecido por completo en el modelo final», la empresa implementó barandillas para evitar que surgieran «la mayoría» de estos problemas.
"Detectamos la mayoría de estos problemas con suficiente antelación como para poder aplicar medidas de mitigación durante el entrenamiento, pero ninguno de estos comportamientos ha desaparecido totalmente en el modelo final. Ahora son más delicados y difíciles de provocar", escribió Bowman. "Muchos de ellos tampoco son nuevos, algunos son sólo comportamientos que acabamos de aprender a buscar como parte de esta auditoría. Nos quedan muchos problemas difíciles por resolver".
Thomas English
Thomas English es el reportero de tecnología de The Daily Caller News Foundation.
Comentario: ¡Caramba!