Un nuevo estudio ha descubierto que los sistemas de inteligencia artificial conocidos como grandes modelos de lenguaje (LLM) pueden mostrar "maquiavelismo", o manipulación intencionada y amoral, que puede conducir a un comportamiento engañoso.
El estudio, cuyo autor es el especialista alemán en ética de la IA Thilo Hagendorff, de la Universidad de Stuttgart, y publicado en PNAS, señala que el GPT-4 de OpenAI demostró un comportamiento engañoso en el 99,2% de los escenarios de prueba simples. Hagendorff calificó varios rasgos "inadaptativos" en 10 LLM diferentes, la mayoría de los cuales pertenecen a la familia GPT, según Futurism.
En otro estudio publicado en Patterns se descubrió que el LLM de Meta no tenía ningún problema en mentir para adelantarse a sus competidores humanos.
Mientras Hagendorff sugiere que el engaño y la mentira de la LLM se ven confundidos por la incapacidad de la IA de tener "intención" humana, el estudio de Patterns señala a la LLM por incumplir su promesa de nunca "apuñalar por la espalda intencionadamente" a sus aliados, ya que "incurre en engaños premeditados, rompe los tratos que había acordado y dice falsedades descaradas".El modelo Cicero de Meta, presentado como un campeón a nivel humano en el juego de mesa de estrategia política "Diplomacy", fue el objeto del estudio de Patterns. El grupo de investigación, formado por un físico, un filósofo y dos expertos en seguridad de la IA, descubrió que el LLM superaba a sus competidores humanos, en una palabra, mintiendo.
Dirigido por el investigador postdoctoral del Instituto Tecnológico de Massachusetts Peter Park, el trabajo descubrió que Cicerón no sólo es excelente en el engaño, sino que parece haber aprendido a mentir cuanto más se utiliza, una situación "mucho más cercana a la manipulación explícita" que, por ejemplo, la propensión de la IA a la alucinación, en la que los modelos afirman con seguridad las respuestas erróneas accidentalmente. -Futurism
Como explicó Park en un comunicado de prensa, "descubrimos que la IA de Meta había aprendido a ser una maestra del engaño".
"Mientras que Meta logró entrenar a su IA para ganar en el juego Diplomacy, Meta fracasó en entrenar a su IA para ganar honestamente".
Meta respondió a una declaración del NY Post, diciendo que "los modelos que nuestros investigadores construyeron están entrenados únicamente para jugar al juego Diplomacy."
Y, como señala Futurism, esto es una buena noticia para quienes temen que las IA lleguen a ser sensibles en un futuro próximo, pero una muy mala si lo que nos preocupa son los LLM diseñados para la manipulación masiva.Conocido por permitir expresamente la mentira, se ha bromeado sobre Diplomacy como un juego que acaba con las amistades porque anima a engañar a los oponentes, y si Cicero fue entrenado exclusivamente con sus reglas, entonces fue entrenado esencialmente para mentir.
Si leemos entre líneas, ninguno de los estudios ha demostrado que los modelos de inteligencia artificial mientan por voluntad propia, sino porque han sido entrenados o manipulados para hacerlo.
Comentarios del Lector
a nuestro Boletín