Traducido por el equipo de Sott.net en español

En los últimos años, ha surgido una gran cantidad de literatura que explora cómo la Inteligencia Artificial (IA) y el aprendizaje automático (AA) pueden mejorar la precisión del diagnóstico en medicina. En combinación con el aprendizaje profundo (un subconjunto del AA), esta investigación tiene el potencial, entre otras cosas, de avanzar en la detección del cáncer, agilizar los algoritmos de tratamiento y mejorar nuestra capacidad para predecir el riesgo de desarrollo de una enfermedad. En resumen, el AA es el proceso por el cual la IA puede ser entrenada para imitar la forma en que los humanos aprenden, mejorando así su propia precisión con el tiempo.
medical diagnosis artificial intelligence
La inteligencia artificial se está convirtiendo en un componente esencial del diagnóstico médico
Como ocurre con cualquier cambio de paradigma profesional, abundan las controversias y los debates animados sobre la ética. Entre los temas abordados se encuentran la preocupación de los médicos por la posibilidad de que la toma de decisiones clínicas expertas quede en manos de un algoritmo informático con una capacidad de interpretación limitada, el problema de que los sistemas de AA a menudo se "sobreajustan" a los datos (cuando un algoritmo empieza a medir la pura aleatoriedad en lugar de las características observables)1 y la integración del sesgo en cualquier programa de AA2. El debate sobre la relación entre el sesgo médico y las disparidades raciales en la medicina es especialmente preocupante en la era moderna. Sin embargo, un estudio reciente sobre el diagnóstico por imagen ofrece un recordatorio de que este tema sigue estando cargado de tabúes y confusión.

El nuevo preimpreso se titula "Reading Race: AI Recognizes Patient's Racial Identity in Medical Images" ("Leyendo la raza: la IA reconoce la identidad racial del paciente en las imágenes médicas") y detalla el uso de AA para identificar la raza declarada por el propio paciente a partir de estudios radiográficos rutinarios (en concreto, radiografías de tórax, tomografías computarizadas y mamografías). Los investigadores analizaron múltiples bases de datos y los resultados fueron sorprendentes: los modelos de AA fueron capaces de predecir la raza autodeclarada (clasificada como asiática, negra y blanca) con una precisión asombrosa. Esto se mantuvo incluso cuando los investigadores intentaron tener en cuenta otros factores como la densidad mamaria y ósea o el índice de masa corporal. La especificidad con la que el algoritmo predijo la raza no se puede subestimar: cada base de datos reveló que los resultados nunca cayeron por debajo del 80 por ciento de precisión diagnóstica, y muchos de los análisis descubrieron que las mediciones eran precisas más del 90 por ciento de las veces. Estas mediciones se mantuvieron para diferentes resoluciones de imagen e incluso cuando los investigadores aplicaron filtros a las imágenes. El ojo humano entrenado, por su parte, puede detectar la raza a partir de tales imágenes a un ritmo no mejor que el de las conjeturas.

En conjunto, parece un trabajo excepcional de investigación y los autores eran claramente conscientes de las implicaciones éticas del proyecto. Por desgracia, las discusiones en internet han oscurecido al menos tanto como han iluminado. Aunque no hay un autor principal técnico del trabajo, un miembro del equipo llamado Dr. Luke Oakden-Rayner publicó un comentario sobre sus hallazgos en una entrada de blog completa titulada "La IA tiene el peor superpoder... el racismo médico". Aunque las preocupaciones éticas están bien articuladas a lo largo de la entrada de Oakden-Ranyer, sus argumentos a veces caen en la autocontradicción, y las implicaciones positivas de los hallazgos de su equipo quedan sin analizar.

El argumento de Oakden-Rayner es el siguiente:
  1. La medicina está sesgada en contra de los grupos marginados y a favor de los hombres blancos.
  2. Estos prejuicios causan disparidades médicas. Por tanto:
  3. El sesgo racial en los modelos de AA exacerbará esas disparidades.
El autor plantea la hipótesis de que los modelos de AA están "preparados para aprender estas características debido a sus sesgos inductivos", y hace referencia a otro preimpreso que encontró diferentes tasas de verdaderos y falsos positivos entre grupos raciales en estudios de rayos X de tórax utilizando los mismos modelos de AA. Claramente, el modelo está aprendiendo a detectar algo que el ojo humano no puede discernir, y si las tasas de falsos positivos difieren entre grupos raciales, existe un potencial de daño.

El daño potencial fue el tema central de un artículo en Wired, y preocupó a muchos de los que participaron en la posterior discusión en Twitter sobre el blog, el documento y sus conclusiones. Un colega investigador del estudio, de la Universidad de Emory, dijo al periodista de Wired que la capacidad de identificar la raza podría llevar a "asociaciones inapropiadas". Otro coautor comentó: "Tenemos que educar a la gente sobre este problema e investigar qué podemos hacer para mitigarlo". Los autores parecían compartir la preocupación general de Oakden-Rayner de que sus conclusiones, desde el punto de vista ético, sólo apuntaban en la dirección equivocada. El periodista de Wired hizo referencia a otro estudio para destacar las disparidades raciales en la precisión diagnóstica de los algoritmos de AA entrenados con radiografías de tórax3.

Sin duda, es importante considerar cómo el uso de tal modelo podría afectar a la atención entre grupos de población si las tasas de falsos positivos difieren. Pero independientemente de estas preocupaciones, algunas de las afirmaciones que Oakden-Rayner hizo en su blog y en el hilo de Twitter asociado son innecesariamente confusas. En concreto, su afirmación de que "el modelo ha aprendido algo malo" y "el hecho de que los modelos aprendan características de la identidad racial es malo" carecen de sentido y validez a menos que uno se adhiera a la ortodoxia de que la raza es simplemente un constructo social que carece de cualquier correlato biológico.

Esta creencia se ejemplifica en muchos de los comentarios de apoyo que recibió en Twitter. "Sólo quiero señalar", comentó una dermatóloga de Stanford, "que hay mucha gente en medicina, por desgracia, que sigue pensando que la raza es biológica y no un constructo social, y este artículo muestra que ninguno de los atributos biológicos es predictivo de la raza". Volvió a insistir en este punto añadiendo una captura de pantalla del preimpreso:

Sin embargo, estas afirmaciones defensivas confundieron a otros comentaristas que querían saber por qué la capacidad de un modelo para identificar la raza de un paciente necesariamente es siniestra en primer lugar.

Una revisión de la literatura pertinente revela que, a pesar de las importantes áreas de superposición, los correlatos biológicos difieren entre las categorías raciales, y esto es la regla y no la excepción4. Lo que tiene serias implicaciones para las decisiones de tratamiento, porque los eventos adversos de los medicamentos pueden variar entre los grupos de población5, al igual que las tasas de enfermedad. El ejemplo más conocido de este último fenómeno es el rasgo de anemia de células falciformes, que se encuentra predominantemente en aquellos categorizados como "negros" o "afroamericanos". Las diferencias genéticas medias entre grupos raciales también pueden explicar en parte la mayor incidencia de cáncer de próstata agresivo en los hombres de raza negra. No cabe duda de que los algoritmos de AA altamente eficientes y precisos acabarán captando estas diferencias en diversas circunstancias, por lo que no sería sorprendente saber que una IA estaba utilizando las diferencias raciales medias y sutiles como heurística. El hecho de que los investigadores intentaran corregir diferencias como la densidad ósea sugiere que probablemente son conscientes de ello.

Muchos científicos intelectualmente honestos ya admiten que la raza puede ser un indicador útil para algunas decisiones médicas. Si se impide que la IA tenga en cuenta este indicador, podría producir más daños involuntarios que beneficios previstos. Una reciente controversia médica relacionada con el ajuste de la función renal de los afroamericanos ilustra este punto. Uno de los métodos utilizados para evaluar la función renal de un paciente mide la tasa de filtración glomerular (TFG). Sin embargo, varios estudios han descubierto que los negros tienen una TFG de base más alta que los blancos, por lo que la prueba tiene que ajustar este factor en función de la raza del paciente. El activismo de los estudiantes de posgrado hizo que varias instituciones eliminaran el ajuste racial o lo sustituyeran por una prueba de laboratorio diferente, aparentemente en nombre de abordar el "racismo sistémico".

Los profesionales justificaron este cambio con el mismo argumento de que la raza es simplemente un constructo social. Sin embargo, no está nada claro por qué el mero hecho de etiquetar algo como construcción social lo descalifica automáticamente de los algoritmos médicos, sobre todo teniendo en cuenta la incesante fijación de la sanidad en los determinantes sociales de la salud. Este hecho fue especialmente preocupante porque un estudio publicado en la misma época descubrió que la eliminación del ajuste racial daba lugar a estimaciones menos precisas de la función renal en pacientes afroamericanos, con consecuencias potencialmente perjudiciales6.

La incorporación de la raza en los algoritmos médicos no se limita a las estimaciones de la función renal. En mi propia especialidad, a menudo utilizamos un sistema de puntuación basado en el Estudio Multiétnico de Aterosclerosis de predicción del riesgo a 10 años de un paciente de desarrollar un tipo de enfermedad cardíaca para guiar las decisiones de tratamiento7. Independientemente del sistema de órganos que se evalúe, estaría dispuesto a apostar que muchos pacientes preferirían que no se excluyera el aspecto racial/ étnico de sus pruebas si eso significara una predicción de riesgo menos precisa.

Teniendo esto en cuenta, el relato histórico de Oakden-Rayner sobre el sesgo de los ensayos médicos hacia los hombres blancos podría contradecir sus temores expresados sobre el reconocimiento racial de la IA. Si hay que tomar en serio sus afirmaciones sobre el sesgo y la exclusión de los grupos infrarrepresentados, la mejora de la precisión en la identificación racial ofrece una oportunidad para una corrección histórica masiva y positiva. Parece poco probable que los datos recogidos mediante estudios de imagen sean significativamente más sesgados que otros métodos de recogida, y puede permitir ajustar los diagnósticos para producir una precisión uniforme entre los grupos.

Oakden-Rayner ha declarado que no sabe cómo cambiar este algoritmo para excluir la raza sin hacer que el modelo de AA sea menos útil clínicamente (un hallazgo fascinante por derecho propio), pero sigue existiendo una preocupación evidente por la integración del sesgo en cualquier modelo. Por muy justificada que esté esta preocupación, el fervor en torno a la mitigación de las disparidades se confunde con la negativa a reconocer cualquier diferencia media entre grupos raciales. Se trata de una contradicción insostenible, y este tipo de pánico moral hace que se pierda un tiempo valioso creando alarmismo en torno a una investigación que, de otro modo, sería interesante.

Un hallazgo como este podría ser anulado con más estudios (por ejemplo, aún no está claro si este modelo funciona igual de bien con la Resonancia Magnética), o podría resultar que el algoritmo está midiendo un proxy desconocido más allá de la raza para hacer una distinción que sólo parece ser una identificación de la raza. Pero hasta que no sepamos más y podamos evaluar la utilidad positiva de tales resultados, no es necesario etiquetar como "erróneos", a priori, resultados potencialmente importantes como estos. Merece la pena señalar que no todos los autores del artículo parecen compartir las preocupaciones de Oakden-Rayner. Como él mismo afirmó en la introducción de su entrada en el blog:
Una cosa que notamos cuando estábamos trabajando en esta investigación fue que había una clara división en nuestro equipo. Los investigadores más clínicos y relacionados con la seguridad y los prejuicios estaban sorprendidos, confundidos y francamente horrorizados por los resultados que estábamos obteniendo. Por otro lado, algunos de los informáticos e investigadores más jóvenes se sorprendieron de nuestra reacción. No entendían en realidad por qué estábamos preocupados.
Independientemente del resultado (el artículo aún no ha sido revisado por pares), el AA funciona mejor con un conjunto de datos diversos para optimizar la toma de decisiones8. En lugar de fomentar el alarmismo, es de esperar que hallazgos como este estimulen a los investigadores a incluir en sus ensayos el mayor número posible de miembros de poblaciones diversas. Fue alentador ver que Oakden-Rayner concluyera su entrada en el blog con este mismo sentimiento: "Es absolutamente necesario que hagamos más pruebas estratificadas por razas en los sistemas de IA, y probablemente no deberíamos permitir que los sistemas de IA se utilicen fuera de las poblaciones en las que han sido probados". Deberíamos proceder con cautela antes de integrar la IA a este nivel, pero habría que hacer un esfuerzo igual para evitar rendirse a los miedos irracionales o moralizar problemas que aún no hemos comprendido.
Zachary Robert Caverley es un médico asistente especializado en cardiología que trabaja en clínicas rurales de la costa noroeste.
Referencias:

1 Ascenso del aprendizaje automático en medicina. Nat Mater. 2019;18(5):407. doi:10.1038/s41563-019-0360-1
2 Yoon CH, Torrance R, Scheinerman N. Aprendizaje automático en medicina: ¿debe abandonarse la búsqueda de una mayor interpretabilidad? J Med Ethics. 2021;0:1-5. doi: 10.1136/medethics-2020-107102
3 Seyyed-Kalantari L, Liu G, McDermott M, Chen IY, Ghassemi M. CheXclusion: Lagunas de equidad en los clasificadores de radiografías de tórax profundas. Pac Symp Biocomput. 2021;26:232-243.
4 Murray, C. Diversidad humana: La biología del género, la raza y la clase social. 2020. p189.
5 Brunham, L., Chan, S., Li, R. et al. Diversidad farmacogenómica en poblaciones de Singapur y europeas. Pharmacogenomics J 14, 555-563 (2014). https://doi.org/10.1038/tpj.2014.22
6 Levey AS, Tighiouart H, Titan SM, Inker LA. Estimación de la tasa de filtración glomerular con y sin incluir la raza del paciente. JAMA Intern Med. 2020;180(5):793-795. doi:10.1001/jamainternmed.2020.0045
7 McClelland RL, Jorgensen NW, Budoff M, et al. Predicción del riesgo de cardiopatía coronaria a 10 años utilizando el calcio de las arterias coronarias y los factores de riesgo tradicionales: Derivación en el estudio MESA (Multi-Ethnic Study of Atherosclerosis) con validación en el estudio HNR (Heinz Nixdorf Recall) y el DHS (Dallas Heart Study). J Am Coll Cardiol. 2015;66(15):1643-1653. doi:10.1016/j.jacc.2015.08.035
8 Rajkomar A, Dean J, Kohane I. Aprendizaje automático en medicina. N Engl J Med. 2019;380(14):1347-1358. doi:10.1056/NEJMra1814259