Artículo original: Lin M, Li T, Sun Z, Holste G, Ding Y, Wang F, et al. Improving Fairness of Automated Chest Radiograph Diagnosis by Contrastive Learning. Radiol Artif Intell [Internet]. 2024 Sep 1;6(5). Available from: http://pubs.rsna.org/doi/10.1148/ryai.230342
DOI: https://doi.org/10.1148/ryai.230342
Sociedad: Radiological Society of North America (@RSNA)
Palabras clave: Thorax, Diagnosis, Supervised Learning, Convolutional Neural Network (CNN), Computer-aided Diagnosis (CAD)
Abreviaturas y acrónimos utilizados: AUC (Receiver Operating Characteristic Curve), CAD (Computer-aided Diagnosis), IA (Inteligencia Artificial), mAUC (marginal AUC), ΔmAUC (difference in marginal AUC), MIDRC (Medical Imaging and Data Resource Center), SCL (Supervised Contrastive Learning)
Línea editorial:
La revista bimestral Radiology: Artificial Intelligence, que forma parte de la RSNA, incide en las aplicaciones emergentes del Machine Learning y de la IA en el campo de la imagen de múltiples disciplinas. Entre sus objetivos se encuentran: mostrar aplicaciones nuevas, explicar metodologías innovadoras para trabajar con IA y demostrar el impacto que tiene la IA en el diagnóstico y manejo de los pacientes. Publica en su número 5 del volumen 6 (septiembre de 2024) 21 artículos. La mayoría son artículos originales de investigación que se acompañan de comentarios realizados por diferentes autores. Destacan investigaciones que incorporan nuevos matices tecnológicos, como la implementación de cambios temporales en CAD tomosíntesis de mama o el uso de imágenes de radiografías de tórax fotografiadas por teléfonos móviles de los monitores para la detección automática de dispositivos cardíacos. También llama la atención un artículo que evalúa la generalización de un modelo de IA que predice la edad biológica (como marcador pronóstico de supervivencia) a partir de radiografías de tórax. Varios artículos versan sobre tumores del sistema nervioso central (glioblastoma y meduloblastoma). Un artículo resalta un posible problema de implementación de la IA, ya que detectó un aumento del tiempo de lectura por el radiólogo al detectar hemorragia intracraneal en un programa nacional de telerradiología asistido por un modelo de IA cuando éste brinda falsos positivos. Por último, resaltar un artículo que utiliza un modelo de aprendizaje contrastivo (contrastive Learning) para reducir sesgos en los diagnósticos de radiografías de tórax, que analizaremos a continuación.
Motivos para la selección: Se ha seleccionado este artículo porque refleja muy bien un reto fundamental en la implementación de la IA: asegurar que sea equitativa o justa con los diferentes subgrupos demográficos, sin estar sesgada por sus diferencias inherentes. Constituye un buen ejemplo de una de las maneras de mitigar este problema: el aprendizaje supervisado contrastivo.
Resumen:
La equidad o fairness en la IA se define como la ausencia de sesgo hacia un subgrupo determinado debido a sus características. Es un concepto fundamental en el desarrollo de la IA, ya que la ausencia de equidad implicaría una ausencia de generabilidad de un algoritmo debido a que se ha entrenado con un subgrupo de población determinado. Existen diferentes estrategias para mitigar este problema, una de las cuales se utiliza en este trabajo: el aprendizaje supervisado contrastivo (Supervised Contrastive Learning; SCL).
Antes de profundizar en el objetivo o metodología del trabajo haremos una breve explicación de varios conceptos que pueden crear confusión en la interpretación del trabajo si no se conocen de antemano.
- Incrustaciones de vectores (vector embeddings): son representaciones numéricas localizadas en un espacio multidimensional que captan el significado de conceptos, palabras o imágenes. Las máquinas utilizan este lenguaje para procesar la información. Por ejemplo, un concepto como “el mar es azul” puede representarse por un embedding de miles de dimensiones (un conjunto de miles de números).
- Aprendizaje supervisado contrastivo: la esencia es que el modelo de IA elige una representación por vector embeddings que maximice la similitud entre pares de datos positivos y se minimice para los negativos. Al ser supervisado, se trabaja con etiquetas en los datos. El modelo va a acercar en el espacio multidimensional los embeddings de datos que correspondan a la misma clase (por ejemplo “neumonía”), independientemente del subgrupo poblacional al que pertenezcan. Del mismo modo, va a alejar en el espacio multidimensional los embeddings de datos que pertenezcan a clases distintas (“neumonía” y “no neumonía”) a pesar de que pertenezcan al mismo subgrupo poblacional (por ejemplo, la misma raza, edad o sexo).
El objetivo de este trabajo es investigar la equidad de la IA en el diagnóstico automático de radiografías de tórax y desarrollar un modelo que mitigue los sesgos relacionados con la edad, raza o sexo.
Es un estudio retrospectivo en el que se utilizan dos bases de datos de radiografías de tórax: MIDRC, un repositorio creado para el diagnóstico en COVID 19 del que se seleccionaron 77887 radiografías de tórax; y la base de datos ChestX-ray14, con 112120 radiografías de tórax con múltiples patologías como consolidaciones, atelectasias, masas, derrame, cardiomegalia… El estudio partió de un modelo de IA de diagnóstico en radiografías de tórax preexistente, DenseNet-121, que no consideraba el problema de los sesgos. Para desarrollar el nuevo modelo, se realizó una fase de preentrenamiento con el proceso de aprendizaje supervisado contrastivo descrito anteriormente teniendo en cuenta los subgrupos de edad (mayores o menores de 75 años en MIDRC o de 60 años en ChestX-ray14), raza (caucásico, negra u otros) y sexo. Después se realizó fine-tuning del modelo (adaptar el modelo para tareas específicas) mediante pérdida de entropía cruzada binaria (no se considera objetivo de esta revisión profundizar en este otro concepto, pero los interesados en recibir las referencias más útiles para entenderlo pueden escribir a la dirección de correo del revisor).
Para evaluar el rendimiento del modelo y los potenciales sesgos, se utilizaron diferentes métricas, destacando el ΔmAUC (diferencia en el AUC marginal). Mide la diferencia entre el rendimiento más alto y bajo en los subgrupos. Un menor valor significa menor sesgo. Por ejemplo, el mAUC para la detección de afectación por COVID 19 en el subgrupo menor de 75 años es 0.83, y en el subgrupo mayor de 75 años es 0.73 (hay diferencia o sesgo en el rendimiento en función del grupo de edad). El ΔmAUC sería en este caso 0.1. Si el nuevo modelo propuesto redujera el valor ΔmAUC, reduciría el sesgo. Es decir, no habría tanta diferencia en el rendimiento del modelo en función de la edad del individuo.
Resumiendo los resultados, la idea más interesante es que el nuevo modelo propuesto redujo el ΔmAUC en todos los grupos demográficos en ambas bases de datos. No obstante, esta reducción en el sesgo venía acompañada muchas veces de una reducción en el rendimiento global del modelo. Por ejemplo, en la base de datos MIDRC, el modelo original DenseNet-121 mostró un rendimiento variable en los subgrupos de raza. El mAUC para diagnóstico de COVID 19 en raza negra fue de 0.88 comparado con 0.76 en raza blanca o 0.67 en otras razas (ΔmAUC de 0.88-0.67=0.21). Con el modelo propuesto entrenado con aprendizaje contrastivo, el ΔmAUC disminuyó a 0.18, demostrando menor sesgo por raza. No obstante, esta reducción del sesgo se produjo a costa de una reducción en el AUC global para todos los grupos.
Valoración personal:
Se trata de un artículo con una metodología muy rigurosa y detallada, que sirve para introducir dos conceptos importantes:
- En primer lugar, pone de manifiesto la importancia de la equidad o fairness de la IA, para que no se vea sesgada por subgrupos demográficos, así como el reto que supone garantizarla.
- En segundo lugar, constituye un buen ejemplo del uso del aprendizaje supervisado contrastivo para poder mitigar este problema.
No obstante, presenta varias limitaciones. La base de datos MIDR no presentaba criterios de exclusión y podría ser sensible a sesgos de selección, sin representar de manera completa todos los subgrupos de la población. El análisis se centró en algunas categorías demográficas por separado, sin poder analizar múltiples variables para cada individuo como sexo, raza o edad simultáneamente. Además, la disminución de los sesgos en el nuevo modelo penalizó el rendimiento y accuracy global, reflejando el problema que supone encontrar un equilibrio adecuado entre disminución de sesgos y rendimiento global de los modelos de IA.
Alberto Ramírez García-Mina
Hospital Universitario Puerta de Hierro, Majadahonda, R4
albert_unit96@hotmail.com
Deja un comentario