Artículo original: Glocker B, Jones C, Roschewitz M, Winzeck S, et al. Risk of Bias in Chest Radiogaphy Deep Learning Foundation Models. Rad-AI. 2023; 5(6): published online.
DOI: https://doi.org/10.1148/ryai.230060
Sociedad: Radiological Society of North America (@RSNA)
Palabras clave: deep learning, foundation models.
Abreviaturas y acrónimos utilizados: IA (Inteligencia Artificial).
Línea editorial: Radiology: Artificial Intelligence , es una revista online lanzada en enero de 2019, que se enfoca en la aplicación de las tecnologías emergentes en radiología. Los temas tratados incluyen el impacto de la IA en el proceso diagnóstico y en el manejo clínico de los pacientes, el papel de la IA en la educación radiológica y el impacto ético de la IA en el ámbito médico. En este número que publicarán ahora en octubre incluyen artículos sobre: la utilidad de las redes Bayesianas en radiología, modelos de lenguaje adaptados por dominios para la clasificación de informes en medicina nuclear, el riesgo de sesgos de los modelos de aprendizaje profundo en la lectura de radiografías de tórax o un método de aprendizaje profundo para la segmentación multifásica de estudios por resonancia magnética asistido por Styler Transfer. Además, también incluye artículos sobre herramientas de aprendizaje profundo para mejorar la estratificación de los tumores mamarios BI-RADS 4 por mamografía y así evitar biopsias mamarias innecesarias o la valoración de una herramienta de aprendizaje profundo para la detección de cánceres mamarios en una populación étnicamente diversa.
Motivos para la selección: La inteligencia artificial y los modelos de Deep Learning están en boca de todos desde hace unos años, y la Radiología es el área médica que más se ha relacionado con un posible cambio en su práctica en relación con la IA. Sin embargo, es menos popular todo el trabajo que aún queda por hacer para que la aplicabilidad de estas herramientas tengan una validez externa aceptable hoy en día. Por esta razón, me pareció muy interesante que desarrollaran un proyecto de investigación sobre los sesgos de los modelos de aprendizaje profundo en una prueba tan cotidiana como la placa simple de tórax, que muestra cómo afectaría la aplicación inmediata de estas herramientas a día de hoy en la precisión de los diagnósticos emitidos.
Resumen:
El artículo analiza un modelo básico de radiografía de tórax publicado recientemente para detectar sesgos que podrían provocar disparidades en el rendimiento de los subgrupos según el sexo y la raza biológicas. El estudio compara el modelo básico de la radiografía con una lectura tradicional con la lectura de la misma prueba por una red neuronal de aprendizaje profundo o deep learning previamente entrenada para ello.
Los investigadores utilizaron el conjunto de datos de ChExpert, disponible públicamente, que constaba de las imágenes de 42.884 pacientes con 127.118 radiografías de tórax analizadas en total. El análisis estadístico lo realizaron mediante la prueba de Kolmogorov-Smirnov de dos muestras, para determinar si las características generadas por el modelo estaban sesgadas, y otros tests estadísticos para comparar por pares la identificación de “derrame pleural” y “no hallazgos”, en función del sexo biológico y la raza. En los resultados se vio una marcada disminución de la precisión de las herramientas de aprendizaje profundo a la hora de identificar estos dos hallazgos, en comparación con la lectura habitual de la prueba.
Se ha demostrado que la formación previa con grandes conjuntos de datos de imágenes médicas no etiquetadas mejora el rendimiento en tareas nuevas y similares, argumentando la utilidad que las herramientas de aprendizaje profundo podrían tener en el mundo de la lectura de imágenes médicas, pero este estudio destaca la importancia de tener en cuenta los sesgos en los modelos básicos y su impacto en las disparidades de rendimiento entre los subgrupos no tenidos en cuenta al desarrollar dichos modelos, como son aquellos subgrupos de distinto sexo biológico y/o raza.
Estos hallazgos tienen implicaciones prácticas a la hora de desarrollar nuevos modelos de aprendizaje profundo justos e imparciales en el campo de la radiología, abordando las preocupaciones éticas y legales en la práctica médica.
Valoración personal:
Este artículo me ha parecido muy interesante, útil y representativo de la realidad en la que nos encontramos actualmente en las implicaciones de la Inteligencia Artificial en la práctica clínica radiológica. En primer lugar, porque aunque sea evidente que las nuevas tecnologías son un avance constante que optimizan tanto el tiempo como la calidad de nuestro trabajo cuando son implementadas correctamente, este trabajo deja en evidencia que esta correcta implementación necesita mucho trabajo de fondo, muchas variables a tener en cuenta, y más aún en un sector como la medicina y la práctica asistencial sanitaria. Cuándo se desarrolla una nueva herramienta tecnológica es fácil ver todos los posibles beneficios que esta podría acarrear, sin embargo es mucho más difícil identificar todas aquellas variables que podrían hacer que los resultados no fueran los deseados. Estos errores sólo son identificables mediante la realización de mucha actividad investigadora, la cual ayudará a celebrar hallazgos sin precedentes, pero también permitirá ver todas aquellas lagunas que las tecnologías pueden tener mediante la publicación de resultados negativos, como es el caso de este artículo. Creo que es importante tener en cuenta que en el momento actual nos encontramos en un momento de eclosión del conocimiento sobre el funcionamiento de la IA, pero también en un momento muy incipiente y lleno de hipótesis sin comprobar. En segundo lugar, creo que es interesante haber utilizado la placa simple de tórax y los grupos de “sin hallazgos” y “derrame pleural” como variables estudiadas, porque al ser una prueba y unos hallazgos tan básicos en la formación de todo radiólogo, hacen que el lector no se pierda en especificidades de la técnica radiológica en cuestión, la cual no es el objetivo en este estudio, y se pueda centrar en la valoración de los resultados de las lecturas de pruebas por modelos básicos. Además, hace hincapié en la necesidad de incluir la diversidad étnica y poblacional en los estudios de investigación, como paso imprescindible para que los resultados tengan una validez externa aplicable en la práctica clínica habitual. Por todo ello, creo que es un artículo muy interesante y clarificador sobre la importancia de seguir desarrollando y probando todas estas herramientas, pero siempre teniendo en cuenta en el punto tan incipiente en el que nos encontramos, y valorando la importancia de la publicación de los resultados negativos en la práctica científica habitual.
Olatz Saenz de Argandoña Echeverría
Hospital Clínic de Barcelona, Barcelona, R1
saenzdearg@clinic.cat
Deja un comentario