Identificación de secuencias de resonancia magnética de cerebro utilizando un modelo de Deep Learning entrenado en estudios multicéntricos de cohortes

Artículo original: Mahmutoglu M, Preetha C, Meredig H, Tonn J, Weller M, Wick W, et al. Deep Learning–based Identification of Brain MRI Sequences Using a Model Trained on Large Multicentric Study Cohorts. Radiology: Artificial Intelligence. 2024 Jan;6(1).

DOI: https://doi.org/10.1148/ryai.230095

Sociedad: Radiological Society of North America (@RSNA)

Palabras clave: MR-Imaging, Neural Networks, CNS, Brain/Brain Stem, Computer Applications-General (Informatics), Convolutional Neural Network (CNN), Deep Learning Algorithms, Machine Learning Algorithms 

Abreviaturas y acrónimos utilizados: DWI (diffusion-weighted imaging), FLAIR (fluid-attenuated inversion recovery), IA (Inteligencia Artificial), RSNA (Radiological Society of North America), SWI (susceptibility-weighted imaging).

Línea editorial: La revista bimestral Radiology: Artificial Intelligence, que forma parte de la RSNA, incide en las aplicaciones emergentes del Machine Learning y de la IA en el campo de la imagen de múltiples disciplinas. Entre sus objetivos se encuentran: mostrar aplicaciones nuevas, explicar metodologías innovadoras para trabajar con IA y demostrar el impacto que tiene la IA en el diagnóstico y manejo de los pacientes. Publica en su número de enero de 2024 trece artículos. Cinco los presenta en la categoría de investigaciones originales sobre temas de interés actual como la radiómica (en concreto para predecir la mutación IDH en el glioma cerebral) o consideraciones acerca de la influencia de la privacidad diferencial o los mapas de saliencia en los análisis de la IA. La sección de desarrollo técnico de este número trata sobre un modelo de Deep Learning capaz de identificar las secuencias de resonancia magnética cerebral empleadas, que analizaremos a continuación. Se dedica una sección específica a fuentes de datos y hay múltiples comentarios sobre temas variados como la privacidad en la IA. Mencionar también una sección de Special reports que sintetiza tópicos concretos, destacando uno sobre consideraciones prácticas acerca del desarrollo, adquisición, implementación y monitorización de las herramientas de IA en Radiología.

Motivos para la selección: Este artículo presenta en su metodología temas relacionados con Machine Learning e IA que probablemente se vayan a repetir en la metodología de una gran cantidad de estudios en los próximos años. De ahí la utilidad de entender lo que los autores pretendían conseguir y cómo lo han conseguido. Además, el tipo de modelo de redes neuronales desarrollado en este trabajo probablemente tenga una integración cercana en la práctica diaria de los radiólogos.

Resumen: 

La utilización de información heterogénea en estudios multicéntricos que trabajan con imágenes de resonancia magnética siempre ha supuesto una gran inversión de tiempo de etiquetado y clasificación de datos.

El objetivo de este estudio fue desarrollar un clasificador de secuencias de resonancia magnética, tanto anatómicas como funcionales, basado en redes neuronales (convolutional neural networks).

Es un estudio retrospectivo en el que se utilizaron datos de cuatro cohortes de glioblastoma incluyendo tres ensayos clínicos. En total se incluyeron 63 824 exploraciones de resonancia magnética, de 29 modelos de máquina diferentes, analizando múltiples secuencias: potenciadas en T1 sin y con contraste, T2, FLAIR, SWI, DWI y secuencias eco de gradiente potenciadas en T2*. Se excluyeron los datos de mala calidad (9618 imágenes, el 15%). Toda esta información se dividió de manera equilibrada utilizando la técnica de división estratificada “en cinco grupos” (stratified fivefold split) de la librería Scikit-learn en Python. Para los que no estén familiarizados con esta técnica, básicamente es un método de validación. La idea es que no se invierta mucho tiempo en desarrollar un modelo de Machine Learning para después darse cuenta de que el modelo no funciona bien con nuevos datos. Por eso se subdivide la muestra total en cinco grupos, respetando el equilibrio de las características de la muestra total en cada uno de ellos. De esta manera, se ejecutan cinco análisis. En cada uno de ellos cuatro grupos (80%) serán de entrenamiento y, el quinto, de prueba o test (20%) de lo que el modelo ha aprendido. Esta maniobra se realiza cinco veces rotando para que cada vez el grupo de prueba o test sea uno de los cinco. Así, el modelo desarrollado se enfrenta a “datos nuevos” en cada análisis.

Los análisis estadísticos se realizaron en Python y R. El rendimiento de cada modelo se evaluó con la precisión (accuracy) global de validación, es decir, la precisión de predicción de entre todas las secuencias posibles. Se comparó con un test de chi cuadrado la precisión de predicción del modelo ResNet-18 (red neuronal de 18 capas de profundidad) y ResNet-50 (red neuronal de 50 capas de profundidad). Para evaluar la generabilidad del modelo a cerebros sanos o con otras patologías se analizó el patrón de atención en la imagen del mejor modelo según un gradiente de mapas de activación de clase (es decir, en qué parte de la imagen prestó atención el modelo). También cuantificaron el área de tumor respecto al total de la imagen en los datos de entrenamiento o prueba con este mismo fin. La segmentación del tumor se realizó con el algoritmo HD-GLIO .

A continuación, se resumen los resultados más significativos. El modelo basado en la arquitectura ResNet-18 tuvo una precisión de predicción global del 97,9%. Cuando el modelo se entrenó con la arquitectura más sofisticada ResNet-50, no mejoró su rendimiento (97,1%; con diferencia estadísticamente significativa entre ambos modelos, P<.001). Los autores también analizaron la precisión para cada una de las secuencias en concreto y la precisión global para cada tipo de máquina de resonancia magnética de las diferentes casas comerciales, obteniendo una precisión global alta en todas ellas. Los autores también inciden en que, revisando la literatura previa, el modelo de este estudio está basado en el mayor número de instituciones diferentes (249) y de secuencias de resonancia magnética diferentes (9) hasta la fecha. En cuanto a la generabilidad del modelo, se demostró que no hubo diferencias en la precisión de predicción del tipo de secuencia utilizando imágenes con o sin tumor. Además, en los mapas de activación de clase, se vio que la atención de los análisis no se centraba en la parte de la imagen que contenía el tumor, sino en el cerebro sano.

En resumen, este trabajo ha desarrollado una red neuronal (CNN) para etiquetar automáticamente múltiples secuencias de resonancia magnética de cerebro, con datos que apoyan la generabilidad de este modelo más allá de la neurooncología. Es el modelo entrenado con más datos hasta la fecha y capaz de reconocer más secuencias. Además, es el primer modelo de uso abierto que diferencia valores b altos y bajos en secuencias de difusión, lo que podría ser útil en el campo de la radiómica. En las bases de datos de múltiples instituciones, el etiquetado manual consume mucho tiempo y propicia el error humano. Esta nueva herramienta es muy efectiva en esta situación. Además, tiene el potencial de mejorar el workflow de los radiólogos, ya que nada más abrir un caso, podría reconocer las secuencias y organizarlas siempre de la misma manera, sin que el radiólogo pierda tiempo en ello, y sin que dependa de si el equipo técnico ha nombrado cada secuencia exactamente de la misma manera o si el estudio proviene de una máquina distinta.

Valoración personal:

Se trata de un artículo que a priori puede parecer complejo, como todos los que trabajan con Machine Learning. Pero la idea que persigue es muy simple: poder etiquetar de manera automática una gran cantidad de datos heterogéneos (en este caso secuencias de resonancia). La parte de metodología que puede parecer complicada, como el stratified fivefold split para validación cruzada del algoritmo, se ha intentado explicar de manera sencilla. 

Como punto fuerte, la utilidad práctica del resultado de este trabajo puede facilitar la investigación y el desempeño clínico de cada radiólogo todos los días.

Los autores mencionan algunas limitaciones, como la escasa representación en la muestra global de secuencias de susceptibilidad, la posibilidad de que arquitecturas de modelos más avanzadas que ResNet podrían mejorar el rendimiento o la dificultad de diferenciar secuencias T1 sin y con contraste si no se incluyen en la sección de imágenes analizadas estructuras de interés como vasos contrastados.

Alberto Ramírez García-Mina

Hospital Universitario Puerta de Hierro, Majadahonda, R3

albert_unit96@hotmail.com

Tagged with: , , , , ,
Publicado en Radiology: Artificial Intelligence

Deja un comentario

Publicaciones del Club
Residentes SERAM
Autores