Artículo original: Ye Z, Qian JM, Hosny A, Zeleznik R, Plana D, Likitlersuang J, Zhang Z, Mak RH, Aerts HJWL, Kann BH. Deep Learning-based Detection of Intravenous Contrast Enhancement on CT Scans. Radiol Artif Intell. 2022;4(3)
DOI: https://doi.org/10.1148/ryai.210285
Sociedad: Radiological Society of North America (@RSNA)
Palabras clave: CT, Head and Neck, Supervised Learning, Transfer Learning, Convolutional Neural Network (CNN), Machine Learning Algorithms, Contrast Material.
Abreviaturas y acrónimos utilizados: Área Bajo la Curva (AUC), Contraste Intravenoso (CIV), Inteligencia Artificial (AI), Tomografía Computarizada (TC).
Línea editorial: Radiology: Artificial Intelligence es la revista de la RSNA especializada en artículos sobre Inteligencia Artificial aplicados a la radiología. Como es habitual, la mayoría de artículos que se presentan son originales. Dentro del apartado de nuevas metodologías, destaca el desarrollo de un nuevo algoritmo basado en deep learning para reducir los falsos positivos en la ecografía de tiroides con el objetivo de reducir las biopsias de nódulos tiroideos. Entre los artículos originales, por su aplicación clínica, destacaría un artículo sobre la detección de sangrado intracraneal con mayor precisión, además de priorizar dichos estudios en la lista de trabajo.
Motivos para la selección: Por el bien del paciente, la presencia de contraste intravenoso (CIV) es uno de los datos que debe especificarse siempre, ya sea en la historia clínica, en el informe radiológico o bien en los metadatos del estudio. Conocer si un estudio lleva CIV o no, también es importante de cara a implementar modelos de inteligencia artificial. Estos no tienen acceso a la historia ni al informe, y solo disponen de los metadatos del estudio. Sin embargo, muy a menudo, la presencia de CIV está mal documentada en estos metadatos. En este artículo se presenta un algoritmo basado en deep learning que detecta si un estudio lleva contraste o no.
Resumen:
La aplicación radiológica de las técnicas de IA no es un camino sencillo. Uno de los problemas más importantes con que nos encontramos es la falta de calidad y la mala conservación de los datos previos, y es que los sistemas DICOM se diseñaron con una aplicación clínica y no con el objetivo de hacer un análisis computacional posterior. Además, ciertos metadatos todavía se incluyen manualmente y esto es una fuente importante de error.
Uno de los ejemplos más evidentes es la presencia o ausencia de CIV en los estudios de TC. Actualmente, la única forma para poder detectar el realce de CIV es mediante la revisión manual de un radiólogo. Esto lleva muchísimo tiempo y no es para nada práctico. Las herramientas de deep learning potencialmente pueden automatizar todo este proceso. Previamente ya se han aplicado modelos para detectar el realce en TC abdominales, pero no han tenido validación externa. En este estudio se presenta un modelo de deep learning que aplica redes neuronales convolucionales que permite una validación externa.
En el estudio se incluyen TC de cabeza y cuello y de tórax de hasta 5 hospitales y de 1 ensayo clínico retrospectivo, realizados entre 2001 y 2015, con una “n” total de 1979. Las imágenes fueron revisadas y anotadas por un oncólogo radioterápico con 4 años de experiencia para la detección o no de CIV y posteriormente otro oncólogo radioterápico con 7 años de experiencia confirmaba los hallazgos.
Se utilizaron 5 modelos de redes neuronales: uno simple, tres más representativos y publicados (ResNet101V2, InceptionV3, EfficienteNetB4) y otro combinado.
Después del procesamiento de datos se dividieron en dos los TC de cabeza y cuello. Una parte se utilizó para entrenar el modelo, reservando algunos estudios para la validación interna. El resto de estudios se utilizaron para la validación externa. Posteriormente, se adaptó el modelo utilizado para TC de cabeza y cuello para los estudios de tórax, reservando también una parte de los pacientes para la validación externa.
El análisis estadístico se hizo mediante los test de Pearson X2 y Kruskal-Wallis H para demostrar si había diferencias estadísticamente significativas entre los conjuntos de datos de entrenamiento, validación y prueba. El umbral de probabilidad para determinar la predicción (con CIV vs sin CIV) fue de 0,5. Se utizo el análisis del área bajo la curva (AUC) para evaluar la discriminación del modelo, calculando los valores de sensibilidad y especificidad utilizando el punte de corte óptimo con el índice de Youden.
Para los estudios de cabeza y cuello los cinco modelos mostraron unos resultados excelentes con AUC >0,98 y valor F1 >0,96 en la evaluación de calidad y conservación de datos, siendo el mejor del de EfficientNetB4 por tener mejores resultados y ser más sencillo metodológicamente. En la validación externa este modelo mostró un rendimiento perfecto con una AUC de 1 y una sensibilidad del 100%. Este modelo demostró ser más eficiente por tardar menos tiempo que un oncólogo radioterapeuta experto.
Todo esto indica que esta aplicación basada en deep learning para la detección automática del realce de CIV en TC de cabeza y cuello tiene un rendimiento casi perfecto en conjuntos grandes datos de diferentes instituciones, entornos clínicos y tipos de TC. Además, con un pequeño ajuste también tiene resultados aceptables para estudios de tórax. Esta herramienta puede utilizarse en entornos clínicos para rellenar retrospectivamente metadatos DICOM o bien para clasificar los estudios entre sin y con CIV e indicarlo automáticamente en el informe. En un entorno de investigación donde no haya radiólogos disponibles, agilizará muchísimo la recopilación de datos, puesto que la revisión y la anotación manual requiere mucho tiempo.
Valoración personal: Es un buen artículo con varios diagramas que aclaran la metodología empleada. Sin embargo, requiere de unos conocimientos de aprendizaje automático y de estadística básicos para comprenderlo bien. Su punto fuerte es que utilizan una “n” de prácticamente 2000 TC, mostrando unos resultados con una AUC muy buena. Este algoritmo puede facilitar el trabajo en un entorno de investigación, acortando los tiempos de recopilación de datos. En un entorno clínico puede ser útil para rellenar los metadatos DICOM de forma retrospectiva, sin embargo, creo que todavía está lejos de tener una aplicación que tenga un impacto determinante en la mejoría de la atención a los pacientes. No obstante, sí supone un avance. A la tecnología no tenemos que pedirle de entrada que sea perfecta, sino que sea mejor que lo que había previamente.
Deja una respuesta