Artículo original: Yi PH, Kim TK, Yu AC, Bennett B, Eng J, Lin CT. Can AI outperform a junior resident? Comparison of deep neural network to first-year radiology residents for identification of pneumothorax. Emerg Radiol. 2020;27(4):367-75.
DOI: https://doi.org/10.1007/s10140-020-01767-4
Sociedad: American Society of Emergency Radiology (@ASER_ERad)
Palabras clave: artificial intelligence, radiology residents, deep learning, machine learning, chest radiography.
Abreviaturas y acrónimos: ASER (American Society of Emergency Radiology), IA (inteligencia artificial), DL (deep learning), NTX (neumotórax), RXT (radiografía de tórax), RNCP (red neuronal convolucional profunda), p (valor de significación), RXT/min (radiografías de tórax por minuto), área bajo la curva (AUC).
Línea editorial del número: Emergency radiology es una revista de publicación bimensual de la ASER. El número de la revista perteneciente al mes de agosto de 2020 es una edición especial sobre inteligencia artificial aplicada en urgencias y en el que se incluyen 15 artículos, aparte del editorial (7 artículos originales, 3 revisiones, 3 casos, 1 pictorial essay y 1 comentario). En mi opinión, hay que destacar una revisión sobre la fractura de Monteggia; el repaso dedicado a la patología tanto traumática como no traumática en las angio-TC de miembros inferiores; la comparativa mediante ecografía entre la nefritis focal bacteriana aguda y la pielonefritis; y por último, ya que estamos en verano, recomiendo echar un vistazo a los hallazgos en imagen provocados por las embarcaciones de recreo (“Trauma on the high seas: an overview of recreational water use injuries”). Por supuesto no hay que olvidar los artículos relacionados con la IA que contiene este número especial: aplicaciones de la IA en urgencias, IA como método de triaje y el que se revisa a continuación.
Motivos para la selección: La IA se va introduciendo poco a poco en la vida del radiólogo y además ha venido para quedarse, por lo que es importante empezar a conocer en qué se fundamenta, cuál es su mecanismo y sobre todo, en qué nos puede ser útil en el día de mañana en nuestro trabajo. Dudo que la IA sustituya al radiólogo en el futuro, pero lo que sí que es cierto es que será una herramienta complementaria para el trabajo diario, como lo puede llegar a ser el sistema expuesto en el artículo revisado, que ayudará en los diagnósticos, reducirá tiempos de trabajo y nos permitirá centrar nuestra atención en otras tareas más complejas, y por ende, repercutir positivamente en el beneficio del paciente.
Resumen del artículo:
Las pruebas de imagen en los servicios de urgencias son un proceso tiempo-dependiente que tienen por objetivo identificar rápidamente a los pacientes que requieren tratamiento o intervención precoz. Desafortunadamente, en la actualidad no existe un método ampliamente aceptado de priorización, más allá de la propia urgencia del estudio, un punto discutible en el servicio de urgencias, donde la mayoría, por no decir todo, se clasifica como urgente. Clásicamente los radiólogos son los que revisan los estudios y los ordenan en función de la prioridad. Aunque la revisión del estado del paciente y de los hallazgos en imagen por parte de los técnicos especialistas en radiodiagnóstico puede ayudar a priorizar los estudios urgentes, esas estrategias a veces requieren grandes inversiones en recursos humanos y son difíciles de implementar.
Los algoritmos basados en el DL han demostrado potencial para triar pruebas de imagen urgentes y fracturas de extremidades. Esas herramientas de triaje pueden ser especialmente útiles para los inicios de los residentes de radiología de primer año y pueden ayudar a reducir errores que se han documentado en sus guardias. Estudios recientes muestran hallazgos prometedores en el uso de sistemas basados en el DL como herramienta de cribado para urgencias torácicas, como el NTX en la RXT, para elegir qué pacientes pueden beneficiarse de estudios complementarios. Por ello los objetivos de este estudio han sido 1) desarrollar un sistema de DL usando una RNCP para la identificación de NTX, 2) comparar sus resultados con los obtenidos por residentes de primer año y 3) evaluar la habilidad del sistema basado en DP para superar a residentes de radiología detectando NTX no percibidos.
El artículo se basa en un estudio retrospectivo en el cual se obtuvieron 112.120 RXT, de las cuales 4360 habían sido catalogadas como positivas para NTX en sus respectivos informes radiológicos. Para el desarrollo de la RNCP se utilizaron 111.518 RXT: 4.184 con NTX y 107.344 sin NTX; 80% como entrenamiento y el 20% restante como conjuntos de validación. Para el test de la RNCP se usaron 602 imágenes, 176 positivas para NTX y 426 negativas, todas ellas obtenidas de la base de datos original. Para el hold-out test las imágenes se re-interpretaron por un radiólogo cardiotorácico con 5 años de experiencia post-fellowship que evaluaba la presencia de NTX, su tamaño, la lateralidad y la presencia de tubos endotorácicos, los cuales resultaron ser un factor de confusión para la detección de NTX por parte de la RNCP. Para identificar los datos que la RNCP consideraba más importantes de cada imagen se produjeron mapas de calor utilizando el mapeo de activación de clase. En estos mapas de calor la intensidad del color rojo se correspondía con características de la imagen que la RNCP había considerado importantes para la toma de decisiones.
Dos residentes de primer año de radiodiagnóstico con 3 meses de experiencia (2 interpretando RXT en el servicio de urgencias bajo supervisión) evaluaron las 602 RXT del hold-test. Se utilizó una escala que clasificaba del 1 al 6 el nivel de confianza para detectar NTX, siendo 1 una seguridad alta de no visualizar NTX y 6 una seguridad alta para detectar NTX.
El análisis estadístico se efectuó generando curvas ROC y calculando su AUC con un intervalo de confianza al 95%. Las áreas obtenidas se compararon usando el método paramétrico de DeLong (p<0,05). Los umbrales de diagnóstico óptimo para el cálculo de la sensibilidad y especificidad se determinaron con el índice de Youden y se fijaron en una sensibilidad mínima del 85% y una especificidad de al menos el 60%.
En cuanto a los resultados, la RNCP obtuvo un AUC de 0,84, con unos umbrales de diagnóstico óptimo del 85% para la sensibilidad y del 67% para la especificidad, variando estos porcentajes en función del tamaño del NTX (mayor sensibilidad para NTX de gran tamaño) y de la presencia o no de tubo endotorácico (con el tubo presente se obtuvo un 94% de sensibilidad y un 8% de especificidad, mientras que con ausencia de tubo la sensibilidad y la especificidad fueron del 71 y 72%, respectivamente). La RNCP clasificaba imágenes a una velocidad de 1980 imágenes/min. Por parte de los residentes, las AUCs fueron de 0,94 y 0,91 para cada uno, con sensibilidad y especificidad del 91% y 93% para el primero de ellos y de 89% y 73% para el segundo. Los resultados obtenidos por los residentes también se veían afectados por el tamaño del NTX y la presencia-ausencia de tubo (todos los datos están reflejados en las tablas 2, 3 y 4 del artículo). La clasificación de imágenes tenía una velocidad media de 2 RXT/min. Comparando ambos resultados, el AUC de los residentes fue significativamente mayor (p<0,01), mientras que la RNCP identificó 3 NTX que habían pasado desapercibidos por uno o ambos residentes.
En definitiva, el AUC de la RNCP fue inferior que la obtenida por residentes, pero era capaz de analizar imágenes casi 1000 veces más rápido, una función vital para una herramienta de triaje. El AUC calculada para la RNCP era muy similar a la de otros estudios basados en DL y utilizados para la detección de cardiomegalia, enfisema o hernia de hiato en RXT. En cualquier caso, la RNCP desarrollada realizó una interpretación de un nivel razonable, con unos resultados bastante positivos para poder usarse como herramienta de triaje. Otra ventaja que arrojaba el estudio era la habilidad de la RNCP para detectar NTX inadvertidos. Como los radiólogos en las guardias tienen limitaciones de tiempo a menudo considerables y presiones para revisar rápidamente imágenes, todo ello agravado por el aumento de volumen de estudios proveniente del servicio de urgencias, tener un lector basado en RNCP de «segunda opinión» podría ser beneficioso y lograría ser un complemento ideal al servicio del profesional.
Valoración personal:
El artículo expone una manera de abordar una patología frecuente como el NTX aplicando la IA y el DL, logrando desarrollar una herramienta que puede llegar a ser muy útil para el radiólogo, permitiéndole clasificar rápidamente las pruebas de imagen y reducir las cargas de trabajo. Estudio muy bien estructurado.
Como aspectos negativos, el artículo utiliza conceptos avanzados del mundo de la IA y del DL, por eso para entender completamente el artículo hacen falta conocer previamente algunas nociones básicas que no están explicadas. Quizás la participación de solo 2 residentes y que sea un estudio retrospectivo le reste validez.
Juan José Maya González
Hospital Universitario Juan Ramón Jiménez, Huelva, R2
Deja una respuesta