Aprendizaje profundo para el diagnóstico de radiografías de tórax en el servicio de urgencias

Artículo original: Hwang EJ, Nam JG, Lim WH, Park SJ, Jeong YS, Kang JH, et al. Deep Learning for Chest Radiograph Diagnosis in the Emergency Department. Radiology. 2019 Dec; 293(3): 573-580.

Sociedad: Radiological Society of North America (RSNA) 

DOI: https://doi.org/10.1148/radiol.2019191225 .

Palabras clave: N/A

Abreviaturas y acrónimos utilizados: EEUU (Estados Unidos), IA (Inteligencia artificial), DL (aprendizaje profundo), TC (tomografía computerizada), ROC (característica operativa del receptor), VPP (valor predictivo positivo), VPN (valor predictivo negativo), VP (verdadero positivo), AUC (área bajo la curva), IC (intervalo de confianza).

Línea editorial del número: Este número de Radiology incluye varios artículos científicos de investigación, destacando la presencia de hasta 9 que utilizan técnicas de inteligencia artificial, bien para el diagnóstico como el artículo citado, o bien para la extracción de características radiómicas como los artículo “Chronic Obstructive Pulmonary Disease: Thoracic CT Texture Analysis and Machine Learning to Predict Pulmonary Ventilation” o “Machine Learning Reveals the Texture of Regional Lung Ventilation at CT”. También cuenta con una importante participación de artículos sobre técnicas de radiología intervencionista como “Radiofrequency Ablation Following Downstaging of Hepatocellular Carcinoma by Using Transarterial Chemoembolization: Long-term Outcomes”.

Motivos para la selección: Las radiografías de tórax son una de las pruebas radiológicas más realizadas en todos los servicios de urgencias del mundo. El gran volumen de radiografías generadas cada día impide que, en muchos centros, puedan ser informadas por el radiólogo, por lo cual se han convertido en una técnica que habitualmente interpreta el clínico y exclusivamente en casos de cierta complejidad, consulta al radiólogo. Por ello, salvo para los radiólogos de la sección de radiología torácica, es una prueba a la que un radiólogo no se enfrenta habitualmente y solo lo hace cuando se trata de casos dudosos, por lo que habitualmente su interpretación supone un reto. La utilización de sistemas de IA que ayuden al radiólogo, especialmente al radiólogo en formación, pueden disminuir la cantidad de hallazgos que pasan desapercibidos.

Resumen: 

En los EEUU las consultas por patología respiratoria suponen la segunda causa de consulta en los servicios de urgencias. Esto conlleva que las radiografías de tórax supongan una de las pruebas radiológicas más realizadas. Además, se ha observado un incremento anual en el número de radiografías generadas de hasta un 81% entre 1994 y 2020. La Sociedad Americana de Radiología recomienda que todas las radiografías de tórax sean revisadas por un radiólogo experto ya que se ha demostrado en varios estudios que los clínicos no presentan buenos valores diagnósticos en su interpretación. Sin embargo, hasta el 73% de los hospitales académicos americanos confiesa que no cuenta con radiólogos a tiempo completo para dicha tarea. 

Nuevos algoritmos de IA basados en DL han irrumpido en el espectro clínico para el diagnóstico de fondos de ojo, imágenes de anatomía patológica y radiografías de tórax. El propósito de este estudio es testar un sistema de IA basado en DL para la evaluación de radiografías de tórax comparándola con radiólogos en formación.

Materiales y Métodos

En el estudio se incluyeron de manera retrospectiva todos los pacientes a los que se les realizó una radiografía de tórax en el servicio de urgencias del hospital donde se llevó a cabo el estudio, en el periodo entre el 1 de enero y el 31 de marzo del 2017, excluyendo únicamente a aquellos que contaban con radiografías previas.

Más tarde, las radiografías fueron interpretadas por los residentes de manera independiente, por el algoritmo de IA basado en DL (Lunit INSIGHT for Chest Radiography), y posteriormente reevaluadas por los residentes una vez conocido el resultado del algoritmo de IA.

El algoritmo clasificó las imágenes patológicas en 4 categorías (malignidad, tuberculosis activa, neumonía, neumotórax), aportando la probabilidad de cada una de ellas de 0 a 1. Se utilizaron dos puntos de corte: 0.16, donde el algoritmo había mostrado la máxima sensibilidad con el test de validación; y 0.46, para el que el algoritmo había demostrado la máxima especificidad. Además, también aportó un mapa de calor que revelaba las zonas que había tenido en cuenta para tomar la decisión. 

Se consideraron patológicas aquellas radiografías etiquetadas como “con hallazgos patológicos clínicamente significativos” por consenso entre dos radiólogos torácicos expertos (8 y 20 años de experiencia), que reinterpretaron las radiografías ayudándose de los controles posteriores, seguimiento, historia clínica y otras pruebas tipo TC de tórax.

Finalmente, se confeccionaron las curvas de ROC y se calcularon los valores de precisión diagnóstica de sensibilidad, especificidad, VPP y VPN para los residentes, para el algoritmo y para los residentes después de conocer el resultado aportado por el algoritmo. Cabe destacar que para el algoritmo se calculó la “sensibilidad cruda” y la “sensibilidad corregida”, excluyendo aquellos casos en los que el sistema había logrado un VP pero el mapa de calor revelaba la anomalía en otra localización.

Resultados

Se incluyeron 1135 pacientes con un total de 256 radiografías etiquetadas como patológicas por los radiólogos expertos.

Los valores de precisión diagnóstica obtenidos para el algoritmo fueron los siguientes:

  •       AUC de 0.95 (IC del 95%: 0.93-0.96) en la identificación de radiografías patológicas.
  •       En el punto de corte de sensibilidad máxima:

o   Sensibilidad cruda: 95.7% (IC del 95%: 92.4%-97.8%)

o   Sensibilidad corregida: 88.7% (IC del 95%: 84.1%-92.3%)

o   Especificidad: 69.6% (IC del 95%: 66.5%-72.7%)

o   VPP: 47.9% (IC del 95%: 43.5%-52.3%)

o   VPN: 98.2% (IC del 95%: 96.9%-99.1%)

  •       En el punto de corte de especificidad máxima:

o   Sensibilidad cruda: 85.9% (IC del 95%: 81.1%-90.0%)

o   Sensibilidad corregida: 81.6% (IC del 95%: 73.3%-86.2%)

o   Especificidad: 90.3% (IC del 95%: 88.2%-92.2%)

o   VPP: 72.1% (IC del 95%: 66.7%-77.1%)

o   VPN: 95.7% (IC del 95%: 94.0%-96.9%)

Los valores de precisión diagnóstica obtenidos para los residentes fueron los que se detallan a continuación:

  •     Sensibilidad: 65.6% (IC del 95%: 59.5%-71.4%)
  •     Especificidad: 98.1% (IC del 95%: 96.9%-98.9%)
  •     VPP: 90.8% (IC del 95%: 85.7%-94.6%)
  •     VPN: 90.7% (IC del 95%: 88.7%-92.5%)

Los valores de precisión diagnóstica obtenidos para los residentes después de reinterpretar las radiografías una vez conocido el resultado aportado por el algoritmo fueron los que se presentan a continuación:

  •     Sensibilidad: 73.4% (IC del 95%: 68.0%-78.8%)
  •     Especificidad: 94.3% (IC del 95%: 92.8%-95.8%)
  •     VPP: 79.0% (IC del 95%: 73.8%-84.2%)
  •     VPN: 92.4% (IC del 95%: 90.7%-94.2%)

Discusión

A la vista de los resultados, los residentes presentaron una menor sensibilidad y VPN que el algoritmo, pero una mayor especificidad y VPP para ambos puntos de corte (P<0.001). Cuando la interpretación del residente se combinó con la del algoritmo los valores de sensibilidad y VPN del residente se incrementaron (P=0.01), pero disminuyeron la especificidad y VPP (P<0.001).

La incorporación de herramientas de triaje, screening y diagnóstico automático deben ser testadas en el entorno clínico ya que los resultados que obtienen suelen ser distintos a los obtenidos en sus test de valoración. 

Valoración personal:

Desde mi punto de vista se trata de un artículo bien redactado, conciso y sin información redundante. El tema que trata me parece interesante ya que en un futuro próximo este tipo de aplicaciones que realizan tareas automáticas estarán incorporadas en el flujo de trabajo del radiólogo.

En contraposición, creo que hubiera sido interesante evaluar los valores de sensibilidad, especificidad, VPP y VPN de los médicos clínicos y haberlos comparado con los del algoritmo, y con los de ellos mismos tras conocer el resultado del algoritmo.  Mientras que estas herramientas no mejoren e incrementen su precisión, creo que pueden ser de mayor utilidad para médicos no radiólogos que para radiólogos, pudiendo disminuir el número de hallazgos que son obviados en pruebas que nos son supervisadas a posteriori por el radiólogo, como las radiografías de tórax. 

 

Pablo Menéndez Fernández-Miranda

Hospital Universitario Marqués de Valdecilla (Santander). 2º Año de Residencia.

pablomenendezfernandezmiranda@gmail.com

 

Tagged with: , , , , , , , , ,
Publicado en Radiology, Revistas

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

Publicaciones del Club
Residentes SERAM
A %d blogueros les gusta esto: