Predicción del pronóstico en pacientes con daño cerebral traumático grave mediante Deep Learning de TC de craneal

Artículo original: Pease M, Arefan D, Jason Barber J, Yuh E, Puccio A, Hochberger K, Nwachuku E, Roy S, Casillo S, Temkin N, Okonkwo DO, Wu S. V Outcome Prediction in Patients with Severe Traumatic Brain Injury Using Deep Learning from Head CT Scans. Radiology. 2022; 304(2): 385-94.

DOI:https://doi.org/10.1148/radiol.212181

Sociedad: Radiological Society of North America (@RSNA)

Palabras clave: N/A

Abreviaturas y acrónimos: DCTG (daño cerebral traumático grave, FP (falsos positivos), IMPACT (International Mission on Prognosis and Analysis of Clinical Trials in Traumatic Brain Injury), TC (tomografía computarizada), TRACK-TBI (Transforming Research and Clinical Knowledge in Traumatic Brain Injury), 

Línea editorial del número: Este mes de agosto Radiology publica un nuevo número, el 2 correspondiente al volumen 304, en el que se pueden encontrar 41 artículos de todas las subespecialidades, incluyendo artículos originales y editoriales, revisiones, casos y cartas al director.  Entre los que más me han llamado la atención destacaría uno sobre el uso de la PET-TC con imágenes moleculares para dirigir la inmunoterapia del cáncer, y otro sobre un estudio multicéntrico relacionado con radiogenómica por resonancia magnética del meduloblastoma pediátrico.

Motivos para la selección: La Inteligencia Artificial  juega un papel importante en nuestra vida cotidiana y cada vez más en nuestra vida radiológica. Sin embargo, considero que aún no estamos lo suficientemente familiarizados con conceptos como Machine Learning o Deep Learning. Me parece fundamental, no solo conocer en profundidad estas disciplinas y los conceptos que las rodean, sino ver las aplicaciones e implicaciones que pueden tener en nuestro ámbito laboral. Es importante comenzar a leer artículos que traten sobre estos temas. 

Resumen:

La predicción del pronóstico a largo plazo en el daño cerebral traumático es un desafío debido a la situación clínica de los pacientes y a las características de imagen. Recientemente, el Deep Learning  ha transformado el diagnóstico y el pronóstico de imágenes médicas, pero estas técnicas no se han adaptado ampliamente para el pronóstico de patologías neuroquirúrgicas. El propósito de este estudio fue desarrollar y evaluar un modelo que combina el Deep learning de la TC de cráneo y la información clínica, para predecir el pronóstico a largo plazo después del DCTG.

Se construyó y probó el modelo de predicción en una cohorte interna de pacientes del Centro Médico de la Universidad de Pittsburgh, que es una base de datos que recopila prospectivamente pacientes con DCTG ingresados en un centro de trauma de nivel 1 desde noviembre de 2002 hasta diciembre de 2018, e incluye pacientes de 16 a 80 años. El modelo se probó externamente con pacientes del consorcio TRACK-TBI, que es un estudio prospectivo multicéntrico que recluta participantes de 18 lugares de Estados Unidos, inscribiendo a casi 3000 pacientes desde febrero de 2014 hasta abril de 2018. Se seleccionaron pacientes consecutivos con DCTG y se excluyeron los pacientes coinscritos en el Centro Médico de la Universidad de Pittsburgh. Para ambas cohortes, se excluyeron los pacientes con enfermedad neuroquirúrgica preexistente, aquellos sin una TC de admisión antes de la intervención neuroquirúrgica y aquellos que tenían marcados artefactos de movimiento. La evolución neurológica se evaluó a los 3, 6 y 12 meses a través de una entrevista estructurada realizada por neuropsicólogos capacitados utilizando la Escala pronóstica Glasgow.

Se construyeron cuatro modelos de aprendizaje automático utilizando varias entradas para hacer predicciones de mortalidad y de resultados desfavorables a 6 meses:

Modelo de imagen: fue diseñado para analizar el subvolumen de cada TC, que abarcaba desde el mesencéfalo hasta los ventrículos laterales. Para mejorar la capacitación del modelo se desarrolló una técnica de aprendizaje personalizada. Primero se comenzó entrenando al modelo utilizando un subconjunto seleccionado de datos homogéneos y luego se aumentó gradualmente la capacidad de aprendizaje al involucrar un subconjunto de imágenes heterogéneas con un núcleo de reconstrucción diferente.

Modelo clínico: se construyó  un modelo de análisis discriminante lineal utilizando las mismas entradas que IMPACT (International Mission on Prognosis and Analysis of Clinical Trials in Traumatic Brain Injury).

Modelo de fusión: combinación del modelo de imagen con el modelo clínico.

Modelo IMPACT-fusión: fusionando el modelo de imágenes con el de IMPACT, que permitió evaluar si el modelo proporcionaba información pronóstica adicional.

Se evaluó la predicción del pronóstico en pacientes con DCTG a través de la evaluación por neurocirujanos. Se seleccionaron  50 pacientes al azar de la cohorte de prueba del Centro Médico de la Universidad de Pittsburgh. Los neurocirujanos tuvieron acceso a la misma información clínica utilizada en el modelo de fusión, así como a las TC. Para cada paciente, el neurocirujano hizo predicciones binarias para la mortalidad (vivo o muerto) y para resultados desfavorables (favorables o desfavorables) a los 6 meses.

RESULTADOS:

Para la cohorte del Centro Médico de la Universidad de Pittsburgh, 599 pacientes con DCTG fueron inscritos inicialmente, permaneciendo 537 después de aplicar los criterios de exclusión. La edad media fue 40 ± 17 años; 422 hombres.

El modelo de imágenes que utilizó solo TC no mostró evidencia significativa con respecto al IMPACT para predecir la mortalidad (AUC, 0,86; IC del 95%: 0,79-0,94; P = 0,21) o resultados desfavorables (AUC, 0,83; IC del 95%: 0,75-0,92; P =0 .88). El modelo clínico tuvo mejor capacidad para predecir la mortalidad, con un AUC de 0,85 (IC 95%: 0,78-0,93; P = 0,01), mientras que no se encontró evidencia estadísticamente significativa para predecir resultados desfavorables en comparación con IMPACT, con un AUC de 0,82 (IC del 95%: 0,74-0,90; P =0 .91). El modelo de mejor rendimiento fue el modelo de fusión, que combinó TC e información clínica, prediciendo mejor que IMPACT mortalidad (AUC, 0,92; IC 95%: 0,86-0,97; P <0 ,001) y resultados desfavorables (AUC, 0,88; IC del 95%: 0,82-0,95; P = 0.04).

En la cohorte TRACK-TBI, se identificaron 323 pacientes, permaneciendo 177 con datos completos de imágenes e información clínica. En comparación con la cohorte del Centro Médico de la Universidad de Pittsburgh, tenían varios marcadores de lesión más grave. A pesar de esto, los pacientes en la cohorte TRACK-TBI habían mejorado los resultados a los 6 meses, con una menor mortalidad y tasas más altas de resultados favorables (P < .0001), en comparación con la cohorte UPMC.

En la cohorte de pruebas TRACK-TBI, IMPACT tuvo un AUC de 0,83 (IC del 95%: 0,77-0,90) para predecir la mortalidad y un AUC de 0,83 (IC del 95%: 0,77-0,89) para resultados desfavorables. No hubo diferencias significativas en el rendimiento de ningún modelo para predecir la mortalidad en comparación con IMPACT. Tanto el modelo de imagen (AUC, 0,73; IC 95%: 0,66-0,81; P = 0,02) como el modelo de fusión (AUC, 0,68; IC 95%: 0,60-0,76; P = 0.002) tuvieron un rendimiento menor que IMPACT para predecir resultados desfavorables.

Predicciones de neurocirujanos: los neurocirujanos con 1, 5 y 25 años de experiencia tuvieron un rendimiento variable para la mortalidad (precisiones del 76%, 74% y 64%, respectivamente) y resultados desfavorables (precisiones del 66%, 66% y 86%, respectivamente). A modo de comparación, el modelo de aprendizaje automático (modelo de fusión) tuvo una precisión del 86% para la mortalidad y del 82% para el resultado desfavorable, que es comparable o significativamente mayor que las predicciones realizadas por los tres neurocirujanos.

DISCUSIÓN:

El modelo de imagen tuvo un rendimiento para la mortalidad no inferior a IMPACT , lo que podría evitar la dificultosa recogida de datos requerida por IMPACT y demostraría que el Deep Learning  de  la TC craneal puede proporcionar información pronóstica para guiar la atención de los pacientes con DCTG.

En el estudio se sugiere que la mayoría de las muertes después de una DCTG (55% -72%) se deben a la retirada del tratamiento de soporte vital, en relación a la percepción del médico de un mal pronóstico. Los investigadores ajustaron el modelo para una tasa de FP=0 (nunca retirar inapropiadamente las terapias de soporte vital en un paciente que sobreviviría), mostrando una sensibilidad del 56% para la mortalidad en la cohorte interna y del 10% en la cohorte TRACK-TBI. Esto aumentó al 42% en la cohorte TRACK-TBI cuando redujeron a una tasa de FP del 5%. Estos hallazgos sugerían que el análisis cuantitativo de los datos de imágenes de TC al principio del curso del daño cerebral traumático podría evitar la retirada inadecuada del tratamiento de soporte vital.

El rendimiento del modelo de fusión disminuyó cuando los modelos se probaron en la cohorte independiente TRACK-TBI, que podría estar en relación con las diferentes características de la cohorte (la cohorte TRACK-TBI tenía marcadores de lesiones más graves). Se podría plantear combinar los datos del Centro Médico de la Universidad de Pittsburgh y los datos de TRACK-TBI para entrenar un modelo de predicción actualizado, y que el modelo muestre un rendimiento más robusto.

En relación con comparaciones de los modelos con las predicciones de los neurocirujanos se sugiere que tras una validación exhaustiva, el modelo podría proporcionar información pronóstica cuantitativa para permitir una mejor toma de decisiones a los neurocirujanos, de manera más rápida, reproducible y más precisa para guiar la atención de los pacientes con DCTG.

Dentro de las limitaciones del estudio destacan que el cálculo de subvolumen en la TC se realiza de forma parcial, pudiendo pasar por alto hallazgos como una contusión cerebelosa o pontina. Por otro lado, la valoración de los neurocirujanos se realiza de manera retrospectiva, eliminando la percepción completa del momento crítico y el examen.

Valoración personal:

Al tratarse de un artículo sobre Deep Learning, contiene conceptos complicados de entender en lo que a la metodología se refiere, especialmente la red neuronal empleada en el aprendizaje automático. Sin embargo, los resultados de las comparativas entre los modelos están expresados de una manera sencilla, transmitiendo ideas claras.

Destacaría las limitaciones como puntos muy débiles que condicionan que el modelo tenga poca viabilidad en el momento actual.

En cualquier caso, al igual que todo lo que implique inteligencia artificial, en un futuro podría ser una herramienta de ayuda complementaria, pero en ningún caso sustituir la valoración de los especialistas médicos.

Patricia García García

Hospital Universitario de La Princesa, Madrid, R4

patriciagarc@hotmail.com

Tagged with: , , , , , ,
Publicado en Revistas

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Publicaciones del Club
Residentes SERAM
A %d blogueros les gusta esto: