Artículo original: Venkadesh KV, Aleef TA, Scholten ET, Saghir Z, Silva M, Sverzellati N, Pastorino U, van Ginneken B, Prokop M, Jacobs C. Prior CT Improves Deep Learning for Malignancy Risk Estimation of Screening-detected Pulmonary Nodules. Radiology. 2023 Aug;308(2)
DOI: doi.org/10.1148/radiol.223308
Sociedad: Radiological Society of North America (@RSNA)
Palabras clave: Deep learning, pulmonary nodes, lung cancer screening.
Abreviaturas y acrónimos utilizados: DL (Deep Learning), DLCST (Danish Lung Cancer Screening Trial), MILD (Multicentric Italian Lung Detection Trial), NSLT (National Lung Screening Trial).
Línea editorial del número: Radiology es una revista de publicación mensual perteneciente a la Radiological Society of North America. Es una de las revistas líderes a nivel mundial, estando situada en el primer cuartil del área de Radiología, Medicina Nuclear e imagen médica, donde se alza con el primer puesto, con un factor de impacto en 2023 de 29146. Sus publicaciones contribuyen a la actualización constante del conocimiento en radiología a través de la publicación de artículos de vanguardia, revisiones e investigaciones originales, así como editoriales, con el fin de mejorar la atención de los pacientes.
En su número de agosto de 2023, encontramos 5 artículos originales, 2 revisiones y 3 editoriales. En cuanto a los artículos originales, destaco dos : uno sobre la utilidad de la Radiómica para predecir tumores de mama y próstata HER2 positivos mediante RM multiparamétrica y otro donde los autores desarrollan y validan un modelo “sintético” generado por IA de imagen PET marcado con metionina para diferenciar gliomas de alto grado y bajo grado.
Motivos para la selección: El cáncer de pulmón es el cáncer más mortal a nivel global. En los últimos años, se ha comprobado la utilidad del cribado del cáncer de pulmón en la reducción de su mortalidad. En este sentido, incluso la Unión Europea insta a sus países miembros a implementarlo en sus carteras de servicios. Ello supone y supondrá una creciente demanda de equipamientos técnicos y, sobre todo, de medios humanos que asuman la tarea de dicho cribado. Por ello, el desarrollo de herramientas automatizadas de alta precisión constituye un gran avance tanto para la implantación del cribado como para hacerlo más eficiente (máxime ante el previsible déficit de Radiólogos que puedan asumir tal tarea).
Resumen:
Introducción:
El cáncer de pulmón es la neoplasia con más mortalidad y su detección precoz mediante cribado ha demostrado reducir su mortalidad hasta un 26%, mediante la detección temprana de nódulos pulmonares sospechosos con TC. Si bien, la caracterización de dichos nódulos es a veces compleja debido, entre otras cosas, a la variabilidad interobservador y a que la gran mayoría de nódulos son benignos.
En este sentido, la inteligencia artificial mediante “Deep Learning” ha demostrado resultados prometedores para estimar con precisión el riesgo de malignidad de los nódulos pulmonares, consiguiendo un rendimiento similar al de los radiólogos torácicos expertos. Sin embargo, estos algoritmos de IA no incluyen información de imágenes de exámenes de TC previos cuando están disponibles, los cuales aportan clásicamente información crucial acerca de la variación cronológica de la morfología y del tamaño del nódulo.
En este estudio, se entrenó a un algoritmo de DL para estimar el riesgo de malignidad a 3 años de los nódulos pulmonares mediante la combinación de datos de imagen de un TC de baja dosis actual y anterior realizado 1 o 2 años antes. El algoritmo se comparó con tres modelos validados previamente que sólo procesan un único examen de TC.
Materiales y métodos:
En este estudio retrospectivo, el sistema de entrenamiento incluyó un conjunto de datos de nódulos pulmonares de TC de dosis baja en 5282 personas del estudio NLST entre 2002 y 2004, entrenando al algoritmo para utilizar dos exámenes de TC.
Para validar el algoritmo, se realizaron pruebas externas a partir de exámenes de TC de dosis baja en individuos que participaron en estudios como el DLCST (Danish Lung Cancer Screening Trial (DLCST), entre 2004 y 2010, y en el proyecto MILD (Multicentric Italian Lung Detection Trial) entre 2005 y 2014.
Serie de entrenamiento:
Radiólogos torácicos expertos seleccionaron los nódulos malignos de los participantes con cáncer de pulmón confirmado por análisis histopatológico, revisando su comportamiento morfológico y temporal en múltiples TC. También, analizaron los nódulos benignos en aquellos pacientes no diagnosticados de cáncer.
En el caso de un nódulo maligno, incluyeron las dos últimas TC de cribado antes del diagnóstico de cáncer de pulmón, utilizando un enfoque similar para los nódulos benignos. Por otro lado, se excluyeron los exámenes de TC de cánceres de pulmón diagnosticados más de 3 años después de la fecha del estudio.
El conjunto de datos se adquirió sin imponer un requisito de tamaño mínimo a los nódulos, utilizando, además, un algoritmo de elasticidad pulmonar para rastrear y recuperar con precisión las ubicaciones de los nódulos en los distintos TC disponibles.
El algoritmo se entrenó y verificó internamente con este conjunto de datos mediante una validación cruzada de 10 veces, incluyendo todas las combinaciones de TC previos y actuales para cada nódulo.
Validación externa:
Dos radiólogos torácicos experimentados, que realizaron las evaluaciones iniciales en el cribado, registraron todos los nódulos en el estudio DLCST. Posteriormente, otro radiólogo experto anotó y correlacionó temporalmente las lesiones nodulares en una herramienta semiautomática de segmentación de nódulos. Del mismo modo, dos radiólogos torácicos experimentados anotaron retrospectivamente todos los nódulos del estudio MILD, pero a diferencia del DLCST, sólo se disponían de los estudios bienales.
El análisis de subconjunto de pacientes con grandes nódulos benignos a menudo proporciona información sobre la solidez de los algoritmos de estimación del riesgo de malignidad, por ello, por cada cáncer, los investigadores seleccionaron dos nódulos benignos (≤16 mm de diámetro), cuyos diámetros eran lo más cercano posibles al del cáncer.
Desarrollo del algoritmo y validación.
Los investigadores utilizaron un clasificador de malignidad, previamente validado, de nódulos pulmonares basado en DL, al que dotaron de la capacidad de analizar imágenes de exámenes de TC anteriores. Además, modificaron los canales de entrada de las redes neuronales para aceptar bloques de nódulos de dos estudios de TC: el actual y un estudio anterior realizado 1 ó 2 años antes.
Las segmentaciones volumétricas correspondientes fueron generadas a partir de una red neuronal tridimensional y la diferencia de tiempo entre los exámenes de TC se incluyeron como entradas adicionales.
El algoritmo se comparó con dos modelos establecidos como el PanCan (que tiene en cuenta parámetros clínicos y morfológicos del nódulo) y el protocolo de gestión NELSON actualizado, el cual combina el tiempo de duplicación del volumen y el volumen de los nódulos propiamente dicho.
Resultados:
El conjunto de entrenamiento en el estudio NLST incluyó (tras excluir algunos por cáncer diagnosticados después de 3 años y a otros por no tener estudios de seguimiento) 10.508 nódulos de 4.902 pacientes, que se sometieron como máximo a tres exámenes anuales de cribado con TC.
Entre los participantes con diagnóstico de cáncer de pulmón, se identificaron 720 nódulos malignos en 686 participantes.
Entre los participantes sin diagnóstico de cáncer de pulmón, se identificaron 10.607 nódulos benigno en 4.760 participantes.
Los autores expusieron las características demográficas y las distintas prevalencias de malignidad y benignidad descritas en los dos estudios que se utilizaron para la validación externa del algoritmo.
Rendimiento del algoritmo:
Validez interna:
Alcanzó un AUC de 0,98 (0,97-0,98), superando de manera significativa al algoritmo que sólo procesó el último examen de TC (AUC, 0,95. CI: 0,94-0,96).
Validez externa:
En el DLCST, el algoritmo tuvo un AUC de 0,97 (0,95- 1,00), superando al algoritmo de DL que sólo procesó un único examen de TC (AUC, 0,96 (0,93-0,99)), al protocolo de gestión NELSON actualizado (AUC, 0,94 (0,92-0,95)) y al modelo PanCan (AUC, 0,94 (0,92-0,96)) (Fig. 4A).
En el MILD, el algoritmo alcanzó un AUC de 0,99 (0,98 – 1,00), resultando mejor que el algoritmo que sólo procesó un único examen de TC (AUC, 0,98 (0,96-0,99), el protocolo de gestión NELSON actualizado (AUC, 0,93 (0,88-0,97) y el modelo PanCan (0,96 (0,94-0,98)).
Subgrupo de nódulos benignos de gran tamaño.
El algoritmo alcanzó un AUC de 0,91 (0,85 – 0,97), superando al modelo de un único examen de TC y al modelo PanCan en el grupo DLCST, obteniendo resultados similares en el la validación con el estudio MILD.
Discusión
En la discusión los autores defienden la robustez del algoritmo basándose en el hecho de que usar los estudios previos incrementa la capacidad diagnóstica, tal y como sucede en la valoración habitual de los nódulos pulmonares, donde la variación morfológica en el tiempo aporta una gran información.
También, destacan el hecho de haber validado el algoritmo en estudios externos distintos al que se desarrolló. Sin embargo, admiten una serie de limitaciones como que sólo compararon TC de cribados anuales o bianuales (y no programas de screening con menor intervalo de tiempo entre los estudios), además del hecho de sólo utilizar el estudio reciente y el inmediatamente previo, en lugar de compararlo con cada uno de los previos, si los hubiera.
Valoración Personal:
Globalmente, me ha parecido un artículo muy completo y con una metodología muy adecuada, que disminuye en gran medida los sesgos inherentes a los estudios retrospectivos.
Como puntos positivos, destaco el hecho de que entrenaron al algoritmo para usar también el estudio previo, como ocurre en la práctica radiológica diaria, donde los cambios en el morfotipo y el crecimiento de una lesión en el tiempo aportan una información crucial sobre el potencial maligno, al mismo tiempo que anticipan el diagnóstico en aquellas lesiones indeterminadas, que aunque tengan un pequeño tamaño, muestran una alta tasa de crecimiento. Por otro lado, me ha parecido muy acertado el haber validado el algoritmo en otros dos estudios con pacientes distintos al grupo en el que se entrenó, esto sin duda muestra que la técnica es reproducible.
Como punto negativo, me gustaría destacar el hecho de que sólo pudieran disponer de estudios de cribado anual o bienales, puesto que según las últimas guías del Lung-RADS 1.1, los controles con este espaciado temporal se aplican a nódulos indeterminados de apariencia benigna. Los nódulos sospechosos en el cribado suelen controlarse en un periódo de 3 meses. Ello pudo hacer que en este estudio sólo se analizaran nódulos con baja probabilidad a priori de malignidad y que, por tanto, estos resultados sólo puedan aplicarse a este subgrupo. Por otro lado, no queda claro si en la validación externa el algoritmo es superior a los modelos de DL de un único estudio, al protocolo NELSON o al modelo PanCan, al solaparse los intervalos de confianza.
Por último, quiero reseñar la importancia que tendría la aplicación de este algoritmo en la práctica diaria y es que, aparte de permitir una anticipación diagnóstica en lesiones pequeñas indeterminadas, puede reducir el número de exploraciones o al menos aumentar el intervalo de los controles en pacientes con nódulos que, probablemente, no se manifiesten como cánceres clínicamente importantes en un plazo de 3 años.
Ernesto Santana Suárez
Complejo Hospitalario Universitario Insular-Materno Infantil de Gran Canaria, R3.
Deja un comentario