Artículo original: Wataya T, Yanagawa M, Tsubamoto M, Sato T, Nishigaki D, Kita K, et al. Radiologists with and without deep learning-based computer-aided diagnosis: comparison of performance and interobserver agreement for characterizing and diagnosing pulmonary nodules/masses. Eur Radiol. 2023 Jan;33(1):348-359.
DOI: 10.1007/s00330-022-08948-4
Sociedad: European Society of Radiology (@ESR_Journals)
Palabras clave: Computer-assisted diagnosis, Deep Learning, Solitary pulmonary nodule, Area under curve, Evaluation study
Abreviaturas y acrónimos utilizados: AUC (area under the curve, área bajo la curva), CAD (computer-assisted diagnosis, diagnóstico ayudado por ordenador), DL (deep learning, aprendizaje profundo), IA (inteligencia artificial), ICC (intraclass correlation coefficient, coeficiente de correlación intraclase), p.ej. (por ejemplo), ROC (receiver operating characteristic, característica operativa del receptor), s (segundos), TC (tomografía computarizada), UH (unidades Hounsfield)
Línea editorial: European Radiology es el buque insignia de las revistas de la Sociedad Europea de Radiología. En su número de enero de 2023 trae 76 artículos muy variados. En tórax, aparte del que tratamos, destaca otro sobre incidentalomas en estudios preoperatorios de cirugía cardiaca. En radiología digestiva, este estudio investigó la prueba de imagen óptima para valorar los criterios de Milán antes del tratamiento locorregional del hepatocarcinoma. Por último, en radiología genitourinaria, este artículo sobre la seguridad a largo plazo de la aplicación de las nuevas recomendaciones de profilaxis de la enfermedad renal por contraste yodado.
Motivos para la selección: Este artículo original de investigación es de gran actualidad, al tratar un tema muy frecuente en el día a día del radiólogo, como es el nódulo pulmonar, desde el punto de vista de la inteligencia artificial. Analiza detalladamente una herramienta que puede ayudar a la caracterización de los nódulos pulmonares, mejorando la concordancia entre radiólogos y reduciendo el tiempo empleado en la toma de decisiones.
Resumen:
El 31% de las TC de tórax presentan nódulos o masas pulmonares, muchas veces como hallazgo incidental. Su caracterización puede ser difícil, debido principalmente a que suelen ser de pequeño tamaño. Además, es un proceso que depende en gran medida de la percepción visual de quien lee el estudio, por lo que puede haber gran variabilidad entre diferentes radiólogos, especialmente si tienen poca experiencia. Todo ello ha hecho que los nuevos desarrollos en IA tengan este campo de investigación en cuenta. Concretamente, sistemas de CAD y más recientemente sistemas de CAD con DL. Se ha hipotetizado que estos nuevos sistemas pueden potenciar el rendimiento y la eficiencia del trabajo diario de los radiólogos. De hecho, previo a este estudio, otros ya mostraron resultados prometedores, aunque en general solo para alguna característica aislada.
Este estudio tuvo como objetivos comparar el rendimiento de los radiólogos para caracterizar nódulos y masas pulmonares sin y con CAD, investigar si hay variaciones según la experiencia de los radiólogos, evaluar la concordancia interobservador sin y con CAD y, por último, ver la influencia del CAD en el tiempo de lectura.
En el material y método se recogen detalladamente los protocolos utilizados. También los criterios de inclusión y exclusión de los pacientes, incluida la necesidad de confirmación clínica o anatomopatológica de la malignidad o benignidad del nódulo. Se detalla además el funcionamiento del sistema CAD empleado, que primero detecta candidatos a nódulo/masa pulmonar y después valora una serie de características, para finalmente proponer un modelo de informe para cada nódulo encontrado.
Para cada nódulo los radiólogos lectores y el CAD estudiaron 15 ítems y posteriormente dieron una impresión global de malignidad o benignidad. El gold standard fue establecido por acuerdo entre dos radiólogos torácicos con 17 y 25 años de experiencia.
Participaron 15 radiólogos lectores, divididos en grupos de 5 por experiencia: L (<3 años), M (3-5 años) y H (>5 años). Hicieron dos sesiones de lectura, separadas por una semana, la primera sin CAD y la segunda con CAD. Se cronometraron ambas sesiones. Posteriormente, se hizo un análisis de curvas ROC comparando las dos lecturas, así como un análisis de concordancia con ICC entre los diferentes radiólogos.
De los 101 nódulos/masas incluidos, 46 fueron benignos y 55 malignos. En cuanto a la precisión del CAD, el mejor rendimiento fue en la valoración de calcificación, de opacidad en vidrio deslustrado y de morfología irregular. El peor rendimiento se observó en el broncograma aéreo, la morfología lobulada y los bordes espiculados.
En el análisis de curvas ROC, hubo mejoría en varios ítems con el uso del CAD. Globalmente, incluyendo a los 15 radiólogos, mejoró la AUC para bordes mal definidos, bordes irregulares, morfología irregular, calcificación, contacto pleural y malignidad. Por grupos, en L y M también hubo mejoría en algunos ítems. En el veterano grupo H, analizado de forma independiente, no hubo mejoría de la AUC para ninguna característica tras añadir el sistema CAD a la sesión de lectura. El grupo L fue el que presentó una mayor mejoría en cuanto a determinación de malignidad (aunque sin significación estadística).
En cuanto a la concordancia interobservador, hubo una mejoría generalizada de los ICCs tras el uso del CAD, con la excepción del ítem de malignidad en el grupo H. En el análisis del tiempo de lectura, la mediana de tiempo disminuyó de 83,6 s a 69,9 s con el uso del CAD.
En la discusión, los autores reflexionan sobre algunas cuestiones que observaron durante el estudio y que son bastante interesantes para tener en cuenta en estudios futuros. Por ejemplo, comentan que el ítem calcificación es muy sencillo de detectar con IA, debido a que simplemente se basa en aplicar una escala de UH. No obstante, como ya sabemos, calcio no es sinónimo de benignidad en el 100% de los casos, y aún es necesario el ojo humano para confirmar que no se trate de un patrón de malignidad. Siguiendo este hilo, detectaron que algunas características parecidas entre sí, como son los bordes espiculados, los bordes irregulares y los bordes lobulados, tuvieron un bajo rendimiento. También ocurrió en el ítem de broncograma aéreo. Esto se debe a que son características no cuantitativas, al contrario que el calcio, y, por lo tanto, muy difíciles de valorar por un ordenador. Los autores proponen investigar la forma de agruparlas en categorías, como puede ser “bordes anormales” o “densidad aire en el interior”, que permitan una primera detección por la máquina y después un análisis en profundidad por el radiólogo, que es un método que funciona bien para otros ítems como la calcificación. Por último, destacan que hay características cuya tasa de detección es buena sin y con CAD, así como con una alta concordancia interobservador, como es el caso de la opacidad en vidrio deslustrado. Atribuyen esto a que se trata de hallazgos con una definición muy precisa y conocida por todos.
Resumiendo, el sistema CAD ayudó a los radiólogos de forma global, con mejoría tanto de su capacidad de caracterización y estudio de los nódulos pulmonares de forma individual, como de la concordancia con otros radiólogos a la hora de dar un diagnóstico. Además, ayudó a reducir los tiempos de informe. Fue especialmente útil a los radiólogos menos experimentados de los grupos L y M, hecho que era esperable y conocido por estudios previos.
Valoración personal:
Este es un artículo relativamente sencillo de entender sobre la valoración de nódulos pulmonares, un tema en el que todos participamos en nuestro día a día como radiólogos. Creo que es interesante para que los que no estamos muy versados en temas de inteligencia artificial vayamos entendiendo poco a poco algunos conceptos de este nuevo mundo en el que poco a poco nos vamos a ir viendo inmersos, queramos o no.
La carga de trabajo cada vez es mayor, por lo que es razonable que se intente poner la tecnología al servicio de los radiólogos para mejorar la atención que damos a los pacientes. Este estudio demuestra que una herramienta de CAD puede aportar más seguridad de cara a dar un diagnóstico, mejorar la concordancia entre radiólogos e incluso reducir el tiempo empleado en tomar decisiones, especialmente en radiólogos con menos experiencia.
Como puntos débiles/limitaciones del estudio, destacaría que se trata de un estudio en un solo centro, con una muestra no muy grande y con casos algo seleccionados para facilitar el trabajo del sistema CAD. Es necesario un estudio mucho mayor y con condiciones más próximas a la práctica clínica habitual.
Un punto que me ha llamado la atención es que indirectamente este estudio demuestra la importancia de los informes estructurados y de la creación de glosarios específicos como el de la Sociedad Fleischner. Todas las características evaluadas en este estudio que tienen una definición sólida, establecida y ampliamente conocida por los radiólogos (p. ej. opacidad en vidrio deslustrado) fueron más fáciles de estudiar y tuvieron mejores resultados en las curvas ROC y en el estudio de concordancia que las que no están tan bien definidas. Insistir en los consensos y hacer esfuerzos para crearlos, que salgan adelante y posteriormente sean revisados es una cuestión de voluntad y no tanto de hacer inversiones económicas o desarrollos tecnológicos; y mejora sustancialmente la atención que damos a los pacientes.
Álvaro Rueda de Eusebio
Hospital Clínico San Carlos, Madrid, R2
alvaro.rueda.e@gmail.com
Deja una respuesta