Artículo original: de Vries CF, Colosimo SJ, Staff RT, Dymiter JA, Yearsley J, Dinneen D, et al. Impact of Different Mammography Systems on Artificial Intelligence Performance in Breast Cancer Screening. Radiol Artif Intell [Internet]. 2023 May 1;5(3).
DOI: https://doi.org/10.1148/ryai.220146
Sociedad: Radiological Society of North America (@RSNA)
Palabras clave: Breast, Screening, Mammography, Computer Applications–Detection/Diagnosis, Neoplasms-Primary, Technology Assessment
Abreviaturas y acrónimos utilizados: AUC (Area Under the ROC Curve, Área bajo la curva ROC),IA (Inteligencia Artificial), ROC (Receiver Operating Characteristic, Característica Operativa del Receptor),RSNA (Radiological Society of North America), U.K. (United Kingdom)
Línea editorial: La revista bimestral Radiology: Artificial Intelligence, que forma parte de la RSNA, incide en las aplicaciones emergentes del Machine Learning y de la IA en el campo de la imagen de múltiples disciplinas. Entre sus objetivos se encuentran: mostrar aplicaciones nuevas, explicar metodologías innovadoras para trabajar con IA y demostrar el impacto que tiene la IA en el diagnóstico y manejo de los pacientes. Publica en su número de mayo de 2023 diez artículos. La mayoría son investigaciones originales sobre temas de actualidad relacionados con la IA, como la detección de nódulos en radiografías de tórax o la clasificación y screening del cáncer de mama. Se separa una sección específica para los desarrollos técnicos. También incluye un comentario sobre el papel del Federated Learning en la imagen médica y una editorial sobre cómo elegir la mejor guía estructurada para realizar una publicación relacionada con la IA.
Motivos para la selección: Este artículo es uno de los más ilustrativos del número de mayo por dos razones. En primer lugar, trata sobre un tema de actualidad, la IA en el cribado. Aunque este caso trate específicamente sobre el cribado del cáncer de mama, parte de los conceptos de esta publicación pueden ser extrapolados a otros tipos de cribado. En segundo lugar, refleja bien un tipo de problema al que nos enfrentaremos en el futuro en repetidas ocasiones cuando se implante un modelo de Inteligencia Artificial para un protocolo de cribado nacional.
Resumen:
Publicaciones recientes han concluido que no hay evidencia suficiente para implementar la IA en el cribado del cáncer de mama. Un motivo fundamental es la inconsistencia en la generalización de los modelos de IA en distintos escenarios.
El objetivo de este estudio es evaluar el potencial de generalización (es decir, de aplicarse en distintas condiciones) de una herramienta de IA en el cribado del cáncer de mama, comparándola con el sistema actual de cribado en U.K.
Es un estudio retrospectivo en el que se usa una base de datos de 3 años (2016-2019) de un programa regional de cribado de cáncer de mama en U.K. Los criterios de exclusión son: pacientes que entraron en cribado por indicación propia, pacientes mayores de 71,5 años, aquellas con requerimientos físicos especiales para la realización de la mamografía, pacientes mastectomizadas y aquellos casos sin las cuatro proyecciones mamográficas estándar. Se utilizaron cinco mamógrafos de la misma marca y modelo (Selenia Dimensions; Hologic) y el protocolo estándar consistió en dos proyecciones por mama (craneocaudal y mediolateral oblicua). En el programa de cribado hay dos radiólogos lectores por cada estudio, y un posible tercero en caso de desacuerdo.
El software de IA que se utilizó fue Mia (versión 2.0.1) de Kherion Medical Technologies. Es un algoritmo de deep learning previamente entrenado con imágenes de múltiples marcas de mamógrafos que genera un output del 0 al 1 en rango continuo (valor predictivo de malignidad). Se utilizó un valor umbral predefinido de 0.1117 (valores iguales o mayores indican rellamada de la paciente) y también se calculó un nuevo valor umbral calibrado específico para la situación (site-specific o calibrado). Para ello, se proporcionó a Mia una base de datos de calibración de 16 204 mamografías de screening (10 472 de las cuales procedían de la base de datos original del estudio).
En cuanto a los análisis estadísticos, se calcularon curvas ROC y AUC, así como sensibilidad, especificidad, valores predictivos positivos y negativos y tasas de detección de cáncer y de rellamada con intervalos de confianza (método de Clopper-Pearson). Se comparó a Mia solamente con el primer lector, ya que en este programa de cribado el segundo lector puede conocer lo que ha considerado su compañero, y no son lecturas independientes. Como subanálisis exploratorios se estratificó la rentabilidad del valor umbral calibrado en los distintos mamógrafos mediante Chi cuadrado de Pearson y test exacto de Fisher. También se comparó la sensibilidad entre tumores pequeños (<15 mm) y grandes (≥ a 15 mm). Los cánceres de intervalo (identificados entre mamografías de screening) se analizaron por separado. Se clasificaron en varios grupos en función de si eran o no visibles en la última mamografía de cribado y se calculó la proporción de cánceres de intervalo que Mia había considerado correctamente como indicación de rellamada en la última mamografía de cribado.
A continuación, se resumen los resultados más significativos. Una vez aplicados los criterios de exclusión, la base de datos incluyó 55.916 pacientes. Hubo 2.774 rellamadas, se detectaron 450 cánceres en el screening y 157 cánceres de intervalo. Detallar que parte de la estadística del estudio concerniente al valor umbral calibrado, no se realizó en la base de datos original, sino que se restó al dataset original 10 472 screenings (porque fueron los que se aportaron a Mia para calibrar el valor umbral). Cuando se utilizó el valor umbral predefinido (0.1117), Mia tuvo una sensibilidad del 97.3%, especificidad del 52.7% (AUC de 0.95) y una tasa de rellamada del 47.7%. Después de realizar la calibración y de utilizar el valor umbral calibrado / site-specific (0.2938), se constató un aumento de la tasa de rellamada de Mia después de la actualización del software de cuatro de los mamógrafos. Sin embargo, no hubo una variación significativa en la tasa de rellamada del radiólogo antes y después de la actualización de software del mamógrafo. Por ello, se generaron nuevos ajustes en el valor umbral de Mia acorde a las actualizaciones. Tras estos ajustes, Mia, tuvo una sensibilidad del 91.4%, especificidad del 87.6%, tasa de rellamada del 13% y tasa de detección de cáncer de 6.1 por 1000. Comparativamente, el radiólogo lector 1 tuvo una sensibilidad del 86.1%, especificidad del 95.2%, una tasa de rellamada del 5.4% y una tasa de detección de cáncer de 5.7 por 1000. El radiólogo lector 1 detectó el 86,1 % de los cánceres. Mia habría detectado el 91,4%.
En los subanálisis, hubo diferencias estadísticamente significativas en la especificidad y tasa de rellamada de Mia entre los distintos mamógrafos, pero no en la sensibilidad ni en la tasa de detección de cáncer. No hubo diferencias estadísticamente significativas en la rentabilidad de Mia en función del tamaño del tumor.
En cuanto a los cánceres de intervalo, hubo 138 en la base de datos modificada (tras restarle los screening que se usaron en la calibración). Mia habría detectado 47 (el 34.1%). 7 de esos 47 se consideraron como visibles en la última mamografía de screening disponible después de valorarlas en retrospectiva.
En resumen, la rentabilidad de la IA puede verse alterada en los distintos sistemas de mamografía si no se realizan las adaptaciones necesarias. En contraposición, la rentabilidad de la lectura del radiólogo no se vio afectada por la actualización de los mamógrafos. Una vez calibrado, Mia tuvo una mayor tasa de rellamada, pero habría detectado más cánceres que el radiólogo lector 1. Estos hallazgos apoyan que la IA y los valores umbrales deberían ser validados previamente para los nuevos escenarios clínicos en los que se van a utilizar y sistemas de control deberían monitorizar su calidad durante el proceso.
Valoración personal:
Es un artículo algo complejo de entender de manera integral en un primer vistazo, especialmente si no se está familiarizado con la implementación de algoritmos de IA en la práctica clínica.
No obstante, tras dedicarle el tiempo suficiente, pone de manifiesto conceptos importantes e interesantes que van a suponer uno de los principales retos radiológicos en los próximos años, conforme se vayan implementando estos nuevos sistemas de IA de una manera estandarizada y a gran escala.
Uno de los puntos más fuertes de esta publicación, que ellos mismos relatan, es el uso de una base de datos retrospectiva muy completa, con tiempo de estudio suficiente como para saber el desenlace final de los pacientes. Lo cual es sumamente importante si se quiere analizar el rendimiento de la IA.
Como limitación principal, este estudio analiza un único producto comercial de IA, en un solo centro y con una muestra de pacientes predominantemente caucásicos. Esto dificulta la posible extrapolación de la evidencia aportada a otros entornos.
Alberto Ramírez García-Mina
Hospital Universitario Puerta de Hierro, Majadahonda, R2
Deja un comentario