Artículo original: Choi HH, Chang SD, Kohli MD. Implementation and design of artificial intelligence in abdominal imaging. Abdom Radiol (NY). 2020 Dec;45(12):4084-4089.
Sociedad: Society of Abdominal Radiology (@SocAbdRadiology).
DOI: 10.1007/s00261-020-02471-0
Palabras clave: Artificial intelligence, machine learning, deep learning, implementation, prostate, safety.
Abreviaturas y acrónimos utilizados: IA (Inteligencia Artificial), TC (Tomografía Computarizada), RM (Resonancia Magnética), HBP (Hiperplasia Benigna de Próstata), ECG (electrocardiograma), GPU (Unidad de Procesamiento Gráfico), FDA (Food and Drug Administration).
Línea editorial del número:
Abdominal Radiology es la revista oficial de la sociedad de radiología abdominal (SAR). Esta revista es conocida por la publicación de artículos originales, de revisión y otros relacionados con la práctica clínica sobre el funcionamiento y la patología del tracto gastrointestinal y genitourinario. Adicionalmente, también publica artículos relacionados con procedimientos intervencionistas sobre el abdomen.
Su número de diciembre, es un número dedicado especialmente a la próstata y, en concreto, al cáncer de próstata, campo en el que ha habido un gran desarrollo de diferentes técnicas de Inteligencia Artificial y de Radiómica. Como ejemplo de ello, destaca el siguiente artículo: Baek TW, Kim SH, Park SJ, Park EJ. Texture analysis on bi-parametric MRI for evaluation of aggressiveness in patients with prostate cancer.
Motivos para la selección:
Dado el gran auge de la Inteligencia Artificial en todos los campos de la Radiología, para poder hacer una lectura crítica de la gran cantidad de artículos que se publican sobre este tema, es importante partir desde un contexto general y conocer las capacidades de estas nuevas tecnologías y, al mismo tiempo, sus límites. Este artículo ofrece una actualización en este campo centrándose en los avances relacionados con la radiología abdominal.
Resumen:
Introducción
La radiología siempre ha sido un campo de innovación tecnológica. La digitalización de la imagen ya supuso un antes y un después en nuestra especialidad y, actualmente, la radiología se enfrenta a otro gran reto que puede dar un gran cambio a su futuro: la Inteligencia Artificial (IA).
La IA es una rama dentro de la ciencia de la computación que crea sistemas capaces de realizar tareas que, normalmente, requerirían de inteligencia humana, como es el reconocimiento de imágenes u objetos. Con el desarrollo de las GPU, que han disminuido considerablemente el tiempo requerido para entrenar modelos de deep learning, la IA ha ganado de nuevo interés en la imagen médica. Dentro de las técnicas de deep learning, las redes convolucionales son los modelos más utilizados en la literatura para temas relacionados con la radiología. Estos modelos tratan de imitar la arquitectura neuronal humana y han permitido que la IA no solo pueda hacer tareas repetitivas sino que también sea capaz de realizar tareas más complejas como el reconocimiento de patrones.
Sesgos
Como médicos y radiólogos, nos han enseñado la importancia de buscar los posibles sesgos a la hora de analizar un artículo científico o un ensayo clínico. Hacer esto nos capacita para evaluar la calidad científica de un artículo y decidir si es o no aplicable al paciente que estamos tratando. En el caso de los artículos sobre modelos de IA, también deberíamos buscar posibles sesgos, al igual que en los artículos científicos o ensayos clínicos a los que estamos más acostumbrados.
- Sesgos de selección:
La mayoría de los modelos de IA únicamente se basan en la información incluida en el set de datos de entrenamiento. Este set incluye la información de entrada (por ejemplo, las imágenes) y la información de salida (la etiqueta, es decir, el diagnóstico; o la segmentación). La información de salida es el llamado ground truth. Cuando el ground truth es conocido se trata de un entrenamiento con aprendizaje supervisado, en el caso de que no sea conocido, estaremos hablando de aprendizaje no supervisado. En ambos casos podemos encontrarnos con sesgos de selección en las imágenes incluídas en el set de entrenamiento que vayan a afectar al resultado del modelo.
- Sesgo de automatización:
El sesgo de automatización es una tendencia humana reconocida que consiste en confiar demasiado en la automatización. Por ello, en el diseño de estudios que evalúen el resultado de la aplicación de los modelos de IA, no solo se debería estudiar el resultado del modelo sino también el resultado de la interacción entre el modelo y el humano, dado que la validez externa del modelo puede ser negativa al verse afectada por el sesgo de automatización.
- Sesgo por cambios en los datos:
Los modelos de clasificación de imagen son muy sensibles a pequeños cambios en los datos. Es decir, un algoritmo entrenado con los datos de una misma institución o un mismo equipo suele dar malos resultados al enfrentarlo a datos procedentes de otro equipo o institución. Sin embargo, estos cambios suelen ser casi imperceptibles al ojo humano. Debido a esto, las instituciones deberían poder probar y entrenar el modelo con sus datos. Por contra, en este ámbito todavía hay muchas incógnitas por resolver, como por ejemplo, cómo de interesadas o dispuestas estarán las instituciones para preparar conjuntos de datos para el entrenamiento; o si las empresas que venden estos sistemas permitirán realizar este tipo de fine tunning con sus modelos; y si ese modelo final mantendrá o no el certificado por la FDA.
El estudio de cómo responden estos modelos de IA a los cambios en los datos se conoce como investigación adversaria. La investigación adversaria busca el mínimo cambio en la imagen que puede dar lugar al máximo cambio en el resultado del modelo. Estos estudios han demostrado que cambios como la compra de un nuevo TC o el añadir una nueva secuencia en los estudio de RM pueden dar lugar a cambios dramáticos en el rendimiento del modelo. Además, el rendimiento de un modelo ya instaurado en una institución, como un hospital por ejemplo, es difícil y caro de monitorizar. Los investigadores están trabajando activamente en el desarrollo de modelos más robustos. Por otro lado, los encargados de la implementación de estos modelos deben ser conscientes de cómo pequeños cambios en los datos pueden afectar al modelo en cuestión.
Confianza
Es fundamental conocer el nivel de confianza en el uso de la IA para asegurar su éxito a la hora de implementar en el trabajo del día a día de los radiólogos. La confianza en la IA crecerá a medida que la tecnología y los algoritmos mejoren y avancen, especialmente si se consigue entender las técnicas de aprendizaje automático, lo que se conoce como IA interpretable. Esto contrasta con la llamada black box, en la que ni los propios diseñadores pueden determinar cómo el algoritmo de IA ha llegado a ese resultado final.
La IA podría ayudar a mejorar la eficiencia, por ejemplo realizando mediciones o segmentaciones, ahorrando tiempo al radiólogo. Por ejemplo, en el estudio radiológico de la próstata, donde las mediciones del volumen de la glándula prostática no tienen que ser exactas, el modelo podría proporcionar una estimación razonable, la cual podría ser rápidamente confirmada por el radiólogo lector. Por otro lado, la segmentación de la glándula prostática para la biopsia por fusión necesita ser más exacta, pero también se podría comprobar fácilmente por el radiólogo únicamente observando las imágenes de una forma rápida y confirmando la correcta segmentación. Sin embargo, la diferenciación de un cáncer de próstata clínicamente significativo, del clínicamente insignificante o de la enfermedad benigna (prostatitis, HBP) y otras variantes normales, debe ser muy precisa ya que los pacientes seleccionados serán sometidos a otras pruebas de diagnóstico y de tratamiento. En este contexto, la fiabilidad estadística y la relación riesgo-beneficio serán importantes atributos de estos algoritmos.
Por lo tanto, podemos interpretar que la IA no reemplazará la experiencia clínica, sino que ayudará a la eficiencia del sistema sanitario. No se espera que la IA reemplace la experiencia del radiólogo en la interpretación de imágenes en un contexto clínico, sino más bien que complemente sus habilidades haciendo mediciones de rutina y generando interpretaciones basadas en algoritmos, que luego requieren un experto para su lectura, como ocurre con la interpretación de los ECG.
Riesgos
Los radiólogos tomamos decisiones todos los días teniendo en cuenta la relación riesgo-beneficio de los pacientes. Con frecuencia decidimos si el beneficio obtenido de una prueba diagnóstica o procedimiento supera los riesgos de la exposición a la radiación u otros riesgos intrínsecos a la misma. Por lo tanto, la implementación de herramientas de IA también puede entrañar riesgos para el paciente. Al evaluar la tarea que realizará un modelo de IA, se deben considerar la sensibilidad y especificidad ideales. Por ejemplo, un modelo que identifica lesiones por RM de cribado se puede entrenar para anteponer la sensibilidad sobre una alta especificidad; mientras que, en un modelo que proporciona una estratificación del riesgo a partir de los mismos datos de entrada, es decir, de las mismas imágenes de RM, probablemente prevalezca la especificidad sobre la sensibilidad.
Cuando se considere la implementación de un modelo de IA, nos deberíamos plantear varias cuestiones como las siguientes: ¿se nos provee de un valor de confianza para la predicción?; ¿el algoritmo será capaz de identificar un cambio en los datos o en la distribución de los datos?; si el algoritmo incluye imágenes, ¿será capaz de identificar qué píxeles son importantes para la clasificación?
Diseño y monitorización
A día de hoy, la IA en radiología, más que integrada en la práctica clínica, se podría decir que está confinada a grupos de datos controlados y en contextos muy concretos. Estos modelos deberían ser entrenados y validados en varias instituciones y contextos diferentes. Se necesitan más estudios para asegurar la adecuada integración de estos modelos en la práctica diaria y en la infraestructura existente, así como para asegurar y facilitar las actualizaciones pertinentes de los mismos y para asegurar el progreso de la radiología y la medicina.
Del mismo modo, todavía no está definido cómo manejaremos y/o validaremos aquellos algoritmos que continúan aprendiendo con el tiempo o aquellos sistemas de deep learning que funcionan como una black box. Se sugiere que los fabricantes monitoricen el rendimiento de estos sistemas y los actualicen periódicamente, así como su certificado por la FDA.
Aún con todo, hay muchos escenarios donde la aplicación de estos sistemas entraña menos riesgos y complicaciones. Aquellos escenarios donde los fallos del algoritmo pueden ser fácilmente identificados por el radiólogo, minimizan el efecto de que sigan siendo black boxes. Por ejemplo, aprovechándonos de que estos sistemas no se ven afectados por el cansancio físico y mental que sí ocurre en los humanos, se pueden utilizar con el objetivo de detectar patología urgente entre cantidades grandes de imágenes para optimizar el flujo de trabajo del radiólogo y que éste no tenga que revisar todas las imágenes sino solo aquellas seleccionadas por el sistema por contener hallazgos compatibles con patología urgente. Estos sistemas también han demostrado ser válidos para tareas repetitivas como la detección de nódulos pulmonares o la segmentación volumétrica del hígado. En el estudio de la próstata, se han diseñado algoritmos para la segmentación de la glándula, la detección de cáncer y la predicción de su agresividad.
Conclusión
Los expertos en la implementación de estos sistemas deben tener en consideración varios aspectos en relación a cómo añadir la IA en la práctica clínica diaria. La detección de sesgos es algo con lo que los radiólogos estamos más familiarizados, ya que estamos entrenados en garantizar una medicina basada en la evidencia. En este sentido, la IA puede presentar sesgos de selección (en el set de entrenamiento), sesgo de automatización y sesgos relacionados con los cambios en los datos. Los radiólogos deberíamos analizar cuidadosamente la relación riesgo-beneficio que supone la implementación de estos sistemas, siendo conscientes de las limitaciones y el potencial que tienen. Se necesitan más estudios para diseñar la implementación de estos sistemas en la práctica diaria y evaluar el rendimiento de la interacción de estos sistemas con los humanos.
Valoración personal:
Mediante este artículo Choi et al han revisado los dilemas relacionados con la implementación de los sistemas de IA en la práctica clínica diaria, clasificándolos en sesgos (de selección, de automatización y de cambios en los datos), en la confianza que suscitan, en los riesgos que presentan y en los problemas relacionados con su diseño y monitorización. Personalmente, creo que es un artículo muy completo sobre los principales problemas que se plantean a día de hoy en la validación e implementación de estos sistemas en el trabajo diario del radiólogo, con especial énfasis en los modelos desarrollados para el estudio de la próstata, que es el tema estrella del número de diciembre de esta revista.
Amaia Pérez del Barrio
Hospital Universitario Marqués de Valdecilla (Santander), R3
Deja una respuesta