Artículo original: Weinert DA, Rauschecker AM. Enhancing Large Language Models with Retrieval-Augmented Generation: A Radiology-Specific Approach. Radiol Artif Intell [Internet]. 2025 May 1;7(3)
DOI: https://pubs.rsna.org/doi/10.1148/ryai.240313
Sociedad: Radiological Society of North America (@RSNA)
Palabras clave: Computer Applications–General (Informatics), Technology Assessment
Abreviaturas y acrónimos utilizados: IA (Inteligencia Artificial), LLM (Large Language Model), RAG (Retrieval-Augmented Generation).
Línea editorial: La revista bimestral Radiology: Artificial Intelligence, que forma parte de la RSNA, incide en las aplicaciones emergentes del Machine Learning y de la IA en el campo de la imagen de múltiples disciplinas. Entre sus objetivos se encuentran mostrar aplicaciones nuevas, explicar metodologías innovadoras para trabajar con IA y demostrar el impacto que tiene la IA en el diagnóstico y manejo de los pacientes. Publica en su número 3 del volumen 7 (mayo de 2025) 17 artículos originales de investigación, con algunos comentarios respectivos por diferentes autores, incluyendo artículos de desarrollo técnico y de fuente de datos. Varios artículos versan sobre la patología neurológica (cuantificación de lesiones isquémicas cerebrales agudas y crónicas, protocolización automática de RM cerebrales de urgencia utilizando la información clínica, detección automática de aneurismas intracraneales en angioTC, detección de afectación de barrera hemato-encefálica en glioma difuso en RM). Se incluyen otros artículos de temática variada, como ecografía tiroidea (ecografía con pseudo-contrastepara evaluar ablaciones tumorales), patología torácica (predicción de mortalidad por enfermedad respiratoria evaluando radiografías de tórax, detección de fibrosis miocárdica en modo cine de RM cardiaca en la distrofia de Duchenne, predicción de evento cardíaco mayor con angioTC de arterias coronarias), cáncer de mama (detección y localización en mamografías de screening), pediatría (cuantificación en PET-TC en el linfoma de Hodgkin pediátrico)…
Motivos para la selección: Se ha seleccionado este artículo porque la manera de acceder a la información médica y a la evidencia científica va a cambiar drásticamente con la llegada de la IA. No obstante, se necesita una adaptación, tanto nuestra como de los algoritmos de modelo de lenguaje, para asegurar que la información clínico-radiológica a la que se acceda sea siempre rigurosa y de calidad. Este artículo refleja una primera piedra sobre los cimientos de este cambio.
Resumen:
Antes de resumir el artículo, explicaremos brevemente dos conceptos clave para poder comprenderlo correctamente: Large Language Model (LLM) y Retrieval-Augmented Generation (RAG).
Un LLM es un modelo de inteligencia artificial entrenado con enormes cantidades de texto para predecir y generar lenguaje humano. Existen varios modelos como GPT-4, Claude o Gemini, a los que ya estamos acostumbrados y que pueden ejecutar tareas complejas, desde redactar informes médicos hasta resolver preguntas clínicas. Sin embargo, pueden cometer errores llamados alucinaciones, generando respuestas incorrectas con gran confianza, y tienen dificultades para acceder a conocimientos nuevos o específicos si no fueron entrenados con ellos.
RAG es una técnica que mejora los LLMs integrando en tiempo real información extraída de una base de datos específica. Funciona así: ante una pregunta, el sistema primero busca documentos relevantes en una base vectorial (estructurada según similitud semántica), los selecciona y se los da como contexto al LLM para generar una respuesta más precisa y fundamentada. De este modo, el modelo no necesita ser reentrenado cada vez que cambia el conocimiento, ya que puede acceder a fuentes actualizadas y citables.
El estudio evaluó si un sistema RAG especializado en radiología, usando una base de datos de 3689 artículos de RadioGraphics (1999–2023), mejora el rendimiento de varios LLMs en un examen de preguntas tipo test de radiología.
Cinco LLMs (GPT-4, Claude Opus, Command R+, Mixtral, Gemini 1.5 Pro) fueron evaluados con y sin RAG. Las preguntas provenían del examen CORE americano y exámenes DXIT (ACR).
RAG mejoró significativamente el rendimiento de GPT-4 (81,2% vs 75,5%, p = 0,04) y Command R+ (70,3% vs 62,0%, p = 0,02). No hubo mejoras significativas para Claude Opus (que fue el que mejor rendimiento tuvo de todos), Mixtral o Gemini 1.5 Pro. En un subconjunto de 24 preguntas con citas explícitas de RadioGraphics, los RAG-Systems superaron a los LLMs puros (85% vs 76%, p = 0,03). El sistema RAG logró recuperar el artículo citado en el 87,5% de los casos y citarlo correctamente en el 85,7%.
Los sistemas RAG específicos para radiología permiten respuestas más fundamentadas, transparentes y actualizadas. Pueden ser útiles como asistentes clínicos en tareas de interpretación, redacción de informes y educación médica. A pesar de algunas limitaciones, el estudio muestra que RAG puede potenciar el uso clínico de los LLMs sin necesidad de reentrenarlos, mejorando así la integración de la inteligencia artificial en la práctica radiológica.
Valoración personal:
Se trata de un estudio original que, como hemos visto, aborda la IA con un enfoque muy práctico y de relevancia actual para poder acceder y manejar la información médica con mayor facilidad y eficiencia. No obstante, presenta varias limitaciones que los autores también abordan. En primer lugar, destacaremos que la evaluación realizada se basó sólo en un examen tipo test de opción múltiple que, como sabemos, no siempre refleja la realidad. Además, la información que se aportó al LLM a través del RAG fue limitada, incluyendo solamente artículos de RadioGraphics. Se mencionan también otras limitaciones más técnicas, como la utilización de parámetros básicos para implementar el RAG, o la falta de explicación clara cuando se analizaron algunos de los errores del LLM. Además, cabe destacar que de los cinco LLMs utilizados (algunos tan populares como ChatGPT o Gemini), tres de ellos mejoraron su rendimiento significativamente cuando constaban con la ayuda del RAG, mientras que los otros dos no lo hicieron. Para el autor de este resumen, este hecho quita algo de robustez a la hipótesis de que el RAG mejora el rendimiento de los LLMs. Sin embargo, es un primer paso para poder instaurar herramientas prometedoras de asistencia al radiólogo, aportando conocimiento especializado y adaptado para cada caso en tiempo real.
Alberto Ramírez García-Mina
Hospital Universitario Puerta de Hierro, Majadahonda, R4
Deja un comentario