Uso de los grandes modelos de lenguaje para predecir en neuroimagen

Artículo original: Nazario-Johnson L, Zaki HA, Tung GA. Use of Large Language Models to Predict Neuroimaging. J Am Coll Radiol. 2023 Oct;20(10):1004-1009. doi: 10.1016/j.jacr.2023.06.008. Epub 2023 Jul 8. PMID: 37423349.

DOI: https://doi.org/10.1016/j.jacr.2023.06.008

Sociedad: Journal of American College of Radiology (@JACRJournal)

Palabras clave: Artificial Intelligence, clinical decision making, chat GPT.

Abreviaturas y acrónimos utilizados: Criterios de adecuación del Colegio Americano de Radiología (ACR AC), Inteligencia Artificial (IA), modelos de lenguaje grandes (LLMs).

Línea editorial: Journal of the American College of Radiology es la revista mensual revisada por pares publicada por Elsevier en nombre del Colegio Americano de Radiología (ACR). Su último número publicado es el de Octubre, en el que hay un total de 27 artículos, no estando todavía disponible el número de noviembre. Destacaría en este último número uno que trata de inteligencia artificial comparando el chat GPT 3.5 vs 4 en la mama y otro sobre el Bone-RADS

Motivos para la selección: En la sociedad actual cada vez es más frecuente el uso de inteligencia artificial para múltiples aplicaciones. Dentro del mundo de la medicina, más concretamente en radiología, está cobrando especial importancia encontrando múltiples utilidades de la misma, como por ejemplo: reducir los errores, mejorar la precisión en el diagnóstico o aumentar la eficiencia. Además, llama la atención que la revista del Colegio Americano de Radiología tenga una sección exclusiva para la inteligencia artificial, lo que nos hace ver que en el futuro probablemente sea una pieza muy importante en la radiología. Es por todo esto que he decidido elegir un artículo que trata sobre este tema.

Resumen: 

Introducción:

La inteligencia artificial (IA) se utiliza ampliamente en aplicaciones médicas, incluida la radiología, donde ha demostrado una alta precisión en la detección de diversas afecciones médicas. Los modelos de lenguaje grandes (LLMs), como Chat GPT y Glass AI, son modelos basados en IA diseñados para comprender y generar texto. Se entrenan en extensos datos de texto, lo que les permite proporcionar respuestas coherentes a las indicaciones en lenguaje natural. Chat GPT se basa en el modelo GPT-3.5, que contiene 175 mil millones de parámetros, y ha demostrado competencia en campos médicos. Glass AI se entrena específicamente en textos médicos para generar planes clínicos basados en información clínica.

El estudio tiene como objetivo evaluar la capacidad de Chat GPT y Glass AI para recomendar modalidades de imágenes diagnósticas apropiadas para presentaciones neurológicas utilizando los criterios de adecuación de ACR AC. Esta evaluación también incluye una comparación con las recomendaciones de un neurorradiólogo experimentado. El objetivo es explorar el potencial de los LLMs para ayudar a los médicos a tomar decisiones en base a imágenes para prevenir pruebas innecesarias y reducir los costos de atención médica.

Métodos:

En este estudio, se utilizaron modelos de inteligencia artificial, como Chat GPT y Glass AI, para evaluar su capacidad en la recomendación de modalidades de imágenes diagnósticas. Se empleó la versión de Chat GPT de marzo de 2023 y Glass AI 1.0 debido a su capacidad para manejar escenarios clínicos de una sola línea, conforme a los Criterios de Adecuación de la ACR.

Los Criterios de Adecuación de la ACR se utilizaron como estándar de referencia para evaluar el rendimiento de Chat GPT, Glass AI y un neurorradiólogo. Estas pautas son utilizadas por clínicos para seleccionar la modalidad de imagen más apropiada en situaciones clínicas específicas. 

Las indicaciones para los modelos de inteligencia artificial y el neurorradiólogo se derivaron de las variantes de los Criterios de Adecuación de la ACR y se basaron en la presentación de un paciente de 65 años. Las indicaciones se ingresaron dos veces en los modelos de inteligencia artificial por diferentes autores, y luego cada autor calificó las respuestas por separado. Si la respuesta de la IA no era lo suficientemente específica, se asignaba la puntuación más baja con una penalización de 0.5. Se promediaron las puntuaciones para cada respuesta, siendo la puntuación final de cada tema el promedio de todas las obtenidas para cada uno de los temas. Se compararon los diferentes modelos de inteligencia artificial, y se realizó un análisis estadístico para comparar su rendimiento con el del neurorradiólogo.

Además, se evaluó el rendimiento de las respuestas de Chat GPT y Glass AI de diferentes autores. También se calculó la variación porcentual en la puntuación por tema entre Chat GPT y Glass AI al comparar las puntuaciones promedio más altas y más bajas en cada tema.

Resultados: 

En total se analizaron 147 condiciones.  Glass AI y Chat GPT lograron una precisión moderada al recomendar modalidades de imágenes radiológicas, pero el neurorradiólogo superó significativamente a ambos (P = .003 para ChatGPT y P = .013 para Glass AI).

Las puntuaciones más altas para Chat GPT fueron para temas como: lesiones penetrantes en el cuello, enfermedades cerebrovasculares, alteración aguda del estado neurológico con psicosis de inicio reciente y adenoma de paratiroides. Por otro lado, las puntuaciones más altas para Glass AI fueron: enfermedades tiroideas, masa en el cuello, alteración aguda del estado neurológico con psicosis de inicio reciente, enfermedades cerebrovasculares y lesiones penetrantes en el cuello.

Las puntuaciones más bajas para Chat GPT se encontraron en temas como la demencia, sospecha de infección espinal, mielopatía, plexopatía y traumatismo espinal sospechado. Las puntuaciones más bajas para Glass AI estuvieron en temas de mielopatía, plexopatía, demencia, enfermedad sinusal y neuropatía craneal.

La comparación entre Chat GPT y Glass AI mostró un desempeño similar en la predicción de modalidades de imágenes, y aunque Glass AI obtuvo puntajes promedio más altos, la diferencia no fue estadísticamente significativa (P = .31).

Asimismo, se observó que la consistencia de Chat GPT fue menor que la de Glass AI, y hubo diferencias significativas en las puntuaciones entre las dos ejecuciones de Chat GPT. Sin embargo, no hubo diferencias significativas en las puntuaciones entre las ejecuciones de Glass AI.

Además, se notó que el puntaje de Chat GPT disminuyó significativamente a medida que se bajó en la clasificación de recomendación, con diferencias significativas entre los puntajes de rango promedio 1 y 2, y entre los puntajes de rango promedio 1 y 3 (P < .001 en ambos casos).

Discusión: 

El estudio demuestra que los Modelos de Lenguaje Grande (LLMs) pueden hacer recomendaciones adecuadas para imágenes neurológicas utilizando un breve enunciado estándar. Aunque Chat GPT y Glass AI obtuvieron puntuaciones promedio de 1.75 y 1.83, respectivamente, en una escala de 3.0, no superaron el rendimiento de un neurorradiólogo experimentado (con una puntuación de 2.20). Esto resalta las limitaciones de la inteligencia artificial en esta aplicación.

Los LLMs tienen un gran potencial en el ámbito de la atención médica, ya que pueden analizar rápidamente datos de pacientes y proporcionar recomendaciones clínicamente significativas. Además, los LLMs pueden desempeñar un papel educativo, ayudando a estudiantes y profesionales de la medicina a comprender la terminología radiológica y las modalidades de imagen, facilitando el acceso a información relevante y ofreciendo ejemplos de técnicas de imagen. También pueden contribuir a mantener a los profesionales de la salud actualizados con las últimas innovaciones en técnicas de imagen para brindar una atención de alta calidad a los pacientes.

 Valoración personal: 

Antes de las reflexiones finales destacar las limitaciones del estudio, algunas de ellas explicadas en el artículo:

  • Una limitación muy importante es que solo se compara con un sólo neurorradiólogo. En estudios futuros sería importante que se hiciera con un mayor número de radiólogos.
  • Por otro lado, se centra solo en patología neurológica, lo que limita el estudio, siendo imprescindible ampliarlo en un futuro, para realizar una adecuada valoración.
  • Como explica el estudio, las diferencias entre el chat GPT y  Glass AI pueden ser debidas a la metodología de entrenamiento de cada inteligencia artificial, lo que se debería tener en cuenta de cara a posibles estudios futuros.

En los últimos años, el uso de la inteligencia artificial ha tenido un gran impacto en el mundo de la radiología. Cada vez es más frecuente ver como en las diferentes revistas un gran número de artículos explican nuevas actualizaciones sobre la IA en la radiología. En el artículo se demuestra como estos modelos de lenguaje grande son capaces de hacer su función de forma adecuada, si bien parece poco probable, al menos por el momento, que pueda sustituir al especialista. Los modelos de lenguaje grande han llegado al mundo radiológico para quedarse y facilitar el trabajo al radiólogo. 

Cristina Candelaria Linares Bello

Hospital Universitario Nuestra Señora de Candelaria, Tenerife, R3.

cristinaclb1812@gmail.com@Clinbel91

Tagged with: , , ,
Publicado en Journal of the American College of Radiology, Revistas

Deja un comentario

Publicaciones del Club
Residentes SERAM
Autores