Artículo original: Gennaro G. The “perfect” reader study. Eur J Radiol. 2018; 103: 139–146.
DOI: https://doi.org/10.1016/j.ejrad.2018.03.014
Sociedad: European Journal of Radiology.
Palabras clave: Reader study, Clinical performance, Diagnostic accuracy, Technology assessment, Bias.
Abreviaturas y acrónimos utilizados: TC (tomografía computarizada), RM (resonancia Magnética), ROC (Receiver Operating Characteristic), AUC (área bajo la curva), MRMC (multilector-multicaso), BIRADS (Sistema de Datos e Informes de Imagen de Mama), FN (falsos negativos), FP (falsos positivos), VP (verdaderos positivos), VN (Verdaderos negativos), S (Sensibilidad), E (Especificidad), CAD (Diagnóstico de Detección Asistida por computadora).
Línea editorial del número: El número de junio de la European Journal Radiology lo describiría con dos conceptos: innovador y técnico. Este mes la revista abarca aspectos como son la calidad de imagen en un sistema TC de muy alta resolución, algoritmos de sustracción para estimar el grado de fibrosis hepática, análisis de técnicas dixon y tiempo de eco para cuantificar la grasa muscular,etc. Además, también expone varios artículos que abordan técnicas híbridas, en las que se combinan, por ejemplo, los ultrasonidos con TC y RM para realizar biopsias de lesiones focales hepáticas. Añade un artículo sobre cómo aprovechar al máximo la reducción de artefactos metálicos en tomografía computarizada a colación del caso de un paciente con balas retenidas en la cabeza.
Por otro lado este número también expone artículos sobre la perspectiva radiológica de entidades poco usuales como la paracoccidioidomicosis o como el efecto sobre la fibrosis miocárdica y la morfología cerebral de la apnea repetitiva en buceadores de élite. Otro artículo realiza un análisis cuantitativo de la influencia del ciclo menstrual sobre parénquima mamario (por RM).
Tampoco se olvidan de un tema novedoso en radiología: la Radiómica. En esta línea se publica un artículo sobre un modelo radiómico que predice alto grado histológico en el carcinoma renal de células claras, basado en TC.
La parte más clínico-radiológica de la revista aborda los siguientes temas: Características útiles de la TC para diferenciar entre atelectasia focal y diseminación pleural de tumores epiteliales tímicos, predicción de la recurrencia del carcinoma hepatocelular después de la hepatectomía mediante RM realzada con ácido gadoxético y evaluación de la respuesta completa del cáncer de mama localmente avanzado mediante ecografía con contraste.
Motivo para la selección: Escogí el artículo The “Perfect” Reader Study porque habla de un tipo de estudio que no conocía (el estudio de lectura o estudio lector) y que considero muy interesante para poder realizar investigación en radiología, ya que en esta especialidad, usamos métodos que están sujetas a cierto componente de variabilidad interobservador, sin embargo en dichas pruebas suele exigirse una elevada precisión diagnóstica, por lo que es crucial la realización de estudios muy bien diseñados, que contemplen el componente subjetivo del radiólogo y minimicen al máximo los sesgos, de lo contrario estas tecnologías no serían válidas en el ámbito clínico. Para esa validación están los “reader study” o estudios de lectura.
Resumen:
- Introducción
En radiología, los beneficios clínicos derivados de los avances tecnológicos se prueban, en la mayoría de los casos, mediante estudios de rendimiento clínico (o estudios de precisión diagnóstica). En este artículo se describe un modelo de estudio jerárquico con 6 niveles, en los que para asegurar la eficacia de una técnica es necesario cada nivel inferior.
- Nivel 1: se refiere a la calidad técnica de las imágenes.
- Nivel 2: se ocupa de la precisión diagnóstica, sensibilidad y especificidad asociadas a la interpretación de las imágenes.
- Nivel 3: se centra en si la información produce un cambio en el pensamiento de diagnóstico del médico de referencia.
- Nivel 4: concierne al efecto sobre el plan de manejo del paciente.
- Nivel 5: mide el efecto de la información sobre los resultados del paciente.
- Nivel 6: se refiere a los costes sociales y beneficios.
Al menos los dos primeros niveles se ajustan a lo que ocurre normalmente cuando se introducen nuevas tecnologías en radiología. El primer paso para demostrar una ventaja de la nueva tecnología es la realización de mediciones físicas basadas en imágenes fantom. Sin embargo, una mejora técnica en la calidad de imagen es insuficiente para demostrar que una nueva tecnología conduce a un beneficio clínico en términos de rendimiento diagnóstico. La posible mejora en la precisión diagnóstica sólo puede ser probada por estudios de rendimiento clínico, en los que se pide a un grupo de radiólogos (más o menos experimentados) que evalúe las imágenes producidas por el nuevo sistema o componente del sistema sujeto de la investigación, generalmente en comparación con otro sistema de referencia. Los estudios de rendimiento clínico en este campo suelen llamarse “reader studies” o estudios de lectura.
Los estudios de lectura son difíciles de diseñar y requieren importantes recursos materiales y temporales. Después de la aprobación, incluso un estudio relativamente pequeño puede llevar entre 1 y 2 años para el reclutamiento de pacientes, la recopilación de estándares de referencia, la preparación de casos, la lectura o interpretación de imágenes, los análisis de datos y las conclusiones finales.
- Diseño del estudio
Los principales factores que contribuyen a un diseño correcto en un estudio de lectura los hemos representado en la siguiente figura:
2.1. Propósito del estudio y población de estudio
El primer paso en este tipo de estudios es definir estos aspectos:
- Debe expresarse detalladamente el propósito del estudio, teniendo en cuenta que el propósito del estudio está estrechamente relacionado con la población objetivo y que los resultados pueden diferir significativamente si dos estudios se diseñan con el mismo propósito pero con diferentes poblaciones objetivo.
- Para identificar la población objetivo se deben definir criterios de inclusión y exclusión y los pacientes que cumplan los requisitos deben firmar un consentimiento informado para poder participar en el estudio clínico.
2.2. Estándar de referencia
La definición del patrón de referencia, la técnica de elección, es crucial en un estudio de lectura; de hecho, para determinar si el resultado de un test es correcto o no, siempre se compara con algún tipo de patrón de referencia.
La prueba diagnóstica ideal es aquella que proporciona resultados positivos solamente en presencia de una patología/condición determinada (VP), mientras que los resultados negativos serían encontrados en ausencia de dicha patología/condición (VN).
Por desgracia no existe la prueba diagnóstica perfecta y por lo tanto siempre hay cierto número de FP y FN. Esto es especialmente cierto en un estudio de lectura, es decir, en estudios en los que los resultados de una prueba se derivan de la interpretación de imágenes de un cierto número de lectores humanos.
Generalmente, un patrón de referencia debe ser mucho más preciso que la modalidad objeto de investigación. Cuando sea posible, la realización de cirugía / biopsia con examen anatomopatológico posterior, se considera el patrón de referencia preferido en los estudios de imagen, pero como los estudios de lectura también pueden incluir sujetos sin ninguna o con poca probabilidad de enfermedad, son generalmente aceptadas otros tipos de “certezas ” no invasivas, como a el seguimiento largo plazo.
En algunos tipos de estudios de lectura, como aquellos con objeto de probar el rendimiento de un sistema CAD, la precisión diagnóstica de dicho sistema se suele comparar con las de las lecturas humanas, y la el patrón de referencia aceptado puede ser la decisión tomada por un «panel de expertos» que interpretaron las mismas imágenes que el CAD, sin ninguna evaluación real de la verdad.
A pesar de que hasta el mejor estándar de referencia es de alguna manera imperfecto, la fiabilidad umbral del patrón de referencia debe seleccionarse en base al objetivo y la fase del estudio . Por ejemplo, mientras que la decisión tomada por el panel de expertos puede ser aceptable como patrón de referencia para verificar la eficacia de un CAD en un ensayo inicial, en un estudio destinado a evaluar el rendimiento clínico de los lectores en una población real usando un CAD frente al rendimiento de lectores sin CAD es necesario un estándar de referencia más preciso.
En el diseño del estudio de lectura el uso de patrones de referencia “imperfectos” en lugar de usar un Gold Standard establecido debe ser reconocido por escrito. Además los investigadores deben ser conscientes de que esto introduce un sesgo llamado “sesgo del Gold Standard imperfecto” o “Sesgo del criterio de referencia imperfecto”, lo que normalmente lleva a una subestimación de la precisión real de la prueba.
2.3. Índices de precisión
En principio, si la verdad es establecida por un estándar de referencia sólido, el rendimiento diagnóstico de las técnicas comparadas en un estudio de lectura se puede obtener comparando el diagnóstico de cada lector con la verdad. Como comenta en una publicación Charles Metz, “la medida más simple de la calidad de la decisión diagnóstica es la fracción de casos en los que el radiólogo tiene razón, frecuentemente llamada precisión”. Sin embargo, dicha precisión tiene una utilidad limitada como índice de rendimiento diagnóstico porque está afectada fuertemente por la prevalencia de la enfermedad, y no hay ninguna corrección matemática de la prevalencia que pueda redimir este índice de una manera significativa. Por esta razón, la precisión diagnóstica en radiología es más a menudo representada por un par de índices que son independientes de la prevalencia de la enfermedad: la sensibilidad (S) y especificidad (E). Para medirlos, se establecerán escalas de valores discretos asignadas a determinadas características radiológicas.
El cálculo de S y E requiere que las puntuaciones asignadas por cada lector sean agrupados para calcular la proporción de VP, VN, FP y FN. Un ejemplo claro de categorización discreta es el BIRADS, una escala diagnóstica según lo hallazgos encontrados en la imagen. Al mover el valor de corte a lo largo de este tipo de escalas, las proporciones de los VP, VN, FP y FN cambian y se pueden calcular diferentes pares de sensibilidad-especificidad.
Los resultados incorrectos de un test diagnóstico en radiología (FP y FN) pueden ser causados ya sea por las limitaciones inherentes de la prueba de imagen en sí o por malas interpretaciones del lector. Esta es la razón por la que en los estudios de precisión diagnóstica se reclutan múltiples lectores, con el fin de tener en cuenta la variabilidad interobservador.
Es necesario un índice global de precisión diagnóstica que tenga en cuenta tanto la especificidad como la sensibilidad y no dependa de la prevalencia de la enfermedad. En esta línea, el análisis de curvas ROC ha sido introducido para proporcionar una medida de la precisión diagnóstica que cumple los requisitos requeridos. Cuanto mayor es el área bajo la curva ROC, mayor será la exactitud del diagnóstico. En los estudios de lectura, la precisión de la nueva técnica de imagen normalmente no se evalúa por sí sola, sino en comparación con la precisión que ofrece otra tecnología existente.
Las curvas ROC obtenidas de cada lector participante en el estudio para cada test diagnóstico se promedian para determinar el ROC medio; el rendimiento clínico se obtiene calculando la diferencia media entre las AUC de las dos pruebas comparadas y el intervalo de confianza.
El cálculo de un intervalo de confianza (IC) es fundamental para evaluar el rendimiento de una modalidad frente a otra, teniendo en cuenta todas las fuentes de variabilidad en el experimento del estudio.
2.4. Protocolo de los estudios de lectura
La muestra de radiólogos escogida para un estudio de lectura debe ser representativa de la población de radiólogos que trabaja en un campo determinado; debe evitarse la selección de lectores con la misma experiencia cubriendo el máximo espectro posible de tipos de experiencia. Un estudio MRMC ROC con menos de 4-5 lectores no es recomendable.
Como un estudio de lectura puede incluir tanto la interpretación de imágenes generadas por una nueva técnica como la lectura de imágenes producidas por una ya existente, es necesario planificar una sesión de formación antes de comenzar el estudio para que los lectores se sientan seguros con la nueva tecnología, al tiempo que se reduce un sesgo inevitable a favor de la tecnología existente por familiaridad con la misma.
En estudios retrospectivos, todas las imágenes deben ser anonimizadas y ordenadas aleatoriamente. Las imágenes del mismo paciente obtenidas por las diferentes tecnologías no deben evaluarse en la misma lectura y debe dejarse un intervalo apropiado de tiempo («de lavado») entre dos interpretaciones de imagen del mismo caso por el mismo lector.
Obviamente, los lectores deben estar cegados a la naturaleza real de los hallazgos detectados en las imágenes y en las puntuaciones ya asignadas a las imágenes del mismo paciente por sí mismos o por otros lectores.
Los formularios de informe de cada caso deben ser diseñados de tal manera que permita recoger todos los datos útiles para la realización del estudio, incluidas características de imagen que podrían utilizarse para el siguiente análisis estratificado.
2.5. Plan de análisis de datos y estimación del tamaño de la muestra
Antes de presentar el protocolo del estudio a la Junta de Revisión Institucional para su aprobación también debe hacerse un plan detallado sobre el análisis de los datos, incluyendo la estimación de tamaño muestral. El índice de precisión diagnóstica que quiere alcanzarse y la formulación de la hipótesis nula deben definirse también en esta fase para determinar correctamente el tamaño de la muestra, teniendo en cuenta la posibilidad de que haya que realizar análisis estratificados. Las técnicas de imagen actuales persiguen un alto nivel de precisión diagnóstica lo que significa que para evaluar la mejora de una nueva modalidad se requieren grandes tamaños muestrales.
- Control de sesgos
En este tipo de estudios es extremadamente importante que la muestra de pacientes incluidos en el estudio sea representativa de la población objetivo, y que los lectores participantes en la evaluación sean representativos de la población real de radiólogos.
En los estudios de lectura existen varias fuentes potenciales de sesgos y es muy importante conocerlos para poder evitarlos o limitarlos como sea posible. Por desgracia, no todo el sesgo puede ser controlado o eliminado, pero el mero conocimiento de la presencia de un sesgo puede mejorar la calidad de la interpretación de los datos y de los resultados aportados.
En la figura se representa una tabla que resume las principales fuentes de sesgos que pueden afectar a un estudio de lectura.
COMPONENTE DEL ESTUDIO |
TIPOS DE SESGO |
|
POBLACIÓN A ESTUDIO | SESGOS DE SELECCIÓN | SESGO DE ESPECTRO DE ENFERMEDAD
SESGO DE SELECCIÓN BASADO EN IMAGEN |
POBLACIÓN DE LECTORES | SESGO DE SELECCIÓN DE LECTORES | |
PATRÓN DE REFERENCIA | SESGO DEL PATRÓN DE REFERENCIA IMPERFECTO
SESGO DE CONFIRMACIÓN DIAGNÓSTICA |
|
PROTOCOLO DE LECTURA | SESGO DE CONTEXTO
SESGO DEL ORDEN DE LECTURA SESGO DE REVISIÓN VARIABILIDAD INTEROBSERVADOR |
|
ANÁLISIS DE DATOS | SESGO DEBIDO A RESULTADO NO INTERPRETABLES
DATOS INCOMPLETOS /DATA MISSING |
- Conclusiones
Un estudio de lectura es un tipo de estudio que evalúa el rendimiento clínico de una técnica frente a otra en base a interpretación de imágenes por un grupo de lectores humanos. Dicho estudio requiere un diseño preciso, con una definición detallada de cada elemento involucrado en el propio estudio, pues es especialmente sensible a la invalidación por diversos tipos de sesgos. Un buen diseño puede reducir al mínimo los efectos de dichos sesgos, por lo que los investigadores deben estar al tanto de su presencia y describirlos en el protocolo previo del estudio para proporcionar posteriormente una interpretación correcta de los resultados y poder hacerlos generalizables.
Valoración personal:
Este artículo pone de relevancia la necesidad de estudios de precisión diagnóstica que tengan especialmente en cuenta la variabilidad interobservador que existe en la interpretación de imágenes. El artículo es algo denso y quizá su autora redunda un poco en algunos conceptos de estadística que suelen ser conocidos por la mayoría de médicos, pero aun así la publicación me ha gustado bastante, pues habla de un tipo de estudio que yo no conocía y que es muy importante en el ámbito de la investigación radiológica. Además detalla cómo llevar a cabo su realización paso a paso, lo que podría servirnos de gran ayuda si algún día nos animamos a realizar investigación de precisión diagnóstica en radiología.
Violeta Pantoja Ortiz. R2. Hospital Universitario Nuestra Señora de la Candelaria. Tenerife. @ByoletOne violetapantoja@gmail.com
Deja una respuesta