formación continuada Rev. Esp. Med. Nuclear 20, 5 (393-412), 2001
Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II S ÁLVAREZ RUIZ, A CANUT BLASCO*, E RODEÑO ORTIZ DE ZÁRATE, I BARBERO MARTÍNEZ**, J I ALONSO COLMENARES, J CORTÉS HERNÁNDEZ, P ALCORTA ARMENTIA Servicio de Medicina Nuclear. *Sección de Microbiología. Hospital Santiago Apóstol. Vitoria. Álava.
EVIDENCE BASED MEDICINE. APPLICATION TO NUCLEAR MEDICINE. DIAGNOSTIC SLOPE. PART II
INTRODUCCIÓN
Esta 2.ª entrega de Medicina Basada en la Evidencia (MBE) analizará los aspectos que afectan a la vertiente diagnóstica de la Medicina Nuclear. Los creadores de la MBE se ocupan en sus textos básicos de todos los escalones del manejo del paciente, incluido el diagnóstico 1-2, sobre todo en lo que hace referencia a su utilización práctica (como un manual de uso de pruebas diagnósticas). Pero otros aspectos del diagnóstico, como la clasificación de grados de evidencia, investigación de resultados, revisiones sistemáticas y meta-análisis, a diferencia del tratamiento, están, menos desarrollados. Esto seguramente no es casual. El diagnóstico presenta muchas peculiaridades que hacen que su teorización, experimentación y manejo sean complicados. Quizá la mayor dificultad deriva de que el más alto nivel de evidencia que se obtiene en investigación científica, incluyendo los aspectos de diagnóstico, es el conseguido con un ensayo clínico aleatorizado bien diseñado y ejecutado 3. Esto es, sin duda cierto para demostrar eficacia terapéutica, o la influencia de un test en el manejo clínico
Correspondencia: SOLEDAD ÁLVAREZ RUIZ Servicio de Medicina Nuclear Hospital Santiago Apóstol Olaguibel, 29 01004 Vitoria Álava E-mail:
[email protected] Rev. Esp. Med. Nuclear, 2001;20:393-412
del paciente y en la evaluación de la supervivencia 4, pero probablemente es innecesario y aún inapropiado para demostrar efectividad diagnóstica 5. En Estados Unidos, el gasto en tests diagnósticos en medicina ambulatoria es del 25% del total6. En general, aunque el porcentaje de gasto en tecnología de diagnóstico por imagen es pequeño en relación al gasto sanitario total, el uso de nuevas tecnologías crece 2-3 veces más rápido que otros servicios sanitarios 7. Esto ha llevado, por una parte, a que las autoridades sanitarias quieran controlar ese gasto, pero por otro, el rápido despegue de las nuevas tecnologías médicas ha hecho que escapen a una evaluación seria de las mismas 6, 8, 9. De todos es conocido el uso masivo e indiscriminado que se ha efectuado de la tomografía computarizada (TC) y de la resonancia magnética nuclear (RMN) 7, cuando hasta hace poco no ha habido evidencias de su efectividad diagnóstica y cuando, todavía hoy en día, no las hay en alguna de sus indicaciones. Por este motivo ha sido difícil incluir muchas pruebas de imagen en los protocolos y árboles de decisión que se han confeccionado por las sociedades científicas, grupos de trabajo y agencias de evaluación de tecnologías sanitarias 10 (relacionados o no con la MBE).
¿CÓMO SE PRACTICA LA MBE EN DIAGNÓSTICO?
De los «5 pasos» de la práctica de la MBE, los 2 primeros y el último se explicaron conjuntamente para diagnóstico y tratamiento, en la entrega previa de Formación Continuada dedicada a la MBE de la REMN. Los pasos correspondientes a la valoración crítica del material bibliográfico seleccionado y a la aplicación a tu paciente o ámbito concreto, que en el anterior número fueron focalizados en aspectos de tratamiento
394
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
exclusivamente, serán explicados a continuación en su vertiente diagnóstica. Remitimos al lector el libro de Sackett y cols., publicado en 1997 «Medicina Basada en la Evidencia: Cómo ejercer y enseñar la MBE» 1 y a su 2.ª ed. revisada 2.
Punto clave 1 La mayoría de test diagnósticos están insuficientemente evaluados y sus resultados pueden ser poco fiables.
como veremos de forma pormenorizada más adelante. La lectura crítica de un artículo sobre diagnóstico
Supongamos que hemos llegado hasta aquí después de haber hecho una búsqueda específica sobre una pregunta generada tras atender a un paciente. La pregunta es sobre diagnóstico. No disponemos de mucho tiempo y elegimos un par de artículos que nos proporcionan datos de efectividad diagnóstica (filtro de búsqueda: sensibilidad y especificidad). Antes de aplicar esos resultados de efectividad diagnóstica debemos saber si se han calculado mediante un método fiable, ¿es válido el estudio? Esto no es una cuestión académica ni de mera corrección formal. Si en tratamiento hay muchos errores metodológicos en las publicaciones, en diagnóstico la situación no es mejor, empezando porque no se realizan ensayos clínicos, y de partida tendremos menor nivel de evidencia. Esto no sería grave si los diseños alternativos, que consideramos válidos, se aplicaran en investigación y estuvieran bien ejecutados. Un trabajo de Reid y cols. 9 revisando el cumplimiento de 7 criterios de calidad metodológica en artículos de pruebas diagnósticas publicados en 4 revistas de primera línea, desde 1978 hasta 1993, mostró que únicamente el 44% de ellos cumplió 3 o más criterios de calidad en el último período analizado (1990-1993) y sólo el 6% cumplía más de 6 criterios. Aunque estas cifras sean bastante pobres suponen una mejora respecto a las encontradas en el trienio inmediatamente anterior (1986-1989), en el que se cumplían un 18 y 0% respectivamente. Los autores concluyen que, aunque se observa esta pequeña mejoría, los datos globales indican que la mayoría de test diagnósticos están insuficientemente evaluados y sus resultados pueden ser poco fiables (de todos los artículos revisados, el 10% eran de Medicina Nuclear y el 30% de radioinmunoanálisis). En otro trabajo más reciente, Lijmer y cols.8 revisa 184 trabajos publicados entre 1996 y 1997, que evaluaban 218 tests diagnósticos. Observan que cumplen los 8 criterios de calidad que revisaron, sólo el 6,8% de los artículos y el 30% cumplían 6 o más. Este trabajo demuestra, empíricamente, por primera vez que el incumplimiento de los estándares de calidad genera una sobrevaloración de la valía de los tests diagnósticos, Rev. Esp. Med. Nuclear, 2001;20:393-412
Hay diseños apropiados y válidos para la investigación de pruebas diagnósticas que deberían considerarse al margen de las escalas de evidencia utilizadas para evaluar investigación terapéutica. De lo contrario, casi ningún test estaría actualmente bien evaluado y ni siquiera podrían evaluarse correctamente de ahora en adelante. Thornbury y cols. 11 propugnan, o mencionan, más bien, que en vez de un ensayo clínico, quizá sea válido hacer una comparación de dos pruebas entre sí para medir efectividad diagnóstica en términos de sensibilidad y especificidad y dejar para otros diseños el impacto de los tests en el manejo y supervivencia (investigación de resultados). Si queremos tomar una actitud práctica hemos de aprovechar las ventajas que otorgan las pruebas diagnósticas. La característica que más ventajas proporciona es la posibilidad de realizar el test a estudio y el de comparación a un mismo paciente y comparar después los resultados. Con esto se evita el problema de conseguir dos poblaciones comparables, aleatorizando a un gran número de pacientes, que es el aspecto más costoso y complicado de los ensayos clínicos. A cambio, la selección de pacientes en la investigación de efectividad diagnóstica debe ser prospectiva, con pacientes consecutivos y con un espectro adecuado y representativo de la enfermedad. Un problema añadido es que en muchos casos no se pueden contrastar los resultados de la prueba con un estándar lo suficientemente fiable, bien porque no exista o porque sea cruento y no justificable en todas las situaciones. Existen diversos diseños o diversas estrategias de muestreo para el estudio de pruebas diagnósticas 12: • El más apropiado es la selección prospectiva o transversal de pacientes provinientes de un conjunto mezclado enfermos-no enfermos sin que se conozca el diagnóstico (tal como suele ocurrir en clínica) y a los que se realiza la prueba problema y la estándar. A partir de este diseño pueden calcularse sensibilidad y especificidad y también valores predictivos ya que se trata de una muestra representativa cuya prevalencia puede conocerse. • Hay otras posibilidades de menor nivel científico:
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
395
Tabla I CRITERIOS PARA LA VALORACIÓN DE UN ARTÍCULO SOBRE DIAGNÓSTICO ¿Son válidos los resultados del estudio acerca de la efectividad de una prueba diagnóstica? ¿Existió una comparación ciega e independiente de la prueba a estudio con un estándar de referencia? ¿Fue la prueba diagnóstica evaluada en un espectro adecuado de pacientes (como en los que se aplicará la prueba diagnóstica en la práctica clínica)? ¿Fue el estándar de referencia aplicado independientemente del resultado de la prueba a estudio? ¿Demuestran estos resultados (válidos) una adecuada capacidad de la prueba para distinguir los pacientes que tienen y no tienen la enfermedad? ¿Se presentan los resultados de efectividad del examen o se proporcionan los datos necesarios para su cálculo? ¿Puedo aplicar estos resultados válidos e importantes en la asistencia a mis pacientes? ¿Es la prueba disponible, reproducible, segura y precisa en nuestro medio? ¿Podemos hacer una estimación de la probabilidad pretest de nuestro paciente? ¿Afectará la probabilidad postest resultante el manejo de mi paciente y le ayudará a estar mejor?
una, elige dos muestras separadas de pacientes sabiendo cuáles tienen o no tienen la enfermedad y se les aplica la prueba a estudio (estudios de casos y controles); otra elige también dos grupos, pero a partir del resultado del test a estudio y aplica la prueba de referencia posteriormente. Ambas proporcionan sensibilidad y especificidad, pero no valores predictivos, ya que se puede variar arbitrariamente la proporción de enfermos-no enfermos (según cuántos elijamos de cada grupo) y por lo tanto, modificar la prevalencia. A diferencia del tratamiento, no seguiremos la guía de lectura crítica de un artículo sobre una prueba diagnóstica 13 proporcionada en las «Guías del usuario de la literatura médica» editadas en serie en JAMA por el Evidence Based Medicine Working Group de la Universidad de McMaster (http://www.cche.net/ebm/userguid), sino que adaptaremos la guía modificada que aparece en la 2.ª edición del libro Evidence-Based Medicine de Sackett y cols. 2 (tabla I). Hay que recordar que estas guías sirven para comprobar si un artículo cumple los principales objetivos de la lectura crítica que son: la validez interna (veracidad o aproximación a la verdad) de los resultados del estudio y la validez externa (utilidad o aplicabilidad clínica de los resultados). Punto clave 2 Las habilidades en lectura crítica nos permitirán evaluar sistemáticamente el trabajo a estudio: su validez, su relevancia y su aplicabilidad.
El primer aspecto a tener en cuenta, entonces, es la validez del estudio: Comenzando con la 1.ª pregunta: Rev. Esp. Med. Nuclear, 2001;20:393-412
1. ¿Son los resultados del estudio acerca de la efectividad de una prueba diagnóstica válidos?
— ¿Existió una comparación ciega e independiente de la prueba a estudio con un estándar de referencia? Esta primera pregunta fundamental tiene varios aspectos: • El primero, ¿se comparó la prueba a estudio con una prueba o estándar de referencia válida y ampliamente aceptada? Los tests diagnósticos se realizan con la intención de averiguar la naturaleza de una dolencia. Para saber si un test acierta o no acierta en su diagnóstico se compara con lo que se llama prueba de referencia o gold standard, que es la prueba que generalmente, da el diagnóstico de certeza, pero que no se puede utilizar sistemáticamente por ser agresiva, cara o difícil. Se requiere que la prueba de referencia tenga una capacidad adecuada para discriminar entre enfermos y sanos, demostrada y aceptada científicamente (ej.: biopsia mediastínica en linfoma, coronariografía en cardiopatía isquémica, mediastinoscopia en estadiaje de adenocarcinoma no microcítico, necropsia en la enfermedad de Alzheimer, etc.). La sensibilidad y especificidad no son más que porcentajes o proporciones de aciertos del test respecto a enfermos y sanos, o lo que es lo mismo, respecto a los enfermos y sanos que detecta la prueba de referencia. Por lo tanto, si esta prueba no es apropiada, es dudosa la validez de los resultados. Cuando se investiga un test, lo ideal es aplicar a todos los pacientes la misma prueba de referencia, pero a veces, si es de riesgo se puede aplicar otra alternativa menos cruenta en los pacientes con el test negativo o poca evidencia de enfermedad 2.
396
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
Punto clave 3 Cuando se investiga un test, lo ideal es aplicar a todos los pacientes una misma prueba de referencia válida, con una capacidad para discriminar entre enfermos y sanos, demostrada y aceptada científicamente.
El segundo aspecto, ¿la comparación con el estándar de referencia fue ciega e independiente?, está emparentado con la necesidad del enmascaramiento en la recogida de datos de los ensayos clínicos (doble o simple ciego), ya explicado en el anterior capítulo de MBE. Su objetivo es detectar la posible existencia del sesgo de revisión, interpretación u observación, que puede producirse por influencia de factores externos ajenos a la prueba, sobre todo cuando ésta es de valoración subjetiva 14-15. Además de la tendencia consciente o inconsciente que tenemos a favorecer lo más cercano o lo más conocido, este sesgo puede producirse cuando al valorar la prueba problema se conoce el diagnóstico final o el resultado de la prueba de referencia, porque este conocimiento puede influir en la interpretación del examen diagnóstico, casi siempre inclinando resultados dudosos hacia la positividad o la negatividad. También podría ocurrir que la prueba a estudio influyera en los resultados de la prueba estándar si el revisor tiene conocimiento de aquella. En el caso de que se conozcan datos de la historia clínica del paciente, se puede añadir ésta a la información del test, con lo que la efectividad resultante sería mayor. En los artículos de Reid 9 y Lijmer 8 mencionados antes, el 62% y 68%, respectivamente, de los trabajos recisados podían tener sesgo de revisión. Lijmer y cols. 8 también han medido la magnitud de la influencia de este sesgo y concluyen que multiplica por 1,3 el valor real del test. La forma de evitar el sesgo de revisión es realizar la interpretación del test de referencia y del test problema por personas independientes y que sean ciegas (no conozcan) a los resultados del otro test, y a la historia clínica. Lo más frecuente en la literatura es que este punto no conste en la metodología.
Punto clave 4 La forma de evitar el sesgo de revisión es realizar la interpretación del test de referencia y del test problema por personas independientes y que no conozcan los resultados del otro test.
Rev. Esp. Med. Nuclear, 2001;20:393-412
Ejemplo: Supongamos que estamos evaluando efectividad de la gammagrafía de pulmón en el diagnóstico de tromboembolismo pulmonar (TEP) y al hacer la lectura de las gammagrafías consta en el sobre el resultado de la arteriografía pulmonar. Seguramente no podremos sustraernos a este conocimiento y habrá una influencia, consciente o inconsciente, en los resultados. Nos ha ocurrido a todos que interpretamos algo como negativo o dudoso. Después viene el clínico con una Rx o un resultado de biopsia, y cuando revisamos la gammagrafía otra vez, a veces encontramos cosas que no habíamos visto. Convertirnos un resultado negativo en un positivo, o uno indeterminado en un positivo o un negativo, haciendo con ello la prueba más eficaz (de forma inapropiada), más parecida al estándar, porque el estándar ha influido en la interpretación de la prueba problema que estamos evaluando. Ejemplo: Siguiendo en el mismo supuesto anterior: estamos interpretando una de las gammagrafías pulmonares y nos parece de probabilidad intermedia o «borderline» con alta. Supongamos que en este momento encontramos dentro del sobre la historia clínica del paciente y leemos que ha tenido una intervención de cadera hace 10 días. Seguramente ahora veremos los defectos más claros que antes y al final puede que diagnostiquemos alta probabilidad influidos por ese dato. Si calculamos la efectividad de la prueba así, los valores resultantes contendrán la información suministrada por los datos clínicos y no sólo la concerniente a la prueba. Pero, además, cuando este resultado de gammagrafía llegue al médico peticionario lo sumará a los datos clínicos, entre los que figura la intervención. De este modo, el valor predictivo de la intervención de cadera, se contará 2 veces (una en la gammagrafía y otra en la integración diagnóstica) y la probabilidad de TEP aumentará con ello inadecuadamente.
— ¿Fue la prueba diagnóstica evaluada en un espectro adecuado de pacientes como en los que se aplicará la prueba diagnóstica en la práctica clínica? En este punto es preciso analizar los sujetos incluidos en el estudio. La sensibilidad y especificidad son características de un test relativamente invariables, pero estos índices pueden cambiar si se calculan en grupos de población con características diferentes 2, 9. Para un test diagnóstico es relativamente fácil detectar enfermedades muy floridas, o en estadios avanzados. Por el contrario, un test saldrá casi siempre negativo si se aplica a individuos sanos. La utilidad de los tests en estos casos es dudosa, porque si la enfermedad es muy evidente apenas se necesitan hacer pruebas (a no ser confirmatorias antes de un tratamiento agresivo), y en los individuos sanos no deben
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
realizarse pruebas (a no ser las de screening). Suele ser habitual que algunas pruebas de diagnóstico se estudien inicialmente en individuos muy enfermos o muy sanos. Pero, en la clínica lo que hay son pacientes que pueden tener la enfermedad o pueden no tenerla, o incluso pueden tener otra enfermedad parecida que confunda los resultados. Estos pacientes tienen un amplio abanico de grados de enfermedad, desde grave a leve, en los que descubrirla ya no resulta tan sencillo. • Lo ideal es investigar los tests en grupos de pacientes representativos de aquéllos a los que se aplicará el test en la práctica. Si no es así se incurre en un sesgo de selección o espectro. La descripción del espectro de pacientes en los que se ha estudiado un test se omite o es incorrecta en un 73% de los artículos 9. • Se sabe que si el test se evalúa en un grupo de pacientes ya enfermos y un grupo de sanos por separado (caso-control) se sobreestima mucho la efectividad diagnóstica del test. También tiene este efecto la no descripción de la población a estudio 8. Hay algunas variables como la edad y sexo que pueden influir en la efectividad diagnóstica. Cuando se sospecha esta influencia, debe realizarse análisis por subgrupos, como ocurre por ejemplo en la evaluación de la perfusión miocárdica en mujeres 16. • El sesgo de selección o espectro puede evitarse realizando incorporación prospectiva de pacientes consecutivos al estudio, o seleccionando muestras representativas de ellos. Es importante que la selección se efectúe en el medio donde los pacientes son atendidos (consulta, servicio hospitalario...), y no en el servicio que realiza la prueba, siempre prefijando los criterios de inclusión y exclusión y anotando los motivos de exclusión inesperados. Puede ser incorrecto hacer la selección de los pacientes en el servicio central que realiza la prueba. Por ejemplo, es muy común encontrar trabajos que analizan los pacientes a los que se realiza una determinada gammagrafía o que figuran en los archivos del Servicio de Medicina Nuclear. Esta selección aunque sea prospectiva y consecutiva, es incorrecta, porque los criterios de petición de los clínicos no se conocen o no están estandarizaPunto clave 5 El sesgo de selección o espectro puede evitarse realizando incorporación prospectiva de pacientes consecutivos al estudio, o seleccionando muestras representativas de ellos.
Rev. Esp. Med. Nuclear, 2001;20:393-412
397
dos previamente y por lo tanto pueden estar sesgados (pueden pedir la prueba sólo a los dudosos, o a los más graves, o a un tipo histológico, o a los conocidos...). Ejemplo: Reinartz y cols. 17 diseñan un estudio para diferenciar lesiones benignas/malignas en columna lumbar por medio del SPET óseo. Sus resultados muestran que en cuerpo vertebral un 47% de las lesiones resultan ser malignas y un 53% benignas. Esto nos resulta sorprendente. Si leemos la metodología del estudio observamos que, aunque se dice que son pacientes consecutivos, 58% tienen historia oncológica y 9,7% tienen sospecha oncológica, lo que indica una prevalencia posible de enfermedad neoplásica cercana al 70%. Es natural que en estos pacientes muchas lesiones, estén donde estén, sean malignas (sobre todo cuando hay enfermedad con diseminación ósea). Necesitaríamos saber cuántas de estas lesiones ocurrieron en pacientes con neoplasias y en cuántos sin neoplasia (análisis de subgrupos), pero este dato no se aporta. Tampoco se recoge si esos hallazgos eran únicos o en el seno de enfermedad metastásica, en cuyo caso la probabilidad de ser maligna aumenta. En sus resultados dan una probabilidad de malignidad de una lesión localizada en cuerpo vertebral del 36,5%. El espectro de pacientes está sesgado hacia la neoplasia. Sin hacer subgrupos, no podemos generalizarlos a cualquier paciente que se nos remite por dolor lumbar. ¿A quién aplicamos estos resultados, a pacientes con neoplasia o sin neoplasia? Ejemplo: Ha sido habitual que en los estudios sobre diagnóstico de cardiopatía isquémica mediante el SPET de perfusión miocárdica 99mTc-MIBI, se incluyeran una población casi sana, con una muy baja prevalencia de enfermedad coronaria (menor del 1%), o bien pacientes ya diagnosticados con una alta prevalencia de enfermedad coronaria. En el primer caso se están aumentando los verdaderos negativos y la especificidad, y en el 2.º caso los verdaderos positivos y la sensibilidad. Así Taillefer y cols. 18 incluyen en uno de sus artículos, un 17% de pacientes en los que previamente se había diagnosticado infarto y en los que, al ser la probabilidad de cardiopatía isquémica del 100%, se encontrará más fácilmente un verdadero positivo. Ejemplo: Un artículo de Schillaci y cols. 19 habla de la importancia del SPET con 111In-Pentreotide en la detección de insulinomas. Se describe una sensibilidad de detección de insulinoma del 87,5% y no da cifras de especificidad, ni se pueden sacar. Es una sensibilidad alta, sobre todo cuando se sabe que en el insulinoma la densidad de receptores de somatostatina es mucho más baja que en otros tumores y, además, el resto de la bibliografía refiere unas cifras considerablemente más bajas. La causa de esta efectividad alta, sólo en términos de sensibilidad, se debe a que la prevalencia de
398
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
enfermedad es del 100% (14/14 pacientes). Es raro que el 100% de las sospechas de una enfermedad resulten acertadas. Se han elegido pacientes en los que la presencia de insulinoma era algo más que una sospecha. También pudieron ser pacientes con enfermedad muy evidente. Esto supone claramente un sesgo de selección o de espectro. Dudaremos a la hora de aplicar estos resultados a nuestros pacientes con sospecha de insulinoma.
— ¿Fue el estándar de referencia aplicado independientemente del resultado de la prueba a estudio? Esta pregunta indaga la posible existencia del sesgo de verificación en un estudio. Ya se ha comentado que los resultados del test problema necesitan verificarse y compararse con una prueba estándar válida y aceptada. A veces la prueba estándar es cara, o cruenta, o complicada, o peligrosa, y los clínicos no encuentran justificado aplicarla en los pacientes con baja probabilidad de enfermedad o con el test problema negativo. De este modo, la prueba de referencia se hará con más frecuencia en los pacientes con prueba problema positiva, en los que la probabilidad de encontrar un resultado verdadero positivo es mayor. Como la prueba no se aplica a los negativos dejan de detectarse casos de enfermedad falsos negativos. La consecuencia es que se infravalora la prevalencia y se sobrevalora la sensibilidad y el valor predictivo negativo. Según Reid y cols. 9, el 54% de los artículos publicados entre 1978 y 1993 no especifican si evitan el sesgo de verificación. El sesgo de verificación puede producirse al contrario: analizando la prueba problema sólo en los que previamente tenían realizada la prueba estándar. Cuando se cree que no es apropiado aplicar la prueba estándar a los pacientes con prueba problema negativa, se acepta que se aplique un segundo estándar o estándar alternativo, que casi siempre es la evolución de la enfermedad en el tiempo (sin intervención) para corroborar el resultado negativo. Sin embargo, Lijmer y cols. 8 comprueba que este sistema Punto clave 6 El sesgo de verificación sobrevalora la efectividad de un test diagnóstico y se produce cuando la prueba de referencia se aplica más frecuentemente en los pacientes que tienen el test problema positivo.
de doble estándar sobrevalora la efectividad diagnóstica del test. Rev. Esp. Med. Nuclear, 2001;20:393-412
Ejemplo: Un estudio publicado en 1992 por Kostakoglu 20 sobre efectividad diagnóstica de 67Ga en masa residual postratamiento de linfomas, se obtiene una sensibilidad del 96% y una especificidad del 80%. Cuando revisamos el Material y Métodos del artículo observamos que el gold estándar es la biopsia, que se ha practicado a todos los pacientes. De los 30 pacientes biopsiados 25 tuvieron linfoma activo y 25 tuvieron 67Ga positivo. Podemos sacar la conclusión de que el resultado positivo del 67Ga fue el decisor principal para la realización del estándar, de lo contrario habrían entrado más pacientes 67Ga negativo, que siempre son más frecuentes en las masas residuales postratamiento.
2. ¿Demuestran estos resultados (válidos) una adecuada capacidad de la prueba para distinguir los pacientes que tienen y no tienen la enfermedad?
— ¿Se presentan los resultados de efectividad del examen o se proporcionan los datos necesarios para su cálculo? Si hemos pasado el anterior bloque de preguntas y hemos dado por válidos los resultados, falta saber si éstos son importantes de cara al diagnóstico de la enfermedad de que se trate. El objetivo del test es dis-
Punto clave 7 La aplicación de una prueba diagnóstica de imagen, hace más o menos probable una enfermedad, pero casi nunca la confirma o descarta totalmente.
tinguir entre enfermos y sanos. Si, por el contrario, el estudio tiene defectos importantes detectados con las preguntas previas no es aconsejable aplicar los resultados, aunque sean relevantes. Se considera prueba diagnóstica cualquier elemento o instrumento que pueda utilizarse para obtener información acerca de la salud o enfermedad de un individuo. Dicho así, se comprende la amplitud de posibilidades que admite esta definición, abarcando desde los signos y síntomas clínicos que, conjunta o individualmente considerados posibilitan juicios diagnósticos, hasta las pruebas de laboratorio o imagen más sofisticadas 21. Nos ocuparemos aquí únicamente de las pruebas diagnósticas de imagen en Medicina Nuclear, pero la consideración de los signos y síntomas como elementos de diagnóstico nos sirve
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
para introducir un concepto importante en el proceso de diagnóstico. Al igual que la existencia de un signo en la exploración física hace más o menos probable una enfermedad determinada, la aplicación de una prueba diagnóstica de imagen, aunque sea de última generación, lo que posibilita es también hacer más o menos probable la enfermedad, pero no confirmarla o descartarla totalmente. La causa de que esto sea así hay que buscarla en el rendimiento diagnóstico de las pruebas: casi ninguna tiene la capacidad de detectar siempre (resultado positivo) o de descartar siempre (resultado negativo). • Si una prueba no detecta siempre, significa que en algunos casos da resultado negativo, cuando en presencia de la enfermedad debería dar positivo. En otras palabras obtiene un falso negativo (FN). • Al contrario, si una prueba no descarta siempre, significa que en algunos casos da resultado positivo, cuando en ausencia de enfermedad debería dar negativo: se obtiene un falso positivo (FP). • En los demás casos la prueba da positivo cuando hay enfermedad [verdadero positivo (VP)] y negativo cuando no la hay [verdadero negativo (VN)]. Cuantos menos resultados FP y FN tiene una prueba, mejor es. Hasta aquí todo bien. El problema es que cuando en la práctica obtenemos un resultado positivo o negativo no hay manera de diferenciar el verdadero del falso a priori y persiste una incertidumbre diagnóstica que será mayor cuanto mayor sea la proporción de resultados FP y FN del test. Esta consideración probabilística es un concepto fundamental dentro de la MBE y la epidemiología clínica y sirve para entender correctamente el proceso de diagnóstico en cualquier terreno. Todo esto no es nuevo. Leamos la siguiente cita de Epícteto (S I-II d. de JC): «Las impresiones mentales son de cuatro tipos: cosas que son lo que parecen ser; o no lo son y no parecen serlo; o lo son y no parecen serlo; o no lo son, aunque parecen serlo. Es misión del hombre sabio tomar la decisión correcta en todos estos casos.»
«el riesgo puede ser definido como una manera sistemática de negociar los azares e inseguridades inducidos e introducidos por la propia modernización 22» «entramos en una sociedad en la que los riesgos ya no pueden ser atribuidos a causas externas... Asumir esta realidad —aceptar los riesgos, elegir en la incertidumbre e interrogarse sobre las consecuencias— significa una pequeña revolución cultural: el paso de la modernidad simple a la modernidad reflexiva 23».
Cuando recibimos el resultado de una prueba diagnóstica no sabemos si el paciente tiene o no tiene la enfermedad con una seguridad del 100%: contamos con un error. Pero sí sabemos si el resultado de la prueba es positivo o negativo y esto es información que debemos aprovechar. Si conocemos bien el test (su proporción de falsos y verdaderos resultados), podremos controlar el grado de información que nos brinda: — De los enfermos, ¿cuántos vamos a detectar como positivos?: sensibilidad (S). Probabilidad de que la prueba dé positiva entre los sujetos enfermos (con prueba de referencia positiva). S=
Rev. Esp. Med. Nuclear, 2001;20:393-412
VP VP + FN
— De los sanos, ¿cuántos vamos a detectar como negativos?: especificidad (E). Probabilidad de que la prueba dé negativa entre los sujetos sanos (sujetos con prueba de referencia negativa). E=
VN VN + FP
O, desde otro punto de vista más práctico: — De los positivos, ¿cuántos están enfermos?: valor predictivo positivo (VPP). Probabilidad de estar enfermo cuando la prueba da positiva. VPP =
Si se mira bien, puede que no encontremos una definición mejor de VP, VN, FN y FP. Es más, Epícteto afirma que es responsabilidad de cada uno saber manejar esta «realidad», reflexionar y decidir en esta «realidad». Con otra cita veremos que estas consideraciones de antaño son intemporales, y en la actualidad abarcan campos de la filosofía y la sociología en los que la MBE puede encuadrarse:
399
VP VP + FP
— De los negativos, ¿cuántos están realmente sanos?: valor predictivo negativo (VPN). Probabilidad de estar sano cuando la prueba da negativa. VPN =
VN VN + FN
400
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
Tabla II TABLA DE 2 × 2 DE EFECTIVIDAD DIAGNÓSTICA Prueba de referencia Prueba problema
+
–
+
VP (a)
FP (b)
a+b
–
FN (c)
VN (d)
c+d
a+c
b+d
N=a+b+c+d
VP: verdaderos positivos: enfermos con la prueba positiva. FP: falsos positivos: no enfermos con la prueba positiva. FN: falsos negativos: enfermos con la prueba negativa. VN: verdaderos negativos: no enfermos con la prueba negativa. a + c: enfermos según la prueba de referencia (prevalencia de enfermedad o probabilidad preprueba). b + d: no enfermos según la prueba de referencia. a + b: casos con la prueba problema positiva. c + d: casos con la prueba problema negativa.
La eficacia o validez de una prueba diagnóstica reside en su capacidad para discriminar la presencia o ausencia de la enfermedad objeto de estudio y se mide mediante estos cuatro parámetros: S, E, VPP y VPN. Todos resultados posibles, los básicos ya mencionaPunto clave 8 La efectividad de una prueba diagnóstica reside en su capacidad para discriminar la presencia o ausencia de enfermedad y se mide mediante la sensibilidad y la especificidad.
dos y todas sus derivaciones se calculan a partir de una tabla de contingencia 2 × 2 (tetracórica) formada por 4 casillas excluyentes (tabla II). El objetivo último de todo trabajo de investigación sobre una prueba diagnóstica es rellenar con datos fiables (no sesgados) esas 4 casillas: Tomemos un ejemplo que nos ayudará a ir desgranando los parámetros de validez de una prueba diagnóstica. Para ayudar a que los cálculos no sean onerosos, dado que cada parámetro debe ir acompañado de su IC 95%, se ha diseñado en una hoja Ex-
cel una calculadora a tal efecto que puede obtenerse de la página web de la Sociedad Española de Medicina Nuclear, en su sección de profesionales. El trabajo seleccionado de Yasukawa y cols. 24 valora la utilidad de la PET CON 11C-metionina en la detección de metástasis linfáticas mediastínicas e hiliares en el cáncer de pulmón. El trabajo también evalúa la validez de la TC (tomografía computarizada), por lo que permite comparar los parámetros de validez de ambas pruebas. Las tablas tetracóricas de la PET y TC frente a la prueba de referencia (la histología) son (tablas III y IV). Utilizando la calculadora de diagnóstico obtenemos las siguientes estimaciones (hoja 1 de Excel) con sus correspondientes IC 95% (hoja 2 de Excel): tabla V. Los intervalos de confianza están automatizados utilizando el método más apropiado en cada caso, porque es sabido que si la muestra es pequeña y los valores de las estimaciones son extremos (sensibilidad o especificidad próximas al 0 o al 1, los límites del intervalo de confianza calculados por la aproximación a la normal z: N (0,1) pueden caer por debajo de 0 o por encima del 1 (100%). Para obviar estos artefactos matemáticos se debe aplicar el método exacto binomial de Miettinen o el método de Fleiss. Según los resultados obtenidos, la prueba de PET es más sensible que la TC para la detección de metástasis linfáticas mediastínicas e hiliares en el cáncer de pulmón. Entre un 70,5% (en el peor de los casos) y un 95,3% (en el mejor de los casos) de los pacientes con metástasis linfáticas tienen una PET positiva. La PET, dejaría de detectar al menos el 4,7% de pacientes con metástasis (FN). La prueba de PET es más específica que la TC para la identificación de metástasis linfáticas mediastínicas e hiliares en el cáncer de pulmón. Entre un 83,2 y un 96% de los pacientes sin metástasis linfáticas tienen una PET negativa. Al menos un 4% de los resultados positivos no serían metástasis, sino otro tipo de afectación (FP).
Tablas III y IV TABLAS DE 2 × 2 DE LOS RESULTADOS DE PET Y TC EN LA DETECCIÓN DE METÁSTASIS LINFÁTICAS EN CA. DE PULMÓN Histología
Histología +
–
+
–
+
31 (a)
8 (b)
39 (a + b)
+
19 (a)
14 (b)
33 (a + b)
–
5 (c)
82 (d)
87 (c + d)
–
17 (c)
76 (d)
93 (c + d)
36 (a + c)
90 (b + d)
36 (a + c)
90 (b + d)
PET
Rev. Esp. Med. Nuclear, 2001;20:393-412
TC
N = 126
N = 126
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
Tabla V PARÁMETROS DE EFECTIVIDAD DIAGNÓSTICA DE LA PET Y TC EN LA DETECCIÓN DE METÁSTASIS MEDIASTÍNICAS PET S E VPP VPN
TC
Valor
IC95%
Valor
IC95%
86,1% 91,1% 79,4% 94,2%
70,5-95,3 83,2-96 63,5-90,7 87-98,1
52,7% 84,4% 57,5% 81,7%
34,1-71,4 75,8-93 38,2-76 72,7-90,7
En la práctica clínica no se trata de comprobar la concordancia de la prueba diagnóstica con la de referencia, sino si el resultado obtenido con la prueba, positivo o negativo, es o no correcto. Los parámetros que permiten esta valoración son los valores predictivos. Según los VPP obtenidos, el 79,4% de los pacientes con la prueba de PET positiva y el 57,5% de los pacientes con la prueba de TC positiva tendrían metástasis según el estándar histológico. Se comprueba que la prueba de TC tiene un mayor número de resultados falsos positivos que la PET (42,5% frente a 20,6%). El VPN muestra que el 94,2% de los pacientes con la prueba de PET negativa y el 81,7% de los pacientes con la prueba de TC negativa estarían libres de metástasis según el estándar histológico. Se comprueba que la prueba de TC tiene un mayor número de resultados falsos negativos que la PET (18,3% frente a 5,8%). Hay otros parámetros derivados de los anteriores. Son: — Complementario de la sensibilidad (1-S ó 100S, según se exprese S). Proporción de FN o proporción de pacientes con metástasis en quienes la prueba es negativa. Es decir, c / (a + c). A mayor sensibilidad menor proporción de FN. En nuestro ejemplo la TC presenta una mayor proporción de falsos negativos que la PET (47,3% frente a 13,9%). — Complementario de la especificidad (1-E ó 100-E, según se exprese E). Proporción de FP o proporción de individuos sanos en quienes la prueba es positiva. Es decir, b / (b + d). A mayor especificidad menor proporción de FP. En nuestro ejemplo la TC presenta una mayor proporción de falsos positivos que la PET (15,6% frente a 8,9%). — Valor global (accuracy). Proporción global de aciertos sean positivos o negativos.
Rev. Esp. Med. Nuclear, 2001;20:393-412
VG =
401
VP + VN N
Parámetro de amplia utilización en el mundo anglosajón pero de menor interés, dado que interesa más conocer la proporción de aciertos entre las poblaciones enferma y sana (sensibilidad y especificidad) que la proporción total de aciertos 25. En nuestro ejemplo el valor global de PET y TAC es 89,7 y 75,4%, respectivamente. — Cocientes de probabilidad. La dependencia de los valores predictivos respecto de la prevalencia de enfermedad ha llevado a la búsqueda de parámetros más estables, que engloban a la sensibilidad y la especificidad y que se denominan cocientes de probabilidad (o razones de verosimilitud o likelihood ratios). Como veremos más adelante, a partir de los CP se pueden calcular las probabilidades postprueba (valores predictivos) para cualquier prevalencia 25. • Cociente de probabilidad positivo (CP+). ¿Cuántas veces más probable es obtener un resultado positivo cuando se tiene la enfermedad que obtenerlo cuando no se tiene la enfermedad? También: probabilidad de un resultado positivo en presencia de enfermedad (S) dividida por la probabilidad de un resultado positivo en ausencia de enfermedad (100-E ó 1-E). O lo que es lo mismo el cociente entre la proporción de verdaderos positivos (PVP) y la proporción de falsos positivos (PFP). CP + =
a/a+c b/b+d
=
PVP PFP
=
S 1-E
• Cociente de probabilidad negativo (CP-). ¿Cuántas veces más probable es obtener un resultado negativo cuando se tiene la enfermedad que obtenerlo cuando no se tiene? CP + =
c/a+c d/b+d
=
PFN PVN
=
1-S E
También: probabilidad de un resultado negativo en presencia de enfermedad (1-S ó 100-S) dividida por la probabilidad de un resultado negativo en ausencia de enfermedad (E). O lo que es lo mismo, el cociente entre la proporción de falsos negativos (PFN) y la proporción de verdaderos negativos (PVN). Los CP pueden tomar valores entre 0 e infinito. El 1 es el valor nulo o indiferente debido a que en este
402
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
caso la probabilidad de un resultado sería igual en presencia o ausencia de enfermedad. Cuanto mayor es el CP+ sobre la unidad, mayor es la probabilidad del diagnóstico de la enfermedad y cuanto más bajo sea el CP- por debajo de 1, más disminuye la probabilidad del diagnóstico. Se considera que CP+ entre 510 son buenos y > 10 excelentes 12, 25. Utilizando la calculadora de diagnóstico obtenemos las siguientes estimaciones con sus IC 95%. CP + de PET: 9,68 (4,93-19); CP - de PET: 0,15 (0,06-0,34); CP + de TC: 3,39 (1,76-6,52); CP - de TC: 0,55 (0,36-0,85) Según estos números, un resultado positivo en la PET es nueve veces más frecuente en los enfermos con metástasis que en los que no tienen metástasis. La contribución a la detección de metástasis es menor en el caso de TC. Los CP - se mueven en una escala inversa a la de los CP +, y son más importantes cuanto más se aproximen a 0. — Peculiaridades de los parámetros de efectividad diagnóstica. • Relaciones entre la sensibilidad y especificidad. De todos es sabido que los valores de S y E tienen una relación inversa. Cuando uno aumenta, el otro disminuye. Los umbrales de positividad y negatividad son los que condicionan los niveles de cada parámetro. Esto remarca la importancia de definir bien los criterios de diagnóstico utilizados en cada prueba. Ejemplo: Si consideramos positivo para malignidad cualquier foco activo con 18FDG, seguramente detectaremos muchos positivos: tendremos mucha sensibilidad. Algunos focos serán lesiones malignas, pero otros también serán detectados siendo lesiones benignas, y aún podremos detectar variaciones de la normalidad: tendremos una baja especificidad por detectar como positivos focos que en realidad no son malignos. Ahora supongamos que consideramos positivos sólo los focos con actividad similar al corazón. Detectaremos menos focos positivos, incluso dejaremos de detectar algunos que sean malignos y que estén en el rango medio de actividad: la sensibilidad bajará. Sin embargo, aumentará la especificidad al obtener menos FP.
A veces interesará obtener mucha sensibilidad, con lo que se establecerá un umbral de positividad bajo. En otras ocasiones interesará una prueba específica y el umbral de positividad deberá elevarse. Lo mismo ocurre cuando se trata de variables cuanRev. Esp. Med. Nuclear, 2001;20:393-412
Tabla VI VARIACIONES DE LOS VALORES PREDICTIVOS CON LOS CAMBIOS DE PREVALENCIA Prevalencia
VPP
VPN
0,19 0,28 0,44 0,54
0,70 0,79 0,88 0,92
0,96 0,94 0,89 0,84
VPP: valor predictivo positivo. VPN: valor predictivo negativo.
titativas. Se considera positivo por encima de un nivel y negativo por debajo de él. Variando este nivel se obtiene un par de valores de S y E para cada umbral de positividad. Representando todos los pares de S en ordenadas y 1-E en abscisas, se obtiene una curva ROC característica de la prueba y se puede determinar el umbral óptimo de diagnóstico. • Relación entre la prevalencia (Prev) de la enfermedad y los valores predictivos. Los valores predictivos se llaman también probabilidades postprueba (Ppost) en general, o mejor cuando se refieren a pacientes concretos. Del mismo modo, la Prev (proporción de casos de enfermedad en una muestra o serie) se denomina probabilidad pretest (Ppre) indistintamente o mejor, cuando se aplica a un paciente concreto. Así como la S y E son parámetros relativamente fijos, con algunas excepciones, como ya hemos visto, los valores predictivos varían ampliamente con los cambios de Prev. Comprobaremos que esto es así. Supongamos que la serie de pacientes que venimos analizando, en vez de tener una Prev de 0,28 (28%) tuviera una Prev de 0,54, manteniendo constante S y E (para los ejemplos o simulaciones, esto se consigue multiplicando las casillas Punto clave 9 Así como la sensibilidad y especificidad son parámetros relativamente fijos, los valores predictivos varían ampliamente con los cambios de prevalencia.
a y c por un número que en este caso es 2). Recalculando parámetros se obtienen valores de VPP y VPN diferentes a los que teníamos (los expresamos en tanto por 1 para acostumbrarnos a las dos nomenclaturas). Calculamos también los valores predictivos de la PET para Prev de 0,44 y 0,19 (tabla VI). Vemos que los valores han cambiado para cada nivel de Prev. Los VPP mejoran con las Prev elevadas
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
Tabla VII TABLA DE 2 × 2 REESCRITA UTILIZANDO LA PREVALENCIA Y EL NÚMERO DE CASOS, SEGÚN EL TEOREMA DE BAYES
+
probable que se tenga la enfermedad que no se tenga). Oddspre =
Prueba de referencia Prueba problema
Prev Oddspost = Oddspre × CP 1 – Prev
–
+
a: Prev×N×S
–
c: Prev×N×(1-S)
d: (1-Prev)×N×E
Prev×N
(1-Prev)×N
b: (1-Prev)×N×(1-E) a + b c+d N=a+b+c+d
Prev: prevalencia; N: número de casos de la serie; S: sensibilidad; E: especificidad.
Después, se multiplica la oddspre por el CP positivo o negativo (que es otra odds), según haya sido el resultado de la prueba, para obtener la odds postest: Finalmente, se convierte la oddspost en Ppost: Ppost =
(porque la proporción de VP respecto a FP aumenta) y los VPN empeoran (porque aumenta la proporción de FN respecto a VN). Alternativamente, los VPN mejoran con Prev bajas y los VPP empeoran. Las leyes que rigen esta dependencia vienen integradas en el teorema de Bayes de probabilidad condicionada. Considerando N el n.º total de pacientes de la muestra, Prev la proporción de pacientes con la enfermedad y 1-Prev la proporción de pacientes sin la enfermedad, tenemos que NxPrev es el n.º de pacientes que padecen la enfermedad y Nx(1-Prev) el n.º de los que no la padecen. La tabla de 2 × 2 puede reescribirse de la siguiente manera 26 (tabla VII): Se puede calcular (anulando N): VPP =
Prev × S Prev × S + (1 – Prev) × (1 – E)
Las fórmulas expresan las relaciones entre S, E, Prev y los valores predictivos y se pueden VPN =
403
(1 – Prev) × E (1 – Prev) × E + Prev × (1 – S)
utilizar cuando no se conocen los números de las 4 casillas o cuando se quiere conocer el valor predictivo de un resultado adaptado a las condiciones de Prev o Ppre que queramos. Se aprecia que cuanto mayor sea la E y la Prev, mayor será el VPP, y cuanto mayor sea la S y menor la Prev, mayor será el VPN. Más adelante se verá cómo utilizar y sacar provecho a estas relaciones. Hay otra forma más sencilla de calcular los valores predictivos para diferentes variaciones de Prev-Ppre. Primero, debemos transformar la Prev en odds pretest (la odds expresa cuántas veces es más Rev. Esp. Med. Nuclear, 2001;20:393-412
Oddspost Oddspost + 1
• Resultados intermedios, indeterminados e ininterpretables. Además de los resultados positivos y negativos de un test, existen otros que tienen un valor diagnóstico dudoso (+/–), aunque este hecho es escasamente referido en la literatura 27. Es importante diferenciar los términos utilizados para referirse a este tipo de respuesta de los tests diagnósticos. Los resultados intermedios se producen cuando el CP del resultado no es el de un resultado positivo ni el de un resultado negativo (valores o categorías en la frontera de la normalidad). El indeterminado es el valor neutro por excelencia con CP de 1. El ininterpretable es el test que no cumple los requisitos de calidad necesarios o son técnicamente inadecuados para establecer un diagnóstico. Cuando se contempla la posibilidad de utilizar una prueba diagnóstica es importante saber si el test dará un resultado útil. Si una prueba tiene un índice de resultados +/– alto puede ser poco rentable aplicarlo, no sólo en términos de efectividad diagnóstica sino en términos económicos. Además, algunas pruebas pueden tener algún tipo de detrimento o efecto secundario, que puede darse al efectuar el test sin que éste aporte información diagnóstica válida. Forzar la entrada de un resultado +/– como un FP o FN ocasiona la infravaloración de la E y la S, respectivamente. Del mismo modo forzar la entrada de un valor +/– como VP o VN ocasiona la sobrevaloración de la S y la E, respectivamente. Para evitar estas soluciones artificiosas, Simel y cols. 27 sugiere ampliar la tabla de 2 × 2 a una tabla de seis celdas en la que indicar los resultados +/– obtenidos (tabla VIII). De esta tabla pueden extraerse nuevos parámetros como el rendimiento global del test (RG) que es la proporción de resultados positivos o negativos, sean
404
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
Tabla VIII TABLA DE SEIS CELDAS PARA INDICAR RESULTADOS INDETERMINADOS Prueba de referencia Prueba problema
+
–
+
VP (a)
FP (b)
a+b
–
FN (c)
VN (d)
c+d
+/–
IE (e)
IS (f)
a+c+e
b+d+f
e+f N=a+b+c+d+e+f
VP: verdaderos positivos; FP: falsos positivos; FN: falsos negativos; VN: verdaderos negativos; IE: resultados +/– en los enfermos; IS: resultados +/– en los sanos.
verdaderos o falsos, respecto al total de resultados. Cuanto más elevado es, mayor rendimiento tiene la prueba. El valor 1 indicaría que el test no tiene resultados +/–: VP + VN + FP + FN VP + VN + FP + FN + IE + IS Con la tabla de seis celdas puede apreciarse si un resultado +/– es más frecuente entre los enfermos o entre los sanos y calcularse el CP+/–: RG =
/ (IE + VP + FN) IS / (IS + FP + VN)
IE CP +/– =
Si el CP+/– es superior a 1, significa que el resultado +/– es más probable entre los enfermos, lo que puede ser aprovechable para el diagnóstico. Si el CP+/– es inferior a 1, significa que los resultados +/– son más probables cuando no se tiene la enfermedad. Poynard y cols. 28, comprueba en un trabajo sobre ictericia, que la proporción de resultados indeterminados es inversamente proporcional a la prevalencia de la enfermedad. En general, debe conocerse el RG antes de solicitar un test para decidir si va a ser rentable realizarlo. Sin embargo, una vez realizado el test, el resultado positivo o negativo es el único condicionante del valor predictivo.
3. ¿Puedo aplicar estos resultados válidos e importantes en la asistencia a mis pacientes?
El tercer paso de la lectura crítica es sopesar si los Rev. Esp. Med. Nuclear, 2001;20:393-412
resultados, además de ser válidos e importantes, pueden ser aplicables en nuestro medio y a un paciente concreto. Es el proceso de integración de los resultados de un estudio de investigación con nuestra práctica diaria. — ¿Es la prueba disponible, reproducible, segura y precisa en nuestro medio? De nada sirve que un test sea muy efectivo si no está convenientemente disponible en nuestro medio, es aplicable en él y además sus resultados son estables (reproducibles). Esta pregunta tiene varios niveles. Debemos preguntarnos si el medio en el que se obtuvo el estudio es similar al nuestro. Se sabe que hay grandes variaciones en la efectividad de una prueba cuando los resultados se trasladan de atención especializada o área hospitalaria a la atención primaria. Esto ocurre no sólo por variaciones en la prevalencia, sino también por variaciones en la intensidad o gravedad de la enfermedad 6, 9, 21. Si la prueba está disponible en nuestro medio, es imprescindible que la experiencia en su ejecución y valoración sea lo suficientemente amplia. Esto es importante para evitar variaciones en la interpretación de los resultados del test, especialmente cuando son subjetivos. El estudio de concordancia debería ser previo al estudio de validez de una prueba diagnóstica (sensibilidad, especificidad y valores predictivos), porque si el grado de concordancia de dos mediciones sobre la misma muestra es escaso, huelga valorar la capacidad de la prueba diagnóstica para clasificar correctamente a un paciente como enfermo o sano. Si la variación observada es alta, los resultados serán poco fiables y deberemos dudar seriamente sobre la aplicabilidad del test. Los estudios de concordancia valoran tanto el Punto clave 10 Si la variación intra e interobservador en la interpretación de un test diagnóstico es alta, los resultados serán poco fiables y deberemos dudar seriamente sobre su aplicabilidad.
grado de coincidencia intraobservador (un observador consigo mismo al estudiar la misma muestra) e interobservador (dos o más observadores que estudian la misma muestra), como la concordancia entre varias mediciones de una variable. En el apéndice 1 se explica ampliamente tanto el fundamento como la metodología de los análisis de concordancia.
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
— ¿Podemos hacer una estimación de la probabilidad pretest de nuestro paciente? — ¿Afectará la probabilidad postest resultante el manejo de mi paciente y le ayudará a estar mejor? Estas dos últimas preguntas de la guía de lectura crítica las vamos a trasladar a lo que corresponde a la aplicación de los resultados a pacientes concretos (4.º paso de la práctica de la MBE), ya que ambos apartados coinciden en esencia.
Aplicación de los resultados del estudio diagnóstico a mi paciente
Es el momento de aplicar a nuestro paciente concreto el test diagnóstico que nos hemos planteado. Seguramente hemos llegado hasta aquí para descartar o confirmar alguna enfermedad. Hemos sopesado la posibilidad de aplicar un test y hemos valorado críticamente uno o varios artículos sobre ese test. Nos ha parecido válido y sus resultados relevantes, y ahora queremos saber si cambiará nuestro manejo y será útil para nuestro paciente. Cuando pensamos en realizar una determinada prueba es porque en el proceso de diagnóstico, hemos «creído» probable alguna enfermedad concreta y nos ha parecido que la aplicación de la prueba elevará o disminuirá la probabilidad de la enfermedad. El proceso por el que se llega a formular una hipótesis diagnóstica de entre las muchas posibilidades que se plantean, se ha querido explicar por varias teorías. Razonamiento diagnóstico: El proceso de diagnóstico es fundamentalmente de tipo inferencial. Las múltiples posibilidades que se presentan durante el interrogatorio, exploración y manejo de pruebas diagnósticas, se seleccionan por medio de varios procesos que acortan o desvían el razonamiento según los nuevos datos que se van obteniendo. Esto posibilita la construcción de varias hipótesis cada vez más ajustadas y específicas, que se confirman o descartan a cada nueva aportación 29. La generación de hipótesis se realiza como explicaciones a la realidad del sujeto en dependencia de nuestro conocimiento médico general. Esta última condición es la que determina la aproximación correcta al diagnóstico y no el mecanismo de planteamiento. El planteamiento de hipótesis actúa tanto en médicos experimentados como no experimentados, desde el inicio mismo de la entrevista clínica. Las hipótesis planRev. Esp. Med. Nuclear, 2001;20:393-412
405
teadas son múltiples y actúan simultáneamente 30. El proceso tiende a favorecer o a apoyar las más probables, rechazando otras menos probables. Hay varios mecanismos que actúan complementariamente en el proceso de diagnóstico: • Reconocimiento del patrón, también llamado «gestalt»: Este método actúa cuando la presentación de los signos y síntomas del paciente corresponden a un modelo que previamente hemos aprendido y que reconocemos inmediatamente en su conjunto de forma refleja 30. Este método puede actuar tanto al principio como al final del diagnóstico. • Método exhaustivo: Consiste en la recopilación de grandes cantidades de datos de historia clínica, exploración y pruebas complementarias, sin que se plantee una estrategia previa. La elaboración de hipótesis viene a posteriori. Es propio de médicos poco experimentados y consume gran cantidad de recursos y tiempo 30. • Método causal: Funciona a partir de modelos fisiológicos o biológicos que explican el conjunto de hallazgos del paciente basados en relaciones causaefecto. El razonamiento causal se apoya en la lógica de la fisiología y fisiopatología como forma de construir hipótesis. Los nuevos elementos o signos serán incorporados sólo si apoyan o explican el modelo y se ajustan al mecanismo causal. Este tipo de razonamiento funciona especialmente en el proceso final de confirmación de hipótesis 29. • Método determinístico 29-30: Está basado en estrategias diagnósticas previamente definidas para cada síndrome o enfermedad. Las estrategias se plasman en forma de árbol con múltiples ramificaciones, de modo que cada una es excluyente en el mismo nivel. La progresión en el diagnóstico se produce por exclusión categórica (no ambigua) y verificación de algún elemento. Por ejemplo: «Si a tal pregunta responde “sí” entonces vaya por esta rama y abandone la otra...». Es el método que funciona especialmente en etapas iniciales de diagnóstico porque permite cortocircuitar o descartar grandes campos de posibilidades diagnósticas. • Método probabilístico: Este tipo de razonamiento ha dominado los estudios y discusiones sobre diagnóstico en los últimos años y en gran parte ha sido el más asumido en la forma de trabajo de la MBE. Se basa en establecer relaciones estadísticas de probabilidad entre las variables clínicas y las enfermedades que las producen. Se plantea que, ante un signo
406
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
o conjunto de signos, hay varias posibilidades diagnósticas y no una única. Las posibilidades tienen distintas probabilidades que pueden calcularse o intuirse en dependencia de la prevalencia de la enfermedad en el medio y de las características del paciente 2, 29, 31. Es deseable que en las distintas hipótesis planteadas se explicite la probabilidad asignada en números 31. La ventaja que ofrece este método es que permite estaPunto clave 11 El método probabilístico de diagnóstico se basa en establecer relaciones estadísticas de probabilidad entre las variables clínicas y las enfermedades que las producen.
blecer estrategias de manejo, dirigiendo las actuaciones de forma diferenciada: confirmar los diagnósticos más probables y descartar los más improbables o los más graves. Este tipo de proceso actúa tanto en etapas tempranas del diagnóstico como en etapas tardías y tiene la ventaja de que contempla simultáneamente enfermedades muy probables y poco probables. Aplicación del test según la estrategia de diagnóstico:
Una vez hecha esta introducción, pasamos a la utilización del test en nuestro paciente. El método probabilístico en el manejo diagnóstico de los pacientes no está generalizado, al menos en lo que se refiere al hecho de explicitar el grado de probabilidad numérica. En un trabajo de Reid y cols. 32 en el que entrevistan a 300 médicos clínicos de seis especialidades, se muestra que el método bayesiano de probabilidad condicionada es utilizado únicamente por el 3% de los médicos y el CP por el 1%. El 84% tenían en cuenta los valores de S y E del test, pero de una manera informal. Nos centraremos en la situación de contar con varias hipótesis de trabajo después de examinar al paciente. Resumimos la situación en un esquema de estrategia diagnóstica basado en un artículo de Richardson y cols. 33 (Fig. 1). Aunque en la práctica clínica a menudo han de utilizarse pruebas múltiples en serie o en paralelo, aquí se plantea la situación más simple de utilización de un solo test. Hay varios niveles en los que debemos actuar: 1. El primero es el relacionado con la asignación de la probabilidad pretest: ¿qué probabilidad tiene nuestro paciente de tener esta enfermedad? Vemos que la hipótesis más probable es la hipótesis principal (colocada a la izquierda de la escala de probabi-
Cuadro clínico y características del paciente Diagnóstico diferencial
Hipótesis principal
Hipótesis alternativa 1
Hipótesis alternativa 2
Ppre 1
0,5
0
Confirmar-descartar
Confirmar
Descartar
Test muy específico +
Test muy sensible –
↑ probabilidad
+
↓ probabilidad
↑ probabilidad
–
↓ probabilidad
1
0 Tratamiento
Más test
No tratamiento
FIG. 1.—Esquema simplificado de la utilización de pruebas diagnósticas a partir del enunciado de hipótesis según su probabilidad. Rev. Esp. Med. Nuclear, 2001;20:393-412
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
lidad, señalada desde la máxima probabilidad que es el 1 (100%), a la izquierda, hasta la mínima probabilidad, que es el 0, a la derecha). Le siguen la hipótesis alternativa 1 (con probabilidades intermedias) y a la derecha, la hipótesis alternativa 2 (con baja probabilidad). Veremos que estas hipótesis tienen un manejo diferenciado. Nos serviremos de ejemplos para explicarlo. Normalmente el razonamiento diagnóstico intuitivo produce este esquema: una hipótesis muy probable y otras menos probables entre las que suele haber una que, por su gravedad y no por su probabilidad, suele interesar resolver. Conviene explicitar el grado de probabilidad de cada una de ellas para facilitar los cálculos posteriores, y ahí está la dificultad. Los médicos no estamos acostumbrados a hacer este tipo de planteamiento, en parte porque no hemos recibido formación en este sentido y en parte porque la mayoría de las veces los datos con los que contamos son únicamente los que nos proporcionan nuestra experiencia en situaciones parecidas. Podemos hacer una aproximación a este cálculo de varias formas 2, 33. • Experiencia propia en situaciones parecidas. Es una fuente inmediata con la que podemos contar y que deriva de nuestro propio medio. Esta estimación es por ejemplo, del tipo: «cuando he visto un caso como este más del 50% de las veces era tal enfermedad». Sin embargo, a menudo, esta apreciación puede estar influenciada por variaciones extraordinarias de incidencia de algunas enfermedades o por casos inusuales (sesgo de memoria) y si la experiencia propia es escasa y atípica podemos llegar a conclusiones totalmente erróneas. • Es importante el apoyo de datos externos publicados sobre prevalencia de enfermedades en distintos medios. Por ahora estas fuentes son escasas, aunque hay excepciones importantes, por ejemplo la Prev o Ppre de cardiopatía isquémica en pacientes según las características demográficas y clínicas. • Se puede adoptar como válida la Ppre de la muestra del artículo que estamos leyendo sobre el tema y que queremos aplicar a nuestro paciente. La única condición es que el medio y la muestra, como siempre, sean representativos. Estas fuentes son complementarias y actúan simultáneamente modulando la estimación final. Por ejemplo: un cuadro puede parecernos enormemente sugestivo de sacroileitis brucelósica, pero si el medio dónde ejercemos tiene una baja prevalencia publicada de esta enfermedad, la Ppre estimada debe baRev. Esp. Med. Nuclear, 2001;20:393-412
407
jar considerablemente. 2. El segundo nivel es el de la elección de la estrategia a seguir y, en consecuencia, la elección de la prueba diagnóstica apropiada para ese problema concreto. Seguramente, por eso hemos hecho una lectura crítica de un artículo sobre una prueba diagnóstica que responda a esa incógnita. En este paso es imprescindible conocer la S y E de una prueba y cómo utilizarlas correctamente (ver más adelante las distintas estrategias diagnósticas). 3. En el tercer nivel se calcula o deriva la Ppost resultante (confirmar-descartar) y se toma una decisión (tratar-no tratar). El esquema de diagnóstico puede desglosarse en tres estrategias. Pormenorizando: Estrategia 1. Confirmar un diagnóstico Esta estrategia es la que en la figura 1, parte de la hipótesis principal y se desarrolla en vertical indicando que el objetivo es confirmarla mediante un test muy específico. Se ha dicho que la hipótesis principal es la que mayor Ppre tiene de todas las planteadas y se ha explicado la forma de estimar esta probabilidad. Se considera que una enfermedad tiene alta probabilidad cuando su Ppre está por encima del 6070%. Parece lógico que el objetivo sea confirmar dado que es más corto el camino de la Ppre hacia 100% (confirmar) que hacia 0% (descartar). Si la Ppre nos parece que es suficientemente alta como para tomar una decisión, no está indicado hacer más pruebas diagnósticas. Si necesitamos mayor seguridad porque el tratamiento es de riesgo, entonces utilizaremos el test confirmatorio. A los distintos niveles marcados para decidir o no el tratamiento se les llama umbrales 10, 34 y dependen del tipo de enfermedad, de la gravedad de la misma y del tipo de decisión a tomar con posterioridad. Para confirmar debe utilizarse un test muy específico. Aunque la E de un test se calcula en el grupo de pacientes sin la enfermedad, en realidad y al contrario de los que suele parecer, una alta E sirve para confirmarla. Se entenderá esto fácilmente si observamos la tabla de 2 × 2 y comprobamos que la E aumenta si disminuye el n.º de FP. Con la disminución de FP aumenta el VPP. Si imaginamos el caso extremo, y la E es del 100%, los FP serán 0, y todos los positivos serán VP, el VPP será del 100% y confirmará la enfermedad. En realidad, como hay contados test que tengan E de 100%, la estrategia confirmatoria debería aplicarse sólo cuando la sospecha de enfermedad (la Ppre) es intermedia-alta. Esto es
408
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
así por lo que previamente ya se ha expuesto: cuando la Prev o Ppre disminuye la proporción de VP respecto a FP disminuye y el VPP disminuye también (véase la tabla VI). Una vez calculada la Ppre y elegido el test de alta E, debemos calcular la Ppost que obtendríamos con un resultado positivo. Esto se realiza de forma sencilla utilizando los CP como ya se ha explicado. En este caso se utiliza el CP+ (cuanto mayor es la E mayor es el CP+, ver fórmulas). Odds post =
Ppre Odds post × CP + Ppost = 1 – Ppre Odds post + 1
Cuanto mayor es el CP + mayor será la Ppost resultante. Como la E del test casi nunca es del 100%, la Ppost no será casi nunca del 100% (confirmación total) y deberemos definir cuál es la incertidumbre que Punto clave 12 Para confirmar una enfermedad en pacientes con intermedia o alta probabilidad pretest, debe utilizarse un test muy específico.
estamos dispuestos a tolerar (umbral). Si queremos simular otras Ppre de partida sólo hay que ir cambiándolas en la ecuación o en la calculadora de diagnóstico de la web de la SEMN y ver los resultados. Si el resultado del test fuera negativo, se aplicaría el CP– y la Ppost de la enfermedad disminuiría replanteando la estrategia diagnóstica. Ejemplo: Tenemos un paciente diagnosticado de hiperparatiroidismo primario. Sabemos que el éxito quirúrgico con la intervención tradicional de abordaje bilateral amplio, es superior al 90-95%. Pero nuestro paciente tiene algún riesgo anestésico y nos plantemos la posibilidad de intervenirlo mediante un abordaje mínimamente invasivo con anestesia local. Este abordaje sólo es posible si el paciente tiene un adenoma único y se localiza con fiabilidad. Necesitamos una prueba sensible que localice el adenoma, pero es más importante que la E sea máxima para que el hallazgo detectado sea un VP y abordemos el lugar correcto. Revisamos la bibliografía y encontramos un meta-análisis sobre la efectividad diagnóstica de la gammagrafía con 99mTc-MIBI en el hiperparatiroidismo primario 35. Supongamos que el estudio nos parece válido. La media de S para adenoma es de 90,7% y la media de E es de 98,7%. Debemos comprobar si esta prueba será útil en nuestro paciente. Según la estrategia 1, lo primero que hay que hacer es estimar la Ppre de que el paciente
Rev. Esp. Med. Nuclear, 2001;20:393-412
tenga un adenoma solitario, pues si tiene una enfermedad multiglandular debería realizarse el abordaje tradicional. Hay multitud de fuentes que dicen que el hiperparatiroidismo primario está producido por un adenoma en más del 80% de los casos. Nuestro metaanálisis encuentra un 87% de adenomas, 9% de hiperplasias de las cuatro glándulas, 3% dobles o triples adenomas y < 1% de carcinomas. Así que asignamos a nuestro paciente una Ppre de adenoma del 87%. Decidimos realizar la prueba y sale positiva. Calculamos la oddspre = 6,69, el CP + = 69,7 y la Ppost = 99,7%. La probabilidad postest de que nuestro paciente tenga un adenoma solitario en la localización que indica la gammagrafía con MIBI es del 99,7%. Con estas cifras podemos decidir con tranquilidad el abordaje unilateral. ¿Y si el estudio sale negativo? Se considera negativo no encontrar hallazgos o encontrar más de un foco. En este caso debe realizarse intervención tradicional con exploración quirúrgica de las 4 glándulas. Ahora veremos cómo el tipo de paciente y su Ppre modifica enormemente la interpretación de la prueba. Supongamos que nuestro paciente parece que tiene un hiperparatiroidismo primario, pero además tiene insuficiencia renal crónica. En estos pacientes suele desarrollarse un hiperparatiroidismo secundario con hiperplasia de las 4 glándulas. Así que pensamos que es probable que su hiperparatiroidismo sea debido a hiperplasia. Estimamos la Ppre de adenoma mucho más baja que el caso anterior: por ejemplo un 10%. Hacemos nuestros cálculos para un resultado positivo, como en el caso anterior, pero con la nueva Ppre y resulta una Ppost (VPP) de 88,6%. Nuestro paciente tendrá muy probablemente un adenoma único en el lugar indicado por el MIBI, pero en un 11,4% (100-88,6) el resultado de la prueba será erróneo y el paciente tendrá el adenoma en otro lugar, o más de una glándula afectada. Este riesgo parece elevado para decidir un abordaje unilateral.
Estrategia 2. Descartar un diagnóstico Partimos de la hipótesis alternativa 2 del esquema de diagnóstico, situada en el segmento de Ppre baja (< 30%) y se desarrolla en vertical para indicar que debemos descartar la enfermedad utilizando un test muy sensible. El motivo por el que desarrollamos esta estrategia cuando una enfermedad es poco probable, es porque suele ocurrir que a veces nos planteamos una alternativa efectivamente poco probable, pero que puede ser grave (por ejemplo una neoplasia). Queremos descartar esa posibilidad. A veces será la hipótesis que primero resolvamos y otras veces la retomaremos si no hemos podido confirmar la principal. Como en el caso anterior, realizaremos el test si la probabilidad de partida no es lo suficientemente baja. En las enfermedades graves este nivel o umbral de no
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
tratamiento es muy bajo, porque las consecuencias de un diagnóstico falsamente negativo pueden ser muy importantes. Para descartar se necesita un test con elevada S. Entenderemos esto si observamos una tabla de 2 × 2 y comprobamos que un test es más sensible cuantos menos FN tiene. Consecuencia de ello es que el VPN será cada vez más elevado. Cuando obtengamos un negativo será VN con una alta fiabilidad: podremos descartar. Como en la práctica existen pocos test con S del 100%, deberemos utilizar tests sensibles para descartar enfermedades con Ppre baja-intermedia, de lo contrario la proporción de FN Punto clave 13 Para descartar una enfermedad se necesita aplicar un test con elevada sensibilidad en pacientes con intermedia o baja probabilidad pretest.
respecto a VN aumenta y el VPN disminuye. La Ppost final de la enfermedad se calcula como en el caso anterior, pero utilizando el CP– (directamente proporcional a la S). Si la prueba es negativa y genera una Ppost suficientemente baja, la enfermedad queda excluida a fines prácticos. Si la prueba sale positiva, la Ppost se eleva en dependencia de la E del test y debe replantearse el diagnóstico. Ejemplo: Un cirujano torácico de nuestro hospital nos habla de un paciente de 60 años, recientemente diagnosticado de Ca epidermoide de pulmón resecable. En el TC preoperatorio realizado aparecen 2 nódulos mediastínicos, uno de 1,5 cm de diámetro en el mismo lado del tumor y otro de 1,2 cm en el contralateral. Además se observan otros nódulos de diámetro inferior a 1 cm. Para operar con garantías debe descartarse que esos nódulos sean metástasis, de lo contrario no está indicado intervenir. Antes de realizar el diagnóstico mediante mediastinoscopia, nos pide opinión sobre la exploración con PET 18FDG porque ha leído un artículo reciente en el N Engl J Med 36. Le decimos que hay otros muchos sobre el mismo tema, que conocemos el que nos refiere y que nos parece bastante fiable. La S calculada en la detección de metástasis mediastínicas es del 91% (IC95%: 81-100) y la E de 86% (IC95%: 7894), ambas superiores a la TC. Como siempre necesitamos estimar la Ppre del paciente en cuanto a metástasis. Teniendo nódulos en TC nos parece que debe ser algo alta, aunque no sabemos precisar. Nos fijamos en que en el artículo, la Prev (Ppre) de metástasis en los pacientes que tienen nódulos mediastínicos en TC es del 50%. Aplicaremos ésta a nuestro paciente. El cirujano recuerda que el paciente ha tenido una enfermeRev. Esp. Med. Nuclear, 2001;20:393-412
409
dad pulmonar alvéolo-intersticial y que los nódulos pueden ser residuales. En ese caso la probabilidad de metástasis sería inferior, por ejemplo un 20%. Por lo tanto, utilizaremos la Ppre del 50 y 20%. Calculamos la Ppost para resultado negativo aplicando el CP– que es de 0,11, y obtenemos 9,8% y 2,6%, respectivamente: si consideramos que el paciente tiene una Ppre de 50% y nos sale un resultado negativo, la Ppost de que el paciente tenga metástasis mediastínicas es del 9,8% y si consideramos la Ppre del 20%, la Ppost será del 2,6%. El cirujano dice que le hará la prueba y si sale negativa le operará de todos modos, aún con 9,8% de riesgo de FN. Seguramente esta cifra está por debajo del umbral de tratamiento que el cirujano considera, porque aunque el paciente tuviera metástasis y se le operase, lo único que ocurriría es que se podría haber evitado la intervención. En términos globales, haremos de 2,6 a 9,8 intervenciones inapropiadas por cada 100 mediastinoscopias que hemos evitado en pacientes con TC positivo. Si el TC en vez de positivo, fuera negativo, la Prev de metástasis sería del 15% y la Ppost después de un resultado negativo sería tan sólo de 1,8%. Diferente es que la PET 18FDG saliera positiva, en ese caso con una E de 86% y un CP + de 6,5, la Ppost resultante sería de 86% (en el caso de Ppre de 50%), y de 62% (con la Ppre del 20%), ambas insuficientes para confirmar metástasis mediastínicas. Deberíamos confirmar todos los resultados positivos con mediastinoscopia. Aquí, dar por válido el resultado positivo significaría no operar a un buen número de pacientes FP (14 ó 38%, respectivamente) que se podrían beneficiar de la intervención. Ejemplo: El nódulo pulmonar solitario es otra de las indicaciones propuestas de la PET 18FDG. Hay nódulos altamente sugestivos de malignidad a los que se biopsia directamente, y otros con características radiológicas indeterminadas en los que se propone la realización de PET para descartar malignidad y evitar la biopsia (el positivo obligaría a la intervención o a la biopsia). Un artículo de Gupta y cols. 37 refiere una S para detección de malignidad del 93% y una E del 88%. Aplicando el test a un paciente de más de 70 años, que tienen una Ppre de malignidad de 70%, la Ppost después de un resultado negativo, sería del 15%, insuficiente para descartar (habría que biopsiar igual que a los positivos). Si aplicamos el test a un paciente de menos de 60 años, con una Ppre de malignidad del 20%, la Ppost resultante sería de 1,8% (casi un 2%). ¿Dejaríamos sin comprobar mediante biopsia este resultado? Si la respuesta es: no, es porque el umbral para descartar, en este caso, es más bajo (no queremos arriesgarnos a que de cada 100 pacientes casi 2 tengan en realidad un cáncer y se queden sin tratar).
Estrategia 3. Confirmar o descartar un diagnóstico Muchos de los procedimientos diagnósticos se en-
410
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
globan dentro de esta estrategia, que lo que pretende es modificar la Ppre suficientemente para proporcionar una certidumbre diagnóstica operativa. Los mayores efectos que las pruebas diagnósticas producen en la Ppre, ocurren cuando éstas son intermedias (en el rango 30-70%) 31. La mayoría de enfermedades requieren Ppost menos ajustadas que las anteriores y requieren menor esfuerzos diagnóstico. Se utilizan diferentes pruebas con el objeto de descartar o confirmar en dependencia de qué sea más importante de cara al manejo. Tienen umbrales relativamente más relajados. Punto clave 14 Los mayores efectos que las pruebas diagnósticas producen en la Ppre, ocurren cuando éstas son intermedias (en el rango 30-70%).
Por ejemplo, el tromboembolismo pulmonar tiene un umbral de diagnóstico relativamente bajo, debido a que el tratamiento necesario es bastante seguro y no necesita gran certidumbre diagnóstica (cualquiera de nosotros iniciaría el tratamiento anticoagulante con una Ppost de 70%). No ocurre lo mismo para descartarlo, precisando umbrales inferiores al 4%, lo que se resolvería con la estrategia 2.
Comentario final
Hemos desarrollado los parámetros de validez de una prueba diagnóstica y el razonamiento diagnóstico que el médico utiliza para confirmar o descartar la enfermedad. Las dimensiones de esta revisión impiden tratar otros aspectos, pero el campo del diagnóstico es mucho más extenso (como lo demuestra el manejo clínico habitual de pruebas en serie o en paralelo, de las que no hemos hablado). También es importante el análisis de las revisiones sistemáticas y meta-análisis de pruebas diagnósticas, todavía poco conocidas y utilizadas. A nuestro juicio, el diagnóstico siempre ha ido a remolque de la terapéutica, quizá por su mayor complejidad y porque requiere jugar con probabilidades. Sin embargo, creemos que todo médico que se enfrenta a la incertidumbre diagnóstica de su práctica habitual, debería conocer las técnicas que permiten extraer correctamente la información de las pruebas diagnósticas que solicita.
Rev. Esp. Med. Nuclear, 2001;20:393-412
Tabla IX TABLA DE 2 × 2 EN UN ANÁLISIS DE CONCORDANCIA DE UN ESTUDIO SOBRE GAMMAGRAFÍA DE PULMÓN EN EL DIAGNÓSTICO DE TROMBOEMBOLISMO PULMONAR Lector B Lector A
Alta
Baja
Totales
Alta probabilidad
a (36)
b (2)
a + b (38)
Baja
c (1)
d (24)
c + d (25)
Totales
a + c (37)
b + d (26) N = a + b + c + d (63)
Apéndice 1. Estudio de reproducibilidad o concordancia
El análisis de la concordancia se efectúa con técnicas distintas en función del tipo de variable: entre las más utilizadas se puede descartar, si la variable es cualitativa (o categórica), el índice kappa (κ) de Cohen y si es cuantitativa (o continua), el coeficiente de correlación intraclase (R). En el campo de las pruebas diagnósticas, las variables cualitativas son las más utilizadas, porque a fin de cuentas intentan separar a los enfermos de los sanos o bien clasificar a los enfermos en diferentes estadios de enfermedad. En todo caso toda variable continua puede ser categorizada. Por lo tanto vamos a explicar con algún detalle el índice kappa de Cohen. Hay dos variantes en dependencia de si la variable cualitativa es nominal (toma dos o más categorías sin orden jerárquico entre ellas) u ordinal (existe orden jerárquico entre las categorías). Para facilitar los cálculos se ha diseñado en Excel una calculadora de índices kappa, que puede bajarse desde la página web de la Sociedad Española de Medicina Nuclear en su sección de profesionales. a) Variables cualitativas nominales. Índice kappa. Mide el grado de concordancia teniendo en cuenta la concordancia debida al azar. Se construye una tabla de contingencia, que en el caso más sencillo será de 2 × 2. Tomemos un ejemplo. Christiansen y cols. 38 encuentran que dos lectores A y B valoran las gammagrafías de alta y baja probabilidad en el diagnóstico de TEP según el grado de acuerdo que muestra la tabla IX. La proporción de acuerdo observada es: P0 =
a+d N
en nuestro ejemplo es P0 = 36 + 24 / 63 = 0,952 (95,2%). A primera vista es una muy buena concordancia, pero
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
411
Tabla X
Tabla XI
RANGOS DE VALORES DE CONCORDANCIA DEL ÍNDICE KAPPA
CONCORDANCIA ENTRE DOS LECTORES (A Y B) SEGÚN PROBABILIDAD CLÍNICA DE EMBOLISMO PULMONAR
0,81-1,0 0,61-0,8 0,41-0,5 0,21-0,4 < 0,2
Excelente Buena Moderada Ligera Mala
hay que suponer que parte de esa concordancia es debida al azar. La proporción de acuerdo esperada por azar es:
P=
(a + b) (a + c) (c + d) (b + c) + N N N
En nuestro ejemplo: Pe = 0,518. Es decir, que por azar ya tenemos el 51,8% de concordancia. La concordancia observada mejora en 0,434 a la esperada sobre un máximo posible de 0,482 (ó 1-0,518). El índice kappa se define como: κ=
P0 – Pe 1 – Pe
En el ejemplo propuesto se obtiene un κ de 0,901 (90,1%), que es un grado de concordancia algo menor que el observado inicialmente, aunque sigue siendo excelente, como se puede observar en la tabla X de los valores de interpretación del índice kappa propuesta por Landis y Koch 25. Como se ve en la tabla, el índice kappa puede adoptar valores entre –1 y 1 (1 si hay total acuerdo, 0 si el acuerdo observado es igual al esperado y menor de 0 si el acuerdo observado es inferior al esperado por azar). Y siempre deben darse los intervalos de confianza (IC), que nuestra calculadora ofrece de forma automatizada. Así, en el ejemplo propuesto el IC 95% de κ: 0,792-1. En el peor de los casos la concordancia es del 79,2% y todo el intervalo está en el primer rango de Landis-Koch. b) Variables cualitativas ordinales. Índice kappa ponderado. Se debe emplear cuando el resultado de la prueba puede adoptar más de dos categorías, entre las que existe algún orden jerárquico Wij = 1 –
i–j k–l
2
( )
Rev. Esp. Med. Nuclear, 2001;20:393-412
Alta Intermedia Baja Normal Total
Alta
Intermedia
Baja
Normal
Total
36 7 1 0 44
4 38 28 1 71
2 14 24 7 47
0 1 0 29 30
42 60 53 37 192
c) (por ejemplo, resultados diagnósticos por estadios de enfermedad, por probabilidad de sospecha clínica, etc.). Como no es lo mismo la discrepancia entre una probabilidad de sospecha alta e intermedia que entre alta y baja se ponderan de forma distinta las discrepancias. Así se asigna un peso de 1 al acuerdo total y un peso de 0 al desacuerdo máximo. A los desacuerdos intermedios se les asignan pesos intermedios, en función del significado que tengan las distintas discordancias en el atributo estudiado 25. Hay dos procedimientos de ponderación: los pesos cuadráticos y la ponderación lineal (o de errores absolutos). La más recomendada es la cuadrática, en la que a cada casilla de la tabla n × n se le asigna un peso (Wij) igual a: Donde i es el número de columna en la tabla n × n, j el número de fila y k el número total de categorías. Cuantas más categorías tiene la variable, más disminuye la probabilidad de acuerdo. Algunos autores recomiendan con este tipo de variables ordinales el uso de varios índices kappa para diferentes combinaciones entre las categorías de la variable, en vez de un único valor global promedio 39. La calculadora de kappa también calcula los kappa ponderados de forma cuadrática y lineal con sus correspondientes IC 95%. En el ejemplo de Christiansen y cols. 38, dos lectores A y B presentan los resultados de concordancia en función de cuatro probabilidades clínicas de embolismo pulmonar (tabla XI). Se puede comprobar introduciendo los datos en formato 4 × 4 en la calculadora de kappa: • índice kappa no ponderado: 0,54 (0,45-0,63) • índice kappa ponderado de forma cuadrática: 0,80 • índice kappa ponderado de forma lineal (igual fórmula que el anterior pero sin elevar al cuadrado): 0,67. Como puede verse en el trabajo original de Christiansen y cols. 38, los autores no utilizaron esquema
412
S Álvarez Ruiz y cols.—Medicina basada en la evidencia. Aplicación a la medicina nuclear. Vertiente diagnóstica. Parte II
de ponderación y sólo aportan el kappa no ponderado con su correspondiente IC 95% y califican el grado de acuerdo como moderado en la escala de Landis-Koch. Se puede comprobar que el kappa ponderado puede ser más elevado que el no ponderado, lo que lleva a algunos autores a considerar que el ponderado es más una medida de asociación que de concordancia. Además el kappa ponderado de forma cuadrática tiende a aumentar con el número de categorías, a diferencia del no ponderado que disminuye 12.
BIBLIOGRAFÍA 1.
2.
3. 4. 5.
6. 7. 8.
9.
10.
11.
12.
13.
14.
Sackett DL, Richardson WS, Rosenberg W, Haynes RB. Medicina basada en la evidencia. Cómo ejercer y enseñar la MBE. Madrid: Churchill Livingston, 1997. Sackett DL, Straus SE, Richardson WS, Rosenberg W, Haynes RB. Evidence-based medicine. How to practice and teach EBM. 2nd edition. London: Churchill Livingstone, 2000. Fryback DG, Thornbury JR. The efficacy of diagnostic imaging. Med Decis Making 1991;11:88-94. Fineberg HV. Evaluation of computed tomography: achievement and challenge. AJR 1978;131:1-4. Valk PE. Randomiced controlled trials are not appropriate for imaging technology evaluation. J Nucl Med 2000;41:11251126. Mower WR. Evaluating bias and variability in diagnostic test reports. Ann Emerg Med 1999;33:85-91. Hillman BJ. Outcomes research and cost-effectiveness analisys for diagnostic imaging. Radiology 1994;193:307-310. Lijmer JG, Mol BW, Heisterkamp S, Bonsel GJ, Prins MH, van der Meulen JHP, et al. Empirical evidence of design-related bias in studies of diagnostic test. JAMA 1999;282:10611066. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research. Getting better but still not good. JAMA 1995;274:645-651. Black ER, Bordley DR, Tape TG, Panzer RJ. Diagnostic strategies for common medical problems. 2nd ed. Philadelphia: American Collage of Physician, 1998. Thornbury JR, Kido DK, Mushlim AI, Phelps CE, Mooney C, Fryback DG. Incrasing the scientific quality of clinical efficacy studies of magnetic resonance imaging. Invest Radiol 1991;26: 829-833. Delgado Rodríguez M. Diseños para el estudio de pruebas diagnósticas y factores pronósticos. En: Doménech JM, editor. Diseño de estudios sanitarios. Barcelona: Editorial-Gráficas Signo, 2000. Jaeschke R, Guyatt G, Sackett DL, for the Evidence-Based Working Group. Users’ guides to the medical literature, III: how to use an article about a diagnostic test. A: are the results of the study valid? JAMA 1994;271:389-391. Doubilet P, Herman PG. Interpretation of radiographs: effect of clinical history. AJR Am J Roentgenol 1981;137:1055-1058.
Rev. Esp. Med. Nuclear, 2001;20:393-412
15.
16.
17.
18.
19.
20.
21.
22. 23. 24.
25.
26. 27.
28.
29. 30.
31.
32.
33.
Berbaum KS, Franken EA, Dorfman DD, et al. Tentative diagnoses facilitate the detection of diverse lesions in chest radiographs. Invest Radiol 1986;21:532-539. Kwok Y, Kim C, Grady D, Segal M, Redberg R. Meta-analysis of exercise tenting to detect coronary artery disease in women. Am J Cardiol 1999;83:660-666. Reinartz P, Schaffeldt J, Sabri O, Zimny M, Nowak B, Ostwalt E, et al. Benign versus malignant osseous lesions in the lumbar vertebrae: differentiation by means of bone SPET. Eur J Nucl Med 2000;27:721-726. Taillefer R, DePuey EG, Udelson JE. Comparative diagnosis accuracy of 201Tl and 99mTc sestamibi SPECT imaging (perfusion and ECG-gated SPECT) in detecting coronary artery disease in women. J Am Coll Cardiol 1997;29:69-77. Schillaci O, Massa R, Scopinro F. 111In-pentetreotide scintigraphy in the detection of insulinomas: importance of SPECT imaging. J Nucl Med 2000;41:459-462. Kostakoglu L, Yeh SDJ, Portlock C, Heelan R, Yao TJ, Niedzwiecki D, et al. Validation of Gallium-68-citrate single-photon emission computed tomography in biopsy-confirmed residual Hodgkin’s disease in the mediastinum. J Nucl Med 1992;33:345350. Fletcher RH, Fletcher SW, Wagner EH. Epidemiología clínica: aspectos fundamentales. 2.ª ed. Barcelona: Masson-Williams & Wilkins España, 1998. Beck U. La sociedad del riesgo. Hacia una nueva modernidad. Barcelona: Paidós Ibérica; 1998. Ramoneda J. Epifanías de la segunda modernidad. Diario El País, suplemento Babelia, 25 noviembre de 2000: S13. Yasukawa T, Yoshikawa K, Aoyagi H, Yamamoto N, Tamura K, Suzuki K, et al. Usefulness of PET with 11C-methionine for the detection of hilar and mediastinal lynph node metastasis in lung cancer. J Nucl Med 2000;41:283-290. Ochoa Sangrador C, Orejas G. Epidemiología y metodología científica aplicada a la pediatría (IV): pruebas diagnósticas. An Esp Pediatr 1999;50:301-314. Pozo Rodríguez F. La eficacia de las pruebas diagnósticas (I). Med Clin (Barc) 1988;90:779-785. Simel DL, Feussner JR, Delong ER, Matchar DB. Intermediate, indeterminate, and uninterpretable diagnostic test results. Med Decis Making 1987;7:107-114. Poynard T, Chaput JC, Etienne JP. Relations between effectiveness of a diagnostic test, prevalence of the diasease, and percentages of uninterpretable results. Med Decis Making 1982;2:285-297. Kassirer JP. Diagnostic reasoning. Ann Intern Med 1989;110:893900. Sackett DL, Haynes RB, Guyatt GH, Tugwell P. Epidemiología clínica: ciencia básica para la medicina clínica. 2.ª ed. Buenos Aires: Editorial Medica Panamericana; 1994. Sox HC. Probability theory in the use of diagnostic test. An introduction to critical study of the literature. Ann Intern Med 1986;104:60-66. Reid MC, Lane DA, Feinstein AR. Academic calculations versus clinical judgements: practicing physicians’use of quantitative measures of test accuracy. Am J Med 1998;104:374-380. Richardson WS, Wilson MC, Guyatt GH, Cook DJ, Nishikawa J. Users’guides to the medical literature. XV. How to use an article about disease probability for differencial diagnosis. JAMA 1999;281:1214-1219.