Modo de establecer la concordancia entre evaluadores

Modo de establecer la concordancia entre evaluadores

> RINCÓN DE LA INVESTIGACIÓN Modo de establecer la concordancia entre evaluadores Margaret K. Burns, MS, BSN, RN-BC EN LOS CENTROS SANITARIOS, mucho...

69KB Sizes 0 Downloads 59 Views

> RINCÓN DE LA INVESTIGACIÓN

Modo de establecer la concordancia entre evaluadores Margaret K. Burns, MS, BSN, RN-BC

EN LOS CENTROS SANITARIOS, muchos proyectos de mejora de la calidad, al igual que los estudios retrospectivos, dependen de la recogida de datos procedentes de los registros sanitarios de los pacientes. Por ejemplo, consideremos a una enfermera que realice la recogida de datos de dichos registros para un gran proyecto de investigación. Recibirá el formulario de recogida de datos (un instrumento estructurado utilizado para documentar la información sanitaria específica respecto al tema) y el Manual de operaciones y procedimientos (directrices escritas para la recogida de datos). (Véase el Glosario de términos de investigación.) ¿Qué instrucciones necesita la enfermera antes de comenzar su tarea? ¿Cómo se verifica la concordancia entre evaluadores cuando la recolección de datos se realiza por parte de más de una persona? ¿Qué reporta la literatura acerca de las revisiones, de cara a la concordancia entre evaluadores? ¿Cuánta validez tendrán los resultados del estudio, de no probarse la

concordancia entre evaluadores? Incluimos aquí las respuestas a estas cuestiones.

¿Qué es la concordancia entre evaluadores? De acuerdo con Kottner, la concordancia entre evaluadores consiste en el acuerdo sobre los mismos datos obtenidos por diferentes evaluadores, utilizando la misma escala, clasificación, instrumento o procedimiento al evaluar a los mismos sujetos u objetos1. Cuando dos o más investigadores recolectan datos, dichos investigadores precisan obtener de manera consistente la misma información. Para establecer que existe consenso entre los investigadores, se utilizan pruebas de concordancia entre evaluadores.

Literatura histórica En la revisión de artículos de investigación en tres publicaciones sobre medicina de urgencias, Gilbert señaló que solo el 5% de los 244 estudios mencionaba la concordancia entre evaluadores, y

Glosario de términos de investigación • CINAHL. Cumulative Index to Nursing and Allied Health Literature database. • Manual de o peraciones y procedimientos. Directrices escritas que pueden incluir:

una descripción del estudio; definiciones operativas de los datos; métodos de selección de participantes, revisión, inscripción, aleatorización y seguimiento; documentos de consentimiento informado; procedimientos de notificación de efectos adversos; métodos de recolección de datos; formularios estandarizados de recogida de datos; medidas de control de calidad; protocolo final, y formularios administrativos13.

• MEDLINE. Base de datos gratuita de la Library of Medicine de Estados Unidos. • Mejora de la calidad. Marco utilizado para mejorar sistemáticamente el modo

de

aportación de cuidados a los pacientes14.



Concordancia. Consistencia de una medición; capacidad de los evaluadores para registrar con consistencia los mismos datos1.

• Estudio retrospectivo. Investigación que estudia el pasado de la historia médica o el estilo de vida del paciente. • Validez. Precisión de los datos; los datos obtenidos de las recogida de datos miden lo que se supone que deben medir15.

62 Nursing2015 | Volumen 32 | Número 3

que únicamente el 0,4% analizaba el acuerdo entre evaluadores del puro azar2. Badcock señaló igualmente unos índices bajos de análisis de la concordancia entre evaluadores (25%) en la literatura internacional sobre medicina de urgencias3. Tuijn et al. comunicaron que cuando investigaban en bases de datos médicas y sociológicas, solo las profesiones médicas realizaban estudios empíricos sobre la mejora de la concordancia4. Kottner ha desarrollado unas directrices para evaluar criterios en los estudios que reportan la concordancia entre evaluadores1.

Establecimiento de la concordancia entre evaluadores Se utilizan frecuentemente dos pruebas para establecer la concordancia entre evaluadores: el porcentaje de acuerdo y el coeficiente kappa. Para calcular el porcentaje de acuerdo, se añade el número de veces que las personas que realizan la evaluación llegan a un acuerdo sobre la misma cuestión, y luego se divide dicha suma por el número total de ítems de datos. Por ejemplo, se precisan 20 ítems de datos en un formulario de recogida de datos muy breve. El evaluador A y el evaluador B recolectan independientemente los datos sobre el mismo sujeto. Comparan sus respuestas. El acuerdo entre las respuestas de los evaluadores se establece en 19 de los 20 ítems. El porcentaje de acuerdo es del 95%. Se sugieren unos índices de acuerdo del 90% al 95% para establecer la concordancia entre evaluadores5,6. Kappa, una prueba estadística más compleja, ajusta la probabilidad. El coeficiente kappa de Cohen mide la concordancia entre evaluadores, entre dos codificadores. (Se han adaptado otras versiones de kappa para más codificadores.) El coeficiente kappa de Cohen se calcula mediante la fórmula, pO—pc donde 1-pc pO es la proporción observada de acuerdo y pc es la proporción de acuerdo prevista

> RINCÓN DE LA INVESTIGACIÓN

Interpretación del coeficiente kappa de Cohen Valor de kappa

Nivel de acuerdo

Porcentaje de datos fiables

0-0,20

Ninguno

0%-4%

0,21-0,39

Mínimo

4%-15%

0,40-0,59

Débil

15%-35%

0,60-0,79

Moderado

35%-63%

0,80-0,90

Fuerte

64%-81%

>0,90

Casi perfecto

82%-100%

Fuente: McHugh ML. Interrater reliability: the kappa statistic. Biochem Med (Zagreb). 2012;22(3):276-282. http://www.biochemia-medica.com/system/files/22-3_McHugh_tablica3.gif. Reproducido con autorización.

por puro azar. (Véase la Interpretación del coeficiente kappa de Cohen.) Esta fórmula se utiliza para probar los datos categóricos, o la información que puede clasificarse por grupos, tales como raza, sexo y edad7. La concordancia entre evaluadores de los datos continuos, también denominados datos cuantitativos, se mide de diversos modos. Puede existir un número infinito de valores para cada ítem cuantitativo de una recogida de datos. Puede precisarse la ayuda de un experto en estadística para seleccionar la(s) prueba(s) adecuada(s).

Impulsar la concordancia entre evaluadores La literatura científica realiza muchas sugerencias acerca del modo de mejorar la concordancia entre evaluadores durante la recogida de datos de registros médicos. He aquí algunas recomendaciones: 1. Desarrolle formularios de recogida de datos siguiendo el mismo formato del registro médico. Ello ahorra tiempo y disminuye la confusión8. 2. Disminuya la necesidad de que el profesional que realiza la recogida infiera datos. Realice un listado sobre todas las opciones conocidas, y añada la opción “el espacio en blanco” como la última elección posible9. 3. Añada siempre la elección “desconocido” a cada ítem de recogida de datos; esto se cifra a menudo como 9 o 99910. 4. Elabore el Manual de operaciones y procedimientos11. 5. Instruya a los evaluadores acerca del uso del formulario de recogida de datos. Instruya a los codificadores acerca del uso de la base de datos4.

6. Realice pruebas de acuerdos de porcentajes al inicio del proceso de recogida, idealmente utilizando los registros sanitarios procedentes de la prueba piloto. Solicite la existencia de índices de acuerdo del 90% al 95% entre el evaluador novel y el evaluador experto o investigador principal, antes de recoger los datos de los registros médicos del estudio9. 7. Realice pruebas periódicas y aleatorias del porcentaje de acuerdo entre los evaluadores9. 8. Advierta a los evaluadores y codificadores que nunca dejen un ítem en blanco en el formulario12. 9. Elabore la base de datos de codificación, que alerte sobre la falta de datos o aquellos que están fuera de rango8. 10. Mantenga conversaciones frecuentes con los evaluadores y el investigador principal, para aclarar cuestiones y problemas12. 11. Aporte comunicación escrita y oral a todos los evaluadores acerca de los cambios y los problemas en los formularios de recogida de datos11. 12. Tenga en cuenta la fatiga al programar el tiempo de recogida de datos. La fatiga del evaluador puede incrementar los errores8.

Elaborar un fundamento sólido “La reproducibilidad no es solo la piedra angular de la buena ciencia, sino también el concepto básico de una buena regulación y unos buenos cuidados sanitarios”4. Parte de la reproducibilidad implica la consistencia del registro entre los evaluadores. El uso, al menos, de la prueba del porcentaje de acuerdo identifica las inconsistencias entre los evaluadores. Estos deben afrontar y resolver estas

discrepancias, debiendo intervenir el investigador principal si ello es preciso. Los datos deben ser fiables y válidos, para poder ser utilizados como base para el reembolso y guía de las iniciativas sobre mejora de la calidad11. ■

BIBLIOGRAFÍA 1. Kottner J, Audigé L, Brorson S, et al. Guidelines for Reporting Reliability and Agreement Studies (GRR AS) were proposed. J Clin Epidemiol. 2011;64(1):96-106. 2. Gilbert EH, Lowenstein SR, Koziol-McLain J, Barta DC, Steiner J. Chart reviews in emergency medicine research: Where are the methods? Ann Emerg Med. 1996;27(3):305-308. 3. Badcock D, Kelly AM, Kerr D, Reade T. The quality of medical record review studies in the international emergency medicine literature. Ann Emerg Med. 2005;45(4):444-447. 4. Tuijn S, Janssens F, Robben P, van den Bergh H. Reducing interrater variability and improving health care: a meta-analytical review. J Eval Clin Pract. 2012;18(4):887-895. 5. Allison JJ, Wall TC, Spettell CM, et al. The art and science of chart review. Jt Comm J Qual Improv. 2000;26(3):115-136. 6. Rosen AK, Itani KM, Cevasco M, et al. Validating the patient safety indicators in the Veterans Health Administration: do they accurately identify true safety events? Med Care. 2012;50(1):74-85. 7. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33(1):159-174. 8. Gliklich RE, Dreyer NA, Leavy M, eds. Registries for Evaluating Patient Outcomes: A User’s Guide. 3rd ed. 2 vols. Rockville, MD: Agency for Healthcare Research and Quality (US); 2014. http://www. effectivehealthcare. ahrq.gov/registries-guide-3.cfm 9. Eder C, Fullerton J, Benroth R, Lindsay SP. Pragmatic strategies that enhance the reliability of data abstracted from medical records. Appl Nurs Res. 2005;18(1):5054. 10. Moutinho L, Hutcheson GD. The Sage Dictionary of Quantitative Management Research. London, UK: Sage Publications; 2011. 11. George HA, Davis SL, Mitchell CF, Moyer NM, Toner CG. Abstraction of core measure data: creating a process for interrater reliability. J Nurs Care Qual. 2013;28(1):68-75. 12. Flood M, Small R. Researching labour and birth events using health information records: methodological challenges. Midwifery. 2009;25(6):701-710. 13. National Institutes of Health. National Institute of Neurological Disorders and Stroke. Manual of Procedures. 2013. http://www.ninds.nih.gov/ research/ clinical_research/policies/mop.htm 14. Bellin E, Dubler NN. The quality improvementresearch divide and the need for external oversight. Am J Public Health. 2001;91(9):1512-1517. 15. Demko CA, Victoroff KZ, Wotman S. Concordance of chart and billing data with direct observation in dental practice. Community Dent Oral Epidemiol. 2008;36(5):466-474.

Margaret K. Burns es coordinadora de enfermería de investigación clínica en el Nationwide Children’s Hospital de Columbus, Ohio. La autora declara no tener ningún conflicto de intereses económicos relacionados con este artículo.

Mayo/Junio | Nursing2015 | 63