COMENTARIOS CLÍNICOS
Uso de la metodología propensity score en la investigación sanitaria M. Expósito Ruiz a,*, M. Ruiz Bailén b, S. Pérez Vicente c,* y P. Garrido Fernández d a c
Unidad de Apoyo a la Investigación. b Unidad de Cuidados Intensivos. Complejo Hospitalario de Jaén. Jaén. España. Técnico de Apoyo a la Investigación. Subdirección de Investigación. Hospital Virgen de las Nieves. Granada. España. d Unidad de Apoyo a la Investigación. Hospital Torrecárdenas. Almería. España.
En la investigación biomédica es frecuente el diseño de estudios observacionales para determinar la asociación entre un tratamiento o exposición y el efecto que pueden producir. Con el mismo fin se desarrollan los estudios aleatorizados, que aunque obtienen resultados más precisos, son más complejos y costosos. La aplicación de la metodología propensity score (PS) en los estudios observacionales hace que disminuya la aparición de los sesgos que normalmente presentan, acercándolos en precisión y fiabilidad a los estudios aleatorizados. Dado el incremento que se ha producido en los últimos años respecto a la utilización de metodología PS en investigación clínica, consideramos que es de especial interés realizar una descripción de la misma, resaltando su ámbito de aplicación y las diferentes técnicas de uso. Expósito Ruiz M, Ruiz Bailén M, Pérez Vicente S, Garrido Fernández P. Uso de la metodología propensity score en la investigación sanitaria. Rev Clin Esp. 2008;208(7):358-60.
Introducción En epidemiología, el hecho de que dos fenómenos estén estadísticamente relacionados no implica necesariamente que uno sea causa del otro, deben cumplirse una serie de condiciones que nos permitan evaluar estas evidencias. El hecho de cometer errores en el diseño o en el muestreo puede invalidar los resultados obtenidos; la mala selección de la muestra o población de estudio implica errores a la hora de extrapolar los resultados. Comprobar la validez interna y externa, así como comparar los resultados con los obtenidos en otros estudios nos permitirá confirmar si las relaciones encontradas son debidas a la causalidad. En la investigación médica, los diseños observacionales son ampliamente utilizados para determinar asociaciones del tipo causa-efecto, a pesar de que en ellos * Manuela Expósito Ruiz y Sabina Pérez Vicente son técnicos de apoyo a la investigación con un contrato financiado por el Instituto de Salud Carlos III. Correspondencia: M. Expósito Ruiz. Unidad de Apoyo a la Investigación. Complejo Hospitalario de Jaén. Avda. del Ejército Español nº 10. 23007. Jaén. España Correo electrónico:
[email protected] Aceptado para su publicación el 15 de febrero de 2008.
358
Use of the propensity score methodology in health care research Observational studies are frequently used in biomedical research to determine associations between a treatment or exposure and the effects they can produce. Randomized control trials have been developed with the same purpose. Although they provide more precise results, they are more complex and costly. The use of propensity score methodology in observational studies helps to decrease the appearance of bias that they normally present, making them more accurate and with better reliability than randomized control trials. Given the increase in the use of the propensity score methodology in clinical research in recent years, we consider that it is of particular interest to make a description of it, highlighting its application scope and different use techniques.
pueden producirse ciertos sesgos, como el de clasificación y selección. Los estudios epidemiológicos que aportan más precisión y minimizan los posibles sesgos son los experimentales, concretamente el ensayo clínico. Éste es considerado como el de mayor evidencia para evaluar el efecto de un tratamiento o exposición, ya que la aleatorización disminuye los sesgos que pueden producirse en un estudio observacional. En cualquier estudio en el que pretendamos medir el efecto de un tratamiento o intervención puede existir un sesgo de confusión, variables que enmascaran o modifican la asociación real entre el efecto y la exposición. Lo más adecuado sería controlar estas variables en la fase de diseño del estudio, bien aleatorizando, bien seleccionando individuos homogéneos en base a éstas, lo que nos ayudará a reducir este sesgo 1. En los ensayos clínicos, la aleatorización determina que las covariables se distribuyan homogéneamente entre los grupos a comparar (expuestos/no expuestos, tratados/no tratados) y por tanto las diferencias encontradas se deberán únicamente al tratamiento. Evidentemente, no siempre es posible realizar este tipo de estudios por cuestiones éticas, económicas, etc. Además, una limitación importante de los estudios aleatorizados es que la mayoría de ellos están diseñados bajo unas condiciones de inclusión muy restrictivas. En
Rev Clin Esp. 2008;208(7):358-60
00
EXPÓSITO RUIZ M ET AL. USO DE LA METODOLOGÍA PROPENSITY SCORE EN LA INVESTIGACIÓN SANITARIA
este sentido, los estudios observacionales permiten recoger una población mucho más diversa en sus características, más próxima a las condiciones que se dan en el «mundo real», y sus resultados pueden ser generalizables a una mayor parte de la población 2. Surge por tanto la necesidad de introducir nuevos métodos que ayuden a reducir las limitaciones y sesgos en los estudios no experimentales. En 1983, Rosenbaum y Rubin desarrollan el concepto de propensity score (PS) como una forma de reducir el sesgo de selección y confusión de los estudios de cohortes 3. Posteriormente ha sido ampliamente utilizado en diseños epidemiológicos que evalúan el efecto de un tratamiento o exposición, en los cuales se introduce el uso de PS como una forma de reducir el sesgo de confusión. Exposición del método En ocasiones se ha traducido el término PS como «índice de propensión», aunque sería más adecuado definirlo como la probabilidad condicionada de recibir un tratamiento, dado el resto de covariables. La idea de utilizar el PS es reducir la información de un amplio conjunto de variables confusoras en una única variable, de forma que podamos estratificar nuestra población en base a ésta, y así tengamos controladas todas las variables confusoras. Así, los individuos dentro de cada estrato son homogéneos respecto al resto de características medidas. El PS es la probabilidad condicionada que tiene cada individuo de la muestra de ser asignado al grupo de tratamiento, dado el resto de covariables. Si para cada individuo i de la muestra se observan una serie de variables confusoras Xi, definimos la variable Z que toma el valor 1 si el individuo pertenece al grupo de tratamiento (expuestos) y 0 en otro caso. Entonces el PS para cada uno de los individuos de la muestra será una función dependiente de las covariables observadas, dada por la expresión 4: e (Xi) = P (Zi = 1/Xi, = xi) El PS, en un estudio observacional, puede ser estimado mediante un análisis discriminante o con regresión logística. El inconveniente de utilizar la primera opción es que la distribución de las covariables (dado Z) debe ser normal. Esto no es condición necesaria en el caso de utilizar regresión logística. En este último caso, el PS para cada individuo se estimaría de la siguiente forma 5: e (Xi) = P (Z = 1/X1, X2,..., Xp) = Exp (ß0 + ß1X1 + ... + ßpXp) 1 + Exp (ß0 + ß1X1 + ... + ßpXp)
yen homogéneamente entre los grupos, por lo que sería equivalente controlar por las confusoras que por el PS, si las covariables predicen bien la probabilidad de ser tratado 3. Aplicación práctica Una vez estimado el valor de PS, existen varias formas de aplicarlo en un estudio. Principalmente son tres las técnicas utilizadas. Estratificación Agrupando los sujetos en estratos en base a sus valores de PS, de forma que sean directamente comparables. Los individuos dentro del mismo estrato tienen la misma probabilidad de recibir el tratamiento, e(Xi). Habitualmente se forman los estratos en base a los quintiles del PS, ya que de esta forma se elimina un 90% del sesgo, aproximadamente 1. Apareamiento (matching) Para formar el casi experimento, se selecciona un control por cada caso tratado, pero en lugar de aparear teniendo en cuenta cada una de las covariables, se realiza en base a una única variable, el PS, que resume toda la información del resto. Del mismo modo que con las estratificación, los individuos que forman cada pareja tienen la misma probabilidad de recibir el tratamiento. Existen varias técnicas de apareamiento, Onur Baser 6 establece una serie de criterios que ayudarán al investigador a seleccionar la apropiada en cada caso. Modelo de regresión (covarianza) Esta tercera opción consiste en formar un modelo de regresión multivariante que contenga la variable resultado (PS), y un conjunto de covariables relevantes. Mientras que en la estratificación y matching el ajuste de las covariables se hace antes de calcular el efecto del tratamiento, en el modelo de covarianza, el ajuste se hace de forma simultánea. Rubin demostró que un ajuste de covarianza puede incrementar el sesgo si las matrices de covarianza en los grupos de tratamiento y control son diferentes. Otro problema surge cuando la varianza en ambos grupos es muy distinta (normalmente mucho mayor en el grupo de los no tratados). Bajo estas circunstancias es más adecuado la estratificación o el matching, que un ajuste de covarianza 7. Limitaciones
Donde (X1,…, Xp) es el conjunto de covariables. De esta forma, el PS resume la información de un amplio conjunto de confusoras en una única variable: el PS. Rosembaum demostró que el PS balancea todas las covariables observadas, es decir, que éstas se distribu00
Algunas de las limitaciones que presenta la metodología PS son 8: 1) La existencia de posibles covariables que no han sido observadas en el modelo (sesgo oculto) puede
Rev Clin Esp. 2008;208(7):358-60
359
EXPÓSITO RUIZ M ET AL. USO DE LA METODOLOGÍA PROPENSITY SCORE EN LA INVESTIGACIÓN SANITARIA
TABLA 1 Descripción de los paquetes estadísticos y módulos que ejecutan propensity score Software
Paquete
Stata R, S-Plus SAS
PSCORE, PS, MATCH, MATCH2 Matching, Matchit, Optmatch o USPS % MATCH, % MATCHUP, % OneToManyMTCH o % Mahalanobis Sintaxis
SPSS
como economía, sociología o marketing. Dentro de la investigación biomédica, es en cardiología y cirugía cardíaca donde está más extendida su práctica 9. Existen diversas posibilidades de cálculo con herramientas informáticas mediante rutinas y comandos con varios programas estadísticos como SAS, R y S-Plus. Además existe la posibilidad de realizar los correspondientes cálculos con SPSS mediante sintaxis (tabla 1).
Conclusiones influir en la estimación del PS, y crear un modelo no balanceado en esas covariables. 2) Es necesario tener un tamaño muestral considerable. Al igual que ocurre en un estudio aleatorizado, si tenemos un número pequeño de datos, el hecho de que algunas de las covariables sean no balanceadas puede introducir un sesgo sustancial. Cuanto mayor sea el tamaño muestral, menor será la probabilidad de que haya covariables no balanceadas. 3) Debe haber solapamiento entre los grupos, es decir, éstos deben ser homogéneos respecto al PS. Cuando no existe suficiente solapamiento o balanceo, el uso del PS es inapropiado.
Si se encuentran diferencias importantes entre los grupos de tratamiento y control en algunas covariables, entonces el modelo de predicción de PS necesita ser reformulado, o debemos concluir que la distribución de las covariables no se solapa lo suficiente para permitir una subclasificación y ajuste por las mismas. El PS puede reducir el sesgo abierto (variables observadas), pero nunca el sesgo oculto (variables que no se observan en la investigación). Un estudio aleatorizado (siempre que esté bien diseñado) elimina ambos tipos de sesgos, por lo que siempre que sea posible aplicar un estudio observacional o experimental debemos decantarnos por este último.
Utilización en la investigación biomédica BIBLIOGRAFÍA
A pesar de encontrar ciertas limitaciones en su aplicación, la incorporación de esta técnica en la investigación biomédica ha ido incrementándose en los últimos años. En una revisión hecha por Stürmer et al 9 identificaron 192 publicaciones desde 1998 hasta 2003, en las que se aplicó la metodología PS en estudios de intervención médica y resultados en salud, de éstas, el 4,2% se produjeron en 1998, y casi el 40% en el último año considerado. Los resultados de los estudios realizados con metodología PS en su gran mayoría no difieren de los realizados con los modelos de regresión tradicionales, aunque en aquellos en los que sí se encontraron diferencias (y fueron publicados) se asigna una sobreestimación de la asociación por los métodos tradicionales 10. El desarrollo de la metodología PS ha ampliado su campo de aplicación en otros ámbitos distintos al de la salud,
360
1. Cochran WG. The effectiveness of adjustment by subclassification in removing bias in observational studies. Biometrics. 1968;24:205-13. 2. D´Agostino RB Jr, D´Agostino RB Sr. Estimating treatment effects using observational data. JAMA. 2007;297(3):314-6. 3. Rosenbaum PR, Rubin DB. The central role of the propensity score in observational studies for causal affects. Biometrika. 1983;70:41-55. 4. D´Agostino RB Jr. Tutorial in biostatistics. Stat Med. 1998;17:2265-81. 5. Fitzmaurice G. Confounding: propensity score adjustment. Nutrition. 2006; 22:1214-6. 6. Baser O. Too much ado about prorensity score models? Comparing methods of propensity score matching. Value in Health. 2006;9:377-85. 7. Rubin DB. Using multivariate matched sampling and regression adjustment to control bias in observational studies. J Am Sat Assoc. 1979;74:318-28. 8. Rubin DB. Estimating causal effects from large data sets using propensity scores. Ann Intern Med. 1997;127:757-63. 9. Stürmer T, Joshi M, Glynn RJ, Avorn J, Rothman KJ, Schneeweiss S, et al. A review of the application of propensity score methods yielded increasing use, advantages in specific settings, but not substantially different estimates compared with conventional multivariable methods. J Clin Epidemiol. 2006; 59:437-47. 10. Shah BR, Laupacis A, Hux JE, Austin PC. Propensity score methods gave similar results to tradicional regression modeling in observational studies: a systematic review. J Clin Epidemiol. 2005;58:550-9.
Rev Clin Esp. 2008;208(7):358-60
00