Mémentos biostatistiques
Concordance de deux variables : les approches numériques Concordance entre observations qualitatives -coefficient kappa-, concordance entre méthodes quantitatives
C. Fuhrman1, C. Chouaïd2
La comparaison de deux mesures, obtenues par deux méthodes différentes (mesures en général quantitatives) ou par deux observateurs différents utilisant la même méthode (variables souvent qualitatives), est un problème courant en biostatistiques. Les erreurs les plus couramment commises à cet égard consistent à utiliser une recherche de corrélation dans le cas de données quantitatives ou un test de contigence comme le chi2 pour des données qualitatives. Ces deux techniques testent non pas la concordance entre les variables étudiées, mais leur degré de « liaison ». Or, l’existence d’une liaison est à l’évidence le minimum que l’on puisse attendre entre deux mesures de la même chose ! Tester la concordance entre deux séries d’observations impose donc d’utiliser d’autres méthodes statistiques. Il importe de distinguer le cas de données qualitatives (« score » donné par deux observateurs par exemple) et le cas de données quantitatives (cas habituel des mesures biologiques ou fonctionnelles, comme la PaO2, le VEMS, le DEP...).
Comparaison de l’interprétation qualitative d’un test par deux observateurs : le coefficient kappa
1
2
Service de Pneumologie, Centre Hospitalier Intercommunal de Créteil, Créteil, France. Service de Pneumologie, Hôpital Saint Antoine, Paris, France.
Tirés à part : C. Chouaïd, Service de Pneumologie, Hôpital Saint Antoine, 184 rue du Faubourg Saint Antoine, 75012 Paris, France.
[email protected] Réception version princeps à la Revue : 21.03.2003. Retour aux auteurs pour révision : 15.11.2003. Réception 1ère version révisée : 01.12.2003. Acceptation définitive : 15.12.2003.
Rev Mal Respir 2004 ; 21 : 123-5
On appelle dans ce cas « concordance » la proportion de sujets pour lesquels il y a accord entre les observateurs. L’expression de cette concordance passe par le calcul d’un coefficient dit « kappa », qui est d’autant plus proche de 1 que la concordance est bonne. D’emblée, il importe de noter que même en cas d’observations effectuées au hasard (hypothèse d’indépendance), on observe une concordance non nulle, dite « concordance aléatoire ». Le calcul du coefficient kappa prend donc en compte la concordance observée Po (somme des proportions diagonales du tableau), et la concordance calculée (ou concordance aléatoire) Pc (concordance attendue sous l’hypothèse d’indépendance). © 2004 SPLF, tous droits réservés
123
C. Fuhrman, C. Chouaïd
cellule. Feinstein et Cicchetti ont ainsi décrit deux paradoxes [2, 3]. En effet Pc dépend des effectifs marginaux, et pour un taux de concordance identique le coefficient Kappa sera affecté par d’éventuelles erreurs systématiques entre observateurs et par la prévalence du signe recherché. La solution proposée par Feinstein et Cicchetti est de calculer également les proportions observées d’agréments positif (Ppos) et négatifs (Pneg) [2].
Tableau I. Calcul du coefficient Kappa. Observateur 2 Observateur 1
Total
Total
n11
n12
nij
n1R
n1.
n21
n22
nij
n2R
n2.
nij
nij
nij
niR
ni.
nR1
nR2
nRj
nRR
nR.
n.1
n.2
n.j
n.R
N
Comparaison entre deux valeurs du coefficient kappa
Calcul du coefficient kappa Le tableau I expose le cas de deux observateurs ayant R modalités de jugement à propos d’un nombre total d’observations N (effectif total) ; on note nij l’effectif de la case de ligne i et de colonne j. R La concordance observée Po est égale à 1 兺 nii Ni = 1
共
1 R n.i × ni. La concordance calculée Pc est égale à N 兺 N i=1
兲
− Pc Le coefficient kappa se calcule comme Po 1 − Pc
Interprétation du coefficient kappa Il n’y a pas de coefficient kappa « significatif » ou non. Il s’agit d’une mesure de l’accord entre observateurs, qui doit être analysée en fonction du contexte. On attendra un coefficient kappa d’autant plus élevé que la variable étudiée est « objective ». Le tableau II donne un ordre d’idée généralement accepté de l’interprétation des valeurs de kappa en fonction de l’intervalle dans lequel se situe la valeur calculée du coefficient. Davantage que la valeur absolue du coefficient kappa, il est en fait plus important de connaître son intervalle de variation. Po peut varier de 0 (désaccord total) à 1 (accord parfait), ce qui implique que le coefficient Kappa peut varier de 1 −−Pc Pc à 1. Cette borne inférieure dépend des totaux marginaux du tableau [1]. De même, la valeur maximale du coefficient Kappa n’est pas nécessairement égale à 1. Elle peut également être calculée selon les totaux marginaux minimaux pour chaque Tableau II. Interprétation du coefficient Kappa. Coefficient Kappa
124
Estimation du degré de concordance
0,8 à 1
Excellent
0,6 à 0,8
Bon
0,4 à 0,6
Moyen
0,2 à 0,4
Faible
0 à 0,2
Négligeable
<0
Mauvais
Rev Mal Respir 2004 ; 21 : 123-5
S’il n’y a pas de moyen objectif « statistique » de dire qu’un coefficient kappa est « bon » ou pas, il peut être utile de comparer deux valeurs de ce coefficient entre elles, par exemple, pour une interprétation radiologique, avant et après la mise en place d’une procédure de standardisation de lecture. Pour cela, il faut calculer le rapport kappa/公Vkappa, qui suit une loi normale centrée réduite sous l’hypothèse nulle. Vkappa = A + B −2 C 共 1 − Po 兲 × N avec 2 R n ni + ni A = 兺 ii 1 − 1 − K 共 兲 N i=1 N
B = 共1 − K兲
2
R
n
R
兺 兺 ii n.i + n i = 1 j = 1, i = j N
C = 关 K − Po共 1 − K 兲 兴
2
Ⲑ
2
N
j.
Utilisation d’un coefficient kappa pondéré Cette procédure peut être utile si l’on souhaite pondérer des discordances « plus graves » que d’autres (par exemple en cas de notation sur une échelle, une discordance d’un point sera moins délétère qu’une discordance de plusieurs points). On applique alors à chacune des cases du tableau un coefficient correspondant à l’importance du désaccord. Ce coefficient est généralement compris entre 0 (cases de désaccord le plus important) et 1 (cases diagonales où l’accord est total). Il est possible d’utiliser un tableau des poids asymétriques si l’on souhaite tenir compte de compétences différentes entre les observateurs. Enfin, il est possible de calculer l’agrément « kappa » entre plus de deux observateurs et plus de deux modalités de jugement. Le site http : //kappa.chez.tiscali.fr outre des explications très claires sur tous les aspects du coefficient kappa, comporte un logiciel permettant le calcul du kappa pondéré, ainsi que le cas de l’agrément entre plus de 2 observateurs et plus de 2 modalités de jugement.
Comparaison de deux mesures quantitatives d’une même grandeur : méthodes numériques En général, la comparaison de deux mesures d’une même grandeur à pour objectif la validation d’une nouvelle méthode
Concordance de deux variables : les approches numériques
de mesure par rapport à une méthode de référence. Les sources de différences entre les deux mesures tiennent à la variabilité de chaque mesure. La variabilité d’une mesure quantitative a 2 sources principales : la méthode elle-même (variabilité analytique), et l’individu (variabilités inter ou intra-sujet). La variabilité analytique dépend de l’exactitude de la mesure (écart éventuel à la « vraie valeur » ou tout du moins à la valeur obtenue par la méthode de référence) et de sa précision (ou reproductibilité de la mesure). L’indice le plus utilisé pour évaluer la précision en biologie est le coefficient de variation (CV). Son calcul nécessite plusieurs répétitions de la mesure, le CV correspond à l’écart - type entre répétitions rapporté à la moyenne des répétitions. Plus simplement : ce qui importe c’est que la variabilité soit petite par rapport à ce qu’on mesure. La première étape pour évaluer l’exactitude d’une mesure par rapport à la mesure de référence est d’examiner les données graphiquement en traçant le nuage de point de la différence entre les deux mesures en fonction de la moyenne des deux mesures (bias plot) [4]. A partir de ce graphique, il est aisé de se rendre compte si la moyenne des différences est différente ou non de zéro, et si la différence entre les deux mesures varie en fonction du niveau de la mesure (différences importantes dans les valeurs extrêmes par exemple). Cette procédure a été décrite par Bland et Altman [5] et fait l’objet d’un « mémento » propre de la Revue des Maladies Respiratoires [6]. La méthode graphique de Bland et Altman évalue la concordance entre deux mesures d’une même grandeur, mais elle laisse à l’utilisateur le soin de décider si cette concordance le satisfait ou non (et, en particulier, de décider si la différence entre les deux mesures est ou non cliniquement acceptable). Certains peuvent, dans ce contexte, « rester sur leur faim » en l’absence de résultat chiffré de la comparaison. Il est possible d’affecter des chiffres statistiques à la comparaison de deux méthodes, mais il faut éviter certains pièges. Le premier d’entre eux consiste à se fonder sur le coefficient de corrélation pour évaluer la concordance. En effet, les résultats de deux méthodes de mesures peuvent être étroitement corrélés mais systématiquement différents. Ceci provient du fait que la concordance entre deux mesures suppose non seulement une relation linéaire entre elles (comme la corrélation), mais encore que la pente de la relation soit égale à un et l’intercept à l’abscisse soit égal à un (pour une régression linéaire ou une corrélation, l’hypothèse nulle une pente égale à 0 ; pour une concordance, l’hypothèse nulle est une pente différente de 1). De plus, le coefficient de corrélation est affecté par la variabilité de la mesure : pour un même niveau d’agrément, le coefficient de corrélation sera d’autant plus élevé que la variabilité entre sujets sera importante. Enfin, la régression linéaire néglige la variabilité de la méthode de mesure de référence. Comment faire ? Pour contourner les obstacles décrits ci-dessus, deux procédures de régression ont été spécifiquement mises au point pour comparer deux mesures. La pre-
mière est la régression de Deming : cette procédure prend en compte la variabilité des deux mesures en utilisant le rapport des deux variances analytiques. Toutefois elle suppose que les erreurs de mesures (quelle que soit la méthode) suivent une distribution normale, ce que l’on ignore généralement et qui tend à ne pas être vérifié pour de nombreuses variables biologiques. La seconde méthode est la régression de PassingBablok [7-9]. Il s’agit d’une méthode non paramétrique d’estimation de la pente de la relation entre les deux mesures comparées et de l’ordonnée à l’origine de cette relation. Ces deux paramètres sont estimés par des médianes. Cette méthode à l’avantage (ou l’inconvénient ?) d’être moins sensible aux données extrêmes et de ne pas faire d’hypothèse sur la distribution des erreurs. Si l’intervalle de confiance à 95 % de la pente de la relation inclut 0 ainsi que celui de l’intercept à l’abscisse, on considère qu’il n’y a pas de différence significative entre les deux méthodes. En pratique : Il existe un logiciel gratuit téléchargeable sur le site http : //perso.easynet.fr/~philimar. Ce logiciel effectue le « bias plot », la régression linéaire simple, la régression de Deming, et la régression de Passing Bablok [10]. Ces fonctions sont également intégrées au logiciel « MedCalc », payant mais peu onéreux (http : //www.medcalc.be)
Références 1 2 3 4 5
6 7
8
9
10
Fermanian J : Mesure de l’agrément entre deux observateurs, cas qualitatif. Rev Epidemiol Sante Publique 1984 ; 32 : 140-7. Cicchetti DV, Feinstein AR : High agreement but low kappa: II. Resolving the paradoxes. J Clin Epidemiol 1990 ; 43 : 551-8. Feinstein AR, Cicchetti DV : High agreement but low kappa: I. The problems of two paradoxes. J Clin Epidemiol 1990 ; 43 : 543-9. Chinn S : Statistics in respiratory medicine. 2. Repeatability and method comparison. Thorax 1991 ; 46 : 454-6. Bland JM, Altman DG : Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986 ; 1 : 30710. Journois D : Comparaison de deux variables : l’approche graphique (méthode de Bland et Altman). Rev Mal Respir 2004 ; 21 : 127-30. Passing H, Bablok W : A new biometrical procedure for testing the equality of measurements from two different analytical methods. Application of linear regression procedures for method comparison studies in clinical chemistry, Part I. J Clin Chem Clin Biochem 1983 ; 21 : 709-20. Passing H, Bablok W : Comparison of several regression procedures for method comparison studies and determination of sample sizes. Application of linear regression procedures for method comparison studies in Clinical Chemistry, Part II. J Clin Chem Clin Biochem 1984 ; 22 : 431-45. Bablok W, Passing H, Bender R, Schneider B : A general regression procedure for method transformation. Application of linear regression procedures for method comparison studies in clinical chemistry, Part III. J Clin Chem Clin Biochem 1988 ; 26 : 783-90. Marquis P : Comparaison de méthodes analytiques. Ann Biol Clin 1999 ; 57 : 737-8.
© 2004 SPLF, tous droits réservés
125