Ann Fr Anesth Réanim 2000 ; 19 : 128-35 © Elsevier, Paris S075076580000188X/FLA
Article spécial
Comparaison de deux méthodes de mesure d’une même grandeur : méthode de Bland et Altman B. Grenier1, M. Dubreuil2, D. Journois3 1
Département d’anesthésie-réanimation 3, CHU de Bordeaux, place Amélie Raba-Léon, 33000 Bordeaux, 2 polyclinique de Bordeaux-Tondu, 143, rue du Tondu, 33086 Bordeaux cedex, 3 service d’anesthésie-réanimation, hôpital Laennec, 42, rue de Sèvres, 75340 Paris, France
RE´SUME´ La comparaison de deux techniques de mesure d’une même grandeur selon la méthode de Bland et Altman reconsidère, de façon plus adaptée, la méthode de comparaison souvent réalisée jusqu’alors par la méthode de régression linéaire. Cet article rappelle les principes de réalisation, la terminologie qui s’y attache ainsi que les possibilités d’utilisation de ces méthodes de comparaison statistique, dont l’interprétation demeure essentiellement clinique. La méthode de concordance de Bland et Altman détermine le biais et les limites de concordance qui représentent les écarts des valeurs d’une technique par rapport à l’autre. La différence entre les deux méthodes de mesure est toujours exprimée en fonction de la moyenne obtenue avec chacune des deux. Elle permet également de vérifier la répétabilité d’une mesure par la même technique chez un même sujet et d’en déduire un coefficient de répétabilité. Enfin, des moyennes de mesures répétées pour chaque sujet par deux techniques de mesure sont utilisables pour l’analyse de Bland et Altman au prix d’une adaptation du calcul des limites de concordance. © 2000 Éditions scientifiques et médicales Elsevier SAS statistiques
ABSTRACT Comparison of two methods of measurements: the Bland-Altman analysis. Bland-Altman analysis for comparison of two methods of clinical measurement is frequently used in scientific publications. This article is more appropriate than the conve-
Reçu le 28 avril 1999 ; accepté après révision le 14 octobre 1999.
tional linear regression analysis. This paper gives an overview of the principles for the use of Bland-Altman analysis as well as the specific terminology attached to it. The Bland-Altman comparison analysis is mainly a tool for clinical interpretation. The bias and the agreement limits provide the variation of the values of one technique compared to the other. The difference between the two methods of measurement is plotted against the average obtained with each of the two techniques. Bland-Altman analysis can also be used to check the repetability of a measurement technique within the same subject and to determine a repetability coefficient. With an adaptation of the calculation of the agreement limits, the average of multiple measurements for each subject with two measurement techniques can be used for the Bland-Altman analysis. © 2000 Éditions scientifiques et médicales Elsevier SAS statistics
Depuis la parution en 1986, dans The Lancet, d’un article de vulgarisation médicale à propos d’une méthode de comparaison de deux séries de valeurs quantitatives que nous appellerons « mesure de concordance », ses auteurs Martin Bland et Douglas Altman, ont fait de nombreux émules [1]. La méthode développée par ces deux statisticiens britanniques reconsidère de façon plus adaptée la méthode de comparaison souvent réalisée jusqu’alors par l’habituelle méthode de régression linéaire. Cet article rappelle les principes de réalisation, la terminologie qui s’y attache, ainsi que les possibilités d’utilisation de ces méthodes de comparaison statistique, dont l’interprétation demeure essentiellement clinique. Des utilisations possibles
Méthode de Bland et Altman
ou erronées au travers de récentes publications de la littérature anesthésique sont montrées à titre d’exemple. COMPARAISON DE DEUX SÉRIES DE VALEURS Le point commun aux deux techniques que sont la régression linéaire et l’étude de concordance est d’utiliser deux séries de valeurs quantitatives pour étudier les relations qui existent entre elles. Loin d’être redondantes, ces deux techniques sont complémentaires et répondent à des objectifs différents. Cependant, une erreur fréquente consiste à réaliser une régression linéaire là où une étude de concordance est requise, conduisant à des résultats évidents et donc sans réel intérêt. Régression linéaire Principe Cette technique, à laquelle les médecins sont souvent confrontés, consiste, en présence de deux variables quantitatives, à tester l’hypothèse de l’existence d’une relation de proportionnalité entre elles. Cette méthode présuppose que la liaison qui existerait entre les variables soit de nature linéaire, ce qui est fréquent, mais n’est qu’un cas particulier parmi toutes les relations qui peuvent unir deux grandeurs. En connaissance de cause, on peut souvent se ramener à la linéarité par l’intermédiaire d’une transformation mathématique des valeurs. Divers types de renseignements sont fournis par la régression linéaire. En premier lieu, le coefficient R de Pearson évalue le degré de linéarité de la relation testée, son carré (R2) représentant le pourcentage de variabilité expliquée par le modèle linéaire. Ainsi, une valeur de R2 de 0,5 signifie que 50 % de la variabilité est expliquée par le modèle linéaire choisi. La valeur absolue de R se situe entre 0 (aucune linéarité) et 1 (les points observés sont tous situés sur une même droite). Son signe donne le sens de variation de la droite qui décrit le mieux cette relation linéaire et donc le sens de la relation. Deux variables peuvent avoir une très forte relation et un coefficient R égal à 0, comme par exemple la relation : y = x2 + 5. La raison évidente en est que cette relation n’est pas linéaire, mais parabolique. On conçoit donc qu’en cas d’absence de relation, il faut à la fois évoquer
129
l’absence de liaison entre les variables mais aussi remettre en cause l’hypothèse d’une relation linéaire. La pente et l’ordonnée à l’origine de la droite sont fournies par le calcul de la meilleure droite possible (selon la méthode des moindres carrés), passant au sein du nuage de points. Ces caractéristiques de la droite sont très utiles pour prédire, si le modèle s’avère valable, les valeurs de couples de points autres que ceux qui ont été observés. Le test statistique associé à l’évaluation du coefficient de corrélation R correspond à l’évaluation de la probabilité que la valeur de R observée soit différente de 0. La valeur du P associé mesure donc la probabilité d’observer une linéarité « d’intensité » R, alors qu’elle est en fait nulle. Le nombre d’observations a une influence majeure sur la valeur de P. Par exemple, si un seuil de signification de 0,05 est choisi, un coefficient R valant 0,3 sera considéré comme non significatif pour un échantillon de dix observations, alors qu’il sera très significatif (P < 0,001) pour un échantillon de 10 000 observations. L’intensité est identique et faible (seule 9 % de la variabilité, soit R2, est expliquée par le modèle), mais on a très peu de chance de se tromper en disant qu’il existe une relation linéaire entre les variables. Alors que la réalisation du graphe correspondant à la recherche d’une corrélation linéaire ne nécessite aucune hypothèse préalable, la validité des grandeurs statistiques qui en découlent et leur interprétation requièrent que quelques conditions soient remplies, en particulier que les variables suivent une loi de distribution normale. L’oubli, fréquent, de cette condition de validité peut expliquer la découverte de corrélations faussement très fortes (cas d’une loi binomiale), ou l’observation d’une linéarité très différente de celle attendue. Dimensions Contrairement à l’étude de concordance, les corrélations ne sont pas affectées par les différences de nature ou d’unités des variables comparées. On demande simplement aux deux séries de valeurs d’être quantitatives. Ainsi, il est par exemple possible d’apprécier la corrélation qui existerait entre la concentration plasmatique d’un morphinomimétique exprimée en ng·mL–1 et la fréquence ventilatoire
130
B. Grenier et al.
exprimée en c·min–1. La pente de la droite de régression adopte alors la dimension qui lui est imposée (mL·min–1·ng–1 dans cet exemple). Enfin, une erreur fréquente est de considérer que l’existence d’une liaison entre deux séries de variables implique la causalité de leur relation. Il ne s’agit en fait que d’une observation factuelle (jugement de signification). La causalité entre les valeurs ne peut être établie qu’en fonction de la nature du protocole expérimental (jugement d’interprétation), c’est-àdire des circonstances cliniques. Régression linéaire et valeurs extrêmes Une particularité inhérente au principe du calcul de régression linéaire donne aux valeurs extrêmes une importance que l’on ne souhaite pas forcément. La figure 1 illustre ce phénomène : alors que la plupart des données figurent au sein d’un nuage de points, un petit nombre de points « hors norme » (outliers) peut, par leur seule position, exercer un « effet de levier » et influencer de façon importante les caractéristiques de la droite de régression, en particulier sa pente et sa valeur à l’origine. L’interprétation de ce fait nécessite une solide prise de conscience. En effet, si les points extrêmes ne le sont qu’en raison de l’absence de points intermédiaires dans le relevé expérimental qui feraient du nuage de points un long nuage étalé sur la droite, on peut admettre que ces points extrêmes sont de pertinents représentants de la réalité et qu’ils doivent être pris en considération pour déterminer la droite de régression. L’explication rationnelle de l’absence de points intermédiaires doit donc être claire à l’esprit de l’investigateur et débattue au moment de l’analyse des données. Si, en revanche, ces points extrêmes traduisent quelques situations particulières (au sens médical), échappant à ce qui semble être la règle commune des autres valeurs, le danger est alors grand d’infléchir la droite de régression d’une façon qui n’est plus conforme, ni à la majorité des points, ni aux valeurs extrêmes. On comprend que l’interprétation a posteriori de telles questions peut être à l’origine d’analyses et de présentations de données malhonnêtes au plan scientifique. Une méthodologie rigoureuse voudrait que ces valeurs extrêmes soient, par ordre croissant de pertinence scientifique : a) planifiées a priori pour être recueillies ou non dans l’étude sur la base de critères d’exclusion médicalement réfléchis ; b)
Figure 1. Influence des points extrêmes. Pour un même nuage de points, contenant la plupart des données, une petite minorité de points extrêmes peut influencer de façon importante les caractéristiques de la droite de régression. Il convient de s’assurer que ces points correspondent à des données valides, de même nature que les autres.
incluses et soumises à une analyse non paramétrique ; c) exclues ou incluses dans l’analyse a posteriori sur les mêmes bases. En effet, la présence de valeurs extrêmes en quantité non négligeable remet en question le postulat d’une distribution normale des données, requis pour la régression linéaire. Que cette normalité soit vérifiée ou non (test de Kolmogorov-Smirnov), il peut être judicieux de ne pas en faire l’hypothèse et d’analyser les données en fonction de leur rang plutôt que de leurs valeurs. Cette approche correspond à un test de corrélation non paramétrique. Ainsi les deux valeurs extrêmes de la figure 1 exerceront, du fait de leur rang et non de leur valeur, un poids identique dans le test de corrélation non paramétrique à celui qu’elles exerceraient si elles étaient « collées » à la droite du nuage de points. Méthode de concordance Le principe, énoncé dans la revue The Staticician en 1983 par Altman et Bland, fut de constater que la relation linéaire qui peut être établie entre deux techniques de mesure d’une même grandeur (en pratique une variable clinique ou biologique) est réelle, évidente, mais surtout sans intérêt si c’est à la « concordance » (agreement) entre ces deux techniques que l’on s’intéresse, ce qui est le cas le plus fréquent [2]. Le principe de la concordance est d’apprécier l’écart observé entre les deux valeurs obtenues pour la
Méthode de Bland et Altman
même mesure et d’en déduire, sur l’ensemble de la population observée, le biais, la précision et les limites de l’intervalle de confiance à 95 % qui permettront de statuer sur la concordance des deux séries de valeurs. Les deux séries de données correspondent souvent à une nouvelle méthode de mesure et à une ancienne. Cette dernière n’est pas nécessairement la technique de référence, mais représente celle qui est généralement appliquée et reconnue en pratique (par exemple la mesure de la PETCO2 pour l’appréciation de la PaCO2). Il est peu probable que ces deux techniques fournissent systématiquement la même valeur pour la même grandeur mesurée chez un même sujet. Principe La méthode de Bland et Altman consiste à réaliser un graphe étudiant en ordonnée la différence entre les valeurs obtenues par les deux techniques A et B (soit A – B) et en abscisse la moyenne des valeurs obtenues par ces deux techniques, soit (A + B)/2. Cette moyenne représente une estimation acceptable au plan technique, en l’absence de connaissance préalable du biais existant entre les deux séries de données. Cohérence des séries comparées Dans la mesure où l’évaluation de la concordance repose sur la différence arithmétique de valeurs observées au sein des deux séries, il est nécessaire que ces deux valeurs mesurent d’une part la même chose et d’autre part qu’elles soient exprimées dans la même unité. Contrairement à la régression linéaire, il est donc nécessaire, en cas d’unités différentes, d’opérer la conversion de l’une des deux séries. En revanche, les grandeurs mesurées doivent être identiques. Pour reprendre l’exemple précédent, il n’est pas possible d’évaluer la « concordance » d’une mesure de concentration plasmatique d’un morphinomimétique et la fréquence ventilatoire, car cela n’a aucun sens. Il existe cependant des situations où la même grandeur physique est mesurée de deux façons différentes. La recherche de concordance est alors pertinente, mais impossible à réaliser directement. Par exemple, on ne peut pas soustraire directement les valeurs de concentration d’une substance exprimées en mg·L–1 de celles d’une mesure
131
de l’effet pharmacodynamique de cette substance telle la modification de l’activité d’une enzyme exprimée en UI·L–1. Une façon de contourner ce problème consiste à ne pas considérer les grandeurs absolues mais plutôt leurs variations. Les valeurs relatives n’ont alors plus de dimension et peuvent être comparées par la technique de Bland et Altman. Biais et sa variation Dans l’hypothèse d’une concordance parfaite des deux séries de valeurs, la somme des différences arithmétiques entre les valeurs devrait être nulle. On définit ainsi le « biais » comme la moyenne des différences (). Il représente la moyenne de l’écart systématique d’une série de valeurs par rapport à l’autre. De même, la variabilité de ces différences permet d’évaluer si les deux séries donnent des valeurs reproductibles, au biais près, ou si, au contraire, le biais ne résulte que de différences vraies, qui traduiraient que les données sont de nature vraiment différentes. Pour se faire, on calcule l’écart type des différences (ET). Limites de concordance Dès lors, il est possible, en suivant la tradition en matière de biostatistique, de fixer deux seuils de limite de concordance, arbitrairement représentés par ± 1,96 ET, et de les tracer comme deux droites horizontales sur le graphique (figure 2). Elles correspondent approximativement à deux ET par rapport à la moyenne. Elles englobent l’intervalle dans lequel
Figure 2. Biais et limites de concordance. Les différences individuelles ne sont pas représentées.
132
B. Grenier et al.
sont comprises 95 % des différences, dans l’hypothèse que leur distribution suive une loi normale. Même s’il apparaît évident que des limites plus étroites traduisent une meilleure concordance entre les deux techniques, il convient dans tous les cas de se replacer dans le contexte clinique et d’estimer si ces limites sont acceptables en pratique. Comme souvent avec les graphiques représentant des valeurs quantitatives, on prête attention à l’échelle employée, qui peut donner une idée fausse des résultats objectifs en « dilatant » ou en « tassant » artificiellement l’échelle [1]. Les limites de concordance, que l’on calcule dans un échantillon, ne sont qu’une estimation des limites de concordance vraies de la population entière. En effet, un deuxième échantillon tiré de la même population, dans une autre étude, n’aura pas exactement les mêmes limites. Sous l’hypothèse d’une distribution normale, on peut évaluer les erreurs standard (ES) et les intervalles de confiance du biais et des limites de concordance. L’erreur standard du biais (ES biais) vaut (SD2/n)1/2 et celle des limites de concordance (ESlimite concordance) est (3·SD2/n)1/2, où n est la taille de l’échantillon et SD l’écart type du biais. L’intervalle de confiance à 95 % est évalué par la valeur du t de Student pour une probabilité à 0,05 (5 %) avec un degré de liberté (ddl) égal à n–1 dans une table de distribution du t [3]. L’intervalle de confiance à 95 % du biais est alors égal à ± (t0,05·ESbiais) ; celui de la limite de concordance inférieure (LI) vaut LI ± (t0,05·ESlimite concordance) et celui de la limite supérieure (LS) LS ± (t0,05·ESlimite concordance). Les différences ont une faible variabilité lorsque les intervalles sont étroits. À l’inverse, un petit échantillon ou une variabilité importante des différences produisent des intervalles larges. Précision La précision se définit comme la moyenne des valeurs absolues des différences. Autrement dit, alors que le biais peut être compensé par la cohabitation de différences tantôt positives, tantôt négatives, la précision tient compte de tous les écarts, quel que soit leur sens. La précision est donc numériquement toujours supérieure ou égale au biais, c’est-àdire « moins bonne » ou « équivalente » au biais, dans la mesure où ces grandeurs ont intérêt à être les plus faibles possibles.
Proportionnalité entre différences et moyennes Il arrive que le graphe réalisé selon la technique de Bland et Altman adopte un aspect en « V » couché, dans un sens ou dans l’autre (figure 3). Cet aspect traduit une variation du biais avec la croissance des valeurs. L’interprétation à donner à ce phénomène dépend de la nature des données. S’il existe un doute sur la linéarité des données, celle-ci doit être vérifiée et l’aspect du graphe était alors prévisible. Dans ce cas, le calcul du biais et de la précision n’a pas d’intérêt, car il suppose que les données soient linéaires. Il convient de donner la même importance à une différence observée entre deux valeurs, que celles-ci soient basses ou élevées. Une transformation de données peut alors permettre de se ramener à une tentative de modèle linéaire. Cette précaution prise, l’aspect en V couché signifie alors que les deux séries de valeurs s’écartent aux faibles ou fortes valeurs, ce qui est alors un renseignement très intéressant sur le plan clinique. La valeur globale du biais et de la précision perd de son intérêt à moins d’être calculée au sein d’une tranche restreinte de valeurs. On peut ainsi être conduit à conclure que telle méthode de mesure est équivalente à la méthode de référence au sein de limites données. Cas d’une mesure de référence imprécise Une situation particulière, mais finalement assez fréquente, est à considérer. Il s’agit du cas où l’on sait que la mesure de référence est imprécise (peut-être est-ce même la raison pour laquelle on cherche à en développer une nouvelle…). L’évaluation de la qualité des valeurs issues de la nouvelle technique se
Figure 3. Proportionnalité des différences vis-à-vis de l’amplitude des moyennes.
133
Méthode de Bland et Altman
trouve donc d’emblée pénalisée. Pour se faire, une méthode originale et élégante consiste à comparer l’étude de concordance entre la nouvelle méthode et la méthode de référence à l’étude de concordance entre deux séries de mesures réalisées avec la méthode de référence [4]. Cette procédure permet d’intégrer, dans l’analyse de la nouvelle technique de mesure, les incertitudes de mesure de l’ancienne. Choix de l’abscisse Dans le cas où l’une des deux séries de données serait connue pour être une référence absolue ou à l’inverse le serait pour ne pas être précise du tout, il serait techniquement justifié d’utiliser la meilleure série de données en abscisse, plutôt que cette moyenne qui ne vise qu’à l’approcher. Il faut toutefois savoir que cette attitude conduit presque invariablement à créer une corrélation artéfactuelle entre les deux grandeurs [5]. Cette décision doit donc être prise en connaissance de cause. En effet, la corrélation entre la différence et la moyenne des deux techniques de mesure est souvent nulle, ou en tout cas faible, quand les variances des deux techniques sont proches. Ceci devient faux s’il existe une très forte variabilité d’une technique par rapport à l’autre. Par exemple, si les différences s’élargissent lorsqu’on se dirige vers la droite du graphe (amplitudes plus importantes), les variances des mesures effectuées par les deux techniques seront différentes. En revanche, la corrélation entre la différence et la valeur de la technique de référence, au lieu de la moyenne, est habituellement négative, même en l’absence de différence entre les variances des deux techniques. Cette corrélation induite est faible lorsque les deux techniques sont elles-mêmes fortement corrélées et inversement. En conséquence, le fait d’examiner la différence par rapport à la technique de référence montre une relation, qu’il y ait ou non association entre différence et amplitude de la mesure. Cas d’une mesure répétée La concordance entre deux techniques est faible, si l’une des deux est l’objet d’une grande variabilité lorsque l’on répète les doubles mesures chez un même sujet. Pour évaluer cette variabilité, il est tout à fait possible d’utiliser la méthode de Bland et Altman pour chaque sujet, c’est-à-dire de représenter graphiquement la différence entre deux mesures
réalisées avec la même technique chez un même sujet par rapport à la moyenne des mesures. La même méthode ayant été utilisée, le biais (moyenne des différences) devrait être égal à zéro. Dans ce cas, 95 % des différences doivent être comprises entre + 2.ET et – 2.ET, ce qui est la définition du coefficient de répétabilité [1]. Lorsque le biais est égal à zéro, ce coefficient est très simple à calculer, puisqu’il représente deux écart types, c’est-à-dire la racine carrée de la somme des différences au carré divisée par n. Lorsqu’il existe plus de deux mesures par technique, c’est la déviation standard de l’ensemble des mesures qui est représentée par rapport à la moyenne des mesures, à laquelle on applique une analyse de variance à un facteur. Comparaison de plusieurs mesures répétées La méthode de Bland et Altman peut être utilisée lorsque les deux techniques font appel à des mesures répétées. Dans ce cas, il convient de tracer la différence des moyennes de chaque sujet pour chacune des techniques en fonction de la moyenne des deux techniques. L’estimation du biais n’est pas affectée par la répétition des mesures. En revanche, l’estimation de la déviation standard des différences est erronée, car l’utilisation des moyennes de mesures répétées réduit l’erreur de mesure. Ceci peut être corrigé en calculant les déviations standard des différences entre les mesures répétées pour chaque technique prise séparément (s1 et s2), puis la déviation standard des différences entre les moyennes de chaque technique (sd). La déviation standard corrigée des
=s2d + s21 /4 + s22 /4. Ceci 2 égal à =2sd . Cependant,
différences (sc) vaut alors
est approximativement s’il existe des différences entre les deux techniques, qui ne s’expliquent pas par des erreurs de répétition (interactions entre sujet et technique), cette dernière approximation risque de surestimer la déviation standard. CONFUSIONS ENTRE RÉGRESSION LINÉAIRE ET MÉTHODE DE BLAND ET ALTMAN À l’issue de l’exposé des deux techniques, on conçoit que chacune ait sa place. Il est regrettable de constater l’attitude, encore répandue, consistant à
134
B. Grenier et al.
utiliser une régression linéaire assortie de son coefficient de corrélation, dans le but d’évaluer une concordance. Si le coefficient de corrélation est proche de 1, la concordance semble bonne. En réalité, ce test ne fait que mesurer l’existence d’une liaison linéaire entre les deux mesures, laquelle est heureusement retrouvée puisque c’est la même grandeur qui est évaluée de deux façons différentes, et non la concordance des deux techniques pour chaque cas mesuré. Dans ce cas, le coefficient de corrélation mesure l’intensité de cette relation, linéaire dans cet exemple, entre les deux variables et non la concordance entre elles. Mais surtout, la valeur du risque de première espèce (P) attachée n’a aucun sens, puisqu’elle équivaut au risque de rencontrer la liaison observée, alors qu’elle n’existerait pas en réalité. Or elle existe par définition. À titre d’exemple, en mesurant chez 16 de leurs collègues ou parents le débit de pointe expiratoire au moyen de deux techniques différentes (débitmètre de Wright et Mini-débitmètre), Bland et Altman calculent un « excellent « coefficient de corrélation (0,94). Il serait faux de penser que le Mini-débitmètre peut avantageusement remplacer le débitmètre conventionnel, car ce coefficient ne renseigne pas sur les écarts de la mesure puisque chez certains sujets des différences de 80 L·min–1 sont observées entre les deux techniques [1]. EXEMPLES DE L’UTILISATION ERRONÉE DE LA MÉTHODE DE BLAND ET ALTMAN Dans les publications d’anesthésie et de réanimation, un nombre croissant d’auteurs utilisent la méthode de Bland et Altman pour comparer deux techniques de mesure. Si la plupart se réfèrent à la méthode d’origine, d’autres, comme le montrent les exemples suivants, s’éloignent des règles applicables. Dans une étude comparant la mesure de la saturation veineuse jugulaire en oxygène (SjO2) à l’aide d’un cathéter à fibres optiques, inséré au niveau du bulbe jugulaire et d’un co-oxymètre (prélèvement sanguin au même site), le graphe (différences des SjO2 vs moyennes des SjO2) ne donne pas la droite représentant le biais moyen [6]. Les limites de concordance (2.ET) sont présentes, ainsi que deux limites qui correspondent à un écart type. Ces dernières apportent une information, mais le lecteur doit
se souvenir que seules 68 % des différences sont comprises dans cet intervalle. Un travail en réanimation pédiatrique [7] a comparé deux méthodes non invasives de mesure du CO2 (pression télé-expiratoire – PETCO2, pression transcutanée – Tc-CO2) vis-à-vis de la technique de référence (pression partielle artérielle – PaCO2). Les auteurs obtiennent ainsi deux graphes (PETCO2 vs PaCO2 et Tc–CO2 vs PaCO2) permettant de conclure que chez l’enfant de moins de deux ans en détresse respiratoire, la Tc–CO2 donne une estimation plus fiable de la PaCO2 que la PETCO2. En effet, il apparaît nettement que les limites tracées autour du biais sont plus étroites dans le cadre de l’utilisation de la Tc–CO2. Cependant, une analyse attentive permet de formuler deux critiques. Tout d’abord, c’est la méthode de référence (PaCO2) qui a été portée en abscisse et non la valeur moyenne (c’est-à-dire PaCO2 + PETCO2/2 ou PaCO2 + Tc–CO2/2). L’utilisation de la PaCO2 comme référence peut être licite, mais elle demande alors l’emploi d’une méthodologie statistique adaptée, autre que la méthode de Bland et Altman. De plus, les auteurs ont appelé « précision » les lignes tracées autour du biais. Ces dernières correspondent en fait à un écart type autour de la moyenne (68 % des différences), ce qui, même si ceci est précisé dans la méthodologie, peut donner l’impression au lecteur connaissant la méthode de Bland et Altman « classique » d’observer des limites de concordance étroites. Un groupe a comparé, deux à deux, trois méthodes évaluant la contractilité ventriculaire gauche, à partir de la relation pression-volume télésystolique, en chirurgie cardiaque [8]. Trois graphiques ont été tracés avec les mêmes échelles, ce qui permet non seulement une appréciation directe du biais et des limites de concordance pour chacun des graphes, mais aussi une comparaison directe de ces valeurs. On note cependant que des mesures répétées ont été effectuées chez plusieurs patients, ce qui devrait, de façon plus rigoureuse, faire intervenir une analyse de variance. Les sources d’erreur, nombreuses dans l’utilisation de la méthode de Bland et Altman, peuvent conduire à une mauvaise interprétation des résultats. L’examen des 481 résumés de communications présentées lors du 39e Congrès de la société française d’anesthésie et de réanimation, montre que 11 d’entre eux faisaient appel à cette méthode [9]. Les principales
135
Méthode de Bland et Altman
erreurs observées étaient les suivantes : utilisation de mesures répétées chez un même sujet sans analyse de variance (huit fois), absence de graphe (quatre fois), absence de limites de concordance (cinq fois), définition de la précision comme un écart type (quatre fois), mise en abscisse de la méthode de référence (une fois). RÉALISATION PRATIQUE DE CES TECHNIQUES Les méthodes et tests statistiques cités dans ce texte sont réalisables à l’aide de logiciels usuels, tels que Statview pour MacOS (Abacus Concept), xdlas sous Linux (logiciel libre téléchargeable sous http: //www.a42.com/≈thor/xdlas/), ou SPSS sous les diverses versions de Microsoft Windows. Les études de concordance ne sont toutefois pas directement réalisées par ces logiciels dans leurs versions actuelles. L’emploi d’un tableur est alors la solution la plus simple et la plus polyvalente pour y parvenir rapidement. CONCLUSION Régression linéaire et étude de concordance sont deux techniques complémentaires destinées à répondre à deux types de questions différentes. La technique de régression linéaire recherche l’existence d’une relation de proportionnalité entre deux séries numériques sans relation obligatoire de dimension ou d’unité entre elles. Une fois cette relation établie (jugement de signification), elle nécessite d’être expliquée au plan clinique (jugement d’interprétation) car la mise en évidence de cette relation n’en fournit pas l’explication.
La méthode de comparaison de deux séries de valeurs selon la méthode de Bland et Altman consiste à étudier l’écart existant au sein des couples de valeurs de la même grandeur, obtenus par deux méthodes différentes. Cette méthode est l’outil adapté pour l’appréciation clinique d’une nouvelle technique de mesure par rapport à une technique utilisée en référence. RE´FE´RENCES 1 Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986 ; 1 : 307-10. 2 Altman DG, Bland JM. Measurement in medicine: the analysis of the method comparison studies. Statistician 1983 ; 32 : 307-17. 3 Riou B, Pinaud M. Expression numérique des résultats. Ann Fr Anesth Réanim 1996 ; 15 : 49-56. 4 Samama CM, Quezada R, Riou B, Mourgeon E, Arock M, Ankri A, et al. Intraoperative measurement of activated partial thromboplastin time and prothrombin time with a new compact monitor. Acta Anaesthesiol Scand 1994 ; 38 : 232-7. 5 Bland JM, Altman DG. Comparing methods of measurement: why plotting difference against standard method is misleading. Lancet 1995 ; 346 : 1085-7. 6 Trubiano P, Heyer EJ, Adams DC, McMahon DJ, Christiansen I, Rose EA, et al. Jugular venous bulb oxyhemoglobin saturation during cardiac surgery: accuracy and reliability using a continuous monitor. Anesth Analg 1996 ; 82 : 964-8. 7 Tobias JD, Meyer DJ. Noninvasive monitoring of carbon dioxide during respiratory failure in toddlers and infants: endtidal versus transcutaneous carbon dioxide. Anesth Analg 1997 ; 85 : 55-8. 8 Gorscan J, Denault A, Gasiro TA, Mandarino WA, Kancel MJ, Deneault LG, et al. Rapid estimation of left ventricular contractility from end-systolic relations by echographic automated border detection and femoral arterial pressure. Anesthesiology 1994 ; 81 : 553-62. 9 Société française d’anesthésie et de réanimation 39e Congrès national d’anesthésie et de réanimation. Résumés des communications. Ann Fr Anesth Réanim 1997 ; 16 : 561-856.