Immuno-analyse et biologie spécialisée (2009) 24, 126—134
STRATÉGIE D’EXPLORATION FONCTIONNELLE ET DE SUIVI THÉRAPEUTIQUE
Estimation du risque de trisomie 21 fœtale par les marqueurs sériques maternels : impact des erreurs analytiques sur le risque calculé Foetal Down syndrome risk evaluation by maternal serum markers: Influence of analytical errors on computed risk J.-F. Morin a,∗, V. Morin a, M.-P. Moineau b a
Biostatistiques et informatique médicale, faculté de médecine, 22, rue Camille-Desmoulins, 29200 Brest, France Unité d’immunochimie, département de biochimie et pharmacologie toxicologie, CHU de Brest, 5, boulevard Tanguy-Prigent, 29609 Brest cedex, France
b
Rec ¸u le 6 mars 2009 ; accepté le 27 mars 2009 Disponible sur Internet le 26 mai 2009
KEYWORDS Down syndrome; Maternal serum markers; Analytical error; Variance on calculated risk
MOTS CLÉS Trisomie 21 ; Marqueurs sériques maternels ; Erreur analytique ; Variance sur le risque calculé
Summary Foetal Down syndrome risk computed on maternal serum markers has an accuracy which depends on the accuracy of measured concentrations. This study uses properties of mean and variance to obtain formulas for risk variance in terms of concentrations analytical errors. Statistical distributions of likelihood ratio are also examined. Using two serum markers alone and two markers with nuchal translucency is considered. © 2009 Elsevier Masson SAS. All rights reserved.
Résumé L’imprécision du risque de trisomie 21 fœtale calculé par les marqueurs sériques maternels dépend de l’imprécision sur les concentrations mesurées. Utilisant les propriétés mathématiques de l’espérance et de la variance, cet article propose des formules estimant la variance du risque calculé en fonction des concentrations mesurées et de leurs erreurs analytiques. Il discute également des distributions statistiques du logarithme du rapport de vraisemblance. L’usage de deux marqueurs sériques seuls, ainsi que celui de deux marqueurs joints à la clarté nucale sont étudiés. © 2009 Elsevier Masson SAS. Tous droits réservés.
Introduction ∗
Auteur correspondant. Adresse e-mail :
[email protected] (J.-F. Morin).
Toute mesure est affectée d’erreurs aléatoires ; on peut en évaluer l’importance par un écart-type et/ou un CV. Ces derniers sont obtenus à partir de mesures répétées
0923-2532/$ – see front matter © 2009 Elsevier Masson SAS. Tous droits réservés. doi:10.1016/j.immbio.2009.03.002
Trisomie 21 : estimation du risque par les marqueurs sériques maternels sur des prélèvements de concentrations variées, dans des conditions expérimentales précises ; la moyenne et l’écarttype des résultats de telles mesures permettent d’estimer l’imprécision de la technique pour ces différents niveaux de concentration et d’obtenir des profils d’imprécision, intraet/ou inter-série. Dans le cas du calcul de risque de trisomie 21 (T21) fœtale, on mesure la concentration sérique d’au moins deux marqueurs. Ces concentrations sont introduites dans un noyau de calcul qui fournit un rapport de vraisemblance ; en multipliant ce rapport par le risque lié à l’âge de la patiente, on obtient le risque calculé. La question posée est la suivante : quel est l’impact des erreurs analytiques sur le risque calculé ? Est-il possible d’accompagner le résultat d’un écart-type ou d’un intervalle de confiance directement déduit du profil d’imprécision ? Quelques auteurs [1,8,9] ont abordé ce problème de fac ¸on pragmatique, par dosages répétés de sérums et calcul des risques correspondants. Cette fac ¸on de procéder ne relie pas de fac ¸on évidente la concentration et le profil d’imprécision fourni par l’industriel ou établi par le biologiste ; elle n’apporte de solution que pour quelques combinaisons de concentrations des marqueurs et ne permet donc pas un calcul de l’erreur et d’intervalle de confiance quelle que soit cette combinaison. Dans cet article nous proposons une méthode plus générale. Par deux approches mathématiques différentes nous proposons des formules pour l’écart-type du risque calculé. Toutes ces formules ont été vérifiées par simulations numériques et comparées à une approche numérique directe ; les formes des distributions statistiques permettant de proposer un intervalle de confiance du risque calculé ont été étudiées et comparées à la loi de Gauss. Afin de simplifier la présentation, nous avons d’abord traité le cas d’un seul marqueur sérique, puis ensuite de deux et enfin proposé une solution pour deux marqueurs sériques associés à la clarté nucale.
Erreur sur le risque dans le cas d’un seul marqueur sérique Principe du calcul de risque. Notations Le principe est bien connu. Disposant de la durée de grossesse (DG) de la femme au jour du prélèvement, la concentration du marqueur est transformée en multiple de la médiane (MoM) ; cette transformation utilise un générateur de médianes, fonction qui à toute DG fait correspondre une concentration médiane (MedDG ) : l’évolution des concentrations du marqueur en fonction de DG est ainsi corrigée du facteur DG [7]. La variable MoM est introduite, dans le noyau de calcul, sous la forme de son logarithme [X = log(MoM)] car le logarithme permet de travailler sur des distributions quasi gaussiennes. Dans le cas simplifié de l’utilisation d’un seul marqueur sérique, le rapport de vraisemblance L(X) = L se déduit des ordonnées des deux densités gaussiennes
suivantes : yn =
127
2
2
1 x − n √ exp −0, 5 n n 2
1 x − p = √ exp −0, 5 p p 2
; yp
par le rapport L = yn /yp . En multipliant l’inverse du risque lié à l’âge par ce rapport on obtient l’inverse du risque calculé, mode de rendu habituel du risque. Ces fonctions décrivent idéalement la distribution des log(MoM), pour la première, dans une population de femmes non porteuses d’enfants atteints de trisomie (indice n pour « non porteuse ») et, pour la seconde, dans une population de femmes porteuses d’enfants atteints de T21 (indice p pour « porteuse ») ; et désignent, avec leur indice respectif, la moyenne et l’écart-type de ces populations de log(MoM).
Problème et solutions Problème Soit C la concentration du marqueur sérique à mesurer ; C n’est connue qu’aux erreurs aléatoires près. Ces erreurs aléatoires sont supposées suivre une loi de Gauss de moyenne C et d’écart-type C ; CV = C /C est le coefficient de variation associé à ces fluctuations ; il est, avec C , une mesure de l’imprécision de la technique de dosage en C. Les fluctuations analytiques se répercutent sur le MoM, sur X = log(MoM), sur les ordonnées yn et yp , sur leur rapport L(X) et enfin sur le risque calculé R. Peut-on induire de ce CV analytique un CV pour le risque calculé ? Il est évident que le CV du MoM est égal à celui de la concentration ; en effet, pour DG donné, le MoM est la concentration divisée par une constante qui est la médiane déduite du générateur ; dans ce travail, nous n’étudions pas les incertitudes induites par l’estimation d’un générateur de médianes ; une approche plus globale, basée sur des simulations, a déjà fait l’objet de publications dans ce journal [6,7]. Le problème consiste donc à déduire du CV de la concentration l’erreur, c’est-à-dire l’écart-type x = log(MoM) sur le log(MoM), puis l’erreur sur le rapport L des ordonnées yn et yp . Les difficultés d’estimation de cette erreur finale tiennent à la transformation logarithmique du MoM, à l’usage d’un rapport de fonctions exponentielles de ce log (lois de Gauss) faisant en outre intervenir ce log dans des expressions quadratiques. Solution « directe » Un moyen très simple pour se faire une idée de l’impact de l’imprécision analytique sur le risque calculé est d’évaluer ce risque pour des écarts de MoM autour de la valeur moyenne définie par C/Med et de calculer L pour ces écarts. La Fig. 1 présente, à titre d’exemple, les écarts à la valeur cible L(X) exprimés en pour cent de L, pour MoM ± 1,96MoM en fonction de MoM ; ces intervalles ont été évalués pour des concentrations de CV 2, 5 et 8 %. Cette première approche permet de constater :
128
J.-F. Morin et al.
Estimation de la variance de Ln(L) L’expression du rapport de vraisemblance est donc :
L=
1 √ n 2
exp −0, 5
1 √ p 2
Figure 1 Un seul marqueur ; méthode directe : intervalles de confiance, au risque 5 %, du rapport de vraisemblance L, en fonction du MoM, pour des concentrations de CV 2, 5 et 8 % ; les limites des intervalles sont exprimées en pour cent de L.
exp −0, 5
x−n n
2
A exp[−0, 5 U 2 ]
n 2 = A exp[−0, 5 V 2 ] p x−p p
expression dans laquelle x = log(MoM) se déduit de la concentration par log(C/MedDG ). Pour simplifier cette équation et faciliter les calculs, considérons son logarithme népérien, soit : Ln(L) = f(U, V ) = Ln
An + 0, 5(V 2 − U 2 ) Ap
Il s’agit d’une fonction de deux variables U, V et la formule de propagation des erreurs est dans ce cas : • l’effet amplificateur des fonctions exponentielles sur l’erreur analytique : ainsi, pour MoM = 1 et CV = 5 %, le risque calculé admet pour intervalle de confiance à 95 % un intervalle voisin de plus ou moins 20 % autour de la valeur R calculée ; • que les intervalles de confiance ne sont pas centrés sur la valeur cible L, ce qui indique que les distributions statistiques des erreurs sur L ne sont pas symétriques par rapport à cette cible ; • par une analyse plus complète, que l’évolution de l’erreur sur L en fonction des valeurs de MoM dépend aussi des caractéristiques (moyennes et écarts-types) des log(MoM) des populations « normales » et « pathologiques » ; les paragraphes qui suivent permettront d’expliciter de fac ¸on plus précise cette dépendance ; • qu’enfin, l’erreur est fonction de la valeur du MoM, ce qui était prévisible puisque le CV est supposé constant et que, par suite, l’erreur analytique est proportionnelle à la concentration mesurée donc au MoM ; bien évidemment, l’allure des courbes donnant l’intervalle de confiance dépend du profil d’imprécision de la technique de dosage.
Estimation approchée de la variance de Ln(L) par la formule de propagation des erreurs Formule de propagation des erreurs Considérons, très généralement, une fonction de deux variables aléatoires Y = f(X1 , X2 ). Lorsque le CV de chacune des variables est faible, par exemple inférieur à 10 %, on démontre, par développement limité, que la variance de Y est approximativement [2,3] :
Y2 =
∂f ∂X1
2
2 X1 +
∂f ∂X2
2
2 X2 +2
∂f ∂X1
∂f ∂X2
cov(X1 , X2 )
2 Ln(L) =
∂f ∂U
2
U2 +
∂f ∂V
2
V2 + 2
∂f ∂U
∂f ∂V
cov(U, V )
= U 2 U2 + V 2 V2 − 2UVcov(U, V )
Or : U2 = Variance
x − n
= Variance
n x − p p
=
=
x2 et V2 n2 x2 p2
On en déduit aisément que :
2 = Ln(L)
U
x x −V n p
2 = (UU − VV )2
Le développement de cette formule fait intervenir la covariance entre U et V ; elle est égale au produit U V , car U et V sont parfaitement corrélées (rUV = 1) puisque dépendant l’une et l’autre de x = log(MoM) par des relations linéaires. Une autre possibilité eut été d’exprimer V en fonction de U (ou U en fonction de V) et d’appliquer la formule de propagation des erreurs à la fonction de la seule variable U (ou V). Cette démarche, à peine plus longue, aboutit évidemment à la même expression pour la variance de Ln(L). Disposant ainsi d’une estimation de l’écart-type Ln(L) on peut en déduire, pour Ln(L), un intervalle de confiance au risque 5 % : [Ln(L) − 1,96 Ln(L) ; Ln(L) + 1,96 Ln(L) ] pour tout x, sous réserve cependant (cf. infra) que la distribution de Ln(L) soit au moins approximativement gaussienne et que l’on sache calculer x = log(MoM) (ces réserves seront traitées au paragraphe discussion). Un intervalle de confiance pour L, et donc pour le risque, s’en déduit alors par exponentiation des bornes de l’intervalle de Ln(L). La Fig. 2 illustre les intervalles de confiance à plus ou moins 1,96 écart-type pour le rapport de vraisemblance L en fonction du MoM ; ces courbes ont été tracées pour des CVC de 2, 5 et 8 %.
Trisomie 21 : estimation du risque par les marqueurs sériques maternels
129
Expression de la variance de L Expressions de var(U2 ) et Var(V2 ) On peut démontrer [5] que la variance du produit de deux variables aléatoires W et Z est : 2 Var(WZ) = 2W Z Cov(W, Z) + 2W Z2 + 2Z W 2 + Z2 W + [Cov(W, Z)]2
Figure 2 Un seul marqueur ; propagation des erreurs : intervalles de confiance, au risque 5 %, du rapport de vraisemblance L, en fonction du MoM, pour des concentrations de CV 2, 5 et 8 % ; les limites des intervalles sont exprimées en pour cent de L.
La comparaison de ces intervalles à ceux donnés par la méthode directe précédente montre que la méthode par propagation des erreurs surestime légèrement la borne inférieure de l’intervalle de confiance et sous-estime un peu plus la borne supérieure de cet intervalle. À titre d’exemple, pour une technique de CV 5 % et un MoM de 4,5, l’écart est de 3,5 % pour la borne inférieure et de 4,7 % pour la borne supérieure. Ces écarts se réduisent à 1,5 et 1,7 % pour un CV de 2 %.
Estimation de la variance de Ln(L) à partir des variances et de la covariance des variables Principe Comme vu précédemment, le logarithme du rapport de vraisemblance a pour expression : Ln(L) = Ln (An /Ap ) + 0,5(V2 − U2 ) où U et V sont des fonctions de la variable X = log(MoM). La variance déduite de la formule de propagation des erreurs est une approximation basée sur un développement limité au premier ordre de cette fonction de U et V. L’objectif est cette fois de trouver, avec le moins d’approximations possibles, une expression de la variance de L en faisant appel aux propriétés des variables aléatoires. Dans ce qui suit, nous désignerons très classiquement l’espérance d’une variable X par E(X) ou X et sa variance par Var(X) ou par x2 . D’après les propriétés d’une combinaison linéaire de variables aléatoires on peut écrire :
Si l’on pose Z = W, on en déduit la variance du carré de W compte tenu que dans ce cas la corrélation entre W et Z est 1 et que la covariance est alors le produit des écarts-types de W et Z, c’est-à-dire la variance de W. On obtient ainsi : 2 2 Var(W 2 ) = 2[22W + W ]W . En appliquant cette formule à U2 = (x − n / n )2 puis à V2 = (x − p / p )2 , on obtient :
x − n 2
Var(U ) = 2 2 2
=
n
2 4U 2 x2 n
+2
= 4V 2
x2 n2
x4 = 4U 2 U2 + 2U4 n4
x − p Var(V ) = 2 2 p 2
2 + x2 n
2
2 + x2 p
x2 p2
4 x2 + 2 x4 = 4V 2 V2 + 2V4 2 p p
Expression de Cov(U2 , V2 ) La définition générale de la covariance permet d’écrire pour toute variable U et V : Cov(U 2 , V 2 ) = E(U 2 V 2 ) − E(U 2 )E(V 2 ) D’une part, on démontre [5] que : E(U 2 V 2 ) = 2U 2V + 2U V2 + 2U V2 + 4U V Cov(U, V ) + 2[Cov(U, V )]2 + U2 V2 D’autre part, la définition d’une variance permet d’écrire : E(U 2 ) = U2 + 2U et E(V 2 ) = V2 + 2V Par suite : E(U 2 )E(V 2 ) = (U2 + 2U )(V2 + 2V ) = U2 V2 + 2V U2 + 2U V2 + 2U 2V D’où l’expression suivante pour la covariance :
Var[Ln(L)] = 0, 25 [Var(U 2 ) + Var(V 2 ) − 2cov(U 2 , V 2 )]
Cov(U 2 , V 2 ) = 4U V Cov(U, V ) + 2[Cov(U, V )]2
En exprimant les deux variances et la covariance de cette dernière formule en fonction des quantités connues : n , p , n , p , x , il est possible d’obtenir une estimation de la variance de Ln(L) et donc une estimation de la variance de L pour tout MoM et pour toute valeur de la précision de la technique de dosage.
Comme les deux variables U et V intervenant dans le calcul du risque sont totalement corrélées (c’est-à-dire, r = 1) alors Cov(U,V) = U V et donc, d’après l’expression précédente : Cov(U 2 , V 2 ) = 4U V U V + 2U2 V2
130
J.-F. Morin et al.
Expression de var[Ln(L)] En reportant ces valeurs dans l’expression de la variance du logarithme de L on obtient finalement :
Les variables intervenant dans le calcul de risque sont au nombre de quatre ; nous utiliserons la notation U pour les non-T21 (population « n ») et V pour les T21 (population « p »), notations indicées 1 ou 2 selon le marqueur. Ces variables sont donc les suivantes : x − x − 1 1n 1 2n U1 = , U2 = , 1n 2n
Var[Ln(L)] = 0, 25[Var(U 2 ) + Var(V 2 ) − 2Cov(U 2 , V 2 )] 2
= (UU − VV )2 + 0, 5(U2 − V2 )
Disposant ainsi d’une estimation de l’écart-type Ln(L) de Ln(L), on peut en déduire, pour Ln(L), un intervalle de confiance au risque 5 % : [Ln(L) − 1,96 Ln(L) ; Ln(L) + 1,96 Ln(L) ], toujours sous réserve que la distribution de Ln(L) soit au moins approximativement gaussienne et que l’on sache déduire x de l’erreur analytique sur la concentration. L’intervalle de confiance pour L, et donc pour le risque, en découle par exponentiation des bornes de cet intervalle. Les intervalles de confiance calculés par cette dernière formule pour des CV de 2, 5 et 8 % et des MoM allant de 0,1 à 4,5 ne diffèrent, tout au plus, que par la seconde décimale de ceux obtenus par la formule provenant de la propagation des erreurs ; cette différence infime tient au
V1 =
21n 2n
1 21p 2p
et V2 =
x2 − 2p 2p
Le rapport de vraisemblance Le rapport de vraisemblance L = (fn [x1 ,x2 ]/fp [x1 ,x2 ]), soit ici :
1−n2
Les valeurs x sont les log(MoM) déduits des concentrations C1 et C2 ; et sont les moyennes et écarts-types des distributions de log(MoM) dans les populations (n) et (p). Les coefficients de corrélation entre les log(MoM) de deux marqueurs sériques sont notés simplement n et p .
1√
L=
x1 − 1p 1p
1−p2
exp
0,5 − 1− 2 n
exp
0,5 − 1− 2
p
x1 −1n 1n x1 −1p 1p
2 2
−
2n x1−1n x2−2n 1n 2n
+
x1 −1p x2 −2p 1p 2p
+
− 2p
est
toujours :
2
x2 −2n 2n
x2 −2p 2p
2
ou plus simplement :
2
fait que le terme 0, 5(U2 − V2 ) donne, pour nos erreurs analytiques, des valeurs négligeables face au terme (UU − VV )2 qui est l’expression de la variance de Ln(L) donnée par la propagation des erreurs.
L=
An exp{−Bn [U12 − 2n U1 U2 + U22 ]} Ap exp{−Bp [V12 − 2p V1 V2 + V22 ]}
Solutions proposées
Erreur sur le risque dans le cas de deux marqueurs sériques Problème et notations Fonction de Gauss à deux variables Le problème est le même que précédemment : trouver un intervalle de confiance pour le risque mesuré ; mais il est plus complexe du fait que la fonction permettant le calcul du risque est une densité de Gauss à deux variables x1 et x2 dont l’expression générale est la suivante : 1
0, 5 f(x1 , x2 ) = exp − 2 1 − 2 21 2 1 − x 1 − 1 x2 − 2 + − 2 1 2
x1 − 1 2 1
x − 2 2 2 2
Les erreurs analytiques et les variables Il faut ici considérer deux sources d’erreurs analytiques puisqu’il y a deux dosages, par exemple hCG (indice 1) et ␣FP (indice 2) lorsque le calcul est fait au deuxième trimestre. Nous supposerons ces erreurs de nature gaussienne, de moyennes égales aux concentrations cibles C1 et C2 que l’on veut mesurer, d’écart-type connu et indépendantes (c’està-dire non corrélées, ce qui implique C1C2 = 0).
Méthode « directe » La résolution est plus complexe que dans le cas d’un seul marqueur sérique car il faut définir l’intervalle de confiance pour L, non plus à partir d’une seule erreur gaussienne, mais d’un couple d’erreurs gaussiennes centrées sur MoM1 et MoM2 . Comme ces erreurs analytiques e1 et e2 sur les MoM des marqueurs sont indépendantes et gaussiennes, elles constituent des couples dont la loi de densité, produit de leurs densités, est :
f(e1 , e2 ) =
1 2MoM1 MoM2
+
exp
e2 − MoM2 MoM2
−0, 5
e1 − MoM1 MoM1
2
2
Cette fonction définit dans l’espace une surface de révolution autour d’un axe perpendiculaire au plan des variables (e1 , e2 ) et passant par le point de cordonnées (MoM1 , MoM2 ) des MoM cibles. La surface est en forme de cloche ; elle est asymptotique au plan des axes (e1 , e2 ) dans toutes les directions. Une section de cette surface par un plan parallèle au plan (e1 , e2 ) est un cercle (ce serait une ellipse s’il y avait une corrélation non nulle entre les erreurs). Tout volume entre cette surface et le plan (e1 , e2 ) est une probabilité, le volume total entre surface et plan est égal à un et le produit
Trisomie 21 : estimation du risque par les marqueurs sériques maternels
131
Comme dans le cas d’un seul marqueur, cette première approche permet de constater encore : • d’une part, l’effet amplificateur des fonctions exponentielles sur l’erreur analytique : ainsi, pour MoM1 = 1, MoM2 = 0,5 et CV = 0,05 pour les deux techniques, le risque calculé admet pour intervalle de confiance à 95 % l’intervalle [−27,2 ; 35,9] ; cet intervalle devient [−17,8 ; 20,5] pour MoM2 = 2 ; • d’autre part, que l’erreur est fonction de la valeur des MoM, ce qui était prévisible puisque les CV sont supposés constants et qu’en conséquence les erreurs analytiques sont proportionnelles aux concentrations mesurées, donc aux MoM ; • enfin, par une analyse plus complète, que l’évolution de l’erreur en fonction des valeurs de MoM dépend étroitement des caractéristiques (moyennes et écarts-types) des log(MoM) des populations « non porteuse » et « porteuse ». Ces intervalles de confiance sont donc propres à un système de mesure des concentrations et à un noyau de calcul et ne peuvent être utilisés tels quels pour un autre logiciel de calcul de risque.
Solution utilisant la formule de propagation des erreurs Figure 3 a : deux marqueurs ; méthode directe : intervalles de confiance, au risque 5 %, du rapport de vraisemblance L pour des techniques dont le CV des concentrations est 2 %. L’intervalle, exprimé en pour cent de L, est dissymétrique par rapport à l’axe des abscisses et d’autant plus large que MoM2 est faible et que MoM1 est élevé ; b : deux marqueurs ; méthode directe : intervalles de confiance, au risque 5 %, du rapport de vraisemblance L pour des techniques dont le CV des concentrations est 5 %. L’intervalle, exprimé en pour cent de L, est dissymétrique par rapport à l’axe des abscisses et d’autant plus large que MoM2 est faible et que MoM1 est élevé.
Nous avons, comme dans le cas d’un seul marqueur, recherché une estimation de la variance de Ln(L), à partir du logarithme de l’expression suivante : L=
An exp{−Bn [U12 − 2n U1 U2 + U22 ]} Ap exp{−Bp [V12 − 2p V1 V2 + V22 ]}
c’est-à-dire de :
Ln(L) = f(U1 , U2 , V1 , V2 ) = Ln
An Ap
− Bn (U12 − 2n U1 U2 + U22 ) + Bp (V12 − 2p V1 V2 + V22 ) dp = f. de1 .de2 est la probabilité d’obtenir simultanément un couple d’erreurs dans les intervalles de1 et de2 centrés sur e1 et e2 . À tout couple (e1 , e2 ) correspond une seule valeur de L ; mais une valeur de L peut résulter de couples différents. Afin d’établir la distribution des probabilités de la variable L à MoM1 et MoM2 donnés et e1 , e2 variables, nous avons procédé aux calculs des couples L et dp et établi ainsi la loi de distribution des probabilités de L. Enfin, nous en avons déduit les valeurs limites Linf et Lsup ayant des probabilités au plus égale à 2,5 % d’être dépassées, par valeurs inférieures pour la première et par valeurs supérieures pour la seconde, définissant ainsi un intervalle de confiance à 95 % pour L. La recherche de ces limites a été effectuée pour des techniques de CV variables. Les Fig. 3a et b illustrent les intervalles de confiance obtenus dans l’hypothèse de deux techniques de CV identiques de 2 % puis de 5 % ; en abscisses, les valeurs de MoM1 ; en ordonnées la variation relative du rapport de vraisemblance ; pour un MoM1 donné, le MoM2 va décroissant lorsque l’on s’éloigne de l’axe des abscisses.
Cette expression est une fonction de quatre variables U1 , U2 , V1 etV2 . L’application de la propagation des erreurs donne :
2 = Ln(L)
∂f ∂U1
2
∂f + ∂V2
2 U1 +
∂f ∂U2
2
2 U2 +
2
V2 2
+ 2cov(U1 , V1 )
+ 2cov(U2 , V2 )
∂f ∂U2
∂f ∂V2
∂f ∂V1
∂f ∂U1
2 V2 1
∂f ∂V1
Les covariances entre U1 et U2 d’une part et entre V1 et V2 d’autre part sont nulles puisque les erreurs sur les mesures de deux marqueurs sériques sont supposées indépendantes entre elles. On peut aussi procéder plus simplement en exprimant V1 en fonction de U1 et V2 en fonction de U2 . On ramène ainsi l’expression à une fonction de deux variables, U1 et U2 , non corrélées. C’est ce choix que nous avons fait. La variance
132
J.-F. Morin et al.
cherchée est alors :
2 Ln(L)
=
∂f ∂U1
2
2 U1
+
∂f ∂U2
2 2 U2
avec :
variables V (ou U) en fonction de U (ou V) de même indice, voici l’expression qui permet le calcul d’un intervalle de confiance pour le rapport de vraisemblance : 2 Ln(L) = 4{[Bn (n U2 − U1 )U1 + Bp (V1 − p V2 )V 1 ]2
+ [Bn (n U1 − U2 )U2 + Bp (V2 − p V1 )V 2 ]2 }
1n ∂f = 2Bn (n U2 − U1 ) + 2Bp (V1 − p V2 ) ∂U1 1p 2n ∂f = 2Bn (n U1 − U2 ) + 2Bp (V2 − p V1 ) ∂U2 2p En élevant ces dérivées au carré, puis multipliant la pre2 2 mière par U1 et la seconde par U2 en tenant compte de ce que U = (p /n )V pour les marqueurs 1 et 2, on obtient l’expression suivante : 2 Ln(L) = 4{[Bn (n U2 − U1 )U1 + Bp (V1 − p V2 )V 1 ]2
+ [Bn (n U1 − U2 )U2 + Bp (V2 − p V1 )V 2 ]2 }
2
2
2 2 + 2(Bn U1 − Bp V2 1 ) + 2(Bn U2 − Bp V2 2 )
+ 4(Bn n U1 U2 − Bp p V 1 V 2 )2 On reconnaît dans le premier terme de l’expression la variance donnée par la méthode de propagation des erreurs ; les trois termes supplémentaires sont des termes correctifs dont nous avons pu vérifier, pour le noyau de calcul utilisé et les CV et MoM explorés, qu’ils sont quasi négligeables.
Discussion Sur l’obtention de l’écart-type du log(MoM)
Les intervalles de confiance pour L recoupent, à moins de 2 % près au maximum, ceux donnés par la méthode que nous avons qualifiée de « directe ».
Estimation de la variance de Ln(L) à partir des variances et covariance des variables Principe Nous avons repris ici le principe exposé pour un seul marqueur sérique et cherché à exprimer la variance du rapport de vraisemblance L en fonction des données du problème. C’est toujours à partir du logarithme de L, soit :
Ln(L) = Ln
An Ap
− Bn (U12 − 2n U1 U2 + U22 )
+ Bp (V12 − 2n V1 V2 + V22 ) que nous avons cherché une formulation pour la variance du rapport de vraisemblance.
Expression D’après l’expression précédente, cette variance est : Var[Ln(L)] = Var[−Bn (U12 − 2n U1 U2 + U22 ) + Bp (V12 − 2n V1 V2 + V22 )]. Le travail consiste donc à exprimer en fonction des caractéristiques des populations et de l’erreur analytique de deux marqueurs : • les variances des six variables U12 , U1 U2 , U22 , V12 , V1 V2 et V22 ; • les 15 covariances qui tiennent compte des corrélations entre elles. Sans entrer dans le détail des calculs particulièrement fastidieux, qui peuvent être allégés en exprimant les
L’exploitation numérique des formules estimant la variance de Ln(L) nécessite de calculer la valeur x = Ln(MoM) à partir de l’écart-type ou du CV de la concentration correspondante. Nous avons choisi pour x la valeur du CV de la concentration (ou de celle du MoM qui lui est égale), multipliée par 0,4343 pour passer aux logarithmes décimaux. Il s’agit là d’une approximation déduite de la formule de propagation des erreurs et l’on doit s’interroger sur les limites de cette approximation. Pour cela, nous avons procédé à des simulations numériques de MoM de CV allant de 1 à 20 % et comparé l’écart-type des log(MoM) simulés à celui prévu par la formule de propagation. Les résultats indiquent, comme le soulignent de nombreux auteurs, que l’approximation est valide jusque pour un CV de 10 % : l’erreur faite dans l’estimation de la variance de log(MoM) pour ce CV n’est alors voisine que de 1,2 % ; pour un CV du MoM (et donc de la concentration) de 20 %, cette erreur est en revanche plus importante : de l’ordre de 6 %. Comme toutes les techniques de dosage actuellement utilisées pour l’estimation du risque de T21 fœtale ont des CV intra-série inférieurs à 10 % ou même 5 %, on peut accepter sans réserve la formule estimant l’écart-type du log(MoM). Cette approximation est toujours valide, même utilisée deux fois comme c’est le cas dans l’usage de deux marqueurs sériques. Elle est cependant à l’origine de légères différences observées entre les intervalles de confiance calculés par la méthode directe et par les deux autres méthodes.
Sur la validité des expressions proposées pour la variance de Ln(L) Les expressions proposées pour estimer la variance du logarithme du rapport de vraisemblance découlent de calculs assez simples quand on ne considère qu’un seul marqueur. En revanche, pour deux marqueurs, les calculs sont plus complexes comme nous l’avons déjà souligné, tout particulièrement pour l’approche reposant sur les variances et
Trisomie 21 : estimation du risque par les marqueurs sériques maternels
133
covariances de la combinaison linéaire définissant Ln(L) : à titre d’information chacune des 15 covariances développées se compose de dix termes. C’est pourquoi nous avons voulu vérifier les formules proposées, non seulement en les comparant à ceux donnés par la méthode « directe », mais aussi par simulations d’échantillons de MoM allant de 0,1 à 5 et pour des CV allant de 1 à 10 % ; les variances des échantillons simulés, de taille 5000, sont en plein accord (à 0,001 près) avec les résultats donnés par les expressions proposées.
Sur la distribution statistique des valeurs de Ln(L) Calculer un intervalle de confiance au risque 5 % pour le logarithme du rapport de vraisemblance L à partir de l’expression : Ln(L) ± 1,96 Ln(L) suppose en toute rigueur que les valeurs Ln(L) se dispersent selon une loi de Gauss. De la même manière, un résultat accompagné d’un écart-type est généralement interprété par le lecteur comme définissant un intervalle symétrique autour de la valeur trouvée. On peut admettre sans difficulté que les concentrations mesurées et les MoM qui s’en déduisent suivent la loi des erreurs de Gauss. Mais, dans les calculs, c’est x = log(MoM) qui intervient, et de surcroît, dans des expressions quadratiques U2 ,V2 ,U1 U2 et V1 V2 . L’analyse de U2 montre que cette variable présente une dissymétrie droite très prononcée (à l’image d’une loi du Khi2 ) lorsque x = n ; le résultat est le même pout V2 lorsque x = p . En dehors de ces valeurs, la combinaison linéaire de l’une ou l’autre de ces deux variables est quasi symétrique ; de plus, comme x ne peut avoir simultanément les deux valeurs précédentes, on constate que la combinaison linéaire est quasi symétrique quelles que soient les valeurs de x. De fait, un intervalle de confiance calculé à partir de l’expression usuelle Ln(L) ± 1,96 Ln(L) recoupe à quelques pour cent près celui obtenu directement à partir de la méthode que nous avons qualifiée de « directe ». Dans le cas de deux marqueurs, la combinaison linéaire qui exprime Ln(L) fait intervenir en outre des variables produits (U1 U2 et V1 V2 ) dont les distributions statistiques, en « accent circonflexe », sont très différentes du modèle gaussien ; cependant, leurs participations à la combinaison linéaire restent modestes du fait que ces variables sont multipliées par des coefficients de corrélation (n et p ) de valeurs voisines de zéro. Finalement, les simulations dans la zone des MoM1 et MoM2 explorés (0,1 à 5) montrent que l’on peut admettre l’approximation gaussienne et utiliser l’expression Ln(L) ± 1,96 Ln(L) pour définir un intervalle de confiance pour Ln(L) et donc pour L et enfin pour le risque. La Fig. 4 illustre une distribution de 2000 valeurs simulées de Ln(L) ; bien que légèrement dissymétrique, comme le prouvent les tests statistiques, elle montre une adéquation suffisante à la loi de Gauss pour calculer un intervalle de confiance selon le mode usuel. Ainsi, à titre d’indication numérique, pour des techniques de CV 2 %, l’utilisation de l’écart-type donne des intervalles de confiance dont le décalage, positif par rapport à ceux déduits de la méthode « directe » et des simulations, ne dépasse pas 2 %.
Figure 4 Ajustement gaussien à 2000 valeurs de Ln(L) obtenues par simulation numérique. L’approximation gaussienne se révèle suffisante pour définir classiquement un intervalle de confiance pour le risque.
Sur le choix de la méthode à retenir La méthode directe, qui peut ici servir de référence, est simple dans son principe et donne directement un intervalle de confiance fonction des caractéristiques des techniques de dosage et de celles des populations T21 et non-T21. Elle est d’usage difficile pour deux marqueurs ou plus. La méthode par propagation des erreurs fournit une très bonne approximation, suffisante pour accompagner le risque calculé d’un intervalle de confiance ou simplement d’un écart-type. La méthode « exacte » aboutit à une formule plus complexe qui ne présente pas un réel avantage par rapport à la précédente pour les MoM explorés et avec le noyau de calcul utilisé.
Le cas de trois marqueurs du premier trimestre Actuellement, au premier trimestre de grossesse, deux marqueurs sériques (FhCG et PAPP-A) et un marqueur échographique (CN : clarté nucale) sont utilisés. Comme le calcul au premier trimestre remplace progressivement celui du deuxième trimestre, il est donc indispensable, pour être complet, de proposer ici une estimation de l’erreur sur le risque calculé à partir de ces trois marqueurs. Cette estimation est facilitée par le fait que le marqueur échographique n’est pas corrélé aux marqueurs sériques. En conséquence, le rapport de vraisemblance calculé (L) n’est rien d’autre que le produit du rapport de vraisemblance de deux marqueurs sériques par celui de la CN, soit : L = L12 LCN . Prenant le logarithme de cette expression, on obtient : Ln(L) = Ln(L12 ) + Ln(LCN ). Comme la variance d’une somme de variables aléatoires indépendantes est la somme de leurs variances respectives, on a donc : 2 2 2 Ln(L) = Ln(L12) + Ln(LCN)
134 2 Ln(L12) se déduisant de l’expression de la variance don2 de née pour deux marqueurs biologiques corrélés et Ln(LCN) la variance proposée pour un seul marqueur, ici échographique. On en déduit alors un écart-type puis un intervalle de confiance pour le rapport L et enfin pour le risque calculé. Cette fac ¸on de procéder pourrait être appliquée à un marqueur supplémentaire, non corrélé aux autres. Dans le cas d’une corrélation, il faudrait développer des calculs plus complexes.
Conclusion C’est à la demande de plusieurs biologistes agréés, désireux de disposer d’un moyen pour calculer l’incertitude sur le risque de T21 fœtale calculé, que nous avons entrepris ce travail, suivant en cela les recommandations du groupe de travail de la Société franc ¸aise de biologie clinique [4]. Nous avons voulu procéder à une analyse aussi complète que possible du problème et proposer plusieurs solutions donnant aux biologistes ainsi qu’aux concepteurs de logiciels plusieurs approches possibles pour estimer l’erreur statistique sur le risque calculé. Nous avons voulu également une démarche didactique montrant comment il est possible d’atteindre une valeur approchée d’un écart-type lorsque le résultat définitif résulte d’un calcul qui peut être relativement complexe comme c’est le cas du rapport de vraisemblance. Les formules développées permettent d’accompagner le risque calculé d’un écart-type déduit des erreurs analytiques sur les marqueurs. Elles permettent aussi, par un test statistique, de comparer entre eux des risques calculés à partir de techniques identiques ou différentes et de déterminer si la différence observée est imputable aux seules erreurs analytiques. Enfin, dans le cas où un risque calculé est proche de la valeur seuil, elles peuvent éventuellement aider le biologiste à décider du contrôle du résultat par un nouveau dosage. Les résultats obtenus soulignent combien l’erreur analytique des dosages est amplifiée lorsque l’on passe au risque calculé : une erreur de 5 % sur chacun des deux dosages n’implique pas une erreur finale de 10 % sur le risque calculé à partir de deux marqueurs comme pourrait le penser un esprit peu averti, mais peut atteindre des valeurs de 30 % ou plus selon les MoM observés. Cette amplification des erreurs analytiques, déjà soulignée dans la littérature [8,9], montre combien le biologiste doit soigner ses mesures et être exigeant vis-à-vis des fabricants de réactifs : les CV intra-série ne doivent pas dépasser quelques pourcents et les CV inter-série doivent être bien maîtrisés ; par ailleurs,
J.-F. Morin et al. cette amplification peut laisser sceptique quant à l’intérêt de multiplier le nombre de marqueurs pour évaluer le risque. Si les intervalles de confiance dépendent bien évidemment du profil d’imprécision des techniques, il est bon de rappeler qu’ils dépendent aussi des caractéristiques des populations de log de MoM : les valeurs numériques annoncées dans cet article et la forme des courbes tracées sont propres au choix fait, pour simplification, d’un CV constant ; elles dépendent donc aussi du noyau de calcul exploité ; mais comme les noyaux de calcul diffèrent peu d’un logiciel à l’autre, il faut s’attendre à trouver généralement, à CV égaux, des intervalles de confiance proches de ceux donnés dans cet article.
Conflits d’intérêts Aucun.
Remerciements Les auteurs remercient la société Brahms-France et les biologistes du club Kryptor qui ont encouragé et sollicité ce travail.
Références [1] Benn AP, Collins R. Evaluation of effect of analytical imprecision in maternal serum screening for Down’s syndrome. Ann Clin Biochem 2001;38:28—36. [2] Besnard JC, Morin JF. Immunostat. Outils statistiques en immuno-analyse. Nucleon 1997. [3] Commissariat à l’énergie atomique. Statistique appliquée à l’exploitation des measures. Masson; 1978. [4] Giroud C, Dumontel M, Vassault A, Braconnier F, Férard G. Recommandations relatives à l’expression de l’incertitude de mesure des résultats quantitatifs en biologie médicale. Ann Biol Clin 2007;65:185—200. [5] Goodman LA. On the exact variance of products. J Am Statist Ass 1960;55:708. [6] Morin V, Morin JF, Moineau MP, Codet JP. L’évaluation du risque de trisomie 21 explorée par simulation numérique aléatoire. Immunoanal Biol Spec 1999;14:166—74. [7] Morin V, Morin JF, Moineau MP, Codet JP. Détermination par rééchantillonnage bootstrap de la statistique des médianes utiles au calcul de risque de trisomie 21 à l’aide des marqueurs sériques maternels. Immunoanal Biol Spec 1999;14:401—6. [8] Serdar MA, Tütüncü L, Olgun A, Hasimi A, Ozgurtas T, Erbil MK. The effects of analytical factors on second trimester risk estimations. Int J Gynecol Obstet 2006;93:28—32. [9] Spencer K. The use of risk as a QC parameter in Down’s syndrome screening programs. Clin Biochem Rev 1993;14:343.