Modele +
ARTICLE IN PRESS
JGYN-818; No. of Pages 9
Journal de Gyn´ ecologie Obst´ etrique et Biologie de la Reproduction (2012) xxx, xxx—xxx
Disponible en ligne sur
www.sciencedirect.com
ÉTAT DES CONNAISSANCES
Les modèles prédictifs de grossesse en AMP Predictive models for ART P. Arvis a,∗, A. Guivarc’h-Levêque a, E. Varlan b, C. Colella c, P. Lehert d,e a
Clinique La Sagesse, place Saint-Guenole, 35000 Rennes, France Direction qualité et affaires pharmaceutiques, Division Merck Serono, Lyon, France c Division Merck Serono, Lyon, France d Faculty of Economics, University of Louvain, Mons-Louvain, Belgique e Faculty of Medicine, University of Melbourne, Melbourne, Australie b
Rec ¸u le 25 juin 2012 ; avis du comité de lecture le 8 octobre 2012 ; définitivement accepté le 15 octobre 2012
MOTS CLÉS Modèle prédictif ; AMP ; Indicateurs ; Validation externe
KEYWORDS Predictive model; ART; Indicators; External validation
∗
Résumé Un modèle prédictif est une expression mathématique estimant la probabilité de grossesse, en combinant des variables prédictives ou indicateurs. Son développement se réalise en trois phases : la formulation du modèle, sa validation —– interne puis externe —– et l’étude de son impact. Sa performance est évaluée par sa discrimination et sa calibration. De nombreux modèles ont été proposés, pour les grossesses spontanées, les IUI et la FIV. Leurs performances sont assez médiocres, leur validation externe rarement réalisée et peu concluante. Ils ont exceptionnellement fait l’objet d’une étude d’impact, visant à vérifier si leur utilisation améliore les pratiques médicales. Le modèle idéal en AMP est un modèle capable de guider le choix entre abstention, IUI et FIV, en donnant un taux cumulatif de grossesse fiable pour chaque option. Un tel outil permettrait de rationaliser les pratiques, en évitant les prises en charge des couples trop précoces, trop tardives ou vouées à l’échec. Il permettrait également de comparer les performances des centres d’AMP sur des bases objectives. Aujourd’hui, la meilleure solution est d’adapter les modèles existants à sa propre pratique, en tenant compte des modèles validés avec les variables décrivant la population traitée, mais en adaptant le calcul aux performances du centre. © 2012 Elsevier Masson SAS. Tous droits réservés. Summary A predictive model is a mathematical expression estimating the probability of pregnancy, by combining predictive variables, or indicators. Its development requires three successive phases: formulation of the model, its validation —– internal then external —– and the impact study. Its performance is assessed by its discrimination and its calibration. Numerous models were proposed, for spontaneous pregnancies, IUI and IVF, but with rather poor results, and their external validation was seldom carried out and was mainly inconclusive. The impact study —– consisting in ascertaining whether their use improves medical practice —– was exceptionally done. The ideal ART predictive model is a ‘‘Center specific’’ model, helping physicians to
Auteur correspondant. Adresse e-mail :
[email protected] (P. Arvis).
0368-2315/$ – see front matter © 2012 Elsevier Masson SAS. Tous droits réservés. http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Modele + JGYN-818; No. of Pages 9
ARTICLE IN PRESS
2
P. Arvis et al. choose between abstention, IUI and IVF, by providing a reliable cumulative rate of pregnancy for each option. This tool would allow to rationalize the practices, by avoiding premature, late, or hopeless treatments. The model would also allow to compare the performances between ART Centers based on objective criteria. Today the best solution is to adjust the existing models to one’s own practice, by considering models validated with variables describing the treated population, whilst adjusting the calculation to the Center’s performances. © 2012 Elsevier Masson SAS. All rights reserved.
À quoi sert un modèle prédictif ? Les traitements utilisés en aide médicale à la procréation (AMP) sont généralement contraignants, coûteux, non dénués de risques, à la fois pour les patientes et pour les enfants à naître, et leurs chances de succès restent modestes. L’AMP est parfois la seule possibilité thérapeutique : azoospermie, obstacle tubaire complet, anovulation. Mais dans les situations où les couples conservent des chances de grossesse spontanée (infertilité inexpliquée — – anomalie modérée du spermogramme —– endométriose légère —– facteur cervical), le praticien aimerait disposer d’un outil d’aide à la décision permettant d’évaluer, dans chaque situation particulière, si les techniques d’AMP disponibles offrent des chances de conception significativement supérieures à l’abstention, et dans l’affirmative, choisir la technique optimale. Un tel outil permettrait de rationaliser les pratiques, et de limiter les grands écarts observés entre gynécologues dans leur évaluation des probabilités de grossesse spontanées [1]. Il s’agirait
Figure 1
d’éviter à la fois les bilans d’infertilité trop précoces [2], les traitements inutiles, comme les prises en charge trop tardives. Pour les couples concernés par l’infertilité, comme pour leur praticien, le modèle pronostique pourrait fournir une information objective sur leur probabilité de concevoir. Enfin, un tel outil permettrait d’analyser de fac ¸on précise l’activité et les résultats des centres d’AMP, afin d’améliorer les pratiques, comparer les résultats des centres sur des bases objectives, et déterminer les stratégies les plus pertinentes en rapport coût-efficacité (Fig. 1).
Comment créer un modèle prédictif ? Un modèle prédictif consiste en une expression mathématique combinant des variables prédictives ou indicateurs : l’attribution d’une valeur à ces variables, pour un patient donné et à un instant donné, aboutit à une estimation de la probabilité d’une grossesse. Les indicateurs sont des données qui décrivent la population traitée (par exemple : âge, BMI, tabagisme, fonction
À quoi sert un modèle prédictif.
What is a predictive model for?
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Modele + JGYN-818; No. of Pages 9
ARTICLE IN PRESS
Les modèles prédictifs de grossesse en AMP
Figure 2
3
L’expression mathématique du modèle prédictif.
The mathematical expression of the predictive model.
ovarienne, spermogramme, date de prise en charge, etc.). À chaque indicateur est attribué un coefficient, qui reflète son importance sur le pronostic. Les indicateurs sont universels (par exemple : l’effet négatif de l’âge), les coefficients varient selon les performances du centre. Par exemple, une meilleure expertise dans la prise en charge des patientes les plus âgées diminuera le coefficient négatif lié à l’âge. Ce type de modulation permet d’adapter la formule à chaque centre d’AMP (Fig. 2). Il est également nécessaire de distinguer les indicateurs de population, qui décrivent la population traitée, et sont connus avant le début du traitement (âge, cause d’infertilité, bilan hormonal de base, etc.), et les indicateurs de cycles —– qui ne seront connus qu’une fois le traitement d’AMP débuté (réponse à la stimulation, nombre d’ovocytes, d’embryons, etc.). Un modèle prédictif sera vraisemblablement plus précis en prenant en compte les données de cycle (par exemple : la production embryonnaire en fécondation in vitro [FIV]), mais son utilité clinique est limitée puisque le cycle est déjà largement entamé : ce n’est plus un outil d’aide à la stratégie thérapeutique. Les indicateurs de cycle deviennent également des indicateurs de population pour un cycle ultérieur (par exemple : pour dépister les mauvaises répondeuses), mais comme environ la moitié des cycles de FIV sont des premiers cycles, ces indicateurs seront souvent absents. De surcroît, une mauvaise réponse sur un premier cycle de FIV n’entraînerait un pronostic défavorable pour les cycles ultérieurs que si elle était déjà prévisible sur les indicateurs de population. Autrement dit, si les indicateurs de population sont favorables, une mauvaise réponse sur le premier cycle de FIV est le plus souvent accidentelle et ne modifie pas le pronostic global [3]. Généralement, le clinicien trouvera probablement plus utile de pouvoir évaluer les probabilités de grossesse avant le début de la prise en charge, de fac ¸on à déterminer s’il est judicieux de s’engager dans ce type d’AMP, et à quel moment le faire. Les indicateurs de cycles ne constituant pas une aide à la décision du choix d’AMP, nous exclurons de cette analyse les modèles prédictifs qui prennent en compte les indicateurs de cycle, ceux qui ciblent une population limitée (par exemple : seulement les infertilités masculines) ou qui reportent un nombre trop faible de cas.
Le développement d’un modèle prédictif Le développement d’un modèle prédictif se réalise en trois phases : la formulation du modèle, sa validation et
l’étude de son impact. L’étape initiale est la formulation du modèle, elle consiste à sélectionner des indicateurs pertinents et aussi indépendants que possible, faire l’hypothèse d’un modèle combinant ces indicateurs dans une expression mathématique, généralement issue d’une estimation par un modèle de régression multivariée. La seconde étape est la validation interne du modèle dans l’unité de soins où le modèle à a été mis au point, consistant à tester l’adéquation du modèle obtenu dans les centres fournisseurs de données suivie de sa validation externe dans d’autres unités de soins, testant dans quelle mesure les résultats obtenus dans les centres fournisseurs de données restent adéquats dans d’autres centres. La dernière étape consiste à évaluer l’impact de l’utilisation du modèle sur la pratique médicale : de quelle fac ¸on le modèle a-t-il changé la pratique médicale et amélioré la prise en charge des patients [4] et avec un quel intérêt social et médico-économique (Fig. 3).
L’évaluation de la performance des modèles Les outils essentiels de la validation d’un modèle sont la discrimination et la calibration. La discrimination reflète la capacité de distinguer entre les couples qui auront une grossesse et ceux qui n’en auront pas. Elle exprime graphiquement la sensibilité et la spécificité du modèle par une surface sous une courbe (Area Under the Curve [AUC]). Une discrimination parfaite correspond à une AUC égale à 1, une discrimination nulle par une AUC égal à 0,5. La discrimination est médiocre pour une AUC entre 0,5 et 0,7, correcte entre 0,7 et 0,8, bonne entre 0,8 et 0,9. La calibration reflète le degré de correspondance entre les taux de grossesse calculés par le modèle pronostique et ceux observés dans la réalité. Elle s’exprime par une courbe de calibration, avec en abscisse les taux calculés, en ordonnée les taux observés. La calibration est bonne si l’erreur du modèle ne met pas en évidence de sous- ou sur-estimation systématique, et si cette erreur reste constante quelle que soit la grandeur de l’estimation.
Les modèles prédictifs existants Un certain nombre de modèles prédictifs ont été conc ¸us dans le but d’évaluer les chances de grossesse en fécondité naturelle, et en AMP : induction d’ovulation, IUI et FIV. Ces modèles ont été développés et utilisés préférentiellement dans certains pays (Royaume-Uni, Pays-Bas, Nouvelle-Zélande), et sont peu connus en France.
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Modele + JGYN-818; No. of Pages 9
ARTICLE IN PRESS
4
P. Arvis et al.
Figure 3
Les étapes de la création d’un modèle prédictif. The steps of creating a predictive model.
De nombreux modèles ont été proposés. Dans une revue sur le sujet [4], sont exposés neuf modèles de prédiction des grossesses spontanées, trois modèles pour les inséminations intra-utérines (IUI), et 17 modèles pour les FIV. Cependant, sur les 29 modèles étudiés, la démonstration de validation est très variable (seuls huit ont franchi l’étape de la validation externe, et un seul a fait l’objet d’une étude d’impact).
Les modèles prédictifs pour les grossesses spontanées Ils sont pertinents dans la sélection des couples infertiles qui ont de fortes probabilités de grossesse spontanée, et pour lesquels l’abstention thérapeutique pourrait être le meilleur choix. Le modèle n’est pertinent que pour les couples qui ont des chances de grossesse spontanée, de sorte que sont généralement exclus les infertilités masculines sévères (azoo- ou oligospermie sévère), les stérilités tubaires définitives, les anovulations et les difficultés sexuelles majeures. Eimers et al. [5] ont proposé un modèle destiné à évaluer les chances de grossesse spontanée dans l’année suivant l’inclusion sur une population infertile de 1061 couples. Les six indicateurs pris en compte sont l’âge de la femme, la durée d’infertilité, son caractère primaire/secondaire, le résultat du meilleur test post-coïtal (TPC), les antécédents familiaux d’infertilité masculine et le pourcentage de mobilité du spermogramme. La probabilité de grossesse, basée sur un modèle de Cox appliqué à la mesure d’évènements dans le temps sous forme de risques instantanés (Hazard ratio [HR]) est basée en particulier sur la connaissance du type d’infertilité (primaire ou secondaire), du résultat du TPC et
du spermogramme, des antécédents d’infertilité familiale chez l’homme et de l’âge de la femme1 . Hunault [6] publie une validation interne et externe de ce modèle sur une population de 1061 couples infertiles, en proposant un modèle alternatif simplifié. Collins et al. [7] en 1995, puis Snick et al. [5] en 1997 proposent également des modèles basés sur les mêmes indicateurs, mais leurs performances tant en discrimination qu’en calibration sont limitées [8]. Les trois modèles sont ensuite regroupés dans un modèle synthétique [9,10]. Les indicateurs sont l’âge de la femme, la durée d’infertilité, le caractère primaire ou secondaire de l’infertilité, la mobilité spermatique, le mode de recrutement (adressé ou non par un gynécologue), et éventuellement le TPC s’il est documenté, car il améliore considérablement l’efficacité de la prédiction. Ce modèle a été validé sur une vaste échelle —– 38 centres d’AMP et 2741 couples —– [11] avec une calibration raisonnable, mais une discrimination notoirement insuffisante (c = 0,59). Une version informatique de calcul du score est accessible en ligne sur Internet (www.freya.nl/probability.php). Le seul modèle qui ait fait une étude d’impact est celui de Hunault. Le modèle a été mis en application de fac ¸on prospective dans les infertilités inexpliquées : abstention pour les couples à bon pronostic, traitement d’emblée par IUI pour les mauvais pronostics. Pour le groupe à pronostic moyen, une étude randomisée abstention vs IUI a été
1 P = 100 × (1—0,81P1 ) avec P1 = + 0,55 si infertilité secondaire + 0,75 si TPC positif avec spermatozoïdes immobiles + 1,46 si TPC positif avec spermatozoïdes mobiles + 0,013 × % mobilité du spermogramme —0,029 × âge de la femme — 0,12 × durée d’infertilité — 0,37 si antécédents infertilité familiale chez homme.
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Modele + JGYN-818; No. of Pages 9
ARTICLE IN PRESS
Les modèles prédictifs de grossesse en AMP réalisée, avec un même taux de grossesse dans les deux groupes [12]. L’intégration d’indicateurs de population supplémentaires dans le modèle de Hunault a été étudiée, afin d’améliorer la précision de la prédiction. Il s’agit du BMI [13], car l’effet négatif du BMI élevé est noté même chez les patientes paraissant ovuler normalement [14], du mode de vie (tabac, alcool, caféine) [15,16], des indicateurs de la réserve ovarienne (follicle stimulating hormone [FSH] basale [17], compte des follicules antraux [CFA] [8]), la longueur du cycle, l’existence d’une anomalie tubaire unilatérale, le nombre total de spermatozoïdes motiles. Un nouveau modèle prenant en compte le BMI, la FSH basale, la durée du cycle, la fertilité du partenaire, des critères supplémentaires du spermogramme (volume, numération, tératospermie) a été étudié de fac ¸on prospective et multicentrique sur 3333 couples, et comparé au modèle de Hunault [18], avec une discrimination assez voisine (0,61 vs 0,60), mais une meilleure calibration, le modèle de Hunault ayant tendance à sous-évaluer les probabilités de grossesse dans les valeurs basses et à les surévaluer dans les valeurs hautes. La mise en route d’une AMP est proposée lorsque la probabilité de grossesse spontanée dans l’année est inférieure à 30 %. Un autre type de modèle a été développé en Nouvelle Zélande par Gillet et al. [19]. Mis au point en 1997, il a été étendu à l’ensemble des centres d’AMP en 2000. Il s’agit d’un score basé sur des critères cliniques (cause et durée d’infertilité) et des critères sociaux (nombre d’enfants, antécédents de stérilisation volontaire). Du score obtenu découle la prise en charge financière des traitements (essentiellement la FIV) par la collectivité : prise en charge immédiate, différée ou refusée. Pour certaines catégories, l’application du score est lourde de conséquences : les infertilités inexpliquées devront attendre au moins cinq ans et les femmes à partir de 40 ans, ou tabagiques ou ayant un BMI supérieur à 32 sont exclues d’emblée. Dans la mesure où l’âge n’est pas un indicateur (sauf pour exclure les plus âgées), et qu’on introduit des facteurs sociaux, il ne s’agit pas à proprement parler d’un modèle prédictif, mais plutôt d’un outil d’évaluation de la pertinence économique des traitements d’AMP. Il a toutefois été comparé au score de Hunault, avec une discrimination assez comparable (OR = 0,63), mais sa calibration est moins bonne [20] : surestimation dans les probabilités de grossesse spontanée, vraisemblablement expliqué par la non-prise en compte de l’âge. Le principal intérêt de ce modèle est de montrer qu’il est possible de mettre en place une politique de santé publique dans les traitements de l’infertilité, en réservant le remboursement des traitements coûteux aux couples ayant à la fois une situation familiale qui les justifient et des chances raisonnables de succès.
Les modèles prédictifs pour l’IUI Un grand nombre d’études ont été consacrées aux chances de succès des IUI, mais les modèles prédictifs basés sur une étude multivariée rigoureuse sont peu nombreux [21—23]. Les indicateurs retenus sont généralement l’âge de la femme, l’existence d’une pathologie tubaire ou endométriosique, les caractéristiques du sperme, mais aussi
5 des indicateurs de cycle, tels que le type de stimulation ovarienne, le nombre de follicules pré-ovulatoires, l’épaisseur de l’endomètre et le jour de l’insémination, indicateurs qui ne sont pas une aide pour décider à quel couple proposer une IUI. La plupart de ces études souffrent également d’une faible puissance statistique en raison du petit nombre de cas étudiés. Le premier modèle prédictif publié [24], se base sur une étude rétrospective dans quatre centres d’AMP, incluant 3371 couples et 14 968 cycles. En validation interne, la formule a été appliquée sur un rééchantillonage et elle fournit une discrimination médiocre : AUC égal à 0,59 (95 % CI, 0,57—0,61), mais une calibration raisonnable, la différence entre le taux de grossesse calculé et celui observé étant de moins de 0,5 % dans les quatre groupes. Ce modèle prédictif n’a pas rec ¸u de validation externe internationale. De surcroît, certains indicateurs n’apparaissent pas (caractère primaire ou secondaire de l’infertilité, TPC, BMI, tabagisme), et le taux de grossesse observé est nettement plus bas que celui habituellement rapporté dans la littérature, habituellement voisin de 12 % [25], ce qui suggère des différences d’indication ou de procédure de stimulation ovarienne. La raison la plus probable du manque de précision de ces modèles reste toutefois le degré d’expertise du centre d’AMP, qui joue probablement plus, pour les résultats, que les variables liées au couple.
Les modèles prédictifs en FIV Plus de 20 modèles ont été développés en FIV, mais seuls trois modèles ont passé le cap de la validation externe [26—28]. De surcroît, il n’existe aucun modèle qui satisfasse simultanément aux trois exigences suivantes : absence de critères d’exclusion d’emblée, nombre élevé de cas et validation externe du modèle. Le modèle probabiliste de régression logistique de Templeton [26] est généralement le plus utilisé et considéré comme le modèle de référence, bien qu’il soit déjà ancien. Il s’agit d’une étude rétrospective portant sur 39 601 cycles de FIV, excluant l’intra-cytoplasmic sperm injection (ICSI), les dons de sperme ou d’ovocytes, les transferts d’embryons congelés et les cycles non stimulés. Les indicateurs retenus dans ce modèle sont l’âge de la femme, la durée d’infertilité, les antécédents de grossesse en FIV ou hors FIV, le nombre d’échecs antérieurs de FIV, l’existence d’une infertilité d’origine tubaire. La discrimination du modèle est assez médiocre (AUC = 0,63), mais sa calibration est correcte en validation interne comme en validation externe [29]. En raison des progrès réalisés dans les techniques de FIV, le modèle tend maintenant à sous-évaluer systématiquement les chances de grossesse et ne peut plus être utilisé tel quel [30]. Les autres modèles testés en validation externe se sont révélés plutôt moins performants que le modèle de Templeton : le modèle de Stolwijk avec une discrimination presque nulle (0,50 à 0,56) et une mauvaise calibration, le modèle de Hunault avec une discrimination un peu supérieure (0,63) mais une calibration médiocre. De fac ¸on analogue aux modèles destinés aux inséminations artificielles intracouples
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Modele + JGYN-818; No. of Pages 9
ARTICLE IN PRESS
6
P. Arvis et al.
(IAC), la raison la plus probable du manque de précision de ces modèles reste le degré d’expertise du centre d’AMP. Il en résulte que les validations externes d’un modèle ne sont pratiquement jamais réalisées et ne peuvent jamais être concluantes [31]. Les indicateurs de population les plus utilisés dans les modèles prédictifs sont l’âge de la femme, l’existence d’un facteur tubaire, le type d’infertilité primaire ou secondaire, la durée d’infertilité. Les données liées au mode de vie BMI-tabagisme, l’existence d’anomalie utérine sont moins souvent utilisé. Bien que la FSH basale soit utilisée dans plusieurs modèles, il n’y a pas de consensus sur l’influence des tests de réserve ovarienne sur les résultats de l’AMP [32]. En fait, la plupart des modèles publiés utilisent des données de cycles (réponse à la stimulation, nombre d’ovocytes, taux de fécondation, nombre et qualité des embryons obtenus). Ces indicateurs n’étant pas connus avant d’avoir débuté le traitement, ces modèles ne constituent donc pas véritablement une aide à la décision thérapeutique. La stratégie que nous avons employée à la clinique La Sagesse, où nous disposons d’une base de 12 000 cycles en FIV et d’une base de 10 000 en IUI, bases qui s’enrichissent chacune de plus de 1000 cycles par an, a été de reprendre le modèle de Templeton, en l’enrichissant d’indicateurs de population supplémentaires —– FSH, BMI, tabagisme —– et en modulant les résultats en fonction de leur ancienneté, pour tenir compte de l’amélioration des résultats avec le temps. Ce modèle est beaucoup plus performant en interne que le modèle de Templeton : OR = 0,71 avec une bonne calibration [31], et il constitue actuellement le modèle prédictif le plus performant en FIV. Il est actuellement en cours de validation externe dans deux autres centres d’AMP, non pas tel quel mais en utilisant le processus de modulation du poids des indicateurs, de fac ¸on à l’adapter à chaque centre. En pratique quotidienne, ce modèle se concrétise par la possibilité d’évaluer instantanément les probabilités de grossesse d’un couple, en utilisant un calculateur simple intégrant les données du dossier médical. Ce calculateur sera disponible en ligne en janvier 2013 sur le site Internet de la clinique.
Discussion De tous les modèles prédictifs proposés, seuls trois ont fait la preuve de leur fiabilité, le modèle de Eimers-Hunault pour les grossesses spontanées, celui de Steures pour les IUI, et celui de Templeton pour la FIV. Les modèles prédictifs sont en effet soumis à un certain nombre de difficultés méthodologiques : sélection a priori des patientes, non-prise en compte des taux cumulatifs de grossesse, difficulté de la validation externe, fiabilité des indicateurs, absence d’étude d’impact.
Pourquoi un modèle prédictif plutôt qu’une simple analyse de base de données ?
• une base de données n’est pas utilisable à l’état brut, il faut de toute fac ¸on la structurer et définir des indicateurs pertinents ; • la base de données ne donne pas d’information sur les chances de grossesse spontanée, mais seulement sur les résultats en AMP. Le modèle prédictif des grossesses spontanées est de toute fac ¸on indispensable si le modèle prédictif est utilisé comme un outil d’aide à la décision ; • la difficulté d’accès aux données : la base doit être accessible depuis tous les postes de consultation, ce qui n’est pas réalisable dans tous les centres ; • les centres ne disposant pas d’une base de données importante ne peuvent disposer de l’outil ; • certaines données anciennes ne sont plus pertinentes, à mesure que les résultats progressent ; • la taille de la base de données doit être considérable, sinon les résultats ne sont pas statistiquement significatifs. Car l’intérêt clinique des modèles pronostiques réside moins dans les situations standard —– par exemple : la stérilité masculine avec une patiente jeune sans antécédents particuliers —– que dans les situations particulières : quelle chance de grossesse chez la patiente de 39 ans, infertilité primaire inexpliquée, tabagique, BMI à 31, avec une petite insuffisance ovarienne. Dans notre base personnelle, qui comprend près de 13 000 cycles de FIV et 12 000 cycles d’IAC, cette situation particulière ne correspond à aucune patiente ! Il faudrait donc probablement une base de plusieurs millions de cycles, parfaitement documentés, pour trouver suffisamment de données pour atteindre une significativité dans toutes les situations cliniques. L’utilisation d’un outil statistique capable d’extraire les indicateurs performants et indépendants, et de les inclure dans un calculateur, reste donc indispensable à l’obtention de résultats correspondant à toutes les situations cliniques, et à son utilisation dans tous les centres d’AMP. Lui-seul permet de surcroît d’appliquer un correctif en fonction de l’ancienneté des données.
La sélection a priori des patientes Il est important pour la fiabilité de l’outil prédictif de s’assurer que les modèles ont été construits sur une base de données suffisamment large, c’est-à-dire incluant aussi bien des couples à faible pronostic qu’à bon pronostic. Dans les séries rétrospectives, les couples étudiés ont déjà été triés, avec exclusion d’emblée des cas jugés les plus défavorables. Il est généralement impossible de connaître les critères d’exclusion, et ceux-ci semblent être très variables selon les centres [33], et dans le même centre selon les médecins [1]. De la même fac ¸on, les critères d’inclusion en FIV et les traitements d’infertilité déjà réalisés sont rarement précisés : durée minimale d’infertilité, FIV d’emblée ou après échec IAC ? [34].
Le taux cumulatif de grossesse L’utilisation directe d’une base personnelle de données pourrait théoriquement donner les mêmes informations. Mais cette solution présente les inconvénients suivants :
Le modèle idéal devrait pouvoir guider les médecins pour le choix entre abstention, IUI et FIV, en donnant un
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Modele + JGYN-818; No. of Pages 9
ARTICLE IN PRESS
Les modèles prédictifs de grossesse en AMP pronostic fiable pour chaque option. Dans cette optique, le critère pertinent pour ce choix est le taux cumulatif de grossesse. Par exemple, si l’on souhaite connaître les chances de grossesse en IUI, la réponse doit être : quel taux de grossesse après quatre ou six cycles d’IUI, et non pas après un seul cycle. Le même raisonnement s’applique à la FIV, ou de surcroît très peu d’études prennent en compte les cycles de transferts d’embryons congelés, alors que la congélation concerne entre 20 et 60 % des cycles. Il semble toutefois que globalement l’influence de la congélation sur les taux cumulatifs de grossesse soit assez faible [35]. Sur cet élément crucial de décision, les données de la littérature sont rares, sauf sur les chances de grossesse spontanée où les taux sont généralement calculés à un an. Une étude donne un taux cumulatif de grossesse en FIV, mais ce taux est calculé sur un an et non sur un nombre de tentatives [34]. Un élément capital à rappeler est que les modèles prédictifs, en IUI comme en FIV, doivent tenir compte de l’expertise des centres.
La pertinence des indicateurs Les modèles prédictifs s’appuient sur des indicateurs. L’indicateur idéal possède simultanément les qualités suivantes : présent dans tous les dossiers, valeur pronostique forte et consensuelle, indépendance par rapport aux autres indicateurs, interprétation univoque (oui/non ou valeur seuil évidente), stabilité ou évolution régulière et prévisible dans le temps. De tous les indicateurs utilisés, l’âge est le seul qui réponde à tous ces critères. Certains indicateurs ne sont pertinents que si les conditions de leur recueil sont standardisés : par exemple, pour interpréter correctement la FSH plasmatique, il faudrait aussi que les normes de laboratoires soient les mêmes, que l’on soit certain que le dosage a été fait à j3, que l’on connaisse le taux d’estradiol et de luteinizing hormone dosé simultanément, que le dosage soit récent, qu’en cas de dosages multiples, on ait bien pris en compte le plus élevé. D’autres indicateurs ont une valeur pronostique très différente selon les situations : la durée d’infertilité n’a pas la même signification clinique dans l’infertilité inexpliquée et dans les situations où une grossesse spontanée n’est pas possible (azoospermie-anovulation-obstacle tubaire bilatéral), l’infertilité secondaire n’a pas la même valeur pronostique après fausse-couche spontanée à répétition ou après grossesses normales, le diagnostic d’endométriose recouvre un éventail très large de lésions anatomiques, depuis quelques granulations d’endométriose du Douglas jusqu’au pelvis « gelé » totalement adhérentiel. Cette difficulté méthodologique, déjà difficile à surmonter en validation interne, s’accentue encore avec la validation externe où les conditions de recueil des indicateurs ne sont pas contrôlables. De sorte que les grandes séries multicentriques utilisent des indicateurs à fiabilité incertaine (sauf l’âge féminin) et que les indicateurs fiables et contrôlés sont plutôt le fait de séries unicentriques, limitées en nombre et donc d’interprétation statistique plus hasardeuse.
7
La validation externe du modèle Un modèle prédictif doit passer l’étape de la validation externe pour pouvoir être utilisé en dehors du centre d’AMP où il a été conc ¸u. Cette étape est indispensable pour les modèles de grossesse spontanée, car dans la mesure où il n’y a pas d’intervention médicale ou biologique, ils sont indépendants du centre où ils ont été conc ¸us. Cette étape est difficile à réussir pour les modèles en IUI et surtout en FIV, car elle suppose : • que le bilan d’infertilité pré-thérapeutique soit le même. Par exemple, certaines équipes ne font pas d’hystérosalpingographie si la sérologie Chlamydiae est négative [36] ; • que les critères d’exclusion et d’inclusion soient identiques, et une méthode pour le confirmer est de comparer le taux de grossesse spontanée à un an sur la liste d’attente FIV [37] ; • que les indicateurs étudiés soient parfaitement superposables ; • que, pour une même population traitée, les procédures médicales et biologiques aient les mêmes performances en termes de grossesse, alors qu’en réalité les écarts de performance varient pratiquement du simple au double entre les centres AMP [38]. Il est impérieux qu’un modèle prédictif soit fiable pour être utilisable. Or, les différences importantes entre les performances des centres rendent illusoire la perspective d’un modèle unique applicable à tous les centres. Toutefois, rien n’empêche les centres AMP disposant d’une large base de données d’adapter leur propre modèle, en partant d’un modèle existant. Cette adaptation consiste à utiliser la propriété des modèles de distinguer la part revenant aux caractéristiques de la population traitée de la part revenant au degré d’expertise du centre. Plusieurs types de modèles sont en effet possibles, selon l’hypothèse que les centres ont dans les mêmes conditions des performances identiques, ou qu’au contraire certains centres ont une expertise particulière dans certains sous-groupes (par exemple, pour un centre ayant une grande expertise dans la prise en charge des patientes les plus âgées, l’âge aura un impact négatif moins important).
L’étude d’impact L’étude d’impact, qui consiste à évaluer dans quelle mesure l’utilisation du modèle prédictif améliore la pratique médicale, est importante : l’utilité d’un modèle prédictif qui ne serait pas à l’origine d’un changement dans la prise en charge des couples infertiles serait limitée. Dans chaque cas, l’interprétation de la prédiction doit toujours prendre en compte sa précision, un modèle ne peut prétendre à une précision totale. La prudence est de mise, en particulier pour les couples dans les tranches d’âge où un retard de prise en charge diminue fortement les chances de succès d’une AMP. Lorsque, le plus généralement, i l’objectif est le choix d’une stratégie thérapeutique (par exemple : choisir entre abstention, IAC et FIV), il faut disposer non d’un seul, mais
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Modele + JGYN-818; No. of Pages 9
ARTICLE IN PRESS
8
P. Arvis et al.
de trois modèles prédictifs précis, et la comparaison devra s’apprécier selon que la différence entre les prédictions est significative ou non. Enfin, l’aspect financier des choix thérapeutiques devrait également être pris en compte, au regard du coût élevé des traitements employés, particulièrement en FIV. Intégrer les coûts respectifs des différentes stratégies possibles dans un modèle prédictif médico-économique constituerait un avantage supplémentaire, tant individuel que collectif. Le résultat concret de l’utilisation des modèles pronostiques pour les cliniciens est un petit calculateur, toujours disponible sur son bureau, permettant d’obtenir instantanément une évaluation des probabilités de grossesse dans le centre, en fonction de la situation clinique et selon les modalités thérapeutiques envisagées.
Conclusion Un grand nombre de modèles prédictifs ont été proposés, en particulier en FIV, mais la plupart d’entre eux utilisent des indicateurs de cycle —– ce qui implique que l’on ait déjà pris la décision de traiter —– ou portent sur des séries trop restreintes pour atteindre une significativité. De surcroît, ces modèles ne prennent que rarement en compte les taux cumulatifs de grossesse et jamais la congélation embryonnaire. Le développement d’un modèle prédictif fiable doit tenir compte de la fiabilité des indicateurs utilisés, un seul indicateur —– l’âge de la femme —– répondant à tous les critères requis, et doit surtout gérer les différences importantes de performance entre les centres. Étant donné la grande différence de performance inter-centre, la validation externe classique des modèles s’avèrera systématiquement négative. Le modèle prédictif idéal en AMP serait un modèle « centre-spécifique », capable de guider les médecins pour le choix entre abstention, IUI et FIV, en donnant à chaque fois un taux cumulatif de grossesse fiable pour chaque option. Un tel outil permettrait de rationaliser les pratiques, en évitant les prises en charge des couples trop précoces, trop tardives, ou vouées à l’échec. Il permettrait également de comparer les performances des centres d’AMP sur des bases objectives. Aujourd’hui, la meilleure solution est d’adapter les modèles existants à sa propre pratique, en tenant compte des modèles validés avec les variables décrivant la population traitée, mais en adaptant le calcul à la performance du centre. L’utilité des modèles prédictifs dans les choix thérapeutiques en AMP est indiscutable, dans le contexte coût/risques/bénéfices. Leur utilisation croîtra vraisemblablement avec l’augmentation de précision des modèles. Une collaboration entre centres d’AMP, et une approche interdisciplinaire, permettront de faire progresser la recherche dans ce domaine.
Déclaration d’intérêts Les auteurs n’ont pas transmis de déclaration de conflits d’intérêts.
Références [1] van der Steeg JW, Steures P, Eijkemans MJC, Habbema JDF, Boussuyt PMM, Hompes PGA, et al. Do clinical prediction models improve concordance of treatment decisions in reproductive medicine? BJOG 2006;113:825—31. [2] van der Steeg JW, Steures P, Hompes PG, Eijkemans MJ, van der Veen F, Mol BW. Investigation of the infertile couple: a basic fertility work-up performed within 12 months of trying to conceive generates costs and complications for no particular benefit. Hum Reprod 2005;10:2672—4. [3] Klinkert ER, Broekmans FJM, Looman CWN, te Velde ER. A poor response in the first in vitro fertilization cycle is not necessarily related to a poor prognosis in subsequent cycles. Fertil Steril 2004;81:1245—53. [4] Leushuis E, Van der Steeg JW, Steures P, Bossuyt PM, Eijkemans MJ, Van der Veen F, et al. Prediction models in reproductive medicine: a critical appraisal. Hum Reprod Update 2009;15:537—52. [5] Snick HK, Snick TS, Evers JL, Collins JA. The spontaneous pregnancy prognosis in untreated subfertile couples: the Walcheren primary care study. Hum Reprod 1997;12:1582—8. [6] Hunault CC, Eijkemans MJC, Pieters MHEC, te Velde ER, Habbema JD, Fauser BCJM, et al. A prediction model for selecting patients undergoing in vitro fertilization for elective single embryo transfer. Fertil Steril 2002;77:5—732. [7] Collins JA, Burrows EA, Willan AR. The prognosis for live birth among untreated infertile couples. Fertil Steril 1995;64:22—8. [8] Haadsma ML, Groen H, Fidler V, Bukman A, Roeloffzen EM, Groenewoud ER, et al. The predictive value of ovarian reserve tests for spontaneous pregnancy in subfertile ovulatory women. Hum Reprod 2008;23:1800—7. [9] Hunault CC, Habbema JDF, Eijkemans MJC, Collins JA, Evers JLH, te Velde ER. Two new prediction rules for spontaneous pregnancy leading to live birth among subfertile couples, based on the synthesis of three previous models. Hum Reprod 2004;19:2019—26. [10] Hunault CC, Laven JS, van Rooij IA, Eijkemans MJ, te Velde ER, Habbema JD. Prospective validation of two models predicting pregnancy leading to live birth among untreated subfertile couples. Hum Reprod 2005;20:1636—41. [11] Van der Steeg JW, Steures P, Eijkemans MJC, Habbema JDF, Hompes PGA, Broekmans FJ, et al. Pregnancy is predictable: a large-scale prospective external validation of the prediction of spontaneous pregnancy in subfertile couples. Hum Reprod 2007;22:536—42. [12] Steures P, Van der Steeg JW, Hompes PG, Habbema JD, Eijkemans MJ, Broekmans FJ, et al. Intrauterine insemination with controlled ovarian hyperstimulation versus expectant management for couples with unexplained subfertility and an intermediate prognosis: a randomized clinical trial. Lancet 2006;368:216—21. [13] ESHRE Task Force on Ethics and Law. Lifestyle-related factors and access to medically assisted reproduction. Hum Reprod 2010;25:578—83. [14] van der Steeg JW, Steures P, Marinus JC, Eijkemans J, Dik F, Habbema1 PGA, et al. Obesity affects spontaneous pregnancy chances in subfertile, ovulatory women. Hum Reprod 2008;23:324—8. [15] Hassan MA, Killick SR. Negative lifestyle is associated with a significant reduction in fecundity. Fertil Steril 2004;81:384—92. [16] Rasch V. Cigarette, alcohol, and caffeine consumption: risk factors for spontaneous abortion. Acta Obstet Gynecol Scand 2003;82:182—8 [(81):384—92]. [17] van der Steeg JW, Steures P, Eijkemans MJ, Habbema JD, Hompes PG, Broekmans FJ, et al. Predictive value and clinical impact of basal follicle-stimulating hormone in
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003
Modele + JGYN-818; No. of Pages 9
ARTICLE IN PRESS
Les modèles prédictifs de grossesse en AMP
[18]
[19]
[20]
[21]
[22]
[23]
[24]
[25]
[26]
[27]
subfertile, ovulatory women. J Clin Endocrinol Metab 2007;92: 2163—8. Bensdorp AJ, Eijkemans MJC, Steures P, Habbema JDF, Hompes PGA, Bossuyt PMM, et al. Refining a prediction model for natural conception. Hum Reprod 2011;26:i69. Gillett WR, Peek JC, Herbison GP. Development of clinical priority access criteria for assisted reproduction and its evaluation on 1386 infertile couples in New Zealand. Hum Reprod 2012;27:131—41. Farquhar CM, van den Boogaard NM, Riddell C, Macdonald A, Chan E, Mol BW. Accessing fertility treatment in New Zealand: a comparison of the clinical priority access criteria with a prediction model for couples with unexplained subfertility. Hum Reprod 2011;26:3037—44. Khalil MR, Rasmussen PE, Erb K, Laursen SB, Rex S, Westergaard LG. Homologous intrauterine insemination. An evaluation of prognostic factors based on a review of 2473 cycles. Acta Obstet Gynecol Scand 2001;80:74—81. Van Voorhis BJ, Barnett M, Sparks AET, Syrop CH, Rosenthal G, Dawson J. Effect of the total motile sperm count on the efficacy and cost-effectiveness of intrauterine insemination and in vitro fertilization. Fertil Steril 2001;75:661—8. Erdem A, Erdem M, Atmaca S, Korucuoglu U, Karabacak O. Factors affecting live birth rate in intrauterine insemination cycles with recombinant gonadotrophin stimulation. Reprod Biomed Online 2008;2:199—206. Steures P, van der Steeg JW. Prediction of an ongoing pregnancy after intrauterine insemination. Fertil Steril 2004;82: 45—51. Merviel P, Heraud MH, Grenier N, Lourdel E, Sanguinet P, Copin H. Predictive factors for pregnancy after intrauterine insemination (IUI): an analysis of 1038 cycles and a review of the literature. Fertil Steril 2010;93:79—88. Templeton A, Morris JK, Parslow W. Factors that affect outcome of in-vitro fertilisation treatment. Lancet 1996;348: 1402—6. Stolwijk AM, Zielhuis GA, Hamilton CJ, Straatman H, Hollanders JM, Goverde HJ, et al. Prognostic models for the probability of achieving an ongoing pregnancy after in-vitro fertilization and the importance of testing their predictive value. Hum Reprod 1996;11:2298—303.
9 [28] Hunault CC, Eijkemans MJC, Pieters MHEC, te Velde ER, Habbema JD, Fauser BCJM, et al. A prediction model for selecting patients undergoing in vitro fertilization for elective single embryo transfer. Fertil Steril 2002;77:725—32. [29] Smeenk JM, Stolwijk AM, Kremer JA, Braat DD. External validation of the TM for predicting success after IVF. Hum Reprod 2000;15:1065—8. [30] van Loendersloot LL, van Wely M, Repping S, van der Veen F, Bossuyt PM. Templeton prediction model underestimates IVF success in an external validation. Reprod Biomed Online 2011;6:597—602. [31] Arvis P, Lehert P, Guivarc’h-Levêque A. Simple adaptations to the Templeton model for IVF outcome prediction make it current and clinically useful. Hum Reprod 2012;27: 2971—8. [32] Broekmans FJ, Kwee J, Hendriks DJ, Mol BW, Lambalk CB. A systematic review of tests predicting ovarian reserve and IVF outcome. Hum Reprod Update 2006;12:685—718. [33] Olivennes F. Critères d’exclusion et d’annulation en FIV. J Gynecol Obstet Biol Reprod 2005;34:5S7—9S. [34] Lintsen AM, Eijkemans MJ, Hunault CC, Bouwmans CA, Hakkaart L, Habbema JD, et al. Predicting ongoing pregnancy chances after IVF and ICSI: a national prospective study. Hum Reprod 2007;22:2455—62. [35] De Jong D, Eijkemans MJC, Beckers NGM, Pruijsten RV, Fauser Macklon NS. The added value of embryo cryopreservation to cumulative ongoing pregnancy rates per IVF treatment: is cryopreservation worth the effort? J Assist Reprod Genet 2002;19:561—8. [36] Mol BWJ, Dijkman B, Wertheim P, Lijmer J, Van der Veen F, Bossuyt PMM. The accuracy of serum chlamydial antibodies in the diagnosis of tubal pathology: a meta-analysis. Fertil Steril 1997;67:1031—7. [37] Eijkemans MJ, Lintsen AM, Hunault CC, Bouwmans CA, Hakkaart L, Braat DD, et al. Pregnancy chances on an IVF/ICSI waiting list: a national prospective cohort study. Hum Reprod 2008;23:1627—32. [38] Lintsen AM, Braat DD, Habbema JD, Kremer JA, Eijkemans MJ. Can differences in IVF success rates between centres be explained by patient characteristics and sample size? Hum Reprod 2010;25:110—7.
Pour citer cet article : Arvis P, et al. Les modèles prédictifs de grossesse en AMP. J Gynecol Obstet Biol Reprod (Paris) (2012), http://dx.doi.org/10.1016/j.jgyn.2012.10.003