La Revue de médecine interne 35 (2014) 250–258
Disponible en ligne sur
www.sciencedirect.com
Mise au point
Comment lire une méta-analyse ? How to read a meta-analysis? G. Moulis a,∗,b,c , A. Sommet b,c,d a
Service de médecine interne, salle Le Tallec, CHU de Toulouse Purpan, place du Dr-Baylac, TSA 40031, 31059 Toulouse cedex 9, France UMR 1027, université de Toulouse III, 31062 Toulouse cedex 9, France c Inserm, UMR 1027, équipe 6 « pharmacoépidémiologie, évaluation de l’utilisation et du risque médicamenteux », 31000 Toulouse cedex 9, France d Service de pharmacologie médicale et clinique, centre régional Midi-Pyrénées de pharmacovigilance et d’information sur le médicament, 31000 Toulouse cedex 9, France b
i n f o
a r t i c l e
Historique de l’article : Disponible sur Internet le 9 septembre 2013 Mots clés : Méta-analyse Lecture critique
r é s u m é La méta-analyse vise une synthèse exhaustive, non biaisée, reproductible, quantifiée et précise des résultats d’une question de recherche. Elle suppose une revue complète de la littérature et a des particularités statistiques. Les sources d’erreur et de biais sont nombreuses. Cet article les décrit en suivant le plan méthodologique très strict d’une méta-analyse bien conduite. Les causes de conclusions divergentes auxquelles peuvent aboutir des méta-analyses seront ainsi analysées avec l’exemple de l’étude du risque de cancer sous anti-TNF␣ dans la polyarthrite rhumatoïde. Au final, l’objet de cet article est de fournir au praticien une grille de points-clés pour repérer les sources d’erreurs ou de biais au cours d’une lecture critique de méta-analyse. © 2013 Société nationale française de médecine interne (SNFMI). Publié par Elsevier Masson SAS. Tous droits réservés.
a b s t r a c t Keywords: Meta-analysis Critical review
Meta-analysis is aimed at assessing an exhaustive, unbiased, reproducible, quantified and accurate synthesis of a research problem. It is sustained by a systematic review of the literature and has statistical particularities. Sources of error and bias are numerous. In this paper, we describe them following the methodology steps of a well-conducted meta-analysis. Causes of divergent conclusions of meta-analyses are described and illustrated with the example of cancer risk assessment in TNF inhibitor-treated rheumatoid arthritis patients. Eventually, this article provides key-points to help readers to detect sources of error and bias in meta-analyses. © 2013 Société nationale française de médecine interne (SNFMI). Published by Elsevier Masson SAS. All rights reserved.
1. Introduction La méta-analyse bénéficie d’un succès grandissant auprès des scientifiques, des cliniciens et des décideurs. En effet, cette méthode permet une revue critique exhaustive de la littérature dans un domaine donné, offrant une explication aux controverses qui l’agitent. Elle propose aussi une synthèse quantifiée des résultats précédemment rapportés dans la littérature. Ainsi, prenant en compte toutes les études non biaisées sur le sujet, l’estimation du critère de jugement est au plus près de la réalité et la transposabilité clinique est d’autant meilleure.
∗ Auteur correspondant. Adresse e-mail :
[email protected] (G. Moulis).
En 1885, Lord Rayleigh, prix Nobel de physique en 1904, indiquait que « si comme on le soupc¸onne parfois, la science n’était rien d’autre que l’accumulation laborieuse de faits, elle s’immobiliserait bientôt, écrasée sous son propre poids. . . Deux processus sont donc à l’œuvre, côte à côte, la réception de nouvelles données et la digestion et l’assimilation des anciennes » [1]. Ainsi la combinaison de résultats d’études diverses est un problème ancien, développé par Fisher dès les années 1930 puis par Cochrane dans les années 1950 [2,3]. En 1976, Glass introduisit le terme de « méta-analyse » pour définir la « discipline [qui a] pour objectif le recensement critique de la littérature et l’intégration statistique des résultats des études antérieures portant sur une même question de recherche » [4]. La méta-analyse permet d’augmenter la puissance statistique, d’estimer au plus près l’effet « véritable » d’un traitement à partir d’études parfois discordantes, et d’expliquer ces discordances.
0248-8663/$ – see front matter © 2013 Société nationale française de médecine interne (SNFMI). Publié par Elsevier Masson SAS. Tous droits réservés. http://dx.doi.org/10.1016/j.revmed.2013.07.011
G. Moulis, A. Sommet / La Revue de médecine interne 35 (2014) 250–258
Initialement appliquée au domaine des sciences sociales et de l’éducation, l’intérêt de la méta-analyse en médecine s’est imposé dans les années 1980, à l’heure des premiers grands essais cliniques (discordants) sur le traitement de l’infarctus du myocarde [2]. Depuis, la méta-analyse s’est étendue à toutes les disciplines médicales, et le nombre de publications de travaux de recherche utilisant cette méthode croît chaque année de fac¸on exponentielle. En 2006 fut publiée, dans le Journal of the American Medical Association, une méta-analyse du risque de cancer chez les patients atteints de polyarthrite rhumatoïde traités par anti-tumor necrosis factor alpha (anti-TNF␣) [5]. Il s’agissait d’une méta-analyse d’essais cliniques randomisés contre placebo, concluant à un excès de risque de cancer sous anti-TNF␣ (odds ratio : 3,29 ; intervalle de confiance à 95 % [1,19–9,08]). Depuis, huit méta-analyses ont conclu à des résultats discordants, le plus souvent infirmant l’excès de risque de cancer (Tableau 1) [6–13]. Comment expliquer ces discordances ? L’inclusion de nouveaux essais dans les méta-analyses les plus récentes est une raison évidente, mais d’autres sources de biais peuvent participer à ces différences : en effet, les actualisations des méta-analyses n’entraînent généralement qu’un effet mineur sur l’estimation de l’effet traitement [14]. Cette controverse illustrera notre article, dont l’objectif est de clarifier les sources de biais d’une méta-analyse afin d’en favoriser la lecture critique. Nous allons suivre les étapes de la méthodologie très stricte et codifiée d’une méta-analyse. Nous verrons ainsi les sources de discordance entre méta-analyses, et pourrons ainsi conclure sur les points majeurs que doit repérer le lecteur dans le texte, les tableaux ou les figures d’un tel article de recherche. 2. Méthodologie d’une méta-analyse, sources d’erreur ou de biais Se reportant à la définition de Glass citée en introduction, la méta-analyse comprend essentiellement deux étapes : premièrement, « le recensement critique [. . .] des études antérieures portant sur une même question de recherche » et deuxièmement « l’intégration statistique des résultats » des études incluses dans la méta-analyse, aboutissant à la quantification de « l’effet traitement ». Rajoutons une troisième étape nécessaire à l’interprétation des résultats et qui est propre à tout travail de recherche, le « contrôle qualité » de la méta-analyse. Cette méthodologie, simple en apparence, répond à des règles très strictes. Elle est maintenant bien codifiée au plan international pas les recommandations « PRISMA » qui actualisent la conférence de consensus « QUORUM » [15,16]. Cette méthodologie est exposée très en détails, notamment au plan statistique, par le groupe Cochrane [17]. Si ces règles sont impartialement appliquées, la méta-analyse permet outre une estimation la plus fiable possible de l’effet traitement réel, une compréhension approfondie de la littérature sur un domaine particulier. Notamment, la revue qualitative de la littérature et les analyses complémentaires pour expliquer des défaillances au cours du « contrôle qualité » sont des outils précieux pour comprendre les controverses scientifiques qui agitent un domaine. Ioannidis l’affirme volontiers : « la méta-analyse, comme prototype d’une démarche de recherche, est un excellent outil pour commettre des erreurs, [mais aussi] pour reconnaître les biais qui les sous-tendent » [18]. 2.1. Sélection des études 2.1.1. Où chercher ? La recherche des études doit être la plus exhaustive possible, incluant études publiées (accessibles sur les bases de données telles que Medline, The Cochrane Databases, ISI Web of Science, Embase,
251
etc.) sans restriction de temps ni de langue mais également les études non publiées : essentiellement les résumés de congrès et les registres d’études en cours (par exemple www.clinicaltrial.gov), mais aussi l’interrogation des experts mondiaux en la matière (« littérature grise »), et s’il s’agit de médicament, des firmes pharmaceutiques concernées et des dossiers d’évaluation à la Food and Drug Administration et à la European Medicine Agency. L’objectif est d’éviter tout biais de publication, qui tend à favoriser les essais positifs et donc biaiserait le résultat quantifié de la méta-analyse. Ce biais est bien réel : sur 285 études soumises au Comité d’éthique d’Oxford en 1991, 82,4 % des études ayant des résultats « positifs » avaient été publiées contre 20,4 % de celles ayant des résultats « négatifs » [19]. L’influence du caractère « positif » ou « négatif » sur l’acceptation d’un manuscrit n’est plus à démontrer [20]. Autre élément jouant lors de la réalisation d’une méta-analyse à un instant t, les études « positives » sont publiées plus rapidement que les études « négatives » [21]. Parmi les méta-analyses du risque de cancer sous anti-TNF␣ dans la polyarthrite rhumatoïde, seuls 50 % ont recherché des essais non publiés. Dans la plus récente incluant 33 essais cliniques randomisés contre placebo, quatre essais inclus dans l’analyse quantitative n’étaient pas publiés dans les bases de données bibliographiques [13]. 2.1.2. Comment chercher ? La recherche se doit initialement d’être « large », avec les mots clés les moins discriminants possibles. Pour les bases de données bibliographiques, les équations de recherche utilisées doivent être indiquées. Le lecteur veillera à ce que les articulations entre les mots clés soient correctes et que les synonymes aient été inclus dans les équations. Cela est particulièrement vrai pour la recherche de médicaments (dénomination commune internationale, nom de développement, noms commerciaux, classe thérapeutique et pharmacologique). La recherche des essais non publiés est beaucoup plus fastidieuse et obéit à la même démarche visant l’exhaustivité. Les études sélectionnées lors de cette première étape sont alors lues en détail, idéalement par deux évaluateurs indépendants munis d’une grille de lecture établie a priori et qui récapitule les critères d’inclusion et de non inclusion dans la méta-analyse. Les désaccords entre les évaluateurs quant à l’inclusion d’une étude sont généralement résolus par consensus. 2.1.3. Mixing apples and oranges Comme pour la sélection des patients lors d’un essai clinique, les critères d’inclusion et de non inclusion des études dans la méta-analyse sont essentiels. Pour estimer le risque de cancer sous anti-TNF␣ dans la polyarthrite rhumatoïde, on peut décider de se restreindre aux patients adultes, naïfs d’anti-TNF␣ à l’inclusion, recevant des anti-TNF␣ aux doses et selon les modalités d’administration de l’autorisation de mise sur le marché [13]. Cette restriction à une question de recherche très précise entraîne généralement une perte considérable d’études à inclure, mais elle minimise l’hétérogénéité (Encadré 1) et par conséquent contribue à une meilleure fiabilité de l’estimation de l’effet traitement. Les études incluses doivent être présentées dans un tableau : c’est « l’analyse qualitative ». Dans notre exemple, on note des différences parmi les critères d’inclusion (Tableau 1). Certaines méta-analyses d’essais cliniques randomisés ont inclus des études sans insu ou avec des extensions sans insu, à l’origine d’un risque de biais de diagnostic chez les patients traités par anti-TNF␣ qui sont plus surveillés vis-à-vis du risque de cancer [7,10,11]. Une analyse stratifiée selon le type d’étude s’impose alors [10]. La méta-analyse du groupe Cochrane en 2011 évaluant les cinq anti-TNF␣ a inclus des études éloignées de la pratique réelle en termes de dose et de voies d’administration (étanercept intra-articulaire par exemple)
252 Tableau 1 Méta-analyses publiées évaluant le risque de cancer (quel qu’il soit) sous anti-TNF␣ dans la polyarthrite rhumatoïde de l’adulte : caractéristiques et résultats. Toutes ont été conduites en intention de traiter modifiée et ont évalué la qualité des études. Méta-analyses et résultats
Critères d’inclusion des études
Recherche d’études non publiées
Vérification des données
Hétérogénéité
Analyses de sensibilité
Financement industriel
Indication
Anti-TNF
7 ECRI Durée ≥ 12 semaines
PR
I2 = 0
Oui
Partiellement
13 ECRI Durée ≥ 6 mois
PR
Résumés ACR, EULAR Industriels Non
Oui
Alonzo-Ruiz, 2008 RR 1,5 [0,8–3,0]
Non
I2 = 0
Non
Non
Bongartz, 2009 HR 1,84 [0,79–4,28]
9 ECRI dont extension sans insu Durée ≥ 12 semaines 18 ECRI Durée ≥ 10 semaines
PR
IFX, ADA Stratification selon les doses IFX, ADA, ETN Doses et voies d’administration recommandées ETN Toutes doses
Industriels
Données fournies par les industriels
Non précisée
Oui
Oui
PR
IFX, ADA, ETN Stratification selon les doses
Non
Pas systématiquement
Oui (valeurs non précisées)
Oui
Non
74 essais cliniques randomisés sponsorisés par les industriels Durée ≥ 4 semaines
Toute indicationa
IFX, ADA, ETN Exposition : jusqu’à 30 jours après fin de l’essai Toutes doses
Industriels
Non précisée
Oui
Oui mais demandé par la European Medicine Agency
118 ECRI + essais non randomisés + extensions d’essais 5 ECRI + 1 essai comparatif sans insu Durée ≥ 6 mois 7 études prospectives observationnelles avec évaluation du nombre de cancers
Toute indicationa
IFX, ADA, ETN, CTZ, GMMb Toutes doses et toutes voies IFX, ADA, ETN, CTZ, GMM Toutes doses
Non
Données fournies par les industriels Plusieurs définitions de l’évènement Non
Non
Oui
Non (Cochrane)
Non
Non
I2 = 0
Non
Non
Non précisé
Résumés ACR, BSR et EULAR
Non
I2 = 0
Non
Oui
Leombruno, 2009 Pas d’excès de risque aux doses usuelles quel que soit le type de cancer Askling, 2011 HR 1,3 (0,89–1,95] HR 2,02 [1,11–3,95] pour les CCNM Singh, 2011 OR 0,53 [0,17–1,66] pour les lymphomes Thompson, 2011 OR 1,08 [0,50–2,32] Mariette, 2011 RR 0,95 [0,85–1,05] RR 1,45 [1,15–1,76] pour les CCNM (4 études)
PR de durée < 3 ans sans traitement de fond PR, SPA, RP
ADA : adalimumab ; ACR : American College of Rheumatology ; BSR : British Society for Rheumatology ; CCNM : cancers cutanés non mélanomateux ; CTZ : certolizumab pegol ; ECRI : essai clinique randomisé en insu ; ETN : étanercept ; EULAR : European League Against Rheumatism ; GMM : golimumab ; HR : hazard ratio ; IFX : infliximab ; OR : odds ratio ; PR : polyarthrite rhumatoïde ; RP : rhumatisme psoriasique ; RR : risque relatif ; SPA : spondylarthrite ankylosante. a Y compris des indications très éloignées de l’utilisation quotidienne des anti-TNF␣ (par exemple asthme, sarcoïdose, sepsis, maladie de Horton, fibrose interstitielle, BPCO, insuffisance cardiaque). b Et d’autres biothérapies : anakinra, abatacept, rituximab.
G. Moulis, A. Sommet / La Revue de médecine interne 35 (2014) 250–258
Nombre et types d’étude Bongartz, 2006 OR 3,29 [1,19–9,08]
G. Moulis, A. Sommet / La Revue de médecine interne 35 (2014) 250–258
Encadré 1: Un l’hétérogénéité.
concept-clé
de
la
méta-analyse :
• L’hypothèse d’homogénéité, fondation de toute métaanalyse. Cette hypothèse est qu’il existe une part constante de l’effet du traitement au sein de chaque étude. C’est cette part constante qu’entend mesurer la méta-analyse et qui est appelée « effet traitement ». La variabilité de cet effet entre les études incluses dans la méta-analyse est due à des éventuels biais (minimisés au maximum par un processus de sélection rigoureux), à l’erreur aléatoire (« mécaniquement » atténuée par le nombre d’essais inclus dans la méta-analyse), et avant tout à une hétérogénéité des études en termes de schéma, de caractéristiques des patients, de suivi, de définition du critère de jugement, etc. Bref à des critères d’inclusion et de non inclusion dans la méta-analyse trop peu précis. • La recherche d’hétérogénéité doit être la première analyse statistique réalisée car elle rentre en ligne de compte pour le choix du modèle statistique permettant de mesurer l’effet traitement. L’hypothèse d’homogénéité est vérifiée par des tests statistiques. Le plus ancien est le test Q de Cochran. Une valeur < 10 % signe une hétérogénéité : dans au moins une des études incluses, l’effet traitement est significativement différent de celui mesuré dans les autres [2]. Dans les années 2000, l’indice I2 s’est imposé. Il prend en compte le test Q de Cochran et le nombre d’études incluses dans la métaanalyse. Schématiquement, il représente la proportion de variation de l’effet traitement entre les études incluses dans la méta-analyse. Une valeur < 25 % signe une hétérogénéité absente ou faible, laquelle est modérée entre 25 et 50 %, élevée au-delà de 50 % [39]. En cas d’hétérogénéité, l’effet traitement commun sera mesuré à l’aide d’un modèle à effet aléatoire (par exemple, utilisant la méthode de DerSimonianLaird), car ce type de modèle suppose que l’effet traitement est similaire dans les études incluses, avec une variabilité selon leurs caractéristiques. L’effet traitement commun est alors la valeur moyenne autour de laquelle sont distribués ces effets. En l’absence d’hétérogénéité, on pourra choisir d’utiliser un modèle fixe (méthodes de Mantel-Haenszel ou de Peto par exemple), plus robuste pour la mesure d’événements rares. Ce type de modèle suppose que l’effet traitement est fixe dans chaque étude, et l’effet traitement commun mesuré par la méta-analyse est leur moyenne [2]. • L’hétérogénéité est source d’une meilleure compréhension de l’effet traitement en fonction de caractéristiques des patients ou de la maladie. Les sources d’hétérogénéité sont identifiées par l’analyse qualitative des études incluses. Des analyses en sousgroupes peuvent être réalisées. Dans notre exemple, Leombruno et al. qui se sont heurtés à une hétérogénéité significative ont réalisé une analyse en sous-groupe selon les doses d’anti-TNF␣ [8]. Une autre fac¸on d’étudier le lien entre un facteur d’hétérogénéité et l’effet traitement est de réaliser une méta-régression, méthode également utilisée par cette équipe. Un diagramme (bubble plot) représente alors une droite de régression entre l’effet traitement mesuré et la variable étudiée dans chaque étude. À titre d’illustration, la Fig. 3 montre le lien entre la durée de la maladie et le risque de cancer dans une méta-analyse de 31 essais cliniques randomisés contre placebo évaluant les anti-TNF␣ aux doses de l’autorisation de mise sur le marché dans la polyarthrite rhumatoïde [40].
ce qui n’a pas de sens pour la question posée et peut ainsi fausser les résultats [10]. Cette hétérogénéité est la principale source de discordance entre méta-analyses cherchant à répondre à une même question. Pour citer encore Ioannidis, « les critères d’inclusion et de non inclusion
253
sont un magnifique outil pour sélectionner les données que l’on souhaite, afin d’aboutir aux conclusions que l’on voulait démontrer avant de commencer l’analyse » [18]. 2.1.4. « Pour bien cuisiner, il faut des bons produits » La dernière étape du processus de sélection est l’évaluation de la qualité des études à inclure dans la méta-analyse. L’inclusion d’études biaisées entraînera un résultat biaisé de la méta-analyse : c’est le fameux garbage in, garbage out des anglo-saxons. Cependant, il existe un certain « effet tampon » lors de l’inclusion de nombreuses études dans la méta-analyse : plus il y a d’études de bonne qualité, moins les résultats d’une étude biaisée auront d’impact sur l’estimation de l’effet traitement commun. Il existe de nombreuses échelles ou checklists pour étudier la qualité des études. La plus simple pour les essais cliniques est celle dite d’Oxford, qui pose à l’évaluateur trois questions : le tirage au sort est-il bien fait ? Comment l’insu est-il réalisé ? Les patients perdus de vue sont-ils décrits ? [22]. La grille proposée par le groupe Cochrane reprend les mêmes items [17]. Les études observationnelles ont elles aussi leur score de qualité standardisé [23]. Cet aspect a été parfaitement illustré récemment grâce à une méta-analyse évaluant l’intérêt de l’aspirine en prévention primaire des thromboses veineuses et artérielles chez les patients porteurs d’anticorps anti-phospholipides. Les études incluses sont diverses en termes de populations étudiées et de méthodologie : un essai clinique randomisé, six études observationnelles prospectives et quatre rétrospectives. Ce sont ces dernières qui, individuellement, plaident pour une efficacité nette de l’aspirine. En effet, le résultat de la méta-analyse est en faveur d’une efficacité de l’aspirine (OR : 0,50 ; IC95 % : 0,27–0,93), mais le résultat « favorable » disparaît lorsque l’on refait l’analyse en enlevant les études de moindre qualité (OR : 0,92 ; IC95 % : 0,50–1,69) [24]. La méta-analyse, en tant que synthèse de l’état de la science sur un domaine particulier, a un pouvoir considérable sur la communauté scientifique et les décideurs [25]. Un résultat « positif » sur un thème d’actualité sera mis en exergue dans toutes les présentations d’universitaires et de visiteurs médicaux. Plus encore que les études de phase III ou IV, la synthèse sur l’efficacité ou la sécurité d’un médicament doit être faite par des acteurs indépendants de l’industrie, d’où la fondation du groupe Cochrane. Parmi les métaanalyses montrant l’absence de risque de cancer sous anti-TNF␣, la moitié a été directement financée par les firmes commercialisant ces médicaments. Les données sont parfois directement fournies par ces firmes. Pour la même raison, la recherche d’essais non publiés par les industriels doit être acharnée [18]. 2.1.5. Présentation des résultats de la sélection des études Le processus de sélection des études doit être présenté sous la forme d’un diagramme de flux qui est consensuel (Fig. 1 [15]). Les études exclues lors de leur lecture en entier doivent être listées en annexe, en expliquant les raisons de l’exclusion. Comme déjà signalé, les études sélectionnées doivent être présentées dans un tableau décrivant leurs caractéristiques principales, de fac¸on à ce que le lecteur se rende compte des sources potentielles d’hétérogénéité (Encadré 1) : schéma de l’étude, caractéristiques des patients inclus, nombre de patients dans chaque bras, etc. 2.2. Critères de jugement 2.2.1. Vérification du critère de jugement Le critère de jugement (par exemple, le nombre de cancers) doit idéalement être vérifié auprès des auteurs ou, lorsqu’il s’agit d’une étude à promotion industrielle, de la firme pharmaceutique [26]. La période d’évaluation doit être précisée. Askling et al. ont considéré une exposition allant jusqu’à un mois après l’arrêt du médicament
254
n arcles idenfiés dans les bases de données (« arcles publiés »)
n arcles idenfiés dans d’autres sources (« arcles non publiés »)
n arcles après exclusion des doublons
Deuxième filtre
Premier filtre
Idenficaon
G. Moulis, A. Sommet / La Revue de médecine interne 35 (2014) 250–258
n arcles lus sur tre et résumé
n arcles exclus
n arcles lus en ener
n arcles exclus, avec détail des raisons
Inclusion
n arcles inclus dans l’analyse qualitave (descripve)
n arcles inclus dans l’analyse quantave (méta-analyse)
Fig. 1. Représentation standardisée du processus de sélection des études en vue d’une méta-analyse.
et donc après la période d’insu, ce qui peut contribuer à un biais de dépistage pendant ce mois-là [9].
2.2.2. Données agrégées ou individuelles ? La plupart des méta-analyses reprennent les résultats globaux de chaque étude incluse, bras de traitement par bras de traitement (données agrégées). La méta-analyse peut aussi être réalisée sur les données individuelles (de chaque patient), ce qui est plus précis pour la mesure de l’effet traitement en permettant notamment de prendre en compte des durées de suivi différentes et de réaliser des courbes de survie. Cependant, ce type d’analyse a une lourdeur considérable, est très coûteuse en temps, en argent et en abnégation pour obtenir les données de chaque patient. Les analyses statistiques sont aussi plus complexes, devant tenir compte d’un effet « grappe » (non indépendance stricte des patients au sein d’une même étude) [27].
2.3. Estimation de l’effet traitement commun 2.3.1. Où il ne suffit pas d’additionner L’utilisation d’outils statistiques appropriés est rendue nécessaire par le paradoxe de Simpson : l’addition des effectifs et des événements pour calculer un odds ratio « global » peut conduire à une estimation sans commune mesure avec l’estimation au sein de chaque étude (Tableau 2) [28].
2.3.2. Grands principes statistiques Sur le plan statistique, l’effet traitement commun est une moyenne de l’effet traitement de chaque étude pondérée par l’inverse de sa variance : plus un essai est précis, plus il aura de poids dans la méta-analyse. Sans rentrer dans les détails mathématiques, deux grands types de modèles sont utilisés : ceux à effet aléatoire obligatoirement utilisés en cas d’hétérogénéité, et ceux effet fixe, préférés notamment pour la mesure d’événements rares (pour plus de détails sur les principes de ces modèles, voir l’Encadré 1). L’existence d’un effet traitement commun est mesurée par un test statistique (« test d’association ») selon le même principe que pour une étude comparative (seuil ␣ généralement choisi à 5 %).
2.3.3. Représentation graphique L’effet traitement de chaque étude incluse listée sur la gauche est représenté par le centre d’un carré. La taille du carré correspond au poids de l’étude dans la méta-analyse et le segment le traversant horizontalement représente l’intervalle de confiance de l’estimation de l’effet traitement (Fig. 2). On remarque sans surprise que plus une étude a de poids dans la méta-analyse, plus l’intervalle de confiance est restreint. L’effet traitement commun est représenté par un losange, dont le centre est l’estimation et les extrémités gauche et droite les bornes inférieures et supérieures de l’intervalle de confiance. L’hypothèse nulle (absence d’effet traitement) est représentée par une ligne verticale (sur la Fig. 2, la valeur 1 puisqu’il s’agit d’un
Tableau 2 Illustration (imaginaire) du paradoxe de Simpson. Essai clinique
Nombre de patients dans le bras traitement
Nombre de patients dans le bras placebo
Nombre d’événements dans le bras traitement
Nombre d’événements dans le bras placebo
Odds ratio
Essai A Essai B Somme Méta-analyse
120 60 180 120 et 60
60 120 180 60 et 120
36 42 78 36 et 42, respectivement
18 84 102 18 et 84, respectivement
1 1 0,58 1
Le calcul d’un odds ratio « global » après avoir fait la somme des événements et des effectifs des essais A et B conduit à l’estimation de près de deux fois moins d’événements dans le bras traitement. En réalité, il n’y a pas de différence concernant la survenue d’événement entre le bras traitement et le placebo dans aucun des deux essais, ce que confirme une « vraie » méta-analyse.
G. Moulis, A. Sommet / La Revue de médecine interne 35 (2014) 250–258
Essai
AntiTNFα
Poids (%)
Odds ratio [IC 95% ]
Bras placebo
Nombre de cancers/nombre de patients Bras anti-TNFα
Maini, 2004
IFX
1/86
0/88
2,79
1,02 [0,06-16,63]
Saint Clair, 2004
IFX
4/751
0/298
2,03
3,59 [0,19-66,96]
Westhovens, 2006
IFX
5/360
2/361
5,63
2,53 [0,49-13,12]
Bathon, 2000
ETN
3/207
2/217
5,50
1,58 [0,26-9,56]
van der Heijde, 2006
ETN
9/454
2/228
7,46
2,29 [0,49-10,67]
Weisman, 2007
ETN
2/266
3/269
8,46
0,67 [0,11-4,05]
Combe, 2009
ETN
2/103
0/50
1,87
5,49 [0,12-52,80]
Emery, 2010 Furst, 2003
ETN ADA
4/163 4/318
7/178 0/318
18,65 1,41
0,61 [0,18-2,14] 9,11 [0,49-169,99]
van de Putte, 2004
ADA
2/113
1/110
2,84
1,96 [0,18-21,98]
Keystone, 2004
ADA
5/207
1/200
2,84
4,93 [0,57-42,54]
Breedveld , 2006
ADA
6/542
4/257
15,33
0,71 [0,20-2,53]
Miyasaka, 2008
ADA
0/91
2/87
7,26
0,19 [0,01-3,95]
Keystone, 2009
GMM
0/89
1/133
15,33
0,49 [0,02-12,25]
Emery, 2009
GMM
1/158
2/160
5,64
0,50 [0,05-5,61]
Tanaka, 2010 Keystone, 2008
GMM CTZ
1/86 7/383
0/88 1/192
1,76 3,74
3,11 [0,12-77,28] 3,56 [0,43-29,11]
Smolen, 2009
CTZ
1/242
1/125
3,75
0,51 [0,03-8,30]
Méta-analyse
Tous
57/5439
30/4116
100
1,41 [0,91-2,18]
Test d’effet global : p=0,79 Hétérogénéité : test Q de Cochran=12,62 I²=0% Biais de publicaon (Test d’Egger) : p=0,35
0,1
255
1
5
Odds rao (intervalle de confiance à 95%)
Fig. 2. Graphique représentant les résultats d’une méta-analyse évaluant le risque de cancer dans la polyarthrite rhumatoïde et incluant 18 essais cliniques randomisés en insu versus placebo. L’analyse est conduite en analyse en intention de traitée modifiée selon la méthode de Mantel-Haenszel (modèle fixe) avec une correction de continuité « empirique ». L’effet traitement de chaque étude incluse listée sur la gauche est représenté par le centre d’un carré. La taille de chaque carré correspond au poids de l’étude dans la méta-analyse (également indiqué en pourcentage dans le tableau à gauche du graphique) et le segment le traversant horizontalement représente l’intervalle de confiance de l’estimation de l’effet traitement. L’effet traitement commun est représenté en bas par un losange, dont le centre est l’estimation et les extrémités gauche et droite les bornes inférieures et supérieures de l’intervalle de confiance (ici, OR : 1,41 ; IC95 % : 0,91–2,18). Le test d’effet traitement n’est pas significatif (p > 0,05), il n’y a pas d’hétérogénéité (I2 = 0 %) ni de biais de publication significatif selon le test d’Egger (p > 0,05). ADA : adalimumab ; CTZ : certolizumab ; ETN : étanercept ; GMM : golimumab ; IFX : infliximab.
rapport de cotes), ce qui permet de voir au premier coup d’œil s’il y a un effet traitement significatif (intervalle de confiance ne recoupant pas cette ligne verticale). En bas de la figure, doivent figurer : la valeur de l’estimation de l’effet traitement commun avec son intervalle de confiance, la valeur du test d’association (le « p » du test d’effet global) et le résultat des tests d’hétérogénéité (Encadré 1). 2.3.4. Cas particulier : la mesure d’événements rares Si l’on mesure des événements rares, il se peut que dans certaines études incluses aucun événement ne se soit produit dans un des bras de traitement, voire dans aucun bras. Pour calculer un effet traitement sous la forme de risque relatif ou de rapport de cotes, on est donc contraint soit de ne pas prendre en compte ces études, mais il s’agit alors d’un biais d’information, soit d’ajouter artificiellement une fraction d’événement aux valeurs nulles : c’est la « correction de continuité ». Plusieurs corrections de continuité ont été proposées [29]. Celle historiquement utilisée est d’attribuer la valeur 0,5 en cas d’événement nul (et bien sûr d’ajouter la valeur 0,5 aux autres bras de la même étude de fac¸on à conserver l’équilibre) mais elle peut biaiser les résultats [30]. L’idéal lorsque l’on s’intéresse à la mesure d’événements rares est d’étudier différentes solutions de continuité en analyse de sensibilité. 2.3.5. Méta-analyses de sécurité : per protocole ou intention de traiter ? Toutes les méta-analyses évaluant le risque de cancer sous antiTNF␣ dans la polyarthrite rhumatoïde ont été réalisées en intention de traiter modifiée (tous les patients ayant rec¸u au moins une dose d’anti-TNF␣ ou du placebo ont été inclus dans l’analyse). Cependant, une analyse en per protocole est souvent préférée pour les études de sécurité car l’on sait alors que tous les patients analysés
ont été exposés tout au long de l’étude, au prix certes d’une plus faible puissance statistique. Or une méta-analyse en per protocole peut donner des résultats complètement différents d’une métaanalyse en intention de traiter, dans un sens imprévisible [31]. Dans l’exemple qui nous intéresse, il y a un biais de diagnostic différentiel en cas d’analyse en intention de traiter car dans certains essais les patients perdus de vue ou sortis d’étude ne sont pas suivis toute la durée de l’étude, ils ne peuvent donc pas être diagnostiqués pour un cancer. Comme il y a plus de sortis d’étude dans le bras placebo pour inefficacité, cela tend à surestimer le risque de cancer sous anti-TNF␣. A contrario, l’analyse en per protocole sous-estime l’effet traitement commun en cas d’événements rares, et ce d’autant que la correction de continuité appliquée est élevée [13]. Là encore, les deux types d’analyses devraient être présentés pour l’estimation de risques rares. 2.4. Le « contrôle qualité » 2.4.1. Hétérogénéité La recherche et la prise en compte de l’hétérogénéité des études sélectionnées sont détaillées dans l’Encadré 1. 2.4.2. Biais de publication Il existe des tests statistiques pour rechercher la possibilité d’un biais de publication, mais qui restent imparfaits et c’est la lecture attentive du soin accordé à la recherche d’essais non publiés qui permet le plus souvent de suspecter un tel biais. Le test de Begg et Mazumdar ou celui d’Egger (biais de publication si p < 0,05) sont le plus souvent utilisés [32,33]. La représentation graphique la plus souvent montrée est le funnel plot (Fig. 4) [32]. Dans ce graphique, chaque étude incluse est représentée par un cercle. L’axe des abscisses correspond à l’estimation de l’effet traitement
256
G. Moulis, A. Sommet / La Revue de médecine interne 35 (2014) 250–258
-1
Log(OR) 0
1
2
statistique de biais de publication n’est présenté que pour l’étude d’Alonzo-Ruiz et al. [6]. En cas de biais de publication, il existe des techniques statistiques pour essayer d’ajuster les résultats sur ce biais. La plus intuitive est la méthode trim and fill qui simule l’existence d’essais non publiés symétriques en cas de funnel plot asymétrique [35,36]. Il existe d’autres méthodes plus complexes de modélisation pour estimer le poids d’un biais de publication sur l’estimation de l’effet traitement commun, dont la description dépasse le cadre de cet article [37,38]. Ces ajustements restent toutefois limités en cas d’hétérogénéité et de faible nombre d’études incluses. Ils doivent être considérés comme des analyses de sensibilité.
-2
2.5. Méta-analyses du risque de cancer sous anti-TNF˛ dans la polyarthrite rhumatoïde : de nombreuses discordances méthodologiques
0
5 10 mal_moy Durée duree de la ma ladie (années)
15
Le Tableau 3 résume les sources de discordances potentielles entre des méta-analyses. En retournant au Tableau 1, on s’aperc¸oit que des différences méthodologiques dans notre exemple « fil rouge » du risque de cancer sous anti-TNF␣ dans la polyarthrite rhumatoïde sont présentes à chaque étape de la méthodologie de la méta-analyse. Plusieurs causes expliquent le fait que la première méta-analyse a mis en évidence un risque important qui n’a pas été confirmé par la suite. Tout d’abord, il y a un manque d’exhaustivité dans la recherche des essais cliniques : seuls l’infliximab et l’adalimumab ont été étudiés, alors que la même équipe selon la même méthodologie n’a pas montré d’excès de risque avec l’étanercept trois ans plus tard [7]. Pour autant, à l’heure actuelle on ne dispose pas d’argument pour penser qu’il existe une différence de risque majeure entre les différents anti-TNF␣.
Fig. 3. Exemple d’illustration graphique de méta-régression : droite de régression croissante entre survenue de cancer sous anti-TNF␣ (logarithme de l’odds ratio, en ordonnées) et la durée de la maladie (abscisses), au cours d’une méta-analyse incluant 31 essais cliniques randomisés en insu versus placebo dans la polyarthrite rhumatoïde.
A
0
B
0
ET logOR
1
ET logOR
et l’axe des ordonnées à la précision de l’étude. Une distribution symétrique en entonnoir (d’où le nom anglo-saxon du graphique) suggère l’absence de biais de publication (Fig. 4A). Cependant le biais de publication (Fig. 4B) n’est pas la seule cause d’asymétrie de funnel plot (Fig. 4C). En pratique, rares sont les revues systématiques ou méta-analyses qui évaluent le biais de publication [34]. Pour le risque de cancer sous anti-TNF␣, le résultat de la recherche
1
2
2
3
3
0,4
1
0,4
1,6
C
0
ET logOR
Odds rao
1
1
1,6
Odds rao
2 3 0,4
1
1,6
Odds rao Fig. 4. Exemples (fictifs) de représentation graphique de recherche de biais de publication (funnel plot) dans des méta-analyses de dix études estimant le risque de cancer sous anti-TNF␣. Chaque étude, représentée par un cercle, est positionnée sur le graphique en fonction de son estimation de l’effet traitement (odds ratio) en abscisses et de sa précision (écart-type du logarithme de l’odds ratio, ET log OR) en ordonnées. Ainsi les études de faible effectif, peu précises, sont proches de l’axe des abscisses. A. L’estimation de l’effet traitement global est un odds ratio à 1,1, intervalle de confiance : 0,8–1,3 (losange noir). Les études de faibles effectifs étant moins précises, elles concluent à des odds ratio variés, à l’opposé des études précises de grands effectifs qui concluent à des odds ratio plus proche de l’estimation de l’effet traitement global, d’où un aspect en entonnoir (double trait). Cet aspect symétrique de l’entonnoir suggère l’absence de biais de publication. B. L’entonnoir est asymétrique : il manque clairement des études de faibles effectifs montrant une absence de risque, cela fait suspecter un biais de publication favorisant un excès de risque. C. L’estimation de l’effet traitement global est le même qu’en B, et l’entonnoir est également asymétrique. Ici il ne semble pas manquer d’études mais on remarque qu’il y a trois études de faibles effectifs qui ont des mesures d’effet traitement (odds ratio) très élevés, faisant suspecter la présence d’un biais dans ces études : le biais de publication n’est pas la seule cause d’asymétrie d’un funnel plot.
G. Moulis, A. Sommet / La Revue de médecine interne 35 (2014) 250–258 Tableau 3 Causes de discordances entre des méta-analyses. Date de réalisation (nouvelles études incluses) Sélection des études Recherche dans des bases de données différentes Recherche par des équations différentes Absence de recherche d’études non publiées +++ Critères d’inclusion et de non inclusion différents +++ Absence d’évaluation de la qualité des études Événements étudiés Définition différente du critère de jugement Absence de vérification auprès de la source Donnés agrégées ou individuelles Biais de diagnostic (par exemple extension d’essai) Analyse statistique Modèle fixe ou aléatoire Étude en intention de traiter ou per protocole Correction de continuité différente Outil de mesure différent (risque relatif, rapport de cotes, etc.) Hétérogénéité (Q < 10 % ou I2 > 25 %) +++ Biais de publication Indépendance des auteurs
Dans cette première méta-analyse de 2006, ont été incluses quatre études de faible effectif et trois de plus grand effectif, ayant plus de poids dans la méta-analyse. L’excès de risque est supporté par une étude de grand effectif (8 cancers parmi 419 patients dans les bras anti-TNF␣ et 1 cancer parmi 200 patients dans le bras placebo) et quatre études ayant peu de poids dans la méta-analyse (absence de cancer dans le groupe placebo). Bien qu’un funnel plot ne soit pas fourni, l’absence d’essais de faible poids sans excès de risque surprend et devrait faire suspecter un bais de publication. Autre explication possible, les auteurs signalent que quatre études sont à risque de biais en raison d’un pourcentage de patients perdus de vue important dans le bras placebo. On est tenté de penser qu’il s’agit de ces quatre études « positives » de faible poids. Par ailleurs, les auteurs se sont restreints dans un modèle à effet fixe aux essais avec survenue d’au moins un événement dans au moins un bras, mais cette sélection prive d’information « négative ». Dans un modèle aléatoire en incluant deux essais de 101 et 284 patients avec aucun événement survenu dans aucun bras, il y avait toujours un excès de risque mais avec un intervalle de confiance très large, permettant d’émettre des réserves sur la précision de la mesure de l’effet traitement. Enfin, la recherche scrupuleuse d’événements auprès des firmes pharmaceutiques a permis de prendre en compte sept cancers non reportés dans les publications, qui étaient des cancers cutanés. Ainsi, par rapport à des méta-analyses ultérieures, il y a une surreprésentation (vraie) des cancers cutanés non mélanomateux. Cela a sûrement influencé les résultats, alors que les méta-analyses les plus récentes qui ont réalisé des analyses en sous-groupe selon le type de cancer ont montré l’excès de risque de cancer cutané non mélanomateux sous anti-TNF␣ alors qu’elles ont infirmé l’excès de risque « global » de cancer en augmentant la puissance statistique par l’ajout de nouvelles études [9,11,12]. 3. En synthèse : sous le bikini En suivant la méthodologie d’une méta-analyse, nous avons essayé de mettre en exergue ses écueils potentiels, qui conduisent trop souvent à des résultats biaisés. Le mot d’esprit attribué à A.R. Feinstein sur la pharmacoépidémiologie s’applique tout particulièrement à la méta-analyse : « la pharmacoépidémiologie, c’est comme un bikini, c’est très attrayant, toutefois le plus intéressant n’est pas ce qu’il montre mais ce qu’il dissimule ». Afin de rechercher facilement ces biais cachés, on peut proposer au lecteur trois séries de trois questions à se poser (Tableau 4). Les
257
Tableau 4 Les trois séries de trois questions à se poser lors de la lecture d’une méta-analyse. 1. Questions générales De quand date la méta-analyse ? Les auteurs font-ils référence à une méthodologie PRISMA (QUORUM pour les méta-analyses antérieures à 2009) ou Cochrane ? Qui sont les auteurs, promoteurs, financeurs de la méta-analyse ? 2. À rechercher dans le paragraphe « Méthodes » La recherche des études est-elle la plus exhaustive possible (recherche d’études publiées et non publiées) ? Les critères d’inclusion et de non inclusion sont-ils pertinents par rapport à la question posée ? Y a-t-il eu évaluation de la qualité des études incluses et vérification des données auprès des auteurs des études ? 3. À rechercher dans le paragraphe « Résultats » L’hypothèse d’homogénéité est-elle vérifiée ? Les auteurs ont-ils réalisés des analyses de sensibilité pour vérifier la stabilité des résultats, et en cas d’hétérogénéité pour préciser les résultats (analyses en sous-groupe, méta-régression) ? Y a-t-il un biais de publication évalué statistiquement et pris en compte ?
réponses doivent être inscrites dans l’article et prises en compte pour l’interprétation des résultats. 4. Conclusion La méta-analyse est à juste titre prisée par les praticiens et les décideurs. Il s’agit d’un formidable outil de synthèse pour les questions scientifiques en débat. En suivant une méthodologie très stricte, elle doit permettre une synthèse exhaustive, reproductible, non biaisée, quantifiée et précise en raison de sa puissance statistique. Mais elle permet aussi et peut-être avant tout de clarifier des situations contradictoires, avec un impact fort pour la pratique clinique. Déclaration d’intérêts Les auteurs déclarent ne pas avoir de conflits d’intérêts en relation avec cet article. Remerciements Nous tenons à remercier le Professeur Laurent Sailler pour la relecture attentive du manuscrit. Références [1] Rayleigh JWS. Report of the Fifty-Fourth Meeting of the British Association for the Advancement of Science. Address. London: John Murray; 1885. p. 3–23. [2] Cucherat M, Boissel JP, Leizorovicz A. La méta-analyse des essais thérapeutiques [site Internet]. Consultable sur : http://www.spc.univ-lyon1.fr/easyma.net/. (Accès le 1er mai 2013). [3] O’Rourke K. An historical perspective on meta-analysis: dealing quantitatively with varying study results. J R Soc Med 2007;100:579–82. [4] Glass GV. Primary, secondary and meta-analysis of research. Educ Res 1976;5:3–8. [5] Bongartz T, Sutton AJ, Sweeting MJ, Buchan I, Matteson EL, Montori V. Anti-TNF antibody therapy in rheumatoid arthritis and the risk of serious infections and malignancies: systematic review and meta-analysis of rare harmful effects in randomized controlled trials. JAMA 2006;295:2275–85. [6] Alonso-Ruiz A, Pijoan JI, Ansuategui E, Urkaregi A, Calabozo M, Quintana A. Tumor necrosis factor alpha drugs in rheumatoid arthritis: systematic review and meta-analysis of efficacy and safety. BMC Musculoskelet Disord 2008;9:52. [7] Bongartz T, Warren FC, Mines D, Matteson EL, Abrams KR, Sutton AJ. Etanercept therapy in rheumatoid arthritis and the risk of malignancies: a systematic review and individual patient data meta-analysis of randomised controlled trials. Ann Rheum Dis 2009;68:1177–83. [8] Leombruno JP, Einarson TR, Keystone EC. The safety of anti-tumour necrosis factor treatments in rheumatoid arthritis: meta and exposure-adjusted pooled analyses of serious adverse events. Ann Rheum Dis 2009;68:1136–45. [9] Askling J, Fahrbach K, Nordstrom B, Ross S, Schmid CH, Symmons D. Cancer risk with tumor necrosis factor alpha (TNF) inhibitors:meta-analysis of randomized
258
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18] [19] [20] [21] [22]
[23]
G. Moulis, A. Sommet / La Revue de médecine interne 35 (2014) 250–258 controlled trials of adalimumab, etanercept, and infliximab using patient level data. Pharmacoepidemiol Drug Saf 2011;20:119–30. Singh JA, Wells GA, Christensen R, Tanjong Ghogomu E, Maxwell L, Macdonald JK, et al. Adverse effects of biologics: a network meta-analysis and Cochrane overview. Cochrane Database Syst Rev Online 2011;2:CD008794. Thompson AE, Rieder SW, Pope JE. Tumor necrosis factor therapy and the risk of serious infection and malignancy in patients with early rheumatoid arthritis: a meta-analysis of randomized controlled trials. Arthritis Rheum 2011;63:1479–85. Mariette X, Matucci-Cerinic M, Pavelka K, Taylor P, van Vollenhoven R, Heatley R, et al. Malignancies associated with tumour necrosis factor inhibitors in registries and prospective observational studies: a systematic review and meta-analysis. Ann Rheum Dis 2011;70:1895–904. Moulis G, Sommet A, Béné J, Montastruc F, Sailler L, Montastruc JL, et al. Cancer risk of anti-TNF-␣ at recommended doses in adult rheumatoid arthritis: a meta-analysis with intention to treat and per protocol analyses. PloS One 2012;7:e48991. Pereira TV, Ioannidis JPA. Statistically significant meta-analyses of clinical trials have modest credibility and inflated effects. J Clin Epidemiol 2011;64: 1060–9. Liberati A, Altman DG, Tetzlaff J, Mulrow C, Gøtzsche PC, Ioannidis JPA, et al. The PRISMA statement for reporting systematic reviews and meta-analyses of studies that evaluate health care interventions: explanation and elaboration. J Clin Epidemiol 2009;62:e1–34. Moher D, Cook DJ, Eastwood S, Olkin I, Rennie D, Stroup DF. Improving the quality of reports of meta-analyses of randomised controlled trials: the QUOROM statement. Quality of reporting of meta-analyses. Lancet 1999;354:1896–900. Cochrane Handbook for Systematic Reviews of Interventions. Version5.1.0 [site Internet]. The Cochrane Collaboration; 2001. Consultable sur : http:// handbook.cochrane.org/. (Accès le 1er mai 2013). Ioannidis JPA. Meta-research: the art of getting it wrong. Res Syn Meth 2011;1:169–84. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR. Publication bias in clinical research. Lancet 1991;337:867–72. Mahoney M. Publication prejudices: an experimental study of confirmatory bias in the peer review system. Cog Ther Res 1977;1:161–75. Stern JM, Simes RJ. Publication bias: evidence of delayed publication in a cohort study of clinical research projects. BMJ 1997;315:640–5. Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJ, Gavaghan DJ, et al. Assessing the quality of reports of randomized clinical trials: is blinding necessary? Control Clin Trials 1996;17:1–12. Wells GA, Shea B, O’Connel D, Peterson J, Welch V, Losos M, et al. The NewcastleOttawa scale (NOS) for assessing the quality of nonrandomised studies in metaanalyses [site internet]. Ottawa Hospital Research Institute; 2013. Consultable sur: http://www.ohri.ca/programs/clinical epidemiology/oxford.asp. (Accès le 1er mai 2013).
[24] Arnaud L, Mathian A, Ruffatti A, Tecktonidou M, Cervera R, Forastiero R, et al. Efficacy of aspirin for the prevention of the first thrombo-embolic events in patients with antiphospholipid antibodies: a metanalysis of literature data. Arthritis Rheum 2012;64:S1035–6. [25] Thompson SG, Pocock SJ. Can meta-analyses be trusted? Lancet 1991;338:1127–30. [26] Huang H-Y, Andrews E, Jones J, Skovron ML, Tilson H. Pitfalls in meta-analyses on adverse events reported from clinical trials. Pharmacoepidemiol Drug Saf 2011;20:1014–20. [27] Chevalier P. Méta-analyse sur données individuelles : avantages et limites. Minerva 2010;9:2. [28] Simpson E. The interpretation of interaction in contingency tables. J Royal Stat Soc 1951;13:238–41. [29] Sweeting MJ, Sutton AJ, Lambert PC. What to add to nothing? Use and avoidance of continuity corrections in meta-analysis of sparse data. Stat Med 2004;23:1351–75. [30] Corona R, Bigby M. What are the risks of serious infections and malignancies for patients treated with anti-tumor necrosis factor antibodies? Arch Dermatol 2007;143:405–6. [31] Nüesch E, Trelle S, Reichenbach S, Rutjes AWS, Bürgi E, Scherer M, et al. The effects of excluding patients from the analysis in randomised controlled trials: meta-epidemiological study. BMJ 2009;339:b3244. [32] Egger M, Davey Smith G, Minder C. Bias in meta-analysis detected by a simple, graphical test. BMJ 1997;315:629–34. [33] Begg CB, Mazumdar M. Operating characteristics of a rank correlation test for publication bias. Biometrics 1994;50:1088–101. [34] Parekh-Bhurke S, Kwok CS, Pang C, Hooper L, Loke YK, Ryder JJ, et al. Uptake of methods to deal with publication bias in systematic reviews has increased over time, but there is still much scope for improvement. J Clin Epidemiol 2011;64:349–57. [35] Peters JL, Sutton AJ, Jones DR, Abrams KR, Rushton L. Performance of the trim and fill method in the presence of publication bias and between-study heterogeneity. Stat Med 2007;26:4544–62. [36] Terrin N, Schmid CH, Lau J, Olkin I. Adjusting for publication bias in the presence of heterogeneity. Stat Med 2003;22:2113–26. [37] Moreno SG, Sutton AJ, Ades AE, Stanley TD, Abrams KR, Peters JL, et al. Assessment of regression-based methods to adjust for publication bias through a comprehensive simulation study. BMC Med Res Methodol 2009;9:2. [38] Preston C, Ashby D, Smyth R. Adjusting for publication bias: modelling the selection process. J Eval Clin Pract 2004;10:313–22. [39] Higgins JPT, Thompson SG, Deeks JJ, Altman DG. Measuring inconsistency in meta-analyses. BMJ 2003;327:557–60. [40] Moulis G, Sommet A, Lapeyre-Mestre M. Mortality rates among patients with rheumatoid arthritis treated with tumor necrosis factor inhibitors: comment on the article by Simard et al. Arthritis Rheum 2013;65:1670–1.