Journal de Chirurgie (2009) 146, 355—367
MISE AU POINT
Recherche de données factuelles Searching for evidence-based data J.-C. Dufour ∗, J. Mancini , M. Fieschi Laboratoire d’enseignement et de recherche sur le traitement de l’information médicale (Lertim), faculté de médecine de Marseille, université de la Méditerranée, 27, boulevard Jean-Moulin, 13385 Marseille cedex 5, France Disponible sur Internet le 22 septembre 2009
MOTS CLÉS Médecine factuelle ; Notice bibliographique ; Indexation ; Base de données
KEYWORDS Evidence-based medicine; Bibliographic reference;
∗
Résumé La médecine factuelle est fondée sur une analyse critique et une synthèse des meilleures données concernant un problème de santé. Ces données factuelles sont accessibles grâce à la mise à disposition sur le web d’outils spécialisés dans la recherche de publications scientifiques. Une base de données bibliographiques est une collection de notices bibliographiques décrivant les documents indexés. Une notice bibliographique est une « référence » qui mentionne au minimum le titre, le résumé, un ensemble de mots-clés et le type de publication du document. Pour effectuer une recherche stratégiquement efficace, il faut formuler correctement la question, clinique, diagnostique, pronostique, thérapeutique, ou préventive, dans un format compréhensible par le moteur de recherche. Il faut de plus bien choisir la ou les bases de données bibliographiques, qui peuvent avoir une spécificité particulière et analyser rapidement les résultats pour affiner la stratégie. La recherche d’information est facilitée par la connaissance du ou des termes normalisés habituellement utilisés pour décrire l’information convoitée. Ils sont issus d’un thésaurus spécifique, dédié à l’indexation documentaire dont le plus utilisé est le medical subject heading (MeSH). Medical literature analysis and retrieval system online (Medline) est la base bibliographique principale dont les notices comportent un ensemble de descripteurs contenus dans le thésaurus MeSH. Medline est devenu le sous-ensemble d’un service d’accès à une bibliographie encore plus vaste baptisée Pubmed qui indexe 1,4 millions de références supplémentaires. Il existe de nombreuses autres bases de données maintenues par des entités nationales ou internationales : la Cochrane Library, EmbaseTM , la base Pascal, la base Francis. © 2009 Elsevier Masson SAS. Tous droits réservés.
Summary The foundation of evidence-based medicine is critical analysis and synthesis of the best data available concerning a given health problem. These factual data are accessible because of the availability on the Internet of web tools specialized in research for scientific publications. A bibliographic database is a collection of bibliographic references describing the documents indexed. Such a reference includes at least the title, summary (or abstract), a set of keywords, and the type of publication. To conduct a strategically effective search, it is necessary
Auteur correspondant. Adresse e-mail :
[email protected] (J.-C. Dufour).
0021-7697/$ — see front matter © 2009 Elsevier Masson SAS. Tous droits réservés. doi:10.1016/j.jchir.2009.08.025
356
Indexation; Database
J.-C. Dufour et al. to formulate the question —– clinical, diagnostic, prognostic, or related to treatment or prevention —– in a form understandable by the research engine. Moreover, it is necessary to choose the specific database or databases, which may have particular specificity, and to analyze the results rapidly to refine the strategy. The search for information is facilitated by the knowledge of the standardized terms commonly used to describe the desired information. These come from a specific thesaurus devoted to document indexing. The most frequently used is MeSH (Medical Subject Heading). The principal bibliographic database whose references include a set of describers from the MeSH thesaurus is Medical Literature Analysis and Retrieval System Online (Medline), which has in turn become a subpart of a still more vast bibliography called PubMed, which indexes an additional 1.4 million references. Numerous other databases are maintained by national or international entities. These include the Cochrane Library, EmbaseTM , and the PASCAL and FRANCIS databases. © 2009 Elsevier Masson SAS. All rights reserved.
« On ne peut se passer d’une méthode pour se mettre en quête de la vérité des choses. » René Descartes
Introduction La médecine factuelle est fondée sur une analyse critique et une synthèse des meilleures données disponibles concernant un problème de santé. La recherche des données factuelles est donc un préalable indispensable à toute analyse critique et synthèse des connaissances concernant une problématique médicale. Les données factuelles publiées dans la littérature scientifique n’ont jamais été aussi accessibles que de nos jours grâce au formidable développement des technologies de l’information et de la communication et à la mise à disposition sur le Web d’outils spécialisés dans la recherche de publications scientifiques. À quelques exceptions près, les données sont maintenant le plus souvent à portée de clics sur l’Internet. Pourtant, il est facile de se perdre devant la complexité et les différences des outils spécialisés mis à disposition, gratuitement ou sur abonnements négociés, pour retrouver des ressources scientifiques et y accéder. Il est vrai que ces outils spécialisés sont de plus en plus facilement utilisables. Ils sont maintenant à la porté de noninitiés, désireux de retrouver quelques informations, même parcellaires, sur un sujet qu’ils décrivent généralement avec quelques mots issus du vocabulaire courant francophone ou anglophone selon les cas. Et il est (malheureusement) vrai que cette méthode produit des résultats (dont la pertinence et l’exhaustivité sont rarement optimales) car un outil de recherche reste rarement muet devant la requête d’un utilisateur, quitte parfois à la modifier, à l’insu de l’utilisateur non-averti, pour tenter de l’adapter à la méthode préconisée par les concepteurs de l’outil de recherche. Malgré les interfaces ergonomiques et les aides automatisées de plus en plus sophistiquées, pouvant être proposées aux utilisateurs, il n’en demeure pas moins qu’il serait utopique de penser qu’il n’est pas nécessaire de connaître les capacités, les limites et les modes de fonctionnement de ces outils, dès lors que l’on veut dépasser le stade de la recherche d’information superficielle, tendre vers l’exhaustivité, et améliorer la pertinence des documents trouvés. Il convient, pour mettre en œuvre la démarche de médecine factuelle, d’appréhender correctement les notions
fondamentales concernant la constitution des bases de données documentaires. L’utilisation de bases de données bibliographiques n’est jamais aussi efficace que lorsqu’on connaît la structure et la nature des informations que l’on peut y trouver [1]. La formulation de la question clinique diagnostique, pronostique, thérapeutique ou préventive est une étape primordiale. Elle améliore la pertinence et l’exhaustivité des ressources trouvées à l’issue de la phase de recherche documentaire [2]. Nous allons spécifiquement nous intéresser aux contenus et à la structuration des principales bases bibliographiques sources essentielles de données factuelles. Ces bases ont des caractéristiques communes et des différences que nous allons présenter ci-après avant de donner un ensemble de préconisations pour leur utilisation efficiente.
Principes généraux d’organisation et de consultation des bases de données bibliographiques médicales Une base de données bibliographiques est une collection organisée de notices bibliographiques décrivant les documents indexés (articles et/ou livres, rapports, thèses, comptes rendus de congrès, etc.). Une notice bibliographique regroupe un certain nombre d’items ou de champs relatifs à un document et permettant : • de l’identifier : titre, auteur(s) et affiliation(s), nom du journal ou du média dans lequel il a été publié, date de publication, éditeur, numéro et pages du périodique s’il y a lieu, etc. • de décrire son contenu informationnel : titre, mots-clés, résumé, type de publication (ex : article original, mise au point, éditorial) ; • de décrire sa constitution physique : nombre de pages, langue de rédaction, existence d’illustrations, etc. Une notice bibliographique représente donc ce qu’il est convenu de nommer une « référence » ou encore une « citation » permettant d’identifier un document scientifique publié. En règle générale, une base de données bibliographiques ne contient pas le document lui-même mais parfois un lien vers la version électronique de ce document qui peut être consulté, librement, ou sous réserve de souscription à un service d’accès de type pay-per-view ou autre. La recherche bibliographique consiste à utiliser les informations contenues dans les notices pour parvenir à retrouver
Recherche de données factuelles et à identifier les documents pertinents1 que l’on pourra se procurer et analyser ultérieurement. La richesse des éléments descriptifs des notices bibliographiques conditionne le type de recherche que l’on peut mettre en œuvre lorsque l’on interroge une base de données bibliographiques. Les items décrivant le contenu informationnel sont particulièrement importants à prendre en considération puisqu’ils sont les seuls à rendre compte de la teneur des connaissances scientifiques que l’on pourra trouver en consultant le document. Les notices des bases de données bibliographiques sont habituellement prévues pour mentionner au minimum le titre, le résumé, un ensemble de motclé et le type de publication à laquelle s’apparente le document. Le titre et le résumé sont des informations produites par le ou les auteurs et issues in extenso du document pour figurer dans la notice bibliographique. Contrairement au titre qui est toujours présent, le résumé peut manquer dans la notice soit parce qu’il était absent dans le document original, soit parce qu’il n’a pas été retranscrit. Les mots-clés sont généralement des termes issus d’un thésaurus spécifiquement dédié à l’indexation documentaire. Ces mots-clés ne font pas forcément partie des mots rencontrés dans le texte, le résumé ou le titre de l’article. Mots du texte (text words) et mots-clés (keywords) sont donc deux notions à distinguer. Les mots-clés qui figurent dans une notice sont le plus souvent choisis par les documentalistes en charge de l’indexation dans la base de données bibliographiques2 . Les mots-clés permettent de décrire le contenu informatif du document en employant uniquement des termes normalisés provenant d’une liste préétablie (le thésaurus). L’utilisation d’un thésaurus permet d’assurer qu’un sujet sera décrit en utilisant le ou les mêmes mots-clés chaque fois qu’il est indexé. Ainsi, la recherche d’information s’en trouve facilitée. En effet, il suffit de connaître le(s) terme(s) du thésaurus habituellement usité(s) pour décrire et caractériser l’information convoitée et retrouver tous les documents indexés qui contiennent cette information. Le thésaurus le plus largement utilisé pour indexer des documents scientifiques médicaux au sein des bases de données bibliographiques est le thésaurus medical subject heading (MeSH). Ce thésaurus produit par la National Library of Medicine (NLM) des États-Unis est constitué d’un ensemble de termes (aussi appelé « descripteurs ») organisés hiérarchiquement en arborescence du plus générique vers le plus spécifique. Le MeSH comporte 15 axes (qui sont autant de points de départ de classification d’une arborescence de termes) qui décrivent « l’anatomie », « les organismes vivants », « les maladies », « les produits chimiques, biologique et pharmaceutiques », « les sciences biologiques », « les équipements et techniques analytiques, diagnostiques et thérapeutiques », . . ., « les emplacements
1 À l’étape de la recherche bibliographique, la notion de « document pertinent » doit être comprise comme un document permettant potentiellement de contribuer à la réponse à la question médicale préalablement exprimée. La pertinence effective d’un document ne peut être affirmée qu’après l’analyse de son contenu complet : cette étape est en aval de la recherche bibliographique proprement dite. 2 Dans certains cas les mots-clés sont d’abords suggérés par l(es) auteur(s) ou l’éditeur du document, voire par un logiciel d’analyse textuelle et d’aide à l’indexation, avant d’être validés par le documentaliste.
357 géographiques ». Un terme MeSH peut appartenir à plusieurs axes ou à plusieurs sous-hiérarchies au sein d’un même axe3 : cela correspond à différents contextes dans lesquels on est conduit à utiliser le terme. Par exemple (Fig. 1), le terme « obésité » se retrouve dans les axes « Maladies », « Équipements et techniques analytiques, diagnostiques et thérapeutiques » et « Sciences biologiques ». Il appartient également à plusieurs soushiérarchies au sein de ces trois axes : dans l’axe « Maladies », il est placé, sous les arborescences des termes « maladies métaboliques et nutritionnelles » et « signes et symptômes, états pathologiques » ; dans l’axe « Équipements et techniques analytiques, diagnostiques et thérapeutiques », il apparaît sous l’arborescence du terme « examen physique » ; enfin il est également présent à deux reprises sous l’arborescence des termes « constitution physique » et « croissance et développement » dans l’axe « Sciences biologiques ». De plus, selon l’arborescence considérée, il existe un ou plusieurs termes plus spécifiques (« obésité morbide », « syndrome de Prader-Willi » et « syndrome obésité hypoventilation ») placés hiérarchiquement plus bas que le terme « obésité ». Une recherche dans une base bibliographique à l’aide d’un terme portera non seulement sur le terme lui-même, mais aussi sur les termes plus spécifiques qui lui sont hiérarchiquement inférieurs dans le thésaurus MeSH. Ce mécanisme se nomme « l’explosion » de la recherche4 . Ainsi, une recherche sur « obésité » retrouve tous les documents indexés avec le mot-clé « obésité », mais aussi avec les mots-clés « obésité morbide », « syndrome de Prader-Willi » et « syndrome obésité hypoventilation » (c’est-à-dire, les termes écrits en bleu sur la Fig. 1). La connaissance de la hiérarchie MeSH nous apprend également qu’une recherche qui utiliserait le terme « Surpoids », qui est un ascendant direct d’« obésité » dans toutes les branches sauf dans la branche « Maladies métaboliques et nutritionnelles », dans laquelle figurent les termes « Syndrome obésité hypoventilation » et « Syndrome de Prader-Willi », ne permettrait pas de retrouver les documents indexés avec l’un et/ou l’autre de ces deux derniers termes. En effet, le mécanisme de l’explosion ne se propage pas à une ou des branches disjointes même si elles ont en commun un terme descendant de celui qui est recherché dans leur hiérarchie. Le thésaurus MeSH est annuellement mis à jour : de nouveaux descripteurs sont ajoutés, d’autres sont modifiés ou remplacés. L’édition 2008 comprend 24 767 descripteurs qui peuvent être utilisés pour indexer des documents et 97 000 « termes d’accès » (entry terms) qui ne sont pas utilisés pour indexer des documents mais servent à faciliter l’identification exacte des descripteurs consacrés à l’indexation. La plupart des « termes d’accès » sont des synonymes des descripteurs, des expressions approchantes, des variantes lexicales, etc. (par exemple : « Vitamine C » est un terme d’accès pour le descripteur « Acide ascorbique » ; « Syndrome de Pickwick » est un terme d’accès pour le descripteur « Syndrome obésité hypoventilation »).
3 Cette organisation fait de MeSH une classification multiaxiale et polyhiérarchique. 4 « L’explosion » est souvent appliquée par défaut dans les bases bibliographiques. Toutefois, il est généralement possible de la désactiver, si besoin, en paramétrant les options de recherche de la base de données utilisée.
358
J.-C. Dufour et al. Le thésaurus MeSH contient également 83 qualificatifs (nommés qualifiers ou subheading en anglais) qui permettent de préciser un aspect sémantique particulier avec lequel un descripteur MeSH doit être interprété5 . Par exemple, le mot-clé « obésité » associé avec le qualificatif « traitement médicamenteux »6 permettra d’indexer (et donc de trouver) les documents concernant le traitement médicamenteux de l’obésité. Chaque descripteur MeSH est accompagné d’une définition littérale qui permet de cerner le concept médical qu’il représente. La version de référence, anglo-saxonne, du thésaurus MeSH peut être consultée sur le Web via le MeSH browser (navigateur MeSH) que la NLM met à disposition gratuitement (http://www.nlm.nih.gov/mesh/MBrowser.html). Il existe des traductions officielles du MeSH dans plusieurs langues. L’Institut national de la santé et de la recherche médicale (Inserm) produit une version bilingue (franc ¸ais/anglais) qui peut être consultée librement à l’adresse http://ist.inserm.fr/basismesh/mesh.html. Une recherche documentaire qui se fonde exclusivement sur les mots ou les expressions contenues dans le titre et/ou le résumé, voire dans le texte intégral du document, peut présenter des inconvénients. En effet, elle demande de trouver dans la langue de rédaction d’origine toutes les variantes orthographiques possibles, les synonymies, les variations lexicales, les expressions similaires, les abréviations, etc. susceptibles d’être employées par les auteurs des documents. De plus, ce type de recherche évite difficilement les écueils dus aux homonymies, formulations négatives, emplois inappropriés ou hors contexte des mots recherchés.
Présentation des principales sources de la médecine factuelle
Figure 1. Places du terme « obésité » dans la hiérarchie MeSH qui établit une véritable filiation multiple entre les termes. Seuls les termes qui ont une relation de type parent (c’est-à-dire plus générique, hiérarchiquement ascendant) ou enfant (c’est-à-dire plus spécifique, hiérarchiquement descendant) avec le terme « obésité » sont représentés dans cette figure.
Si l’on compare les données factuelles publiées dans la littérature scientifique à « des aiguilles » que l’on recherche, les bases de données bibliographiques sont « les meules de foin » que l’on doit sonder pour trouver les objets convoités. Ce qui distingue les aiguilles du reste de la meule tient au fait que les informations qu’elles représentent sont convoitées dans un contexte précisé. Ces mêmes informations seraient inopportunes, voire indésirables, dans un autre contexte ! Faire un inventaire exhaustif des bases de données bibliographiques qui peuvent être utiles dans le cadre de la médecine factuelle n’est pas l’objectif de cet article. Certaines bases sont spécialisées dans l’indexation d’articles de périodiques (et/ou d’autres types de ressources) axés sur un thème spécifique (par exemple : « la médecine d’urgence », « les soins infirmiers », « la toxicologie », etc.) ; d’autres répertorient les revues appartenant à différents groupes commerciaux de l’édition ; d’autres encore sont mises à disposition par des organismes nationaux ou internationaux qui souhaitent ouvrir leur fond documentaire pour améliorer la diffusion des connaissances qu’ils produisent ; d’autres encore n’indexent qu’une 5 À l’instar des descripteurs MeSH, les qualificatifs sont organisés hiérarchiquement. La version 2008 de cette hiérarchie peut être consultée à cette adresse : http://www.nlm.nih.gov/mesh/ subhierarchy2008.html. 6 On note le plus souvent « Obésité/traitement médicamenteux ».
Recherche de données factuelles catégorie de documents (publications scientifiques primaires ou secondaires7 ) ou encore se différencient par l’origine géographique d’édition des publications indexées (États-Unis, Europe, Asie, etc.) ; enfin, certaines se spécialisent dans la réutilisation de notices bibliographiques fournies par d’autres et y ajoutent des facilités d’interrogations, etc. Nous ne présenterons ci-après que des bases qui couvrent de larges champs de la médecine et qu’il est généralement profitable de consulter quelle que soit la question médicale à laquelle on souhaite répondre par une approche de médecine factuelle.
Medline et PubMed Medical literature analysis and retrieval system online (Medline) est une base bibliographique maintenue par la NLM. Elle répertorie, en 2008, plus de 16 millions de références issues d’environ 5100 journaux scientifiques différents, ayant tous une thématique en rapport avec les sciences de la vie (médecine, biologie, pharmacie, santé publique, économie de la santé, anthropologie, bioingénierie, biophysique, biochimie, sciences de l’animal, sciences des végétaux, sciences de l’environnement, etc.). La plupart des références indexées sont postérieures à l’année 1950, mais quelques-unes sont antérieures à cette date et l’on peut même retrouver des références « historiques » (la plus ancienne date de 1902). De nouvelles références sont ajoutées quotidiennement à Medline par les documentalistes de la NLM chargés de répertorier les articles qui paraissent dans les journaux indexés par cette base (en 2007, plus de 685 000 citations ont été ajoutées au rythme de 2000 à 4000 par jour ouvré). Bien que 37 langues différentes soient représentées dans Medline au travers des publications indexées, 77 % de l’ensemble des références présentes dans Medline concernent des articles écrits en anglais (moins de 4 % sont écrits en franc ¸ais) et, si l’on ne considère que les publications depuis l’année 2000, la prédominance des publications anglosaxonnes s’affirme encore avec 90 % rédigées en anglais (et 2 % en franc ¸ais)8 . Toutes les notices bibliographiques de Medline comportent un ensemble de descripteurs MeSH attribué par des documentalistes experts. Une notice peut comporter jusqu’à 15 descripteurs MeSH éventuellement associés à un ou plusieurs qualificatifs (subheadings). Parmi ces descripteurs, certains sont spécifiquement désignés 7 Il est classique de distinguer les publications qualifiées de « sources primaires » qui contiennent des faits originaux résultants le plus souvent de travaux d’investigation scientifiques inédits (par exemple : résultats d’essais cliniques, données épidémiologiques, descriptions de cas cliniques ou de nouvelles méthodes diagnostiques ou thérapeutiques, etc.) et les publications qualifiées de « sources secondaires » qui proposent une synthèse et/ou une analyse critique des faits issues de « sources primaires » (revue de la littérature, méta-analyse, guides de bonnes pratiques, etc.). 8 La prédominance de l’anglais est en grande partie inhérente à la communauté scientifique elle-même qui a majoritairement fait le choix de cette langue comme un standard pour les communications de portée internationale (que Medline indexe préférentiellement augmentant ainsi le poids de l’anglais dans la base). Une part plus infime de la prédominance de l’anglais peut être expliquée par la moindre indexation des journaux nationaux rédigés dans une autre langue que l’anglais.
359 comme étant des termes majeurs (MeSH Major Topic) parce qu’ils reflètent le sujet central de l’article (généralement une notice comporte un à quatre termes majeurs). Sur l’ensemble de la base Medline, 55 % des notices comportent un résumé (abstract) et 13 % des documents indexés sont consultables gratuitement et en intégralité (full-text). Si l’on ne considère que les notices indexées depuis l’année 2000, ces pourcentages sont plus élevés avec 80 % de références accompagnées d’un résumé et 20 % d’articles accessibles gratuitement et directement depuis l’interface de consultation de la base. Depuis 1995, la NLM a mis en ligne gratuitement la base Medline qui est devenue un sous-ensemble d’un service d’accès à une bibliographie encore plus vaste, baptisé PubMed, développé par le National Center for Biotechnology Information (NCBI). PubMed (www.pubmed.org) inclut Medline et indexe environ 1,4 millions de références supplémentaires : articles antérieurs à la date officielle d’inclusion dans Medline des journaux dont ils sont issus ; articles ayant un intérêt historique (certains remontent à 1865) ; et surtout, références en attentes ou en cours d’inclusion effective dans Medline. On y trouve également des articles scientifiques traitant d’un sujet hors du champ de Medline bien que parus dans des périodiques qui y sont normalement indexés (par exemple des publications sur la géologie ou l’astrophysique parues dans des journaux scientifiques généralistes comme Science ou Nature). Lors d’une interrogation de la base PubMed, les références trouvées sont toujours suivies d’une mention qui permet de connaître leur statut d’indexation (Fig. 2) : • « [PubMed — in process] » signifie que cette référence va prochainement intégrer la base Medline ; • « [PubMed — as supplied by publisher] » signale une référence qui a été directement proposée par l’éditeur et qui doit être analysée par les documentalistes de la NLM avant d’être véritablement intégrée (ou pas) dans la base Medline ; • « [PubMed — indexed for Medline] » permet de repérer les références effectivement incluses dans la base Medline, stricto sensu ce sont les seules à faire partie de la base Medline ; • « [PubMed] » marque une référence qui ne fait définitivement pas partie de Medline. Il est crucial de noter que seules les références portant la mention « [PubMed — indexed for Medline] » sont indexées avec des termes MeSH. En conséquence, une requête utilisant exclusivement des mots-clés MeSH comme critères de recherche dans PubMed ne retrouvera jamais de références qui ne sont pas (ou pas encore) indexées dans la base Medline. Il existe d’autres moyens d’accès à la base Medline que celui proposé via PubMed. Par exemple, en utilisant l’interface épurée, à destination des utilisateurs débutants, du service gratuit NLM Gateway (http://gateway. nlm.nih.gov) ou encore en utilisant des accès fournis par divers prestataires commerciaux (OVID Technologies® , Thomson ISI Web of Knowledge® , EMBASE.com® , etc.).
Cochrane Library La Cochrane Library (www.thecochranelibrary.com) est le fruit d’une collaboration internationale de professionnels de la santé qui s’est fixée pour objectif de produire et de
360
J.-C. Dufour et al.
Figure 2. Quatre références bibliographiques ayant chacune un statut d’indexation différent (noté entre crochets et en dernière position sur cet affichage standard des résultats d’une requête PubMed).
maintenir à jour des revues systématiques de la littérature et d’autres ressources destinées à soutenir les approches fondées sur la médecine factuelle9 . La collaboration Cochrane (www.cochrane.org) est composée de plus de 90 groupes thématiques10 chargés d’alimenter et de consolider les connaissances contenues dans les différentes bases de données de la Cochrane Library. La Cochrane Library comprend plusieurs bases de données publiées par Wiley InterScience® : • la Cochrane database of systematic reviews (CDSR) contient plus de 5300 revues systématiques et protocoles de soins élaborés par la collaboration Cochrane. Chaque revue évalue l’efficacité d’une intervention de santé spécifique dans le cadre d’une pathologie ou un problème sanitaire donné (par exemple : « Acyclovir pour le traitement de la gingivostomatite lors de la primo-infection herpétique (protocole) » ou encore « Les interventions pour la prévention de l’obésité chez l’enfant (revue systématique) ») ; • la Database of abstract of reviews of effects (DARE) contient plus de 8000 citations (avec résumés structurés) de revues systématiques déjà publiées par d’autres et évaluées par la collaboration Cochrane. Ces revues systématiques portent sur des sujets qui ne sont pas traités dans la CDSR ; • le Cochrane central register of controlled trials (CENTRAL) référence plus de 533 000 articles présentant les résultats d’essais cliniques contrôlés. La majorité de ces références sont issues des bases bibliographiques Medline et Excerpta medica databaseTM (EmbaseTM ) (cf. infra) ; • le Cochrane methodology register (CMR) rassemble plus de 10 000 citations d’articles, de livres et d’actes
9
Le nom « Cochrane » a été choisi en hommage au Pr Archie Cochrane qui est le fondateur la médecine factuelle. Il a notamment promu l’utilisation des résultats issus des essais comparatifs randomisés. 10 Les thèmes peuvent concerner une pathologie, une spécialité d’organe, une technique, etc. (par exemples : « Anesthésie », « Épilepsie », « Cœur ». . .). La liste et la composition des groupes peuvent être consultées à l’adresse http://www.cochrane.org/ contact/entities.htm.
de congrès, consacrés aux méthodes utilisées pour la conduite d’essais contrôlés et la préparation de revues systématiques ; • la Health technology assessment database (HTA) regroupe environ 7500 références vers des études centrées sur l’évaluation de technologies utilisées en santé et leur impact sur le plan médical, social, éthique et économique (par exemple : « Communication électronique avec les patients : évaluation des technologies pour la pratique médicale à distance », « Ballon intragastrique pour l’obésité ») ; • la NHS economic evaluation database (NHSEED) base composée de plus de 23 400 résumés d’articles concernant l’évaluation économique des interventions de santé. La Cochrane Library est accessible dans son intégralité seulement sur abonnement. Son contenu est mis à jour quatre fois par an. Les notices des différentes bases sont toutes indexées à l’aide du thésaurus MeSH. La recherche d’information peut se faire soit en consultant les listes ordonnées des différentes ressources (classées par ordre alphabétique du titre ou du sujet, par statut de mise à jour, etc.) soit en utilisant le formulaire de recherche qui permet de sélectionner les notices selon plusieurs critères : terme(s) MeSH, mot(s) du titre et/ou du résumé, nom des auteurs, etc. Seule la CDSR contient un lien direct vers le document intégral auquel on pourra accéder en ligne (à condition d’avoir souscrit à l’abonnement requis). Il convient de signaler que les documents de la CDRS sont également indexés par la base Medline.
EmbaseTM Tout comme Medline, l’EmbaseTM est une base de données bibliographiques internationale en science de la vie et de la santé, sciences biomédicales et pharmacie. Les périodiques européens y sont mieux représentés que dans la base Medline et les références bibliographiques concernant les thérapeutiques médicamenteuses et la toxicologie sont plus nombreuses. En revanche, les soins infirmiers, la médecine vétérinaire et dentaire sont couverts dans une moindre proportion.
Recherche de données factuelles La couverture chronologique de l’EmbaseTM remonte à l’année 1974 et les nouveaux articles d’environ 4800 périodiques y sont hebdomadairement indexés11 (un peu plus de 1500 de ces périodiques ne figurent pas dans Medline). Cela représente plus de 600 000 notices bibliographiques ajoutées chaque année. Quatre-vingts pour cent des notices bibliographiques de l’EmbaseTM comportent un résumé des articles. Ces notices sont indexées par mots-clés issus d’un thésaurus spécifique, nommé EMTREE, maintenu par l’éditeur Elsevier’s Life Science. EMTREE a une structure polyhiérarchique et multi-axiale comparable à MeSH dont il s’est inspiré lors de sa création. EMTREE contient plus de 54 000 descripteurs dont plus de la moitié sont des termes consacrés aux substances pharmacologiques12 . À ce nombre s’ajoute plus de 210 000 synonymes utilisés avec la même logique et la même organisation que les entry terms du MeSH (c’est-à-dire, afin de faciliter l’identification de descripteurs utilisables pour l’indexation). Les termes MeSH sont inclus dans EMTREE (la plupart font partie des synonymes qui désignent des descripteurs EMTREE dont les libellés exacts sont différents). Il est donc généralement possible de trouver la correspondance entre un terme MeSH et un terme EMTREE en utilisant une interface de consultation adaptée. Toutefois, le niveau de spécificité des deux thésaurus étant différent, la correspondance de descripteur à descripteur n’est pas toujours assurée. Ainsi, il est préférable de prendre l’habitude d’utiliser le thésaurus EMTREE lorsqu’on interroge l’EmbaseTM plutôt que d’utiliser systématiquement un terme MeSH et de rechercher sa correspondance EMTREE. Une notice EmbaseTM peut contenir plusieurs dizaines de descripteurs EMTREE. Parmi ces descripteurs, et à l’instar de Medline, ceux qui reflètent le thème central de l’article indexé sont désignés comme des étant majeurs (major focus). Les autres champs des notices de l’EmbaseTM sont globalement comparables à ceux de la base Medline (titre, auteur(s), date de publication, résumé, type de publication, etc.). Il existe différentes interfaces d’interrogation de l’EmbaseTM car cette base est accessible uniquement sur souscription payante auprès d’un fournisseur qui l’intègre dans sa propre interface utilisateur. Sur le Web, OVID Technologies® et Embase.com® proposent un accès couplé avec la base Medline.
Quelques autres sources Il existe de nombreuses bases de données bibliographiques maintenues par des entités nationales ou internationales (organisations internationales, agences gouvernementales, sociétés savantes, etc.). En France, l’institut de l’information scientifique et technique du Centre national
361 de la recherche scientifique (INIST du CNRS) entretient, en partenariat avec d’autres organismes, les notices bibliographiques des bases Pascal, Francis et met à disposition les notices de son propre fond documentaire13 via le service en ligne Article@INIST. La Direction générale de la santé a créé en 1993 la banque de donnée en santé publique (BDSP) pilotée par l’École des hautes études en santé publique (EHESP). La BDSP donne accès à une base d’informations documentaire alimentée par une quarantaine d’organismes partenaires. Ces diverses sources ont des contenus qui peuvent être complémentaires (mais parfois aussi redondants) par rapport aux contenus des bases de données bibliographiques internationales que nous avons précédemment détaillées.
La base Pascal La base de données Pascal14 indexe régulièrement environ 3000 périodiques et des documents issus de la littérature grise (rapports d’organismes nationaux ou internationaux, thèses, actes de congrès, etc.). Elle contient plus de 17 millions de références bibliographiques depuis 1973. Elle couvre le champ de la médecine, mais également celui des sciences et des technologies. L’origine des documents indexés est résolument orientée vers la littérature européenne et notamment franc ¸aise (plus de 12 % des périodiques indexés sont de langue franc ¸aise). Environ 55 % des périodiques indexés dans Pascal ne figurent pas dans PubMed (parmi lesquels figurent une majorité de périodiques hors champs de la médecine, mais également bon nombre de périodiques médicaux européens). L’accès à la base Pascal peut se faire par différents moyens auprès de distributeurs ayant acquis les droits d’utilisation (OVID Technologies® , Dialog, DataStar, etc.).
La base Francis La base Francis indexe approximativement 2000 périodiques et signale près de trois millions de références bibliographiques. Elle couvre principalement le champ des sciences humaines et sociales, ce qui limite son intérêt dans le cadre d’une recherche sur un sujet strictement médical. Elle peut être pertinente s’il existe un recouvrement de ce sujet avec un des domaines sur lesquels cette base est centrée (notamment la psychologie, l’ethnologie et la sociologie). Il faut noter que certaines références qu’elle contient seront également retrouvées en interrogeant PubMed puisqu’environ 35 % des périodiques indexés dans Francis sont également présents dans la base de la NLM. À l’instar de Pascal, l’accès à la base Francis est payant et se fait via un distributeur partenaire (OVID Technologies® le plus souvent).
Article@INIST 11
Au total, plus de 7000 périodiques sont présents si l’on inclut les journaux qui ont cessé de publier. 12 Dans Medline la description précise des substances pharmacologiques utilise des termes additionnels (supplementary concepts records [SCR]) qui n’ont pas le statut de descripteur à part entière de MeSH. Les SCR (environ 172 000 SCR) ne sont pas organisés en arborescence, mais peuvent être reliés à des descripteurs MeSH (notamment ceux faisant partie de l’axe « Produits chimiques, biologiques et pharmacologiques » qui ne comporte qu’approximativement 7000 descripteurs). Ce dispositif additionnel instauré par la NLM en 2004 vise à rejoindre la précision d’indexation d’Embase en ce qui concerne les articles traitant de substances chimiques.
Article@INIST (http://services.inist.fr) est une interface d’interrogation en accès libre du fond documentaire de l’INIST. Ce fond documentaire couvre la littérature internationale en science, technologie, médecine, sciences humaines, sociales et économiques. Il compte plus de 26 000 13 Le « fond documentaire » est composé des articles et autres documents dont l’INIST possède un exemplaire intégral disponible en consultation (le plus souvent sous condition d’acquittement d’un droit d’accès). 14 À l’origine l’acronyme Pascal signifiait « programme appliqué a la sélection et à la compilation automatique de la littérature ».
362 titres de périodiques dont 6600 collections en cours, 75 000 rapports scientifiques, 115 000 comptes rendus de congrès franc ¸ais et internationaux, 125 000 thèses. Article@INIST est couplé avec un service permettant de commander les documents en version intégrale auprès de l’INIST.
La BDSP La BDSP est un réseau de coopération documentaire ayant pour objectif de couvrir le champ de la santé publique. La BDSP met à disposition une base de données bibliographiques (totalement gratuite depuis 2006, cf. www.bdsp.tm.fr) composé de références ajoutées par les membres de ces réseaux15 (Afssa, Drass, InVS, CPAM, etc.). En 2008, cette base totalisait plus de 370 000 notices décrivant soit des articles de périodiques, soit des documents issus de la littérature grise.
TermSciences TermSciences (www.termsciences.fr) n’est pas une base de données bibliographiques mais la réalisation évolutive d’un service terminologique développé par plusieurs organismes publics de recherche et d’enseignement supérieur (dont l’INIST et la BDSP font partie). L’objectif de cette application est de fournir un outil d’aide à la mise en correspondance des différentes terminologies utilisées dans le cadre de l’indexation bibliographique et un métamoteur capable d’interroger plusieurs sources d’informations et notamment la base de données bibliographiques Medline, le fond documentaire de l’INIST et la BDSP. On peut se réjouir de cette initiative car les bases de données bibliographiques décrites dans ce sous-chapitre utilisent des terminologies non standardisées et hétéroclites à la fois dans leurs contenus et dans leur organisation16 . L’utilisation de TermSciences permet à la fois de mieux appréhender les différentes terminologies et de faciliter la recherche des termes appropriés. Ces deux conditions sont un préalable indispensable pour l’interrogation rigoureuse des ressources bibliographiques.
Conduire une stratégie de recherche Une stratégie de recherche est un processus qui englobe plusieurs tâches : • formuler correctement la question clinique diagnostique, pronostique, thérapeutique ou préventive ; • choisir la ou les bases de données à interroger ; • bâtir la ou les requêtes adaptées ; • exécuter les requêtes, analyser rapidement les résultats afin d’éventuellement affiner la stratégie en révisant une ou plusieurs tâches de cette stratégie. Afin d’améliorer la qualité de l’ensemble de la démarche de recherche documentaire, et obtenir des résultats pleinement satisfaisants, ces étapes doivent être effectuées avec 15 La liste complète des membres du réseau BDSP peut être consultée à l’adresse http://www.bdsp.tm.fr/Annuaire. 16 La BDSP utilise pour l’indexation des documents des mots-clés issus d’un thésaurus hiérarchique constituée de 7144 descripteurs et 5681 synonymes. Pascal et Francis indexent les documents en utilisant un corpus de mots rassemblés au sein d’un vocabulaire contrôlé dont certains termes entretiennent des relations de type généricité/spécificité mais dont l’organisation n’est pas comparable avec MeSH ou EMTREE.
J.-C. Dufour et al. une bonne connaissance des problèmes que l’on peut rencontrer. Pour comprendre la problématique générale d’une stratégie de recherche documentaire, il faut appréhender quatre notions que sont le bruit, le silence, la précision et le rappel. Ces notions peuvent se schématiser sur un tableau ou se représenter par l’allégorie de l’iceberg dont on ne connaît pas véritablement le volume de la partie immergée (Fig. 3). Les notions de bruit et de silence sont assez intuitives. À la suite d’une recherche documentaire, un utilisateur va retrouver un nombre connu de documents (la partie émergée de l’iceberg, a + b) et dont il sera à même de juger de la pertinence par rapport à l’intention de sa requête. Le bruit est la proportion de documents non-pertinents (b) parmi l’ensemble des documents retrouvés (a + b). L’utilisateur peut facilement évaluer ce bruit puisqu’il connaît les deux chiffres de l’équation après avoir analysé les documents retrouvés. Le silence, en revanche, ne peut être précisément déterminé par l’utilisateur car il ne connaît pas le nombre de documents pertinents non-retrouvés (c). Le silence est la proportion des documents pertinents nonretrouvés parmi le nombre total de documents pertinents de la base interrogée (a + c). La précision (ou pertinence) d’une recherche mesure le rapport entre le nombre de documents pertinents retrouvés (a) et nombre total de document retrouvés (a + b). Là encore l’utilisateur peut déterminer la précision de sa recherche. La précision est le pendant positif du bruit : plus le bruit est important, moins la précision est élevée et inversement. Le rappel (ou exhaustivité) est la proportion de documents pertinents retrouvés (a) par rapport à l’ensemble des documents pertinents présents dans la base (a + c). Pour la même raison que le silence, le rappel ne peut être déterminé par l’utilisateur. Évidemment, le rappel et le silence sont inversement proportionnels : plus le rappel est élevé, plus le silence est faible. L’enjeu central d’une stratégie de recherche est de minimiser le bruit et le silence17 . Si l’on suppose qu’une base documentaire contient des documents pertinents et que le moteur de recherche utilisé ne dysfonctionne pas, le bruit et le silence élevés constatés à la suite d’une requête peuvent avoir deux causes principales : • mauvaise indexation des documents de la base : erreur des documentalistes dans le choix des mots-clés, thésaurus incomplet ou peu adapté au contenu qu’il est censé représenter, indexation full-text exclusivement (source d’ambiguïté, de polysémie, etc.) ; • mauvaise formulation de la requête par l’utilisateur : erreur de syntaxe, choix erroné des mots-clés, critères de recherche trop restrictifs (augmentant le silence) ou au contraire trop extensif (augmentant le bruit). Donc, si l’on écarte une mauvaise indexation des documents de la base utilisée (cause qu’un utilisateur de la base ne peut généralement que subir), il est primordial de savoir remettre en cause sa stratégie de recherche lorsque l’on constate un bruit trop important et/ou que l’on suppose un silence suspect. Cette remise en cause doit s’envisager dès les premiers résultats obtenus. En pratique, cela se traduit par la lecture partielle (résumés des notices) ou complète des documents obtenus afin de se faire une opinion quant à la pertinence 17
Ou de fac ¸on équivalente de maximiser la précision et le rappel.
Recherche de données factuelles
363
Figure 3. Illustration des notions de bruit, silence, précision et rappel. Les expressions des visages stylisés représentent la satisfaction supposée de l’utilisateur quant aux différents statuts des documents. Par exemple, l’utilisateur est satisfait des documents pertinents retrouvés (a) mais insatisfait des documents non-pertinents retrouvés (b).
des références retrouvées, et donc à l’importance du bruit. Un silence important peut être soupc ¸onné si l’on retrouve un nombre faible de documents pertinents alors que la base de données est supposée en contenir un grand nombre. Bruit et silence doivent amener l’utilisateur à examiner de manière critique chacune des étapes de sa stratégie de recherche.
Formuler correctement la question Cette étape a été longuement détaillée au chapitre précédent. Elle consiste à clarifier et expliciter le « besoin d’information » (c’est-à-dire les informations requises). À ce titre, la méthode Pico peut faciliter l’identification des concepts médicaux. Ces concepts guideront le choix des termes du thésaurus utilisé (ou à défaut les mots du vocabulaire courant) qui doivent être inclus ou exclus dans les critères de recherche.
Choisir la ou les bases de données bibliographiques Idéalement, pour tendre vers le recueil exhaustif des faits utiles à prendre en considération dans une démarche de médecine factuelle (c’est-à-dire retrouver tous des documents pertinents dans le cadre d’une question médicale donnée) il faudrait interroger toutes les bases couvrant potentiellement le sujet investigué et faire une synthèse des résultats à l’issue de la recherche. En pratique, cela s’avère irréalisable pour diverses raisons (méconnaissance des bases existantes, droits d’accès limités, langues maîtrisées, temps et moyens disponibles limités, etc.). Il faut donc faire des choix en fonction des contraintes évoqués mais aussi en fonction des objectifs que l’on s’est fixés [3]. Quel que soit l’objet médical de la recherche, l’utilisation de PubMed est indispensable [4,5]. L’interrogation des autres bases (EmbaseTM , Pascal, Cochrane Library, etc.), si elle ne peut pas être systématiquement effectuée, doit être guidée par le type d’information et la nature des documents souhaités. Globalement, EmbaseTM est particulièrement pertinente dans le domaine de la thérapeutique et couvre mieux la littérature
européenne que PubMed. Pascal a également une assez bonne couverture des publications européennes et de la littérature grise. Le point fort de la Cochrane Library concerne les documents de synthèse sur des problèmes de décision rencontrés en pratique clinique, etc. En fonction du sujet à traiter, la recherche peut être complétée par l’interrogation d’autres bases de données spécifiques (sociétés savantes), économiques, législatives, etc.
Bâtir la ou les requêtes adaptées Bâtir une requête consiste simplement à formuler une question dans un format compréhensible par le moteur de recherche utilisé. Pour cela il faut, soit connaître la syntaxe requise pour écrire directement la requête dans la zone de recherche, soit utiliser les aides apportées par l’interface utilisateur de la base interrogée18 . La syntaxe exacte et les aides disponibles pour la formulation d’une requête sont spécifiques de l’application (interface entre les données de la base bibliographique et l’utilisateur) avec laquelle on accède à la base. Toutefois, un certain nombre de principes et de conseils génériques peuvent être donnés. Nous illustrerons ces principes en prenant l’exemple de la base PubMed interrogée depuis l’interface Web du NCBI (www.pubmed.org). Formellement, une requête est constituée d’un ou plusieurs critères de sélection. Chaque critère de sélection porte sur la valeur d’un champ de la notice bibliographique. Il est donc préférable de connaître les champs disponibles dans cette notice et les valeurs qui peuvent être affectées à ces champs avant de formuler une requête. Ces informations sont généralement mentionnées dans l’aide en ligne de la base utilisée. Ainsi, l’aide en ligne de PubMed nous apprend que les notices bibliographiques sont
18 La plupart de ces aides sont ergonomiques et dispensent l’utilisateur d’avoir à saisir au clavier la syntaxe de la requête qui sera générée automatiquement après qu’il ait choisi les options de recherche souhaitées sous forme de « cases à cocher », « menus déroulants », « liens hypertexte », etc.
364 composées d’une quarantaine de champs et qu’il existe une syntaxe particulière à respecter19 si l’on souhaite exprimer directement dans la zone de recherche un critère portant sur un ou plusieurs de ces champs. Par exemple, suivant cette syntaxe, l’expression : • « Randomized Controlled Trial [PT] » permet de retrouver toutes les publications qui sont de type ‘essai comparatif randomisé’ (PT = Publication Type) ; • « Breast Neoplasms [MH] » retrouve toutes les publications indexées avec le descripteur MeSH « Breast Neoplasms » ou un de ses descendants (puisque l’explosion s’applique par défaut dans Medline) ; • « Breast Neoplasms/therapy [MH] » ne sélectionne que les références dans lesquelles il est question de thérapie (qualificatif therapy) des cancers du sein (descripteur Breast Neoplams ou un ses descendants) ; • « Obesity [MAJR] » permet de retrouver toutes les références indexées avec un descripteur MeSH majeur Obesity (ou un de ses descendants) ; • « 2008 [DP] » ne sélectionne que les références publiées en 2008. Les critères peuvent être combinés entre eux grâce à des opérateurs booléens qui peuvent, si nécessaire, être assortis de parenthèses afin de forcer les priorités d’application de ces opérateurs. Le plus souvent, les opérateurs booléens utilisables dans les bases de données bibliographiques sont ‘AND’, ‘OR’ et ‘AND NOT’. C’est le cas avec PubMed et par exemple : • « Randomized Controlled Trial [PT] AND Breast Neoplasms [MH] » retrouve toutes les publications de type « essai contrôlé randomisé » indexées avec le descripteur « Breast Neoplasms » ; • « Obesity [MH] OR Breast Neoplasms [MH] » sélectionne les références indexées avec un des deux, ou les deux, descripteurs « Obesity » et « Breast Neoplasm » ; • « Randomized Controlled Trial [PT] AND NOT 2008 [DP] » retrouve toutes les publications de type « essai contrôlé randomisé » qui n’ont pas été publiées en 2008 ; • « Randomized Controlled Trial [PT] AND NOT 2008 [DP] AND (Obesity [MH] OR Breast Neoplasms [MH]) » retrouve toutes les publications de type « essai contrôlé randomisé » qui n’ont pas été publiées en 2008 et qui concernent l’obésité ou les cancers du sein. La complexité conceptuelle et syntaxique d’une requête peut être un frein à l’utilisation d’une base de données bibliographiques. On peut avoir intérêt, pour débuter ou pour se perfectionner, à utiliser les aides à la conception de requêtes et autres automatismes généralement intégrés dans l’interface d’interrogation des bases de données [6]. PubMed en propose de nombreux pour la plupart regroupés au sein de la rubrique « PubMed Services ». Parmi ceux-ci, l’aide à la sélection des descripteurs MeSH (intitulé « MeSH Database ») doit être utilisé en priorité pour débuter une requête car il permet de naviguer au sein de la hiérarchie MeSH, d’accéder aux définitions littérales des termes, de spécifier si l’on souhaite ou non rechercher un descripteur majeur, de lui associer un qualificatif approprié, de combiner des descripteurs entre eux, de visualiser la syntaxe automatiquement générée et finalement d’exécuter la requête. 19 Voir : http://www.nlm.nih.gov/bsd/mms/medlineelements. html et http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid= helppubmed.section.pubmedhelp.Search Field Descrip.
J.-C. Dufour et al. Pour apprendre à utiliser correctement les descripteurs, une méthode consiste à utiliser ceux qui ont été attribués, par les documentalistes, aux articles que l’on sait pertinents. Avec PubMed, il suffit de sélectionner le mode d’affichage « Citation » dans le menu déroulant « Display » pour visualiser les descripteurs des références affichées à l’écran. Dans ce mode d’affichage, on peut cliquer sur un descripteur pour avoir la possibilité de l’ajouter aux critères de recherche.
L’utilisation pertinente des termes du thésaurus et des qualificatifs doit être une priorité dans toute recherche bibliographique La facilité amène de nombreux utilisateurs à saisir un mot ou une expression en langage naturel dans la zone de recherche et à lancer la recherche. Cette méthode rend l’utilisateur doublement dépendant : • des mots et expressions du vocabulaire médical courant utilisés dans les titres, résumés des articles et autres champs susceptibles de contenir des valeurs textuelles20 (seront-ils identiques à ceux que l’utilisateur a spécifié ?) ; • du moteur de recherche qui peut ne pas interpréter correctement la requête initiale de l’utilisateur. En effet, dans la plupart des cas, le moteur de recherche va faire appel à un algorithme d’optimisation syntaxique qui produira une requête plus ou moins complexe à partir du ou des mots saisis, avant de lancer la recherche sur la base. Cela peut produire des résultats intéressants ou non, voire surprenants, mais dans tous les cas la syntaxe et les critères utilisés dans la requête échappent totalement à l’utilisateur. Il perd ainsi la maîtrise de l’interrogation effectuée, il aura du mal à interpréter les résultats obtenus, à les remettre en cause, à les reproduire et à les justifier. Dans PubMed, il est toujours possible de vérifier si la syntaxe de la requête a été modifiée à l’insu de l’utilisateur en cliquant sur l’onglet Details (Fig. 4). Lorsque cela est possible21 , il est fortement conseillé de vérifier systématiquement ces éventuelles transformations pour les accepter en toute connaissance de cause ou les adapter si nécessaire. Si l’utilisation des descripteurs du thésaurus est fortement recommandée, il existe toutefois des situations dans lesquelles il pourra être utile, voire indispensable, d’effectuer une recherche portant sur les mots ou expressions contenus dans le titre et/ou l’abstract. Par exemple : pour retrouver les notices qui n’ont pas (ou pas encore) de descripteurs ou encore, pour retrouver des références qui concernent un concept médical (ou plus généralement tout type d’information) pour lequel il n’existe pas de descripteur (nom propre d’un produit ou d’une société, nouvelle pathologie, etc.). Dans un tel cas, il faudra penser à rechercher toutes les formes lexicales que le mot du texte ou l’expression que l’on souhaite retrouver peut présenter et si besoin s’aider en utilisant le caractère spécial de troncature (‘*’ dans PubMed). Il faudra également préciser le(s) champ(s) de la notice que l’on souhaite évaluer. Par exemple, la requête « cochrane library [TI] » 20 En effet, dans une telle situation la recherche s’effectue généralement sur tous les champs (y compris : « nom des auteurs », « nom du journal », « affiliation des auteurs », etc.). 21 La fonctionnalité offerte par l’onglet « Details » de PubMed n’a malheureusement pas d’équivalent dans toutes les bases bibliographiques.
Recherche de données factuelles
365
Figure 4. La requête initiale « men or women breast cancer treatment » de l’utilisateur ne comporte pas de spécification sur les descripteurs MeSH ni sur les autres champs de la notice qui doivent être utilisés dans les critères de sélection. L’onglet Details montre la transformation qui a été opérée automatiquement vis-à-vis de la requête initiale. Était-ce vraiment le résultat escompté par l’utilisateur qui retrouve plus de cinq millions de références (soit environ un tiers de l’ensemble des références de Medline !) ?
permettra de retrouver dans PubMed toutes les références dont le titre mentionne la Cochrane library. Il existe de nombreuses autres fonctionnalités qui permettent de simplifier la tâche de l’utilisateur lorsqu’il bâtit une requête. On peut, par exemple, utiliser l’onglet Limits dans PubMed ou des options de filtre Filters dans d’autres bases ; on peut également combiner des requêtes entre elles, retrouver automatiquement des articles supplémentaires en se fondant sur les références bibliographiques utilisées dans des articles déjà retrouvés, recevoir des alertes automatiques par courriel ou suivre, via un fil RSS, les nouveaux résultats, etc. Il n’est pas possible de toutes les présenter ici. Notre objectif vise principalement à apporter les notions méthodologiques pérennes et communes aux différentes bases de données bibliographiques. Les fonctionnalités propres à chaque base sont généralement bien présentées dans les aides et les tutoriaux mis à disposition en ligne (par exemple : voir les rubriques Overview, Help | FAQ, Tutorials de PubMed).
Analyser rapidement les résultats, affiner la stratégie Avant toute chose, signalons que les résultats affichés à l’issue d’une requête apparaissent généralement par ordre chronologique inverse des dates de publication, mais en aucun cas par ordre de pertinence, comme on pourrait le supposer. Il est donc important de prendre en considération l’ensemble des références obtenues dans l’analyse que l’on va faire.
L’analyse rapide des références obtenues a pour objectif de vérifier l’adéquation de la stratégie de recherche aux données que l’on souhaite colliger. Lors de cette analyse il faut apprécier l’importance du bruit et du silence. En pratique, cette analyse se base sur le contenu de certains champs (titres, résumés, mots-clés, éventuellement affiliation des auteurs et date de publication pour vérifier la cohérence avec le sujet, etc.) et sur tout ou partie des notices. Idéalement, on complète l’analyse par la lecture plus détaillée du texte intégral de quelques articles choisis aléatoirement. Lorsque le résumé n’est pas disponible, l’accès au texte intégral devient nécessaire dès cette dernière étape de la stratégie de recherche. L’analyse doit aboutir à un diagnostic permettant éventuellement de corriger une ou plusieurs des étapes de la stratégie de recherche documentaire.
Les différents biais de la recherche bibliographique Toute recherche bibliographique est susceptible de comporter des biais qu’il faut identifier. Dans la médecine factuelle, la recherche des faits doit concerner l’ensemble des données produites de part le monde sans parti pris, ni réticence injustifiée quand à la nature des références retenues, ni mise à l’écart partiale des résultats scientifiques qui y sont rapportés. En effet, seule l’analyse critique des résultats, ultérieurement conduite, pourra écarter ou minimiser l’importance de
366 certaines publications, sur des critères autres que ceux de la recherche bibliographique. Autrement dit, la sélection des articles retenus à l’issu de la recherche bibliographique ne doit rien préjuger. Le biais de publication, qui tient au fait que certains résultats de la recherche scientifique ne sont pas publiés22 , ne peut malheureusement pas être corrigé par une amélioration de la stratégie de recherche documentaire. Les biais de la recherche documentaire ont en commun de ne prendre en compte qu’une partie seulement de la masse des travaux publiés sur le sujet que l’on souhaite explorer [7]. Ces biais peuvent se décliner ainsi [8] : • un biais linguistique : seuls les articles en anglais sont retenus. Or il est fréquent de noter que les scientifiques publient plus volontiers des études de petite envergure ou ayant des résultats statistiquement non significatifs dans leur langue d’origine et réservent la publication des résultats significatifs et/ou des études ambitieuses pour les revues internationales de langue anglaise. Cette surreprésentation de certains résultats peut fausser l’analyse et les conclusions des méta-analyses réalisées uniquement à partir de publications de langue anglaise ; • un biais Full text on the net (FUTON) [9] : il est tentant de ne sélectionner, lors de la recherche bibliographique, que les articles gratuits ou payants que l’on peut se procurer directement sur le Web. Cette pratique ignore les données publiées dans des revues exclusivement papier, mais également les résultats plus anciens non disponibles sous format électronique dont l’intérêt pour l’analyse peut être important ; • un biais Medline : il consiste à ne prendre en compte que les publications indexées dans la base américaine Medline où la part des journaux médicaux américains (de langue anglaise) est plus importante que celle des journaux non américains (également rédigé en anglais). Le risque est de colliger des données sur-représentatives d’une zone géographique. Le risque est également de ne pas prendre en compte les publications récentes qui n’ont pas encore été indexées avec les descripteurs MeSH ; • un biais No abstract available : il consiste à systématiquement écarter les notices qui n’ont pas de résumé au motif que la phase d’analyse rapide est plus complexe. Cela concerne potentiellement de nombreuses publications de résultats, mais aussi les éditoriaux, les lettres à la rédaction, les addendum correctifs etc. Ces documents peuvent donner des éléments intéressants pour l’analyse critique (par exemple des critiques méthodologiques sur des articles sélectionnés par ailleurs, des références vers des résultats pertinents, etc.).
J.-C. Dufour et al. conduit nécessairement à des doublons dans les résultats retrouvés. Les logiciels de gestion de références bibliographiques éliminent facilement les références identiques, en revanche il faut être attentif, lors de la phase d’analyse critique, aux résultats éventuellement publiés à plusieurs reprises dans des articles différents. Enfin, il faut garder à l’esprit qu’une recherche infructueuse n’est pas forcément le signe d’une mauvaise stratégie de recherche documentaire. En effet, elle peut signifier l’absence de données disponibles toute aussi importante que leur présence dans la démarche de médecine factuelle. POINTS ESSENTIELS • La première étape d’utilisation des bases de données bibliographiques est de formuler correctement la question clinique, diagnostique, pronostique, thérapeutique ou préventive en choisissant les termes du thésaurus de la base interrogée. • Il faut choisir la ou les bases bibliographiques en fonction des objectifs fixés. Quel que soit l’objectif, l’utilisation de PubMed est indispensable. L’interrogation des autres bases (EmbaseTM , Pascal, Cochrane Library, etc.) doit être guidée par l’utilisation pertinente des termes du thésaurus et des qualificatifs. • L’étape suivante est de bâtir la ou les requêtes en formulant une question dans un format compréhensible par le moteur de recherche utilisé. Il faut soit connaître la syntaxe requise soit utiliser les aides apportées par l’interface utilisateur de la base interrogée. • La dernière étape est l’exécution des requêtes ainsi que l’analyse rapide des résultats afin d’affiner la stratégie en révisant une ou plusieurs tâches de cette stratégie. • Toute recherche bibliographique est susceptible de comporter des biais qu’il faut identifier. Les biais ont en commun de ne prendre en compte qu’une partie seulement de la masse des travaux publiés sur le sujet. • Une recherche infructueuse n’est pas forcément le signe d’une mauvaise stratégie de recherche. Elle peut signifier l’absence de données disponibles tout aussi importante que leur présence dans la démarche de médecine factuelle.
Conclusion La recherche efficiente de données de la littérature médicale représente une part importante de la médecine factuelle. L’utilisation des bases de données bibliographiques demande des compétences spécifiques et une méthode rigoureuse. Elle permet de mettre en œuvre une véritable stratégie de recherche reproductible dans le temps et sur différentes bases de données. Les contenus des différentes bases bibliographiques se recouvrent souvent et l’interrogation de multiples bases 22 Le biais de publication n’est donc pas un biais inhérent à la recherche bibliographique elle-même.
Références [1] Corrall CJ, Wyer PC, Zick LS, Bockrath CR. How to find evidence when you need it, part 1: Databases, search programs, and strategies. Ann Emerg Med 2002;39(3):302—6. [2] Staunton M. Evidence-based radiology: Steps 1 and 2 - Asking answerable questions and searching for evidence. Radiology 2007;242(1):23—31. [3] Wyer PC, Allen TY, Corrall CJ. How to find evidence when you need it, part 4: Matching clinical questions to appropriate databases. Ann Emerg Med 2003;42(1):136—49. [4] Gallagher PE, Allen TY, Wyer PC. How to find evidence when you need it, part 2: A clinician’s guide to Medline: the basics. Ann Emerg Med 2002;39(4):436—40.
Recherche de données factuelles [5] Gallagher PE, Allen TY, Wyer PC. How to find evidence when you need it, part 3: A clinician’s guide to Medline: Tricks and special skills. Ann Emerg Med 2002;39(5):547—51. [6] Haynes RB, McKibbon KA, Wilczynski NL, Walter SD, Werre SR, Hedges T. Optimal search strategies for retrieving scientifically strong studies of treatment from Medline: analytical survey. BMJ 2005;330(7501):1179—82. [7] Egger M, Juni P, Bartlett C, Holenstein F, Sterne J. How important are comprehensive literature searches and the assessment
367 of trial quality in systematic reviews? Empirical study. Health Technol Assess 2003;7(1):1—76. [8] Collectif. Utiliser les bases bibliographiques biocliniques a bon escient (Medline, EmbaseTM , etc). Pedagogie Med 2004; 5(1):9. [9] Wentz R. Visibility of research: FUTON bias. Lancet 2002;360(9341):1256.