Science d spm-ts 1997; 12:250-5 Q Elsevier. Paris
Mise au point
Application des opkateurs logiques (boolkns) 2 la recherche bibliographique sur Internet en m6decine du sport P J3arichauxa, R de Tourdonnetb, C Soler~, C Degmt&e~ FacultP
(Rep
de m&xirze,
te 22 a&
3, rue des Lauvels,
80037
1997 : accept6 Ic 15 septembre
Amiens
cedex,
France
3997)
RBsumti - Jusqu’S t’ann& dew&e, l’utilisation des op6rateurs logiques n’ktait gu&re possible sur Internet, en m6decine du sport comme en d’autres Mais depuis le debut 1997, plusieurs moteurs de recherche Web commencent & en offrir la possibilit& quoique encore avec une certaine syntaxe. opkateurs
(boo&ens) dam&es. importants disparitti de
iogiques I Internet I m&%cifledu sport
Summary - Use of operator options (boolean system} in bibliographic search on the Internet In sports medicine. Last year, use of logic open&m (boo/em sysfem~ was randy psibie
m friterffef, in spxf mediciRe
m- ~~~b~r~.
But from the b~giff#i~g
of 7997, many sear& motor.5 on the Net cmafe f&is ~~~s~~ii~~, ~~~~oug~ sfilf with a certain syntax disparity. operator options I Web I sport medicine
HISTORIQUE
ET POSITlON DU PROBLhME
plus de 25 ans, le Medline (< reste la star des basesde don&es en mkdecine>>[2]. Sa structuration et son mode d’expression en sont les causes.En effet, ~e~l~~e utilise un thesaun;sde matscl&, et s’interroge avec Ies opkrateurs bien connus de la logique boo1Cennc: - (
)pour intersection ; - bpour rkunion ; - i>pour exclusion. En cas de rkcessid, le langage Iibre peut enrichif fa Depuis
~; [email protected] E-mail : [email protected] ‘[email protected] ; ‘Clnudine.Degrutere~ca,u-Picardie.fr.
;
formulation de la stratkgie de recherche,mais la rend alCatoire14,51. Au fil du temps,denombreusesbasesde donn6esant vu iejour, et elks agissentactuellementen compl6mentari3 etfou en concurrence. fnterrogeablesen figne, elles nkessitent : - i’acquisition dltln modem ; - l’utilisation d”un serveur ; - l’obtention de codesd’accbssur contrat ; - Ia transmissiondesdonneespar le rt%eaut&phonique. StockCessur CD-Rom (650 MO), et bien& SIXDVDRom (4,5 Go et plus), elks permettenrde sepasserdrr rkseaut&kphonique. tes basesde don&es sont nlors disponiblespar trancheschronologiquesetiou par spCcialitks, dansle cadre de licencesd’exploitation.
251
La mt5decine du sport sw ie Web
L’expansion progressive d’lntemet depuis ces dern&es annees pouvait laisser esperer une exploitation plus facile de ces operateurs logiques sur le Web, mais en 1995-96 cette application methodologique restait rudimentaire, comme nous I’avions alors regretti? [3]. Y compris sur AltuVista, qui etait l’an demier l’un des plus puissants moteurs de recherche sur le Web. L’evolution recente et tres positive de ces modalit~s d’acces par operateurs booleens en 1997 sur le Web est a souligner, car elle permet d’utiliser plus aisement de nombreuses informations contenues dans une grande variete de sites, avec precision et ouverture. Les r&f& rences bibliographiques extraites de Medline et du Current Contents pourront ainsi s’en trouver enrichies. Par ailleurs, elle ne semble pas menacee par les futures techniques annoncees pour Internet, comme celle du push (auk bien de Microsoft que de Netscape), qui focalisera en principe sur l’ordinateur de I’utilisateur une information thematique selectionnee par le d~mandeur. CONDITIONS
TECHNIQUES
La technique d’Intemet est maintenant trop courante pour qu’il soit necessaire d’en rappeler le principe. Signalons simplement, qu’en pratique et pour cette utilisation particuliere d’Intemet, un ordinateur multimedia d’un modele moyen suffit (Pentium 133 ou 166 MHz, RAM de 16 MO, memoire-cache de 256 Ko, disque dur de 1 Go environ, et &ran SVGA de 640 x 480 pixels minimum), c’est-a-dire pas necessairement un ordinateur <
UTILISATION DES OPlkATEURS BOOLtiENS SELON LES DIVERS MOTEURS WEB Nous nous limiterons aux plus connus ou aux plus utiles des moteurs de recherche. Nous distinguerons d’emblte le cas particulier du free-Med~~??e de deux categories differentes, les moteurs qui sont francophones d’origine, ou avec version francophone~ et ceux qui restent exclusivement anglophones, et nous classerons chacune de ces deux categories de moteurs par ordre alphabetique. Les operateurs logiques sont par definition les symboles d’intersection (<), ou plutbt : <
du free-Medline
Le Medline lui-m&me s’est mis sur le Web, sous le nom de free-Medline (www.healthgate.com/HealthGate/ MEDLINE/). Mais la page d’accueil est relativement grand public, et pas t&s orientee sur des possibilitts de recherche bibliographique. Tout au plus la page C>permet-elle quelques liens relatifs h la forme, mais pas a la medecine du sport. 11 existe cependant une possibility d’acceder 52l’interrogation en ligne sur lefree-Mediate : en descendant par l’ascenseur, puis en cliquant sur N Advanced page >>,on a reellement l’interrogation en ligne, et avec le systeme boolten (fig 1). L’inconvenient est que cette page se trouve plus facilement en France le matin, car elle est Cj,et revient 21la ccHomepage B aux heures de grande connexion sur Internet Outre-Atlantique. Par ailleurs, on peut Cgalement trouver diverses pistes par Oxfh-d University Press (www 1 .oup.uWscimed/medint/search.html), qui donne une serie de bases accessibles enfree (fig 2). Moteurs de rechercbe francophones ou B version francophone Sur tous les moteurs de recherche, on doit aller au-de18 de la page d’accueil, en cliquant sur des icones ou sur des mots soulignes (ce sont les <)classiques sur Internet).
WebCrawler (Amfdce Yahool (Yamor)
MEDLINE
Inc.)
search facilities
OMNI MEDLINQ$ Internet MEDLINE
Fig 2. Liste ford.
Online,
ths Internet comoarison table at Medical
des basesjree
communiqude
Matrix
par l’universitk
d’Ox-
grille d’interrogation,facilementmodifiable,est t&s pra. tique.
Carrefk=net
~www~~ff~~efoffr.net/~
En cliquant sur ccOptions I>, ~~rref~~~r-~~t donne la possibilit& de consul&r settlement par deux m&s ~16s appariCs en apposition, avec un espace entre eux, mais sans inclure un operateur logique.
Echo {www.pagesweb.com) 11s’agit d’un serveur de 3 mihions de pages Web francophones. Par la rubrique X>et FAQ (<
SW:la page d’accueil, on trotwe f>,avec plusieurs pages d6crivant nntamment les operatcurs logiques : >ou (( non >k. Ce moteur semble l’un des plus efficaces sur le plan booleen. Sa
Un article r&ent danf unerevue specialis6e111en a cite les mkites, comme appliquant le mieux la recherche booleenne.Excite seglorifie de son intelligent conrept e.~nzction et de 50 millions d’URL indexes.Pour l’utiliser facilement, il faut descendrepar l’ascenseursur la page d’accueii, puis cliquer sur <>,en fran(;ais, indique effectivement les opCratcurs<),<>, <>et >.Toutefois, l’utilisation de dew facteurs appariesnous a pant facile, maisles associationsmultipies sentplus aleatoires.Sur demandede renseignementstechniquespar E-mail, l?xcite rtpond rapidcmentpar E-mail circulaire ou personnellement par un ingenieur.
253
La m&decine du sport SW le Web
Excite a par ailleurs rachete en 1996 les moteurs Webcrawler et Magellan, qui apparaissent maintenant en sous-domaines par rapport a lui. Lycos (www-fr.lycos.com/) En entrant www-fr, puis I’URL de Lq’cos, on arrive a la version fransake de Lvcos. Par ccRecherche speciale >>, on arrive a <,et ?I<>.Mais Lycos indique un seul opkateur logique, le signe c<- )i, pour creer une recherthe G saris >), mais aussi une possibilite de troncature (cf supra), a l’aide du signe du dollar ($), souvent utilid en recherche bibliographique en ligne ou sur CD-Rom (on trouve un systeme comparable sur Nomade). En ce qui conceme + et >), il indique clairement qu’il le met entre parentheses, et le prend done pour un <>,tt ou B, ainsi que la recherche par troncature. UREC (www.urec.fr) C’est le moteur des unites Reseaux du CNRS, malheureusement assez peu reference sur le sport. 11ne donne pas d’indications sur la recherche booleenne, mais precisons que celle-ci y est possible par les signes <<+ bbet G - B entres dans le cartouche avec les mots cl& Yak00 France (ht~://search.yahoo.~r/~ Ce moteur t&s connu, cr& en 1994 par une equipe dt&tudiants americains, a differencie une version frangaise en juin 1996. Ses rubriques sport sont t&s developpees. Avec celles de Nomade, ce sont les plus completes en franqais, et les plus directement accessibles. En cliquant sur <>,puis sur c>,on arrive sur un systeme logique avec les signes (< + )b et <<- )>et sur divers systemes sptcifiques de combinaison de syntaxe. Yahoo r&pond en outre facilement par Email a une demande technique. Moteurs de recherche exclusivement anglophones AltaVista (www.altavista.com/] Ce fut longtemps le plus connu des moteurs de recherthe, exclusivement en anglais, mais qui repertorie ses textes dans toutes langues. Comme c’est le cas pour UREC, il ne donne aucune precision sur la recherche
logique, mais celle-ci y est possible au moins par le signe q<+ >>,comme nous avons eu l’occasion de le signaler anterieurement [3]. En 1996, AltuVistu Ctait l’un des plus puissants moteurs de recherche, mais, sur le plan de la logique booleenne, il est l’objet de comparaisons defavorables de la part de deux de ses concurrents, EciIn et Excite, dans leurs propres textes de presentation ! La concu~ence est en effet tres Lpre pour la recherche des bandeaux publicitaires sur le Web... La bibliographie relative a la medecine du sport de langue anglaise est importante sur AltuVistu, et au moins Cgale a celle du classique Medweb de l’universite d’Emory, tout simplement parce qu’AltaVistu balaie le Medweb en plus de ses propres sources. Hotbot (www.Hotbot.com) C’est un moteur interessant, mais uniquement en an&is. Quand on y entre deux mots cl&, il demande si on desire *( All the words >>ou c, K or >>et <( but not )). Le chercheur, qui n’est pas dissuade par l’emploi de la langue anglaise, peut y trouver une source tres efficace de documentation. Dans sa page d’accueil, ii indique qu’il a une version en allem~d et en japonais, mais aussi que les versions en frangais et en italien sont en preparation. En raison de la specificite de ce moteur, la version fran~aisesera probablementt&s utile quand elle existera. DISCUSSION Plusieurspoints doivent ittre discutesau sujet de cette methodologie de recherche bibliographique qui commencea devenir possiblesur Internet. L’holutivitb logiques
d’Internet sur Ies opkrateurs
Cette evolution est incontestable, mais recente. En 1995,toute recherchebibliographique sur Internet exigeait pratiquement un seul mot cl& a la fois. En 1996, on a vu apparaitredes tentatives booleennes,en particulier sur AltaVistu (voir infra), m&me quand elles n’etaient pas indiqueesclairement par les pagesd’accueil du moteur. Depuis les premiers mois de 1997,
254
P Harichaux et al -.---
Tableau I, CJ$@r&trrslogiques sur Internet (&at en octobre 1897). Irttersrcctdon
Rknion
Exclusion
SP SP
ii:
Troncature
Mise enfKkwrs
Degre’ de pertinence
Par : “” SP SP
-
SP SP
Moteurs de recherche francopkmes Car&our Net E&i EkCite* Lyws” N&made
Par apposition Au moias 1 mot cl6 f( et >> > (et) = mot vide e et >>
UREC fcRNS) e Yahoo (Pm)
signe f signe +
E&O
Moteurs de rechercke an&&mes
*OUU
waotts
noru SP UOU%
a and nor * (ou ; -) SIgne SP
Possible SP SP SP OLd,pax$ Qui
0 SP
Signe Signe -
SF oui,par*
SP Possible, par “ ” Cf <(recherche avan& B 0 SP
OG,parO
Ileg& caIcuM f r&um8% Cf a recherche spS&. f) Cf E(option de recherche~, de& eaIcu1e
excltcsif
AltaVista HotBot
sigm? f
SP SP
0 SP
0 SP
Opentext**
randn
f( or w
Qbut not *
Possible par ccnear Y
tfegr6 caIcuIc5sur ccrefine * Cf s ho&an exPression D, de& cakuK Cfuhowtousev
*Version franqaise ; **versionfran@se BBOZSZ&. SP: sawp&&ion d&&e ; 0 :paspossible.
divers moteurs ont pris bien soin de prkiser l’utilisation possibledesopkrateurslogiques,et cette Cvolution ne peut aller que dans un sensprogressif. Mais elle souffre actuellementd’une certaine anarchic,et surplusieurscritkres.
que QJCOS Y&de comme mot vide. En outre, sur certains moteurs,l’article fran@s <
DisparitC actuelle de la syntaxe boolkenne selon lesdivers moteurs
Complexit des mats ~16s
Celle-ci est kvidente danslesexemplesquenousavons citCs, allant de I’expression anglaisedes prepositions (elle-m6mesusceptiblede variantes entre les moteurs, par exemple c<~~it~o~t D pour les uns,ou s and not I> ou encorei> pour le moteur Lycos. Mais ce symbole lui-mCmepeut &tre l’objet de plusieursvariantes : )ou encore >. Par ailleurs,AltaVista compte <>ou <
L’ouvrage qui fait rkfkence internationale en mat&e de mots cl&sest le MESH, dont les trois gros volumes sont remis Bjour et Cditkschaque an&e par la NHL. C’est not~ent &partir du FESS que l’on peut effectuer tine rechercheen ligne ou endiff& sur le Medline. 11existe aussiun rkfkrentiel frangais, moins connu, le Mobis. Mais pour le consultant qui ne respectepas un minimum de codification, la recherchepar langagelibre peut s’avkrer dkevante, ou pire, alkatoire, car celleci peut facilement &tre t&s incompkte sansqu’il le sathe. Diver&C destextes citCs Le Web n’ktant Cvidemment pas un lieu d’apanage universitaire, on y trouve destextes de toute origine, en particulier destextes commerciaux. 11n’y a done pasB s’ktonner si unerecherchepar opkrateurslogiquespeut ramenerdes&l&mentssansin&et scientifique. Toutefois, la sp6cificitC plus pousste de certains moteurs (opentext notamment)dansun sensbibliographique, et le fait que certains introduisent maintenant automatiquement le calcul du degrk de pertinence en face des
La mkdecine
references citees tendent a affiner l’efficacite du systeme. 11n’est done pas Ctonnant que toutes ces differences induisent, en l’ttat actuel tout au moins, une certaine disparite dans les reponses. Par exemple, une recherche entreprise sur le theme GTennis et nutrition Ddonne les reponses suivantes : - 6 421 reponses sur Echo, qui considere <>comme non signifiant, avec 14 651 reponses pour tennis et 9 769 pour nutrition. Pas de reponse satisfaisante dam les 20 premieres - 58 reponses pour Nomade, mais exactement avec les memes facteurs, car Nomade precise avoir pris ici le relais d’Echo... - aucune reponse sur Ecila, ce qui est surprenant compte tenu de la qualite de la recherche bibliographique sur ce moteur. Si on elargit la recherche aux moteurs anglophones, en entrant en anglais CCTennis and diet B, on constate la meme disparite, mais avec une mat&e beaucoup plus dense : - 296 890 reponses sur AltaVista, saris aucune indication de pertinence, et avec une masse inutilisable ; - 3 625 reponses sur HotBot, classtes par ordre decroissant de degre de pertinence. Nous avons choisi cet exemple car il illustre bien la richesse de la documentation que l’on peut trouver actuellement en utilisant les operateurs logiques sur le Web en medecine du sport, mais aussi sa relative inorganisation, pour le moment du moins. Toutefois, on aurait le meme volume de reponses sur le Medline, en partant de sujets aussi generaux. C’est precidment l’in-
255
du sport sur le Web
ter& bien connu de pouvoir affiner en ligne une question sur le Medline, mais on peut proceder exactement de m&me sur le Web. Si on le prefere, on peut aller directement sur les sources spkcialides du Web, en se passant alors de cette demarche de recherche. CONCLUSION Nous avons voulu mettre l’accent sur l’evolution actuelle, mais recente, du Web (ainsi que sur toutes les autres composantes d’Intemet, dans la mesure oti, notamment, les news-groups sont Cgalement balayes par les moteurs de recherche) vers une possibilite progressive de l’utilisation des operateurs logiques en recherche bibliographique sur la mtdecine du sport. 11 n’est pas certain que les futures techniques annoncees stir Internet dans un proche avenir, et notamment celle du < (de Microsoft ou de Netscape), puissent concurrencer valablement la masse de documentation considerable et mondiale que represente actuellement le Web en medecine du sport. Mais, en l’etat actuel, on constate que cette documentation trbs importante est beaucoup plus d’origine &rang&e que francaise. RkFfiRENCES 1 Bougenot X. Recherche sur le Net Hachefre-Nef 1997;1:6 2 Cassagne H. Interner pour les mkdecins. Paris : fiditions le gCnkaliste, 1996 3 Harichaux P, de Tourdonnet R, Candellier L. Internet et mCdetine du sport. Cimkiologie 1997;36:5-14 4 Harichaux P, de Tourdonnet R. Internet chez les mbdecins. Paris : editions Casteilla, 1997