.
.
.
.
.
.
.
.
,
.
.
.
.
.
,,
FONCTIONS ET RESEAUX • LA POST-GENOMIQUE
La g nomique et les maladies A l'aide des nouveaux moyens d'8tude g8n8tique (cartes de variants, techniques haut dObit,...), l'exploration systdmatique du g8nome humain devrait rdvgler des corrdlations in8dites entre gbnes et pathologies. * Centre national de g~notypage (CNG), 2, rue GastonCr~mieux, CP 5721, 91057 I~vry cedex. E-mail: mark@cngfr Site Internet :
[email protected] Laboratoire de g~ndtique de la predisposition aux maladies infectieuses, Institut Pasteur, 27, rue du Docteur-Roux, 75015 Paris.
Les ast~risques renvoient au glossaire p. 8 5
(1) E.H. Corder etal. (1993) Science 261, 921-923. (2) C. Dib eta/. (1996) Nature 380, 152-154.
L eprogramme
G6nome humain a une portde consid6rable dans l'6tude des maladies impliquant des mutations gEn6tiques, qu'elles soient monog6niques ou multifactorielles ; il acc6l~re notamment la d&ouverte des g6nes de susceptibilit6 (ou pr6disposition) ~ ces maladies, grfice fi des analyses effectu6es ~ l'6chelle globale du g6nome humain. Ainsi a-t-on identifiE, au cours des dernibres ann~es, de nombreux g~nes en cause dans beaucoup de pathologies (diab6te, maladies cardio-vasculaires, cancer du sein, etc.), et de nouvelles d6couvertes sont annoncdes presque chaque semaine. Ces nouvelles connaissances peuvent deboucher sur la conception et le d6veloppement de nouveaux outils diagnostiques et th6rapeutiques utilisables en m6decine. La g6n6tique humaine, en permettant d'identifier les fonctions des gbnes, s'affirme a u j o u r d ' h u i comme une discipline c16 de la recherche biomddicale. La variation naturelle de la s6quence d ' A D N est une propri6t6 fondamentale, h la base de l'6volution des g6nomes ; elle est dgalement responsable des diffdrences individuelles de predisposition aux maladies fi composantes g6ndtiques chez l'homme. La publication de la premi6re version de la sdquence du g6nome humain, en juin dernier, m6me si elle est encore incomplbte, offre aujourd'hui la possibilit6 d'6tudier les variations g6n6tiques dans le g6nome entier 82 BIOFUTUR 206 • Ddcembre 2000
pour Olucider celles qui sont impliqu~es dans ces pr6dispositions. La m6thode de travail consiste fi corr,let les marqueurs g6n6tiques - variations (ou variants) de la s~quence d ' A D N - avec les caract~res ph6notypiques caractEristiques d'une maladie. Par exemple, fi partir de l'&ude de ces corr61ations, on peut souvent d~limiter une petite r6gion chromosomique qui contient le(s) g?ene(s) de susceptibilit6 fi une maladie ; puis, par une exploration syst6matique de t o u s l e s g~nes situ~s dans cette r~gion, on peut identifier les variants g6n6tiques qui sont impliqu~s dans la predisposition. > La variabilit~ gdndtique Grfice ~ cette approche, effectu6e de mani~re systfimatique et ~t grande 6chelle, les g6n6ticiens ont d6couvert des relations entre g6nes et ph6notypes, qui n ' a u r a i e n t pu ~tre mises en 6vidence sur la seule base des connaissances biologiques ant6rieures. Ainsi, il aurait en effet 6t6 impossible de pr6voir que le g6ne c o d a n t l ' a p o l i p o p r o t 6 i n e E est impliqu6 dans la maladie d'Alzheimer, jusqu'~ ce que soit r6v61~e, par une approche g6n6tique, une correlation forte entre la predisposition la maladie et des polymorphismes (des variants) de ce g6ne (11. Ces d6couvertes ouvrent de nouvelles perspectives, souvent inattendues,
dans la comprehension des m~canismes biologiques impliqu~s dans les maladies. Des concepts et des m~thodes reposant sur l'utilisation de marqueurs hautement polymorphes (tr~s variables) ont d'abord ~td d6velopp~s pour aborder les maladies monog~niques : d~s~quilibre de liaison, ~tude de liaison* et d'association*. Avec l'introduction de technologies fi grande 6chelle dEvelopp6es dans les ann~es 1990 pour la cartographie g~n6tique, ces m6thodes de r6f6rence peuvent d6sormais &re appliqu6es fi l'&ude des maladies multifactorielles complexes : cancer, maladies cardio-vasculaires, maladies auto-immunes telles que le diab~te insulino-d~pendant, etc. Ces pathologies n&essitent des &udes d'~pid~miologie g6n6tique* portant souvent sur de tr~s grandes cohortes, qui peuvent &re composdes de plusieurs milliers d'6chantillons d ' A D N pour l'6tude d'une seule pathologie. Prenons le cas des Etudes de liaison. La carte de'marqueurs microsatellites* construite en 1996 au G~ndthon (t~vry, Essonne) (2) repr~sente un outil fondamental pour identifier les sites chromosomiques (loci) de pr6disposition une maladie. Ces marqueurs sont faciles ~ caract6riser, hautement polymorphes et se trouvent ~ une densit~ relativement 6levee dans tout le g~nome (plus de 10 000 microsatellites ont d6j~ 6tE d6crits). De plus, l'analyse des s~quences partielles codantes (expressed sequences tags, EST) fournit des informations sur la localisation des g~nes dans tout le g6nome qui, associ6es fi la connaissance de la s6quence du g~nome humain, facilitent cette approche. Grfice ~ ces informations, il n'est plus n6cessaire, lorsque la localisation du g6ne responsable de la maladie a 6t~ &ablie, de passer par certaines 6tapes (comme la cartographie
tion de l'ordre du milJion de paires de bases (1 centimorgan, cM), qui est suffisamment fine pour effectuer une recherche efficace des mutations responsables de la maladie. Du fait de la multiplicit6 des facteurs g~n&iques et environnementaux impliqu~s dans les maladies multifactorielles, les dtudes de liaison donnent gdn~ralement une r~solution de localisation de t'ordre de 10 cM, soit 10 millions de paires de bases. Pour obtenir une locatisation plus pr&ise, on propose maintenant comme approche la cartographie du d&~quilibre de liaison. > Vers la cartographie ~ grande ~chelle des sites ,, pathologiques Les methodes d'analyse des marqueurs g(~ndtiques peuvent auiourd'hui s'appliquer aux maladies multifactodelles, comme le diab~te insulinodapendant. Ici, un tqot de Langerhans, dont les cellules s~cr~,tent I'insuline.
physique) indispensables fi la m&hode classique d'identification des g~nes par clonage positionnel*. Les bases de donn~es publiques sont performantes pour s~lectionner les g~nes prdsents dans un intervalle de liaison': et pour identifier, dans ces g~nes, les variations de I'ADN existant entre patients et individus sains, notamment celles qui reprdsentent des mutations fonctionnelles (3) (voir l'encadr~ p. 84). Actuellement, plusieurs centaines de g~nes de predisposition aux maladies out 6t~ localisds grfice aux &udes de liaison, ~t partir de families s~lectionndes. Nombre d'entre eux, responsables de maladies gdndtiques classiques, out 6t6 idendfi6s - myopathie de Duchenne, mucoviscidose, maladie de Huntington, etc. -, de re&me que des g&nes de prddisposition ~ certaines formes de maladies frdquentes, telles que le diab&e, l'hypertension et le cancer du sein. Pour les maladies fr6quentes, les ~tudes de liaison sont particuli~rement efficaces dans des populations gdndtiquement homog~nes et pour lesquelles les relations gdndalogiques entre individus peuvent ~tre d&ermindes sur plusieurs gdn&ations (voir Particle sur le cas
islandais, p. 108). Les variants qui sont trouvds le plus fr~quemment dans te g~nome correspondent a des polymorphismes nucldotidiques (single nucleotide polymorphisms, SNP ou snips). Ils sont abondants et largement distribuds dans tout le gdnome ; le res& quengage (c'est&-dire, le s6quengage de la m~me r6gion gdnomique chez plusieurs individus) montre que la frdquence de ces polymorphismes est sup~rieure a 1 sur 200 nucldotides. Compte tenu de ces propri&ds, les
SNP sont particuli~rement intdressants pour r~aliser la cartographie des maladies multifactorielles. Depuis avril 1999, l'identification massive de SNP est rdalis~e par un consortium pitot~ par les l~tats-Unis et cofinanc6 par le secteur public et le secteur priv6 (comptant 14 participants au total). Son objectif est de caract4riser plus d'un million de ces variants dans le gdnome entier (~ l'heure actuelte, le consortium en a identifi4 pros de 300 000) (4). Les SNP se trouvant dans les r~gions codantes (SNPc) et dans les r4gions r4gulatrices des gdnes seront particuli~rement importants dans les &udes d'association de gdnes candidats impliqu4s dans les maladies multifactorielles. Ce domaine constitue Fun des enjeux majeurs de la g4nomique fonctionnelle (voir Particle de C. Cantor, p. 58). Ainsi, le Japon a lancd cette ann& un programme de grande envergure, dont l'objectif est de caract&iser les SNP de plus de 13 000 g~nes par criblage systdmatique. La croissance du hombre de SNP rdpertorids est tr~s rapide : les bases de donndes rassemblant toutes les sources d'informations publiques en comportaient 26 274 en janvier 2000, 2 558 363 au 15 novembre 2000, et il y e n aura probablement 3 millions en lanvier 2001 (5). I1 faut remarquer que certaines informations relatives aux SNP ddposds dans ces banques restent d&erminer : distribution dans des populations, estimation des frdquences atldliques, etc. Comment exploite-t-on les SNP pour caractdriser des g~nes impliquds dans des pathologies ? Pour |es maladies monogSniques, les &udes de liaison donnent une rdsolution de localisa-
,,
Le dds~quilibre de liaison est un phdnom~ne g~ndral pour lequel certaines combinaisons de variants g~n&iques se produisent dans diff~rents loci plus fr~quemment que ne le laisse prfivoir le hasard. Ce ph~nom~ne est dfi ~t des facteurs tels que le m~lange de populations, l'introduction de nouvelles mutations et des effets gdnStiques associes fi la taille de ta population (d~rive gdnetique, genetic drift). Le d~sSqnilibre de liaison entre un SNP et un locus de maladie crSe, dans certains cas, une association du marqueur avec le ph~notype de la maladie, qui peut &re mesur~e dans des cohortes cas/tdmoins. Le degrd du d&~quilibre de liaison, et donc la force de l'association, d~croit au cours des gdn&ations, en fonction de la distance gdn&ique entre loci, si bien que seuls les SNP qui se trouvent proximit~ du locus de la maladie pr& sentent une association plus forte avec le ph~notype. En &udiant suffisamment de SNP (peut-~tre 1 tous les 100 000 paires de bases) dans toutes les r~gions de liaison, on pense que sur la base des dtudes d'association, de nombreux loci de maladies seront cartographi~s avec precision. Darts le passe, cette approche a 8t~ limit~e par les difficult~s ~ trouver et caractdriser un grand hombre de marqueurs SNP. Avec les avanc~es rdcentes, telles que nous les avons discutdes ici, ces dtudes deviennent de plus en plus rdalisabtes. Par exemple, Graeme Bell et ses colt~gues de l'universitd de Chicago out pu identifier, par cartographie du ddsdquilibre de liaison, la calpaine-10 comme g~ne candidat de susceptibilit~ pour te diab~te sucr6 non insulinoddpendant dans une r~gion de liaison sur le chromosome 2 {6). Plus g~ndralement, les marqueurs SNP peuvent &re utilis~s pour identifier les g~nes des maladies, m~me en l'absence BIOFUTUR 206, Decembre2000 83
(3) M. Del~pineet aL (2000) Nat. Genet. 25,406-409. (4) Voir http:flsnp. chsLorg (5) Voir www.ncbi. ntm.nih.gov/SNP/ (6) Y. Horikawaet al, (2000) Nat, Genet. 26, 163-175.
FoNcTIONSET RISEAUX : LA POST-GINOMIQUE etude de liaison*, coupi~e & I'utilisation des technologies enomiques, est une ro~thode performante d'identification des g~nes impliques dans des maladies. En t~moigne ici I'exemple du syndrome de Wolcott-Rallison (WRS). Cette roaladie est une forme h~r~ditaire recessive rare du diab~te insulinodependant, se manifestant dans la p~riode neonatale ou ia petite enfance. Dans cet exemple, deux families comptant plusieurs descendants atteints (en raison de mariages consanguins entre cousins germains) ont dt~ etudiees. La figure pr(~sente la rC=giondu chromosome21iee au WRS. La colonne de gauche indique Is nom des marqueurs microsatellites* (D2S286, D2S329, etc.) de la r~lion, Les chromosomes sont repr~sent~s sous chaque individu avec un code numerique indiquant I'alh}le qui est port~ b chaque marqueur
Famille I
~
ilotspancreatiques. C egifgureesatefnceteSrditpederNeautrsePear n t e d e s mlaGeneti u t a t icos,mal n s acdihee.v01ume25, z l e s dne°4, S - caoOt2000, endantSLa
•
article,,EIF2AK3, encoding translation initiation factor 2-a kinase 3 ismutated in patients with Wolcott-Rallison syndrome,,.
(7)C. JulieretaL (1991)Na~354, 155-159. (8) B. KeavneyetaL (2000) Lancet355, 434-442. (~ N.J.Risch(2000) Na~m405,847-856. (10) K.M.Weiss, J.D. Terwilliger (20OO)Na~GeneL
26,151-157. (11)G. Ramsay (1998) Nat. BiotechnoL 16, 40-44. (12)A.C.Syvanen (1999) Hum, Mutat. 13, 1-10. (13)S. SaueretaL (2000) NucleicAcids Res. 28 (5), E13.
de localisation ant~rieure par 6tude de liaison ; cette identification repose sur la comparaison de la frdquence des alleles dans des cohortes incluant les individus malades (les ,, cas ,,) et les individus sains (les ~ t~moins ,,).. Cette m6thode a 8td utilis~e dans le pass~ pour &udier un nombre limit~ de polymorphismes de certains g~nes candidats. Or, l'accessibilit~ fi une carte d&ailldede SNP couvrant tout le gdnome permet d'envisager une recherche beaucoup plus syst6matique de l'ensemble des g~nes humains. Ces &udes d'association* sont compl& mentaires des &udes de liaison et permettent de ddtecter des loci qui ne peuvent pas &re facilement identifi~s par liaison, du fait de la frdquence dlev6e des alleles de prddisposition. L'exemple classique d'une telle situation est la mise en dvidence, sur le chromosome 11, du g~ne de l'insuline, qui est un locus majeur de pr~disposi84 BIOFUTUR206 • Decembre2000
z
'Ill
'lr
• ~111• | lllh = ill• ~ ~
'lr
• ~111 3 , ill ~ in• 4 4
illi
illi
illi
illi
o~J~
i ||!
i ii~
iBm!
~: 2 ~ , 6
=I i=n:e |.~
=I me ~ mmm3
~4 rams ||l
i |i! u~ me• rain4
~O~l.t3&t m,,, m~
2
lll
, II,
o~t
I ~
1
~
enbleu).Lerecouvrementdesr~gionscolor~esenbleuchezles descendants affect~s definit une zone d'environ 2 b 3 centimorgans(cM)entreCD8AetD2S2154, quicontientleg~nedelamaladie. Bien que la S~luence genomique complete n'ait pas ~te disponible au moment de cette etude, de norobreux g~nes et sequences partielles codantes (EST), qui se trouvaient darts cet intervalle, ont pu ~tre identifies a partir de bases de donn~es publiques. Le g6ne code le facteur 2 d'initiation de la traduction de la kinase 3 (EIF2AK3), qui a un niveau d'expression eleve dans les
t
= iZl ~
= ~ ~ ~11~ z I , llII, z II~ = |
~
microsatellite. Les couleurs repr,sentent les diff,ronts chromosomes qui ~taient presents chez les arriere-grands-parents. Chez leurs descendants, les chromosomes peuvent avoir des couleurs multiples, qui correspondent aux recombinaisons entre chromosomes au cours de la m~iose. Comme la mutation est tres rare, elle ~tait presente seulement sur I'un des chromosomes des artiStegrands-parents dans chaquefamille, avec deuxcopiestransmises aux descendants atteints, du fait de la consanguinit~ de la famille. Ainsi' le gene de 'a maladie peut etre '°calise dans une rC=gi°ndans laquelle les descendants atteints ont herit~ des deux copies du m~me chromosome des arri~re-grands-parents (r~:Jions indiquL=es
=
• =' ' I1'~
" I 1 ' z, ' " 1 1 "
~
~
~
i!11
iiii
~
1 I!I t Iit ! II11 Ili
c,~~
'11
~
~' I I ' ' ~ t
o~J~
I
Famille 2
=
=
iilJ IIII IIIIiiii ~
~ ~
z
,
"• 1'1 " " 1 1 !
~
iiii iiii ~
~
~
D3JU~I
~I a l m t
t
mRS
iiii 3 mi~
tion au diab~te insulino-d6pendant (7). Actuellement, renforc6es par les nouveaux outils de la g6nomique, les &udes d'association utilis6es dans l'~pid~miologie et dans les essais cliniques repr6sentent un secteur de d6veloppement majeur de la m6decine. Pour la plupart des maladies multifactorielles concern6es, il sera n6cessaire d'analyser un grand nombre de cas et de t6moins pour d~tecter les associations g~n&iques et rechercher l'interaction des g~nes avec l'environnement (8). Compte tenu des enjeux, les organismes de recherche de plusieurs pays (l~tatsUnis, Royaume-Uni et Japon) mettent en place des collectes d'&hantillons /t partir de tr~s grandes cohortes cliniquement bien d~finies (cas et t~moins) pour constituer les banques d'ADN n6cessaires ~ l'&ude des maladies multifactorielles ; en France, le minist~re de la Recherche,
iiii I
iI~I
iiii
iiii
1 II1 i111 4 llBWl
4 li4
dans ses actions g~nomiques sp&ifiques de 2001, doit mettre en place des centres de ressources biologiques (CRB). Les perspectives de l'Spid& miologie g6n~tique fi grande ~chelle stimulent ~galement la recherche en g6n&ique et statistique pour d6finir les m&hodes qui seront les mieux adapt6es ~i l'analyse de SNP (9, 10). > Quelles
techniques
?
Ces 8tudes n&essitent donc la caract~risation de SNP (par g~notypage*) dans un grand nombre d'&hantillons d'ADN/l faible cofit. Pour r~pondre ce besoin, de nombreuses techniques ont fait l'objet d'une recherche intense ; certaines d'entre dies ont aujourd'hui atteint une maturit~ suffisante pour ~tre utilis~es dans un environnement de production ~ haut d~bit. Pour une ~tude donn~e, le choix de la m&hode est
|
fonction de la question traitee : si, par exemple, un grand nombre de SNP do(vent &re genotypes chez peu d'individus, une puce fi ADN, sur laquelle plusieurs dizaines de milliers d'all~les SNP peuvent etre d~tectes simultan~ment, semble appropriee 111,121. Dans ce cas, tousles SNP n&essaires une etude do(vent @tre choisis au moment de la fabrication de la biopuce, ce qui constitue une limite importante : en effet, si par exemple on veut inclure des SNP nouvellemen• identifies, la biopuce dolt &re reconfiguree et refabriquee, moyennant generalement un cofit dleve.
i:...
: •
•
•4
'm ~
ql, '~
III0
~ltl
0'~'
Itl"I•
i
Jt
•
I •
• g"
~
I
....
•I
~
I
,,* ,.
II
o
•
•ti%
l
III
I
•l,,
0,0.%,
•
•
. ....
••
•
•
~II °;I.
l•
1
II
":~
• . ".',:
..,,
I * •.
" I •,•'I',*.%;I"
"'-
:=" " I : : . i "..tii":,"," " . ' . . , % . . . , . , . , , ; ; . . , . :~,2 • , |I
•
•
~•
**.,°$
.
t~$,
I~
II~
•
*~•ell0Q
Q•
•
OI
> D e s a l l e l e s en m a s s e
Le genotypage des SNP par spectrom&rie de masse': (MALDI-TOF*), developpe et utilise au Centre national de g~notypage d'E.vry (13), est mieux adapt~ aux besoins de l'@iddmiologie gen&ique. I1 repose sur la m~thode de <,primer extension ,, qui gen~re des produits ayant une masse specifique pour chaque all~:le. Les alleles se distinguent par leur difference de masse, facile ~ interpreter automatiquement par ordinateur (voir la figure cidessus). Cette approche permet le g~notypage en serie des SNP, chacun d'eux pouvant &re caract&ise dans un grand nombre d¥chantillons. De nombreuses autres technologies sont en cours de developpement • ravers le monde, mais la plupart d'entre elles do(vent &re validdes dans un environnement de production. Ainsi en est-i[ de la technologie propos~e par la societe Luminex et des techniques de genotypage d~veloppdes en collaboration avec le departement des sciences g~nomiques de Glaxo Wellcome (Research Triangle Park, Caroline du Nord) ; cette approche utilise des microspheres fluorescentes codees, qui permettent en principe des analyses similaires ~t celles de petites puces ADN, en offrant une flexibilite plus grande pour introduire de nouveaux SNP (14, 1~) (voir le Technoscope). Le <, pyrosdquengage % ddcrit en 1996 par l'Squipe de Math(as Uhl~n et P~I Nyr~n, ~ l'Institut royal de technologie de Stockholm {KTH, Suede, ~ l'origine de la creation de la start-up Pyrosequencing AB, en mars 1997) (le, 17) constitue une m&hode de sdquengage et de gdnotypage qui repose sur l'utilisation d'une enzyme luminescente et qui peut &re appliquee en principe l'analyse pr&ise d ' u n pool d'~chantillons d'ADN.
................. ................. de masse MALDI-TOE L'Autoflex, nouvel
,,
.° ">
:!,,
"•
-0 ~'~o~ '* " instrument developpe par Bruker Daltonics, permet une analyse automatisee &haut debit _
_
*
des @chant(lions. Le CNG et cette soci@t¢ collaborent pour detecter les SNP par spectrometrie
de masse, chaque allele de SNP detecte ayant une masse donnee. La detection de differents SNP peut @tre realisee dans la m@me analyse (multiplexing). A d r o i t e , resultat du genotypage de SNP
&partir d'echantiTIons d'ADN repartis darts 10 plaques de 384 puits chacune. Les combinaisons possibles des alleles du SNP sont representees par des couleurs differentes, la couleur grise indiquant
I'absence d'ADN. Le genotypage d'un echantiflon par MALDI-TOFest de I'ordre de 5 secondes.
Ce debut de si&le voit donc la rap(de mise en place de moyens permettan• l'etude gen~tique des maladies multifactorielles : cartes de g~nes humains et de variants g~n&iques, methodes de genotypage fi haut debit. On peut d'ores et dejfi prevoir que l'exploration systematique de plusieurs milliers de g~nes se fera au cours des prochaines anndes. Une gamme importante de m&hodes statistiques peut ~galement s'appliquer ~l l'~tude des maladies multifactorielles. La collecte de grandes quantites d'&hantillons d'ADN ayant des
informations cliniques et phdnotypiques pr&ises, et la programmation rigoureuse de ces etudes, seront autant de facteurs de succZes. II •st donc n&essaire de developper une cooperation croissant• et fructueuse entre epid6miologistes et g&l~Sticiens. Cette collaboration dans les essais cliniques pourra ~galement aider (~ mieux comprendre les reponses dill& rentielles des malades vis-~.-vis d'un traitement (base de la pharmacogU n&ique ; voir Particle de P. Amouyel, p. 86), ce qui permettra de mieux so(grief les maladies (18).
G
BIQFUTUR 206 • Decembre2000 85
(14)JChen etal. (2000) Genome Res. 10,549-55T. (15) M.A. lannonne et al. (2000) Cytometry 39, 131-140. (1B} M R0naghi et al (1996) Anal Biochem 242.84-89. (17] ~ Nordstrom et aZ (2000) BiotechnoL AppL Biochem 31,107-112 (18) A D Roses (2000) Nature 405. 857-865