Faire parler les séquences

Faire parler les séquences

] LESSURPRISESDE LAG~NOMIQUE 1 les s6 quences Dks lors que les se’quences du ge’nome sont mises 2 la disposition des chercheurs, il s’agit d’en compr...

2MB Sizes 0 Downloads 52 Views

] LESSURPRISESDE LAG~NOMIQUE 1

les s6 quences Dks lors que les se’quences du ge’nome sont mises 2 la disposition des chercheurs, il s’agit d’en comprendre la signification. Mais les <(annoter )) n’est pas chose facile...

I1 est en

particulier trh difficile d’identifier pr~cishnent

les limites des zones

codantes ou non, des exons et des introns. Puis reste 2 affecter une fonction 2 la protkine correspondant 2 tel ou tel g&e. * Laboratoire GBnome et informatique, universitb de Versailles, 45, avenue des Etats-Unis, 78035 Versailles cedex. E-mail : risler@ genetique.uvsq.fr

Les asthisques renvoient au glossaire p. 48

(1) httpY1216.190

101.28/GOLD

n cette dernike annke du sikcle, on assiste g une (( ruCe vers I’or gkomique )) : cons&C en novembre, le site GOLD (l), oti sont recensks les projets de s&quenGage, nous apprend que les kquences compktes de 38 gCnomes bactkiens et de 3 gknomes eucaryotes ont ktk publikes, sans compter plus de 170 gtnomes bactkiens et prks de 50 gCnomes eucaryotes en tours de skquengage (voir le tableau p. 34-35). Cette accumulation exponentielle de don&es est Cpuisante, et des procCdures automatiques efficaces pour c( dkhiffrer s) les kquences sont absolument indispensables. En fait, oii est le probltme ? La plupart des gens ont lu plus de 200 livres dans leur vie sans avoir recours 2 I’ordinateur. Quelle est done la particularitC de ce qu’on appelle parfois
206

l

Dkembre

2000

Le &quenGage annoter

ne r&&le

la sequence

pas immbdiatement

les genes

: it faut ensuite

obtenue.

dans une masse de texte (les regions intergkniques) que nous ne savons pas dkhiffrer. 11 est mCme possible que les rkgions interginiques n’aient pas de signification biologique particulikre, auquel cas il n’est pas surprenant que nous ne sachions pas les interprkter ! Soyons plus prCcis : le ginome humain est composk de 3 milliards de nuclCotides (les

cclettres b’A, T, C et G). 11comporte entre 30 000 et 60 000 g&es, chacun Ctant composk en moyenne d’un millier de nuckotides. L’ensemble des genes reprksente done, chez l’homme, environ 30 millions de nuclkotides dans l’hypothke basse... soit 1 % seulement du ginome : le message est compktement noyC dans le bruit de fond. Heureusement, les

genomes des batteries et des eucaryotes inferieurs, tels que la levure, sont beaucoup plus compacts. Le rep&age des genes y est plus facile. Comme les sequences de certains genes sont tres conservees chez toutes les especes, le dechiffrage des genomes des organismes inferieurs aide beaucoup a l’interpretation de ceux des organismes supirieurs. Annoter une sequence genomique pose un probleme a deux niveaux : il faut d’abord reperer, dans la sequence complete d’un genome, les parties que I’on pense pouvoir dechiffrer (par exemple les genes), avant de les identifier et de leur donner une signification biologique. Dans cet article, nous nous limiterons a la faGon de detecter et de donner un sens a des genes codant des proteines. Des genomiques cadent sequences d’autres elements, tels que des ARN non traduits (ARN de transfert, ARN ribosomiques), mais leur prediction n’utilise pas les mtmes outils. Abordons la premiere &ape, qui consiste a reperer les genes, dans le cas d’une sequence genomique bacterienne. Chez les batteries, les genes sont d’une seule piece, commencent par le codon* generalement ~1 start )), forme des trois lettres ATG, et se terminent par un des trois codons c( stop )) universels, TAA,

TAG ou TGA. La strategic consiste alors a chercher une suite de lettres de longueur ccraisonnable )p et ne contenant aucun codon stop. On rep&e ainsi sur le genome des ORF (open reading frames, phases de lecture ouverte), definies comme les suites de lettres comprises entre deux codons stop. Au sein de chaque ORF, on cherche ensuite un codon start qui marque le debut des genes. Si l’on trouve un tel codon, on tient alors peut-itre une sequence codante, comprise logiquement entre un start et un stop. > De I’ORF au gbne Tout cela a l’air enfantin. Une question, cependant, vient immediatement a I’esprit : quelle longueur minimale doit avoir une ORF pour qu’il vaille la peine de s’y interesser ? Les plus petites proteines, telles certaines proteines ribosomales, comportent environ 60 acides amines. Chacun d’entre eux Ptant code par trois lettres, les genes correspondants ont done une longueur d’environ 180 nucleotides. Or la probabilite qu’une suite aleatoire de 180 lettres, tirees au hasard dans un alphabet a quatre lettres A, T, G et C, ne comporte aucun codon stop est loin d’etre negligeable. C’est

. ..CCTAAGTCCGAATGCCATGGCTGAACCGTAGTT IUUU!-_._.__ 1 _J I 2...urluuuuuuuuu 3... 1 u u u u u

pourquoi, au risque de rater les plus en petits genes, on ne considere general que les ORF d’au moins 300 nucleotides, correspondant a des proteines d’au moins 100 acides amines : la probabilite qu’une telle ORF soit due au hasard est alors suffisamment faible. Si I’ORF considerie est bien un gene, alors nous devons trouver son codon initiateur ATG... et, dans un mot de 300 lettres ou plus, nous risquons de trouver plusieurs triplets ATG. Lequel choisir ? De toute evidence, nous avons besom d’informations supplementaires. Le salut vient du fait que les genes sont destines a itre traduits en proteines. Cette traduction utihse un code genetique (
I L__i

I

I

u

u

I u

. . .

II-.... u

I

II y a trois fapons de lire un brin d’ADN par gmupes de trois bases, ou codons (en haut). Ces trois phases de lecture font apparaitre des codons start (ATG) ou des codons stop (TAA, TAG et TGA) qui peuvent correspondre au debut et a la fin dune sequence codante. Une phase de lecture ouverte (ORF) est une sequence de longueur e(suffisante mcomprise entre un start et un stop. Dans cet exemple, la phase 1 et la phase 3 compmnnent toutes deux un start (en vet-t), mais la phase 3, quake codons plus loin, est intermmpue par un stop (en rouge). Par consequent, seul le codon start de la phase 1 correspond peut-Qtre au debut d’une ORF.

A plus

grande Bchelle (ci-contre), on peut rep&enter

les codons start et stop par des barres dans les six phases de lecture d’une sequence double brin (trois par brin). Ici, la seule ORF de taille raisonnable apparait dans la phase +2. Reste a determiner, au cas 00 cene ORF est bien un gene, lequel des deux codons start correspond au debut de la sequence codante.

BlOFlJTLJR206 l Dkxmbre2000 45

.. . .

1 LESSURPRISES DE LAGiNOMlQUE 1 (2)A.V.Lukashin, . . . M.Borodovsky (1998)Nucleic AcidsRes. 26, 1107-1115. (3)A.L. Delcher et al.(1999)Nucleic AcidsRes. 27, 4636-4641.

(4) SM.

Lewisetal (2000)curropin. structBid 10, 349-354.

est caracteristiaue de chaaue 1 es&e. 1 On peut alors calculer l’usage des codons dans un gene putatif et le comparer a celui qui est observe pour des genes deja identifies et caracterises avec certitude. Une bonne adequation entre les deux valeurs indique en general un veritable gene, une mauvaise fait douter que I’ORF soit codante. Les limites des regions presentant une bonne adequation permettent gineralement de localiser le bon codon start. Bien 1

Reperer les genes dans un genome bacterien n’est done pas un probleme insurmontable (31, mime si l’annotation automatique demande a ttre soigneusement verifite - un travail minutieux, long et ingrat. I1 n’en va malheureusement pas de meme chez les eucaryotes, dont les genes sont morcelts : un gene eucaryote comPorte en general plusieurs portions qui seront effectivement traduites en proteine - les exons -, separtes par des regions qui, elles, seront Climi-

intron

exon 1 Gene

‘....

. ..TACGCTTCAGCIGTATTAAGCG...TAGIGTCCATG... . ... . UUUUIIU

exon 1

ARN messager Bpiss6

. ..U

front&es des introns sont plus ou moins conservees et peuvent aider i trancher. En outre, une courte sequence, bien conservee chez la levure (TACTAAC) mais plus variable chez les eucaryotes superieurs, se trouve une trentaine de bases en amont de l’extrtmite 3’ des introns. Tout compte fait, ces criteres sont tres insuffisants pour reperer sans ambigum? les differents introns d’un gene. La encore, il faudra utiliser le fait que les introns, ccinutiles )),

A C G C U U C A G GIG

exon

2

. . .. ..

. .. ..

. ... .. . ..

.. .. .

exon

2

U C C A U G...

uuuuuu Dans un gene eucaryote, les patties codantes (exons) sont intermmpues par des parties non codantes (introns) qui commencent par GT et finissent par AG. Dans cet exemple, si I’on note la frontih

de I’intron et que I’on poursuit

la lecture dans sa sbquence, on est intermmpu par un codon stop. Dans I’ARN messager, 00 I’intron a 6t6 Blimin6, la lecture continue au contraire dans I’exon 2.

entendu, il existera toujours des genes oti l’usage des codons est peu biaise, et qui seront done plus diffitiles a identifier. Heureusement, les regions codantes sont contraintes par le fait qu’elles doivent etre traduites en proteines fonctionnelles : elles ne peuvent pas muter aleatoirement. Par exemple, si la proteine cod&e par un gene comporte 40 % d’acides amines hydrophobes tels que la valine, environ 40 % des codons auront un T en deuxieme position, alors qu’il n’y a aucune raison que les regions non codantes respectent cette contrainte. On observe aussi que la distribution des cc mots )) - par exemple, la frequence d’apparition de certains mots de six nucleotides est differente dans les deux types de regions. On voit done qu’il existe une (ou des) difference(s) de (( style b) entre les parties codantes et les parties non codantes. Ces differences sont mises a profit de man&e tres efficace par des programmes fond& sur les chaines de Markov (uoir I’uYtitle de G. Delkage et C. Geourjon, p. 66)

qui, schematiquement, permettent de dire si une region don&e d’un genome est &rite de facon
46 BIOFUTUR206

l

Dkembre2000

nees avant la traduction - les introns. Le probleme n’est done plus de reperer simplement le debut et la fin d’un gene, mais d’identifier precisement les limites des introns et des exons (4). Premiere observation : la longueur des exons et des introns Ctant extrimement variable, ce parametre ne peut Ctre utilise comme critere d’identification.

>La chasse auxexons On remarque ensuite qu’il faut distinguer les exons externes (le premier, qui contient le codon start, et le dernier, qui contient le codon stop) des exons internes, flanques d’un intron a gauche et a droite. En effet, les introns sont Climints par un mecanisme d’epissage grace auquel les exons qui les flanquent sont raboutts, et ce mecanisme exige que les introns commencent (en 5’) par GT et finissent (en 3’) par AG. Autrement dit, les exons internes sont flanques en 5’ par AG et en 3’ par GT. Or le nombre d’AG et de GT dans une sequence genomique est enorme, et la presence de ces deux di-nucleotides n’indique pas forcement la presence d’un intron ! Les sequences voisines des AG et GT aux

peuvent Cvoluer librement alors que les exons, eux, sont contraints par les proteines qu’ils cadent. Comme nous l’avons vu plus haut pour les bactiries, I’usage des codons peut Ctre un facteur discriminant tres efficace (dans un intron non codant, les triplets de bases n’ont aucune raison de suivre les statistiques des vrais codons). De meme, la composition des introns et des exons en ccmots p) de longueur don&e est differente. Malheureusement, certains exons peuvent ne cornporter que quelques dizaines de nucleotides : c’est beaucoup trop peu pour reperer une tendance statistique, et ils seront done purement et simplement ignores. De m&me, on risquera de prendre pour des exons des introns courts ne comportant pas de codon stop. Les exons externes, eux, doivent etre trait& separement, puisque le premier exon n’a pas d’intron en amont, done pas de AG obligatoire, et que le dernier exon n’a pas d’intron en aval, done pas de GT obligatoire. Pour identifier le premier exon d’un gene, on cherchera a identifier une (ou des) stquence( s) promotrice( s) qui permet(tent) h I’ARN polymerase de reperer a quel endroit elle doit commencer a transcrire I’ADN en ARN.

Ces promoteurs existent aussi bien chez les batteries (boite de Pribnow) que chez les eucaryotes (la fameuse TATA box) mais, la encore, les sequences promotrices sont trop courtes et trop peu conservees pour constituer un critere absolu. Du cbte du dernier exon (en 3’), c’est encore pire : on ne sait pas bien comment YARN polymerase rep&e la fin du gene, meme si l’on a identifit la sequence AATAA, sit&e en aval du codon stop, comme le signal qui commande I’ajout d’une queue de plusieurs dizaines de nucleotides A a I’extrCmitC 3’ de I’ARN messager. Le dernier exon est done essentiellement une sequence potentiellement codante commencant apres un AG et finissant par un stop... C’est peu ! Comme il est difficile de reperer sans ambigui’te le debut et la fin des genes, il arrive souvent que deux genes distincts soient artificiellement fusion&s. Bref, la situation n’est g&e brillante et montre a quel point de nombreux mecanismes biologiques sont ma1 compris. Apres tout, la machinerie cellulaire, elle, ne se trompe pas : les genes sont correctement transcrits en ARN messagers, qui sont eux-mtmes correctement Cpisses. Les signaux qui permettent une transcription fiddle existent forcement mais, de toute evidence, nous savons ma1 les reperer (5). II n’est pas exclu que la structure locale de I’ADN joue un role de premier plan, d’autant plus difficile a cerner que nous ne savons pas la predire finement a partir de la sequence. Ce qui precede montre que l’annotation automatique des sequences genomiques n’est ni facile ni fiable, surtout chez les eucaryotes (6). 11 n’est pas deraisonnable de penser que, chez certains eucaryotes superieurs, 50 % des predictions de genes repartees dans les banques geniralistes cornportent une erreur. Et pourtant, on lit par ailleurs que 80 a 90 % des genes humains sont correctement predits.. . En fait, on ne parle pas de la meme chose. Dans le premier cas (vision pessimiste), on attend que chaque gene soit decortique scrupuleusement, a la base pres, et que la sequence proteique fqconceptuelle )), obtenue par traduction dans l’ordinateur, corresponde a I’acide amine pres a la sequence proteique reelle. Nous 1’avons vu, cette attente est souvent illusoire. Dans le second cas, on adopte une vision optimiste des chases, celle du biologiste experimental. En effet, il est fort improbable que tous les exons d’un gene Cchappent a

l’analyse automatique. Malgre les difficult& de l’exercice, on peut penser qu’au moins un exon par gene aura Cti correctement identifie. La sequence de cet exon permettra de reperer, par hybridation, 1’ARNm correspondant au gene, puis de determiner la sequence de I’ADNc”, ce qui permettra une annotation exacte et precise de la sequence genomique corretour Juste des respondante. chases.. .

>Lesskquences exprimbes 3 la rescousse On ne saurait Ctre complet sans evoquer le role important que jouent les banques de sequences (et le programme BLAST*) dans I’annotation genomique. Une source d’information essentielle se trouve dans les EST (expressed sequence tags), ces (( Ctiquettes )j constituees par le sequegage systematique des extremites d’ADNc partiels. Si I’on peut avec certitude relier un exon a une portion d’EST, alors l’annotation du gene a fait un grand pas : les front&es intron-exon deviennent en principe faciles a identifier puisque, dans les EST, les introns ont ete &mines. Le probleme est que les EST ne sont pas des ADNc complets (en principe, ce ne sont que quelques centaines de nucleotides du c&P 3’) et qu’en outre, ils cornportent le plus souvent de nombreuses erreurs de sequence. On ne peut done esperer, en general, avoir une identite parfaite entre la sequence genomique d’un exon (supposee exacte) et la sequence de I’EST qui lui correspondrait. Supposons qu’une portion de la sequence genomique que nous venons de determiner soit identique a 98 % avec celle d’une EST. Soit nous admettons que les differences sont dues a des erreurs dans la sequence de l’EST, soit nous envisageons que I’EST, de sequence leg&ement differente, puisse correspondre en fait a un allele (si les souches sont differentes) ou a un autre gene voisin dans une famille multigenique. Pour notre part, sans pouvoir trancher, nous ne partageons pas l’optimisme des partisans du (( tout EST s). Une solution alternative consiste a comparer (avec un programme comme BLASTX*) la sequence genomique aux sequences proteiques contenues dans une banque expurgee et bien annotee comme Swissprot (7), maintenue a Hnstitut suisse de bio-informatique. Cette methode presente des avantages certains : outre le fait que les introns, comme dans les EST, ont

CtC Plimines dans les sequences la comparaison ADN/ proteiques, prottine a toutes les chances d’etre plus sensible qu’une comparaison ADN/ADN. Tout d’abord, les sequences proteiques sont en general mieux conservees que les sequences nucleotidiques, puisque le code genetique est digenere ; ensuite, on a affaire a un alphabet a 20 lettres au lieu de 4, ce qui rend les identites fortuites moins probables ; enfin, on tient compte, dans ce genre d’etude, des ressemblances entre acides amines. Cette methode est certes puissante, mais, bien entendu, ne vaut que si une sequence proteique homologue et suffisamment proche a deja PtC introduite dans les banques. Une fois un gene rep&C et delimite, il reste i affecter une fonction i la proteine correspondante - de plus en plus souvent ccputative )) ou (( hypothetique )). Ce n’est pas aussi simple qu’on pourrait le croire. En l’absence de don&es biochimiques experimentales, qui seules ont force de loi, le plus evident est de proceder ccpar homoiogie )), par comparaison avec des proteines de fonctions connues et de sequences voisines, ce qui a peutttre deja Cd fait a l’etape precedente. Or le raisonnement analogique est dangereux. Si la sequence d’une proteine hypothetique est identique h 80 % a la sequence d’une proteine d’un organrsme voisin et de fonction connue, alors il n’est sans doute pas deraisonnable de lui affecter la meme fonction. Mais ou s’arreter ? A partir de quel taux d’identite peut-on considerer que deux sequences ont probablement la meme fonction ? Nous n’avons pas la reponse, et nous sommes surs que personne ne l’a !

> Erreurs

en sbie

Cette question est a la base du probltme principal des banques de sequences : la propagation d’erreurs d’annotation. Supposons qu’en 1998 on ait affect6 par erreur la fonction (c perlimpimpinate deshydrogenase )) a une proteine hypothetique issue d’un genome nouvellement sequence. Cette annotation se trouvera marquee au burin dans toutes les banques de sequences. En 2000, toute nouvelle sequence ressemblant a la premiere sera automatiquement annotee comme perlimpimpinate deshydrogenase, et ainsi de suite. 11y a 19 un probleme gravissime qui n’est pas pres d’etre resolu. II faut done se garder d’une utilisation irraisonnee et automatique de programmes . . . BlOFlJTlJR 206 l DBcembre200047

(5) P Rouzeetal. (1999) curr @in. Plant Biol. 2, 90-95. (6) K. Murakami, T. Takagi (1996)

Bioinformatics 14, 665-675. (7) Swissprot www.expasy.ch

:

1 LESSURPRISES DE LAGiNOMlQUE 1 l .*

(8) Prosite : www.expasy.ch/spr of/prosite.html (9) Blocks: www. blocks.fhcrc.org/ (10) PFAM : www, sanger.ac.u~ffam/ (11)Prodom

:

http://protein. toulouse.inra.fr/ prodom.html (12) Voir le (1deambulum ‘) d’lnfobiogen : www.infobiogen.fr/ se~ices/deambulum/ (13) Academic des sciences (19991 Dkeloppement et applications de la gdnomique : 12pr&g6nome, Editions Tec&Doc, Paris.

comme BLAST” qui ne peuvent donner que ce qu’ils ont. Ce qui est certain, c’est que, dans chaque organisme sequence, 30 a 50 % des proteines putatives ne ressemblent (au sens de BLAST) h aucune sequence proteique deja connue - chiffre considerable et tout a fait inattendu.

Les s6quences et les logiciels

s’accumulent actuels

trap vite pour nos capacitbs

sont insuffisants

II est possible, heureusement, d’aller plus loin grace aux cf banques de motifs if. La plus ancienne et la plus connue est Prosite (81, extension de Swissprot, qui recense, sous forme symbolique, les sequences consensuelles caracteristiques de familles de protiines - dont les membres possedent en general des activites voisines. Par exemple, la sequence [EQ]-x(2)[AT]-F-x(2)-W-x-N (qui se lit E ou Q, suivi de 2 acides amines quelconques, suivis de A ou T suivi de F suivi de . . . etc...) est CaractCristique des actinines. II suffit alors de poser la question (( ma proteine contientelle un motif recense dans Prosite ? )a. Le probleme de ce genre de representation est que, si une nouvelle proteine de la famille a le mauvais gout de commencer son motif par D plutcit que par E ou Q, elle ne sera pas reperte. La banque Blocks (9),plus recente, regle la question en

48 BIOFUTUR 206l Dkembre2000

conservant explicitement tomes ies sequences (alignees) de tous les motifs de la famille. On peut alors comparer la sequence d’une proteine a un ccprofil in tree a partir de cet alignement multiple - option que propose desormais Prosite dam de nombreux cas. Enfin, derniere nee,

pour I’annotation

d’interprr%ation, automatique.

la banque de (( motifs F) ou de ccdomaines p) appelee PFAM (10)est sans dome la plus complete, car fondee entre autres sur la comparaison systematique de tomes les sequences proteiques de la banque Swissprot (voir aussi la banque Prodom (111a ce sujet). Les motifs ou domaines consensuels de PFAM sont converris en ccprofils )) par une methode fondee sur les chaines de Markov, et I’experience montre que la comparaison d’une sequence a PFAM est a la fois sensible et selective. Cependant, ce petit jeu a lui aussi ses limites. On sait en effet que de nombreuses proteines sont formees par l’assemblage de plusieurs (
buer une fonction a son produit (proteine ou ARN). II n’en est rien. Une autre phase de l’annotation des genomes est l’identif~catio~ des relations entre les elements que les deux premieres &tapes ont mis en evidence (genes, elements de regulation, proteines, etc). Ces relations peuvent etre de natures diverses : implication dans une meme voie metabolique ou de regulation, interaction physique (protiineslprodines, proreines/ADN, prot~ines/ARN)* On sait par exemple que le produit d’un g&e est susceptible d’activer, ou d’inhiber, l’expression d’un ou de plusieurs autres genes. Idealement, ces relations doivent etre incluses dans le processus d’annotation complet, ce qui implique d’autres etudes experimentales et informatiques. De nouvelles plates-formes informatiques integrees sont en tours de developpement pour reunir et relier I’information deja disponible, mais malheureusement dispersie dans les laboratoires, dans les bases de don&es du monde entier et, bien slir, dans l’enorme ressource que representent les publications scientifiques 1121. Le bilan global, certes, n’est pas si negatif. Notre comprehension des mecanismes evolutifs, ~ffn la phylogenie moliculaire, progresse B grands pas. La genetique inverse, la ginomique fonctionnelle, la genomique structurale, l’etude du transcriptome, du proteome, du metabolome et autres ccomes t> sont une source extraordinaire de connaissances nouvelles, de plus en plus indissociables de l’etude du genome (13). I1 est clair cependant que les sequences genomiques qui s’accumulent et leur decryptage systematique gene par gene peuvent favoriser un exces de reductionnisme, qui tendrait B nous faire croire que chaque gene a un role propre, alors que toute la biologie d’une cellule - et a fortiori d’un organisme - est essentiellement affaire d’interactions entre differents composants. Notre collegue Alain Hinaut a coutume de comparer la piriode actuelle i celle des grandes decouvertes, quand les echantillons s’entassaient dans les caves des musees : il a fallu des siecles pour que ces collections soient analysies et repertoriees. Tout comme les plantes exotiques il y a trois siecles, les sequences genomiques s’accumulent en attendant une expertise serieuse. Nos collegues ont fait la preuve de leur maitrise technique i produire des kilobases et a les assembler. A nous maintenant de Ieur donner un sens. l