AMU :: L2 :: Bioinformatique appliquée :: année 2013-2014
Ce TD repose sur les cours suivants.
| Nom | Lien | Description |
|---|---|---|
| Phylogeny.fr |
http://www.phylogeny.fr/
|
Phylogeny.fr - Robust Phylogenetic Analysis For The Non-Specialist. |
| Tree of life Web Project | http://tolweb.org/tree/ | The Tree of Life Web Project (ToL) is a collaborative effort of biologists and nature enthusiasts from around the world. ToL pages are linked one to another hierarchically, in the form of the evolutionary tree of life. Starting with the root of all Life on Earth and moving out along diverging branches to individual species, the structure of the ToL project thus illustrates the genetic connections between all living things. |
L'objectif général de ce TD est de fournir un premier aperçu des méthodes de phylogénie moléculaire, en les mettant en pratique sur base d'un cas d'étude concret.
Objectifs particuliers
Le site Web Tree of life project regroupe des informations phylogénétiques basées sur une revue étendue de la littérature scientifique, et permet d'explorer les ramifications de façon interactive. L'arbre de la vie présenté sur ce site est basé sur de nombreuses études, combinant critères morphologiques, anatomiques, physiologiques et phylogénie moléculaires. Il représente le scénario le plus vraisemblable concernant l'histoire évolutive des espèces. Nous le considérerons ci-dessous comme un arbre de référence ("arbre vrai").
[Retour à la table des matières]Connectez-vous au site de Tree of life project.
Cliquez sur l'image de la grenouille. Vous arrivez sur un page qui contient l'arbre des vertébrés terrestres. C'est arbre sera votre point de départ. Vous pouvez remonter dans l'arbre vers la racine (en cliquant sur la racine), ou descendre en cliquant sur une feuille.
A partir de ce point de départ, naviguez dans l'arbre pour atteindre l'ordre des mammifères (http://tolweb.org/Mammalia/15040).
. Qu'indique
ce symbole ?But de l'exercice: extraire un arbre restreint aux espèces correspondant aux opsines de votre sélection.
Au TD précédent (alignements multiples), nous avions sélectionné 36 opsines, appartenant à 17 espèces des mammifères. Nous allons construire un arbre phylogénique qui reflétera le scénario le plus vraisemblable concernant l'histoire évolutive de ces espèces, en nous basant sur la taxonomie générale des mammifères.
Le site Tree of life utilisé ci-dessus est très convivial, et permet d'obtenir des informations détaillées pour chacun des groupes taxonomiques. Cependant, il n'est pas évident d'y localiser tous les espèces correspondant aux opsines de notre sélection. Pour ce faire, nous allons utiliser un outil très pratique disponible sur le site taxonomique du NCBI.
Connectez-vous à la base de données taxonomique du NCBI.
Dans la liste Taxonomy tools, cliquez sur le lien Common tree.
A ce stade, deux alternatives s'offrent à vous.
Vous pouvez cacher ou afficher la lignée taxonomique des espèces à l'aide des boutons Expand All et Collapse All ou en cliquant sur les signes + et – devant les noms des taxa.
Nous avons utilisé les séquences des opsines vertes et rouges des mammifères pour inférer les arbres des gènes de ces opsines à l’aide des algorithmes suivants :
Les arbres A, C, E étaient construits tels quels, sans aucune modification à posteriori (arbres originaux). Les autres arbres sont des modifications des arbres originaux. Ces modifications peuvent combiner une ou plusieurs des options suivantes :
Comparez les différents arbres et répondez aux questions
Cliquez sur un arbre pour l'ouvrir dans un nouvel onglet. Vous pourrez ensuite passer d'un onglet à l'autre pour comparer les arbres.
Dans vos réponses aux questions suivantes, désignez simplement les arbres par leur lettre, et non par leur titre complet ou méthode de construction.
Le site http://phylogeny.lirmm.fr/ permet de construire des arbres phylogénétiques à partir des séquences protéiques ou nucléiques. Nous allons utiliser cet outil pour construire un arbre moléculaire des opsines. Nous tenterons ensuite de réconcilier cet arbre moléculaire avec l'arbre des espèces que nous avons créé au début de ce TP.
Le site http://phylogeny.lirmm.fr/ est particulièrement flexible: il permet de choisir, pour chaque étape de l'inférence phylogénique, une méthode particulière, et de régler les paramètres essentiels de chaque algorithme.
La construction des arbres suit les étapes suivantes.
Récupérez le fichier (fasta) des séquences d'opsines de mammifères, que nous avions utilisé au TD4 (alignements multiples) ici.
Connectez-vous à Phylogeny.fr (http://phylogeny.lirmm.fr/).
Choisissez l'option A la carte dans l'onglet Phylogeny Analysis.
Créez un workflow (organigramme, c'est-à-dire une description graphique de l'enchaînement entre programmes bioinformatiques) en cochant/décochant les cases de chaque étape et en choisissant les logiciels pour chaque étape sélectionnée.
Dans un premier temps, laissez toutes les options par défaut. Quand vous aurez acquis de l'expérience, vous pourrez modifier les paramètres pour analyser leur impact sur la topologie des arbres.
Sélectionnez l'option Step by step pour pouvoir examiner les résultats de chaque étape.
Nous utilisons l'option "pas à pas" pour pouvoir explorer les paramètres et analyser les résultats intermédiaires à chaque étape. Quand vous aurez acquis une maîtrise suffisante de l'inférence phylogénétique, vous pourrez utiliser l'option all at once, qui fera tourner toutes les analyses et vous avertira par courriel de la complétion de la tâche.
Créez le workflow (bouton Create Workflow)
Cliquez sur Browse pour charger votre fichier fasta sur le site Phylogeny.fr, ou (si vote fichier est de taille raisonnable) copiez les séquences dans la fenêtre prévue.
Nous vous suggérons d'indiquer votre courriel, afin de recevoir un courriel de notification des résultats.
Lancez l'analyse en cliquant sur le bouton submit.
Vous pouvez ignorer les éventuels messages d'avertissement (warnings) "sequence #1 name is too long (greater or equal to 80 characters)"
Cliquez sur le lien Res. de l'onglet Alignement. Vérifiez l'alignement pour éliminer éventuellement quelques séquences qui s'alignent mal.
Quand le fichier de séquence contient quelques séquences très éloignées, la tâche d'alignement multiple est particulièrement difficile. Ces séquences nuisent à la fiabilité de l'alignement, et, indirectement, à l'inférence d'un arbre moléculaire. Il est préférable de les éliminer avant la construction d'arbre phylogénétique. Dans le cas des opsines, la conservation est suffisamment bonne, et couvre l'ensemble des séquences. Nous pouvons donc travailler avec l'ensemble des séquences que nous avons collectées.
Au bas de la page de résultats de l'alignement, cliquez Next Step pour passer à l'étape suivante.
Nous passons maintenant à l'étape dite de curation. Cette étape est optionnelle. Elle permet de "nettoyer" l'alignement multiple, pour n'en retenir que les sites (colonnes de l'alignement) pertinents pour l'inférence phylogénétique qui suivra.
Dans un alignement multiple la position des gaps
est souvent ambiguë, si les séquences ne sont pas
fortement conservées. Pour cette raison, il est préférable
de se baser sur les blocks (colonnes contigües dans l’alignent)
sans gap pour inférer des arbres phylogénétiques.
Le logiciel Gblock ne fait pas qu'enlever les colonnes
de l’alignement avec gaps, mais il élimine aussi les
blocks sans gap trop courts, car ces positions se
trouvent dans une région de l’alignent relativement peu fiable.
Le site Phylogeny.fr vous propose de changer les paramètres par défaut pour appliquer des conditions plus ou moins exigeantes ("stringent" en anglais) à la sélection des sites (colonnes de l'alignement) qui seront pris en compte lors de la construction de l'arbre.
Laissez tous les paramètres par défaut, et cliquez submit.
Au terme de la curation, l'interface Web vous présente
Rappel: l'arbre-guide n'est qu'un outil utilisé temporairement pour construire l'alignement, il ne peut pas être interprété comme une inférence de l'histoire évolutive de la famille des opsines.
Quelle est la longueur totale de l'alignement ?
Combien de colonnes (positions) de l'alignement ont été retenues pour l'inférence phylogénétique ? ("New positions")
Observez de l'alignement produit par la curation (Cured alignment in PHYLIP Format). En quoi cet alignement diffère-t-il de l'alignement original (Input raw alignment) ?
Au bas de l'onglet Curation Res, cliquez sur le bouton Next step. Ceci vous amène à l'onglet Phylogeny Set.
Si vous utilisez la méthode de maximum de vraisemblance, choissiez SH-like dans le menu Approximate Likelihood-Ratio Test (aLRT). Si vous utilisez un autre méthode de construction d'arbre phylogénétique, assurez-vous que l'option Bootstrap soit à 0.
Laissez les autres paramètres inchangés, et lancez la construction de l'arbre phylogénétique en cliquant Submit.
Cette tâche peut prendre quelques minutes, le moment est sans doute venu de prendre une pause.
Après quelques minutes, la page de résultats s'affiche. L'arbre phylogénétique s'affiche dans un format très simple, qui ne permet pas de le manipuler directement (par exemple pour pivoter les branches, renommer les séquences, enraciner l'arbre, ...).
Prenez le temps de découvrir les différentes manipulations possibles avec l'arbre.
Coloriez quelques branches de couleurs différentes, pour pouvoir bien comprendre l'effet des options qui changent l'affichage des branches.
Quelle option permet d'enraciner l'arbre ?
Quelle option permet de colorier une branche ?
Quelle option permet de pivoter les deux branches descendant d'une branche donnée ?
Quelle option permet de pivoter la descendance complète d'une branche (image miroir) ?
Y a-t-il une ou des options parmi les 4 précédentes qui peuvent changer la topologie de l'arbre ?
Explorez les options de différents styles des arbres (Tree conformation). Changent-elles la topologie de l'arbre ?
Utilisez le format cladogramme en activant l'option Ignore branch length.
Colorez les branches de votre arbre de manière à associer les couleurs rouge, verte et bleue en accord avec les types d'opsines.
Pour colorer une branche, sélectionnez d'abord une couleur (option Dynamic Tree Edition > Color > using color), puis cliquez sur l'icône carrée devant Color, remontez sur le graphique de l'arbre, et cliquez sur la branche que vous voulez colorer.
Utilisez la couleur brune pour marquer les opsines pour lesquelles la distinction entre vert et rouge n'est pas établie. Pour la majorité des mammifères il y a un seul gène qui code pour l'opsine verte/rouge. Même s'il sont annotés comme opsines rouge ou verte coloriez les en brun et utilisez les couleur verte est rouge que pour les primates, qui possèdent 2 gènes, un pour le rouge, l'autre pour le vert
Pour mieux voir le détail des branchements les plus récents, activez l'option Ignore branch lengths. Ceci affichera le résultat sous forme de cladogramme, ce qui facilitera grandement le coloriage des branches de l'arbre. Vous pourrez ensuite revenir au mode phylogramme pour sauvegarder le résultat final.
De manière générale, nous vous recommandons de sauvegarder systématiquement les résultats de vos analyses phylogéniques sous les deux formes (cladogramme et phylogramme), car ces modes de visualisation sont complémentaires.
Dans une fenêtre séparée, ouvrez l'arbre des espèces que vous aviez généré sur l'outil Common tree du site taxonomique du NCBI. Comparez cet arbre des espèces avec le branches bleue et puis avec la branche rouge/verte de votre arbre inféré. Notez particulièrement, si la position des groupes des monotrèmes, primates et eutheria et correcte dans l'arbre inféré.
Enregistrez votre arbre en format pdf.
Soumettez votre arbre en format pdf par le lien prévu sur le site Ametice (Arbre phylogénétique)
L'événement le plus ancien dans l'arbre est-il une duplication ou une spéciation ?
Pouvez-vous donner un nom à chacune des deux branches qui descendent de cet événement, pour indiquer ce qui distingue leurs descendants ?
Parmi les termes homologue, paralogue, orthologue, et xénologue, lequel est le plus approprié pour décrire la relation entre les paires de séquences suivantes:
Au le cas où vous avez de difficulté d’identifier les duplications et spéciations, car l’arbre ne correspond pas à l’histoire évolutive des opsines, basez-vous sur vos connaissances de l’évolution des opsines.
Le temps de divergence entre les opsines bleue et rouge de l'ornithorynque est-il plus grand, plus petit ou égal au temps de divergence entre l'opsine bleue de l'ornithorynque et l'opsine rouge de l'homme ?
Comparez la branche de l'opsine bleue de votre arbre PhyML avec l'arbre que vous avez construit à l'aide de NCBI-Taxonomy (arbre vrai).
Comparez la branche de l'opsine verte/rouge de votre arbre PhyML avec l'arbre que vous avez construit à l'aide de NCBI-Taxonomy (arbre vrai). Commentez la position des groupes des Monotrèmes, Marsupiaux et Euthériens.
Commentez la position des opsines vertes et rouges des primates dans l'arbre.