AMU  :: L2  :: Bioinformatique appliquée  :: année 2013-2014

Inférence phylogénétique


Contenu

  1. Prérequis
  2. Ressources
  3. Objectifs
  4. L'arbre des espèces
  5. Interprétation des arbres - Opsines rouges et vertes des mammifères
  6. Inférence de la phylogénie des opsines chez les mammifères
[Retour à la table des matières]

Prérequis

Ce TD repose sur les cours suivants.

Luminy (Jacques van Helden)

Saint Charles (Emese Meglécz)

[Retour à la table des matières]

Ressources

Nom Lien Description
Phylogeny.fr http://www.phylogeny.fr/
ou
http://phylogeny.lirmm.fr/
Phylogeny.fr - Robust Phylogenetic Analysis For The Non-Specialist.
Tree of life Web Project http://tolweb.org/tree/ The Tree of Life Web Project (ToL) is a collaborative effort of biologists and nature enthusiasts from around the world. ToL pages are linked one to another hierarchically, in the form of the evolutionary tree of life. Starting with the root of all Life on Earth and moving out along diverging branches to individual species, the structure of the ToL project thus illustrates the genetic connections between all living things.
[Retour à la table des matières]

Objectifs

L'objectif général de ce TD est de fournir un premier aperçu des méthodes de phylogénie moléculaire, en les mettant en pratique sur base d'un cas d'étude concret.

Objectifs particuliers

  1. Appliquer une ou deux méthodes d'inférence phylogénétique.
  2. Apprendre à évaluer la robustesse d'un arbre phylogénétique (estimée par l'approche dite bootstrap).
  3. Comprendre la relation entre un arbre des espèces et un arbre des molécules, et le principe de la réconciliation entre ces deux arbres.

[Retour à la table des matières]

L'arbre des espèces

Le site Web Tree of life project regroupe des informations phylogénétiques basées sur une revue étendue de la littérature scientifique, et permet d'explorer les ramifications de façon interactive. L'arbre de la vie présenté sur ce site est basé sur de nombreuses études, combinant critères morphologiques, anatomiques, physiologiques et phylogénie moléculaires. Il représente le scénario le plus vraisemblable concernant l'histoire évolutive des espèces. Nous le considérerons ci-dessous comme un arbre de référence ("arbre vrai").

[Retour à la table des matières]

Exploration de l'arbre de la vie

  1. Connectez-vous au site de Tree of life project.

  2. Cliquez sur l'image de la grenouille. Vous arrivez sur un page qui contient l'arbre des vertébrés terrestres. C'est arbre sera votre point de départ. Vous pouvez remonter dans l'arbre vers la racine (en cliquant sur la racine), ou descendre en cliquant sur une feuille.

  3. A partir de ce point de départ, naviguez dans l'arbre pour atteindre l'ordre des mammifères (http://tolweb.org/Mammalia/15040).

  4. Descendez ensuite dans l'arbre en cherchant le chemin qui mène à l'espèce humaine (Homo sapiens).

Questionnaire - L'arbre de la vie - Tree of life

  1. Au cours de votre parcours depuis les mammifères jusqu'à Homo sapiens, vous avez rencontré des espèces notées d'une croix . Qu'indique ce symbole ?
  2. Quel est le groupe (genre ou espèce) le plus proche du genre Homo dans l'arbre de la vie ?
  3. Naviguez dans l'arbre pour atteindre l'ornithorynque. Quel(s) est(sont) le(s) genre(s) le(s) plus proche(s) ?
  4. Retournez sur le page des mammifères. Dans un arbre phylogénétique représentants les espèces des monotrèmes, marsupiaux et les euthériens quel groupe peut être considéré comme groupe externe ?
  5. Peut-on considérer l’ensemble des marsupiaux et les monotrèmes comme un clade ? Justifiez votre réponse.
[Retour à la table des matières]

Extraction d'un arbre pour les espèces sélectionnées

But de l'exercice: extraire un arbre restreint aux espèces correspondant aux opsines de votre sélection.

Au TD précédent (alignements multiples), nous avions sélectionné 36 opsines, appartenant à 17 espèces des mammifères. Nous allons construire un arbre phylogénique qui reflétera le scénario le plus vraisemblable concernant l'histoire évolutive de ces espèces, en nous basant sur la taxonomie générale des mammifères.

Le site Tree of life utilisé ci-dessus est très convivial, et permet d'obtenir des informations détaillées pour chacun des groupes taxonomiques. Cependant, il n'est pas évident d'y localiser tous les espèces correspondant aux opsines de notre sélection. Pour ce faire, nous allons utiliser un outil très pratique disponible sur le site taxonomique du NCBI.

  1. Récupérez le fichier texte contenant le nom latin des espèces sélectionnées ici, et sauvegardez-en une copie sur votre ordinateur.
  2. Connectez-vous à la base de données taxonomique du NCBI.

  3. Dans la liste Taxonomy tools, cliquez sur le lien Common tree.

  4. A ce stade, deux alternatives s'offrent à vous.

    1. Entrer les noms d'espèces un à un dans la boîte Enter name or id, en cliquant Add pour chaque nom. Vous verrez ainsi l'arbre se dessiner progressivement.
    2. Entrer le fichier texte contenant la liste des espèces de votre sélection. Pour cela, cliquez Browse, localisez le fichier sur votre disque dur, puis cliquez Add from file. L'arbre complet devrait alors apparaître.

    Vous pouvez cacher ou afficher la lignée taxonomique des espèces à l'aide des boutons Expand All et Collapse All ou en cliquant sur les signes + et devant les noms des taxa.

  5. Sauvegardez la page Web de résultat, nous l'utiliserons pour un exercice ultérieur, afin d'effectuer la réconciliation entre l'arbre moléculaire des opsines et cet arbre des espèces.

Questionnaire - Extraction d'un arbre de NCBI-Taxonomy

  1. Quelle est l'espèce la plus proche du lapin (Oryctolagus cuniculus) selon cet arbre ? Au cas où plusieurs espèces seraient équidistantes, indiquez-les toutes.
  2. Quelle est l'espèce la plus proche du chauve souris Pteropus alecto selon cet arbre ? Au cas où plusieurs espèces seraient équidistantes, indiquez-les toutes.
  3. Quel est le taxon du dernière ancêtre commun de cochon (Sus scrofa) et de la vache (Bos taurus) selon cet arbre ?
[Retour à la table des matières]

Interprétation des arbres - Opsines rouges et vertes des mammifères

Buts de l'exercice

Nous avons utilisé les séquences des opsines vertes et rouges des mammifères pour inférer les arbres des gènes de ces opsines à l’aide des algorithmes suivants :

Les arbres A, C, E étaient construits tels quels, sans aucune modification à posteriori (arbres originaux). Les autres arbres sont des modifications des arbres originaux. Ces modifications peuvent combiner une ou plusieurs des options suivantes :

Comparez les différents arbres et répondez aux questions

Consultez les diapos des cours pour pouvoir répondre à des questions théoriques

Arbres phylogénétiques

Cliquez sur un arbre pour l'ouvrir dans un nouvel onglet. Vous pourrez ensuite passer d'un onglet à l'autre pour comparer les arbres.

Arbre A. - Maximum de parcimonie (arbre original)

Maximum de parcimonie, opsines rouges et vertes des
	     mammifères

Arbre B. - Maximum de parcimonie (arbre modifié)

Maximum de parcimonie, opsines rouges et vertes des
	mammifères, bootstrap condense

Arbre C. - UPGMA (arbre original)

UPGMA, opsines rouges et vertes des mammifères

Arbre D. - UPGMA (arbre modifié)

UPGMA, opsines rouges et vertes des mammifères, bootstrap
	     condense

Arbre E. - Neighbor joining (arbre original)

Neighbor joining, opsines rouges et vertes des mammifères

Arbre F. - Neighbor joining (arbre modifié)

Neighbor joining, opsines rouges et vertes des mammifères,
	     enraciné

Arbre G. - Maximum de vraisemblance (arbre modifié, l'arbre original n'est pas affiché)

Maximum
	   de vraisemblance, opsines rouges et vertes des mammifères, enraciné

Arbre H. - Maximum de vraisemblance (arbre modifié, l'arbre original n'est pas affiché)

Maximum
	     de vraisemblance, opsines rouges et vertes des mammifères,
	     enraciné

Questionnaire - Interprétation des arbres - Opsines rouges et vertes des mammifères

Dans vos réponses aux questions suivantes, désignez simplement les arbres par leur lettre, et non par leur titre complet ou méthode de construction.

  1. Parmi les arbres A à H, quels sont les cladogrammes ?
  2. Parmi les arbres A à H, quels sont les chronogrammes ?
  3. Parmi les arbres A à H, quels sont ceux qui comportent des branches non-résolues ?
  4. Peut-on transformer l’arbre A en phylogramme ? Pourquoi ?
  5. Peut-on transformer l’arbre F en cladogramme ? Pourquoi ?
  6. Quelle est la différence topologique entre les arbres A et B ? Comment peut-on justifier le changement de la topologie dans l’affichage B ?
  7. L’arbre A a été construit par la méthode de maximum de parcimonie, sans aucun modification ultérieure à sa construction. S'agit-il d'un arbre enraciné ?
  8. Les arbres C et D ont été construits à l’aide de la méthode UPGMA, donc ils sont enracinés. La racine est cependant mal placée par cette méthode. Où placeriez-vous la racine ? Justifier votre réponse.
  9. Expliquez pourquoi la méthode UPGMA n’a pas placé correctement la racine.
  10. L’arbre E était construit à l’aide de méthode de Neighbor joining sans aucune modification de l’arbre à posteriori de sa construction. S'agit-il d'un arbre enraciné ?
  11. Existe-t-il des différences de longueurs des branches entre les arbres E et F ? Justifier votre réponse.
  12. Les arbres G et H ont été obtenus en faisant tourner le même algorithme deux fois de suite, sans changer les paramètres. On constate que les valeurs de bootstrap changent. A quoi ce changement est-il dû ?
  13. Comment interprétez-vous une valeur de bootstrap de 50 ?
[Retour à la table des matières]

Inférence de phylogénie des opsines des mammifères

Buts de l'exercice

  1. Avoir un premier aperçu de la construction des arbres phylogénétiques sur base de séquences protéiques.
  2. Apprendre à réconcilier un arbre moléculaire avec l'arbre des espèces correspondant à ces protéines.

Le site http://phylogeny.lirmm.fr/ permet de construire des arbres phylogénétiques à partir des séquences protéiques ou nucléiques. Nous allons utiliser cet outil pour construire un arbre moléculaire des opsines. Nous tenterons ensuite de réconcilier cet arbre moléculaire avec l'arbre des espèces que nous avons créé au début de ce TP.

Le site http://phylogeny.lirmm.fr/ est particulièrement flexible: il permet de choisir, pour chaque étape de l'inférence phylogénique, une méthode particulière, et de régler les paramètres essentiels de chaque algorithme.

La construction des arbres suit les étapes suivantes.

  1. Alignement multiple des séquences.
  2. Curation de l'alignement.
  3. Construction de l'arbre.
  4. Visualisation et manipulations de l'arbre.

[Retour à la table des matières]

Opsines – Alignement multiple

  1. Récupérez le fichier (fasta) des séquences d'opsines de mammifères, que nous avions utilisé au TD4 (alignements multiples) ici.

  2. Connectez-vous à Phylogeny.fr (http://phylogeny.lirmm.fr/).

  3. Choisissez l'option A la carte dans l'onglet Phylogeny Analysis.

  4. Créez un workflow (organigramme, c'est-à-dire une description graphique de l'enchaînement entre programmes bioinformatiques) en cochant/décochant les cases de chaque étape et en choisissant les logiciels pour chaque étape sélectionnée.

    Dans un premier temps, laissez toutes les options par défaut. Quand vous aurez acquis de l'expérience, vous pourrez modifier les paramètres pour analyser leur impact sur la topologie des arbres.

  5. Sélectionnez l'option Step by step pour pouvoir examiner les résultats de chaque étape.

    Nous utilisons l'option "pas à pas" pour pouvoir explorer les paramètres et analyser les résultats intermédiaires à chaque étape. Quand vous aurez acquis une maîtrise suffisante de l'inférence phylogénétique, vous pourrez utiliser l'option all at once, qui fera tourner toutes les analyses et vous avertira par courriel de la complétion de la tâche.

  6. Créez le workflow (bouton Create Workflow)

  7. Cliquez sur Browse pour charger votre fichier fasta sur le site Phylogeny.fr, ou (si vote fichier est de taille raisonnable) copiez les séquences dans la fenêtre prévue.

  8. Nous vous suggérons d'indiquer votre courriel, afin de recevoir un courriel de notification des résultats.

  9. Lancez l'analyse en cliquant sur le bouton submit.

    • Vous pouvez ignorer les éventuels messages d'avertissement (warnings) "sequence #1 name is too long (greater or equal to 80 characters)"

    • Le site Web affiche des onglets correspondant à chaque étape du workflow. Chaque fois qu'une étape est terminée, le lien "Res." devient actif dans l'onglet.

  10. Cliquez sur le lien Res. de l'onglet Alignement. Vérifiez l'alignement pour éliminer éventuellement quelques séquences qui s'alignent mal.

    Quand le fichier de séquence contient quelques séquences très éloignées, la tâche d'alignement multiple est particulièrement difficile. Ces séquences nuisent à la fiabilité de l'alignement, et, indirectement, à l'inférence d'un arbre moléculaire. Il est préférable de les éliminer avant la construction d'arbre phylogénétique. Dans le cas des opsines, la conservation est suffisamment bonne, et couvre l'ensemble des séquences. Nous pouvons donc travailler avec l'ensemble des séquences que nous avons collectées.

  11. Au bas de la page de résultats de l'alignement, cliquez Next Step pour passer à l'étape suivante.

[Retour à la table des matières]

Opsines – Curation de l'alignement

  1. Nous passons maintenant à l'étape dite de curation. Cette étape est optionnelle. Elle permet de "nettoyer" l'alignement multiple, pour n'en retenir que les sites (colonnes de l'alignement) pertinents pour l'inférence phylogénétique qui suivra.

    Dans un alignement multiple la position des gaps est souvent ambiguë, si les séquences ne sont pas fortement conservées. Pour cette raison, il est préférable de se baser sur les blocks (colonnes contigües dans l’alignent) sans gap pour inférer des arbres phylogénétiques.
    Le logiciel Gblock ne fait pas qu'enlever les colonnes de l’alignement avec gaps, mais il élimine aussi les blocks sans gap trop courts, car ces positions se trouvent dans une région de l’alignent relativement peu fiable.

  2. Le site Phylogeny.fr vous propose de changer les paramètres par défaut pour appliquer des conditions plus ou moins exigeantes ("stringent" en anglais) à la sélection des sites (colonnes de l'alignement) qui seront pris en compte lors de la construction de l'arbre.

  3. Laissez tous les paramètres par défaut, et cliquez submit.

Au terme de la curation, l'interface Web vous présente

  1. un alignement coloré (fenêtre Gblocks 0.91b Results). Sur l'alignement multiple après curation, les colonnes de l'alignement retenues pour l'inférence de l'arbre sont soulignée en bleu.
  2. Une série de liens vers les fichiers d'entrée et de sortie.
    • Le fichier "Input raw alignment" contient l'alignement produit par Clustalw (ce résultat est fourni dans un format légèrement différent, appelé "Phylip". Notez que cet alignement contient des gaps.
    • Le fichier "Cured alignment in PHYLIP Format" est limité aux colonnes qui ont été retenues au terme du processus de curation, et qui serviront pour les étapes ultérieures.
  3. Au bas de la page, le bouton Start jalview vous permet de visualiser l'alignement de façon dynamique.
  4. L'arbre guide est affiché.

      Rappel: l'arbre-guide n'est qu'un outil utilisé temporairement pour construire l'alignement, il ne peut pas être interprété comme une inférence de l'histoire évolutive de la famille des opsines.

  5. Une liste de liens vers les fichiers de résultats, en différents formats.

Questionnaire - Curation de l'alignement

  1. Quelle est la longueur totale de l'alignement ?

  2. Combien de colonnes (positions) de l'alignement ont été retenues pour l'inférence phylogénétique ? ("New positions")

  3. Observez de l'alignement produit par la curation (Cured alignment in PHYLIP Format). En quoi cet alignement diffère-t-il de l'alignement original (Input raw alignment) ?

[Retour à la table des matières]

Opsines – Construction et manipulation de l'arbre

  1. Au bas de l'onglet Curation Res, cliquez sur le bouton Next step. Ceci vous amène à l'onglet Phylogeny Set.

  2. Si vous utilisez la méthode de maximum de vraisemblance, choissiez SH-like dans le menu Approximate Likelihood-Ratio Test (aLRT). Si vous utilisez un autre méthode de construction d'arbre phylogénétique, assurez-vous que l'option Bootstrap soit à 0.

    • L'option de bootstrap est fort utile pour mesurer la robustesse de votre arbre, mais elle est gourmande en temps. Pour ce premier essai, nous désactivons l'option de bootstrap, mais pour votre arbre final vous pouvez utiliser cette option.
    • Ils existent les méthodes alternatives pour évaluer les robustesse des branches, qui sont plus rapides que le bootstap, mais moins précises.

  3. Laissez les autres paramètres inchangés, et lancez la construction de l'arbre phylogénétique en cliquant Submit.

    Cette tâche peut prendre quelques minutes, le moment est sans doute venu de prendre une pause.

  4. Après quelques minutes, la page de résultats s'affiche. L'arbre phylogénétique s'affiche dans un format très simple, qui ne permet pas de le manipuler directement (par exemple pour pivoter les branches, renommer les séquences, enraciner l'arbre, ...).

    • En dessous de cette figure, la page de résultat vous présente une série d'options que vous pouvez modifier afin d'adapter le dessin en fonction des résultats, et de vos goûts personnels.
    • Vous pouvez également exporter le résultat sous différents formats, qui vous permettront de les ouvrir avec des logiciels de visualisation et manipulation d'arbres phylogénétiques.

  5. Prenez le temps de découvrir les différentes manipulations possibles avec l'arbre.

  6. Coloriez quelques branches de couleurs différentes, pour pouvoir bien comprendre l'effet des options qui changent l'affichage des branches.

Questionnaire - Construction et manipulation de l'arbre

  1. Quelle option permet d'enraciner l'arbre ?

  2. Quelle option permet de colorier une branche ?

  3. Quelle option permet de pivoter les deux branches descendant d'une branche donnée ?

  4. Quelle option permet de pivoter la descendance complète d'une branche (image miroir) ?

  5. Y a-t-il une ou des options parmi les 4 précédentes qui peuvent changer la topologie de l'arbre ?

  6. Explorez les options de différents styles des arbres (Tree conformation). Changent-elles la topologie de l'arbre ?

[Retour à la table des matières]

Opsines – Visualisation et interprétation de l'arbre

  1. Utilisez le format cladogramme en activant l'option Ignore branch length.

  2. Colorez les branches de votre arbre de manière à associer les couleurs rouge, verte et bleue en accord avec les types d'opsines.

    • Pour colorer une branche, sélectionnez d'abord une couleur (option Dynamic Tree Edition > Color > using color), puis cliquez sur l'icône carrée devant Color, remontez sur le graphique de l'arbre, et cliquez sur la branche que vous voulez colorer.

    • Utilisez la couleur brune pour marquer les opsines pour lesquelles la distinction entre vert et rouge n'est pas établie. Pour la majorité des mammifères il y a un seul gène qui code pour l'opsine verte/rouge. Même s'il sont annotés comme opsines rouge ou verte coloriez les en brun et utilisez les couleur verte est rouge que pour les primates, qui possèdent 2 gènes, un pour le rouge, l'autre pour le vert

    • Pour mieux voir le détail des branchements les plus récents, activez l'option Ignore branch lengths. Ceci affichera le résultat sous forme de cladogramme, ce qui facilitera grandement le coloriage des branches de l'arbre. Vous pourrez ensuite revenir au mode phylogramme pour sauvegarder le résultat final.

    • De manière générale, nous vous recommandons de sauvegarder systématiquement les résultats de vos analyses phylogéniques sous les deux formes (cladogramme et phylogramme), car ces modes de visualisation sont complémentaires.

  3. Dans une fenêtre séparée, ouvrez l'arbre des espèces que vous aviez généré sur l'outil Common tree du site taxonomique du NCBI. Comparez cet arbre des espèces avec le branches bleue et puis avec la branche rouge/verte de votre arbre inféré. Notez particulièrement, si la position des groupes des monotrèmes, primates et eutheria et correcte dans l'arbre inféré.

  4. Enregistrez votre arbre en format pdf.

  5. Soumettez votre arbre en format pdf par le lien prévu sur le site Ametice (Arbre phylogénétique)

Questionnaire - Interprétation de l'arbre

  1. L'événement le plus ancien dans l'arbre est-il une duplication ou une spéciation ?

  2. Pouvez-vous donner un nom à chacune des deux branches qui descendent de cet événement, pour indiquer ce qui distingue leurs descendants ?

  3. Parmi les termes homologue, paralogue, orthologue, et xénologue, lequel est le plus approprié pour décrire la relation entre les paires de séquences suivantes:

    • opsine bleue de l'ornithorynque et opsine rouge de l'homme
    • opsines bleue et rouge de l'ornithorynque
    • opsines bleue et rouge de l'homme
    • opsines verte et rouge de l'homme
    • opsines bleues de l'ornithorynque et de l'homme
    • opsine rouge de l'ornithorynque et opsine verte de l'homme

    Au le cas où vous avez de difficulté d’identifier les duplications et spéciations, car l’arbre ne correspond pas à l’histoire évolutive des opsines, basez-vous sur vos connaissances de l’évolution des opsines.

  4. Le temps de divergence entre les opsines bleue et rouge de l'ornithorynque est-il plus grand, plus petit ou égal au temps de divergence entre l'opsine bleue de l'ornithorynque et l'opsine rouge de l'homme ?

  5. Comparez la branche de l'opsine bleue de votre arbre PhyML avec l'arbre que vous avez construit à l'aide de NCBI-Taxonomy (arbre vrai).

  6. Comparez la branche de l'opsine verte/rouge de votre arbre PhyML avec l'arbre que vous avez construit à l'aide de NCBI-Taxonomy (arbre vrai). Commentez la position des groupes des Monotrèmes, Marsupiaux et Euthériens.

  7. Commentez la position des opsines vertes et rouges des primates dans l'arbre.

[Retour à la table des matières]
Emese Meglécz (IMBE, Aix-Marseille Université) & Jacques van Helden (TAGC, Aix-Marseille Université).