AMU  :: Sciences et Humanités - L2  :: Nature et culture  :: année 2014/2015

Inférence phylogénétique


Contenu

[Retour à la table des matières]

Prérequis

Ce TD repose sur le cours suivant.

[Retour à la table des matières]

Resources

Name Link Description
Phylogeny.fr http://www.phylogeny.fr/
ou
http://phylogeny.lirmm.fr/
Taxonomy based tree for a list of species
Common Tree, NCBI http://www.ncbi.nlm.nih.gov/Taxonomy/CommonTree/wwwcmt.cgi Phylogeny.fr - Robust Phylogenetic Analysis For The Non-Specialist.
Tree of life Web Project http://tolweb.org/tree/ The Tree of Life Web Project (ToL) is a collaborative effort of biologists and nature enthusiasts from around the world. ToL pages are linked one to another hierarchically, in the form of the evolutionary tree of life. Starting with the root of all Life on Earth and moving out along diverging branches to individual species, the structure of the ToL project thus illustrates the genetic connections between all living things.
[Retour à la table des matières]

Objectifs

L'objectif général de ce TD est de donner une vision sommaire des méthodes de phylogénie moléculaire.

Objectifs particuliers

  1. Appliquer une ou deux méthodes d'inférence phylogénétique.
  2. Apprendre à évaluer la robustesse d'un arbre phylogénétique (estimé par l'approche dite du bootstrap).
  3. Comprendre la relation entre un arbre des espèces et un arbre des molécules, et le principe de la réconciliation entre ces deux arbres.

[Retour à la table des matières]

L'arbre des espèces

Extraction d'un arbre pour les espèces sélectionnées

But de l'exercice: extraire un arbre restreint aux espèces correspondant aux opsines de notre sélection.

Nous avions sélectionné 24 opsines, appartenant à 11 espèces des mammifères. Nous allons construire un arbre phylogénique qui reflétera le scénario le plus vraisemblable concernant l'histoire évolutive de ces espèces, en nous basant sur la taxonomie générale des mammifères.

Pour ce faire, nous allons utiliser un outil très pratique appelé Common Tree, disponible sur le site taxonomique du NCBI.

  1. Récupérez le fichier texte contenant le nom latin des espèces sélectionnées ICI, et sauvegardez-en une copie sur votre ordinateur.
  2. Connectez-vous à la base de données taxonomique du NCBI.

  3. Dans la liste Taxonomy tools, cliquez sur le lien Common tree.

  4. A ce stade, deux alternatives s'offrent à vous.

    1. Entrer les noms d'espèces un à un dans la boîte Enter name or id, en cliquant Add pour chaque nom. Vous verrez ainsi l'arbre se dessiner progressivement.
    2. Entrer le fichier texte contenant la liste des espèces de votre sélection. Pour cela, cliquez Parcourir, localisez le fichier sur votre disque dur, puis cliquez Add. L'arbre complet devrait alors apparaître.

    Vous pouvez cacher ou afficher les taxa intermédiaires à l'aide des boutons Expand All et Collapse All, ou en cliquant sur les signes + et devant les noms des taxa.

  5. Sauvegardez la page Web de résultat, nous l'utiliserons pour un exercice ultérieur, afin d'effectuer la réconciliation entre l'arbre moléculaire des opsines et cet arbre des espèces.
  6. Dessinez sur un papier la topologie de l'arbre des espèces, dont vous vous servirez plus tard pour l'étape de réconciliation entre abre des espèces et arbre moléculaire.

    Il n'est pas nécessaire d'indiquer tous les noms des groupes taxonomiques, vous pouvez vous contenter d'indiquer les noms des OTU.

Questionnaire 1 - Extraction d'un arbre de NCBI-Taxonomy

  1. Quelle est l'espèce la plus proche de la souris (Mus musculus) selon cet arbre ? Au cas où plusieurs espèces seraient équidistantes, indiquez-les toutes.
  2. Quelle est l'espèce la plus proche de la chauve-souris Pteropus alecto selon cet arbre ? Au cas où plusieurs espèces seraient équidistantes, indiquez-les toutes.
  3. Quel est le plus petit groupe taxonomique commun au cochon (Sus scrofa) et à la vache (Bos taurus) selon cet arbre ?
[Retour à la table des matières]

Inférence de phylogénie des opsines des mammifères

Buts de l'exercice

  1. Avoir un premier aperçu de la construction des arbres phylogénétiques sur base de séquences protéiques.
  2. Apprendre à réconcilier un arbre moléculaire avec l'arbre des espèces correspondant à ces protéines.

Le site phylogeny.fr permet de construire des arbres phylogénétiques à partir des séquences protéiques ou nucléiques. Nous allons utiliser cet outil pour construire un arbre moléculaire des opsines. Nous tenterons ensuite de réconcilier cet arbre moléculaire avec l'arbre des espèces que nous avons créé ci-dessus.

Le site phylogeny.fr est particulièrement flexible: il permet de choisir, pour chaque étape de l'inférence phylogénique, une méthode particulière, et de régler les paramètres essentiels de chaque algorithme.

La construction des arbres suit les étapes suivantes :

  1. Alignement multiple des séquences
  2. Curation: nettoyage de l'alignement, en sélectionnant les séquences (lignes d'alignement) et sites (colonnes d'alignement) valides pour la construction phylogénétique.
    • Quand les séquences sont très éloignées, la tâche d'alignement multiple est particulièrement difficile. Ces séquences nuisent à la fiabilité de l'arbre. Il est préférable de les éliminer avant la construction d'arbre phylogénétique.
    • Dans le cas des opsines, la conservation est suffisamment bonne, et couvre l'ensemble des séquences. Nous pouvons donc travailler avec l'ensemble des séquences que nous avons collectées.
    • Dans certains cas, les colonnes de l'alignement contenant des gaps peuvent perturber la construction des arbres, donc il est aussi préférable de les enlever avant de procéder à l'inférence.
  3. Construction de l'arbre
  4. Visualisation et manipulations de l'arbre

[Retour à la table des matières]

Opsines – Alignement multiple

  1. Récupérez le fichier (fasta) des séquences d'opsines de quelques mammifères ici.

    En ouvrant ce fichier, vous pourrez constater que nous avons édité les en-têtes fasta pour remplacer les identifiants de séquences par des noms lisibles (type d'opsine et nom commun de l'organisme). En effet, c'est l'identifiant fasta qui sera affiché sur les arbres phylogénétiques, il est donc important qu'il soit facilement interprétable par un être humain.

  2. Connectez-vous à Phylogeny.fr (http://www.phylogeny.fr/).

  3. Choisissez l'option A la carte dans l'onglet Phylogeny Analysis.

  4. Créez un workflow (organigramme, c'est-à-dire une description graphique de l'enchaînement entre programmes bioinformatiques) en cochant/décochant les cases de chaque étape et en choisissant les logiciels pour chaque étape sélectionnée. Dans un premier temps, laissez toutes les options par défaut:

    1. construire un alignement multiple avec MUSCLE;
    2. nettoyer l'alignement par Gblocks;
    3. construire un arbre avec le méthode de Maximum de vraissemblance (PhyML);
    4. manipuler l'arbre inféré à l'aide de TreeDyn.

  5. Sélectionnez l'option Step by step pour pouvoir examiner les résultats de chaque étape.

    Nous utilisons cette option "pas à pas" pour pouvoir explorer les paramètres et analyser les résultats intermédiaires à chaque étape. Quand vous aurez acquis une maîtrise suffisante de l'inférence phylogénétique, vous pourrez utiliser l'option all at once, qui fera tourner toutes les analyses et vous avertira par email quand la tâche aura été effectuée.

  6. Créez le workflow (bouton Create Workflow)

  7. Cliquez sur Browse pour charger votre fichier fasta sur le site Phylogeny.fr, ou (si votre fichier est de taille raisonnable) copiez les séquences dans la fenêtre prévue.

  8. Nous vous suggérons d'indiquer votre adresse email, afin de recevoir un courriel de notification des résultats.

  9. Lancez la première étape (alignement) avec le bouton submit.

  10. Vous pouvez ignorer les éventuels messages d'avertissement (warnings) "sequence #1 name is too long (greater or equal to 80 characters)"

  11. Quand l'alignement sera terminé, la page web affichera, en-dessous de l'alignement, une série de liens vers les fichiers de résultats en différents formats.

[Retour à la table des matières]

Opsines – Nettoyage (Curation) de l'alignement

Nous passons maintenant à l'étape dite de curation (nettoyage). Cette étape est optionnelle. Elle permet de "nettoyer" l'alignement multiple, pour n'en retenir que les sites (colonnes de l'alignement) pertinents pour l'inférence phylogénétique qui suivra. Le site Phylogeny.fr vous propose de changer les paramètres par défaut pour appliquer des conditions plus ou moins "stringentes" (exigeantes) à la sélection des sites (colonnes de l'alignement) qui seront pris en compte lors de la construction de l'arbre.

  1. Appuyez sur Next Step pour passer à l'étape suivante.

  2. Laissez tous les paramètres par défaut, et cliquez submit.

Au terme de la curation, l'interface Web vous présente

  1. Un alignement coloré (fenêtre Gblocks 0.91b Results). Sur l'alignement multiple après curation, les colonnes retenues de l'alignement pour l'inférence de l'arbre sont soulignées en bleu.
  2. Une série de liens vers les fichiers d'entrée et de sortie.
  3. L'arbre guide est affiché.
      Rappel: l'arbre-guide ne peut pas être interprété comme une inférence de l'histoire évolutive de la famille des opsines.

Questionnaire 2 : Curation de l'alignement

  1. Quelle est la longueur totale de l'alignement ?
  2. Combien de colonnes (positions) de l'alignement ont été retenues pour l'inférence phylogénétique ? ("New positions")
  3. Observez l'alignement produit par la curation (Cured alignment in PHYLIP Format). En quoi cet alignement diffère-t-il de l'alignement original (Input raw alignment) ?
[Retour à la table des matières]

Opsines – Construction et manipulation de l'arbre

  1. Au bas de l'onglet Curation Set, cliquez sur le bouton Next step. Ceci vous amène à l'onglet Phylogeny Set.

  2. Laissez les autres paramètres inchangés, et lancez la construction de l'arbre phylogénétique en cliquant Submit.

  3. Après quelques minutes, la page de résultats s'affiche. L'arbre phylogénétique s'affiche dans un format très simple, qui ne permet pas de le manipuler directement (par exemple pour pivoter les branches, renommer les séquences, enraciner l'arbre, ...).

  4. Cliquez sur le bouton Next step et puis sur Submit pour visualiser l'arbre avec un outil dynamique, qui vous permettra de modifier l'affichage.

  5. Maintenant en-dessous de l'arbre, la page de résultat vous présente une série d'options que vous pouvez modifier afin d'adapter le dessin en fonction des résultats, et de vos goûts personnels.

  6. Vous pouvez également exporter le résultat sous différents formats, qui vous permettront de les ouvrir avec des logiciels de visualisation et manipulation d'arbres phylogénétiques.

  7. Prenez le temps de découvrir les différentes manipulations possibles de l'arbre.

  8. Coloriez quelques branches de couleurs différentes, pour pouvoir bien comprendre l'effet des options qui changent l'affichage des branches.

Questionnaire 3 : Construction et manipulation de l'arbre

  1. Quelle option permet d'enraciner l'arbre ?
  2. Quelle option permet de colorier une branche ?
  3. Quelle option permet de pivoter les deux branches descendant d'une branche donnée ?
  4. Quelle option permet de pivoter la descendance complète d'une branche (image miroir) ?
  5. Y a-t-il une ou des options parmi les 4 précédentes qui peuvent changer la topologie de l'arbre ?
  6. Explorez les options de différents styles des arbres (Tree conformation). Changent-elles la topologie de l'arbre ?
[Retour à la table des matières]

Opsines – Visualisation et interprétation de l'arbre

  1. Enracinez votre arbre.

  2. Utilisez le format cladogramme en activant l'option Ignore branch length.

  3. Colorez les branches de votre arbre de manière à associer les couleurs rouge, verte et bleue en accord avec les types d'opsines.

    • Pour mieux voir le détail des branchements les plus récents, activez l'option Ignore branch lengths. Ceci affichera le résultat sous forme de cladogramme, ce qui facilitera grandement le coloriage des branches de l'arbre. Vous pourrez ensuite revenir au mode phylogramme pour sauvegarder le résultat final.
    • De manière générale, nous vous recommandons de sauvegarder systématiquement les résultats de vos analyses phylogéniques sous les deux formes (cladogramme et phylogramme), car ces modes de visualisation sont complémentaires.
    • Pour colorer une branche et/ou une étiquette, sélectionnez d'abord une couleur (option Dynamic Tree Edition > Color > using color), puis cliquez sur l'icône carrée devant Color, remontez sur le graphique de l'arbre, et cliquez sur la branche que vous voulez colorer. En sélectionnant leaf ou branch vous pouvez colorier les étiquettes, les branches ou les deux.
  4. Enregistrez votre arbre en format pdf.

  5. Soumettez votre arbre par le lien prévu sur le site d'Ametice (Arbre phylogénétique (format pdf))

Questionnaire 4 : Interprétation de l'arbre

  1. L'événement le plus ancien dans l'arbre est-il une duplication ou une spéciation ?

  2. Pouvez-vous donner un nom à chacune des deux branches qui descendent de cet événement, pour indiquer ce qui distingue leurs descendants ?

  3. Le temps de divergence entre les opsines bleue et rouge de l'ornithorynque est-il plus grand, plus petit ou égal au temps de divergence entre l'opsine bleue de l'ornithorynque et l'opsine rouge de l'homme ?

  4. Au vu de l'arbre phylogénétique, comment pouvez-vous expliquer que la similarité est plus grande entre les opsines rouges des espèces différentes qu'entre opsine bleue et opsines rouge du même espèce.

[Retour à la table des matières]

Opsines – Bootstrap et comparaison des arbres NJ et Maximum de parsimonie

Questionnaire 5 - Comparaison des arbres UPGMA et Maximum de vraisemblence (PhyML), bootstrap

  1. Avez-vous des nœuds avec des valeurs de bootstrap plus petites que 50 dans l'arbre UPGMA ? Lesquels ?
  2. Comment interprétez-vous une valeur de bootstrap de 50 ?
  3. Lequel des deux arbres inférés (UPGMA ou PhyML) reflète le mieux les duplications des opsines ?
  4. Comparez la branche de l'opsine bleue de votre arbre PhyML avec 'l'arbre vrai' que vous avez construit à l'aide de l'outil Common Tree dans l’exercice 1.
  5. Comparez la branche de l'opsine bleue de l'arbre UPGMA avec 'l'arbre vrai' que vous avez construit à l'aide de l'outil Common Tree dans l’exercice 1.
[Retour à la table des matières]
Emese Meglécz (IMBE, Aix-Marseille Université) & Jacques van Helden (TAGC, Aix-Marseille Université).