AMU  :: Sciences et Humanités - L2  :: Nature et culture  :: année 2014/2015

Phylogénie moléculaire - TD2
Alignements de séquences


Contenu

[Retour à la table des matières]

Prérequis

[Retour à la table des matières]

Introduction

Lors du TD1, nous avons appris à formuler des requêtes structurées dans la base de données Uniprot, afin obtenu les informations concernant une série de protéines d'intérêt (des opsines de différents mammifères). Nous avons ensuite téléchargé la séquence d'une opsine, et utilisé l'outil BLAST afin de chercher les séquences similaires dans une base de données de séquences protéiques.

Dans ce TD, nous poursuivons cette analyse en réalisant deux types d'alignements entre séquences d'opsines.

  1. Les alignements par paires seront utilisés pour mesurer les similarités et différences entre opsines sensibles à différentes longueurs d'ondes (bleu, vert ou rouge) chez deux espèces particulières (humain et souris).
  2. Nous réaliserons ensuite un alignement multiple d'opsines sensibles à différentes couleurs (bleu, vert, rouge) chez quelques mammifères choisis. Dans un premier temps, nous analyserons cet alignement multiple pour identifier les acide aminés associés aux différences de sensibilité spectrale. Lors du prochain TD, nous générerons un nouvel alignement multiple qui servira de base pour inférer un arbre phylogénique des opsines de mammifères.

[Retour à la table des matières]

Rappel des objectfs

  1. TD1. Apprendre à formuler une requête structurée pour obtenir la liste des séquences d'opsines dans une base des données.

  2. TD1. Effectuer une recherche par similarité de séquences.

  3. TD2. Réaliser un alignement par paire: aligner deux séquences particulières afin d'identifier les régions conservées et divergentes, et de quantifier leur degré de similarité.

  4. TD2. Réaliser un alignement multiple: aligner plusieurs séquences d'opsines pour pouvoir effectuer une comparaison globale, et identifier les différences de séquences associées à la spécificité fonctionnelle (sensibilité à différentes longueur d'ondes).

  5. TD3. Inférer un arbre phylogénétique des opsines des mammifères pour pouvoir retracer l'évolution des opsines et les espèces. Effectuer une réconciliation entre cet arbre moléculaire et l'arbre des espèces, afin d'identifier les événements de spéciation et duplication.

[Retour à la table des matières]

Contrôle des connaissance

Les tutoriels sont entrecoupés de questions auxquelles vous pouvez répondre en un ou quelques mots. Nous vous indiquerons, au fil de ce TD, les moments où il vous faudra encoder les réponses dans les questionnaires du site Ametice.

[Retour à la table des matières]

Analyse des similarités entre opsines de différentes espèces

Buts de cet exercice

Dans cet exercice, nous allons aligner les séquences par paires, et mesurer le degré de similarité entre elles. Pour cela, nous évaluerons les différents scores (scores en bits, % d'identité, % de similarité).

Etant donné la similarité fonctionnelle entre les protéines analysées (toutes des opsines), on s'attend a priori à ce que la similarité couvre l'ensemble des séquences. Nous allons donc utiliser le logiciel needle, qui aligne deux séquences sur toutes leurs longueurs (alignement global), en utilisant l'algorithme de Neeleman-Wunsch.

  1. Téléchargez de Swissprot les séquences protéiques des opsines vertes et bleue de la souris et l'opsine bleue humaine.

    1. Ne sélectionnez que les séquences de la base de données SwissProt (la section d’Uniprot qui contient des séquences revues par les annotateurs, contrairement aux autres protéines qui sont annotées de façon automatique sur base de recherches de similarités de séquences).
    2. Dans Uniprot, utilisez l'option "Advanced search" pour collecter les séquences spécifiques d'un organisme (voir TD1).
    3. Attention! Uniprot contient certaines séquences courtes, qui ne correspondent qu'à des fragments de la protéine complète. Ces fragments peuvent facilement être incorporés dans un alignement, mais les statistiques de similarité ne refléteront pas la situation biologique réelle. Pour cet exercice, nous allons écarter les séquences fragmentaires. A cet effet, vous pourriez ajouter, dans les paramètres avancés, une contrainte sur la longueur de la séquence (acceptez les séquences de 300 à 1000 résidus).
  2. Alignez l'opsine bleue de la souris avec l'opsine bleue humaine, et avec l'opsine verte de la souris (vous devrez donc effectuer séparément 2 alignements par paires), en utilisant les paramètres par défaut de needle.

    Pour chaque résultat, notez les valeurs des

    • scores bruts
    • % d'identité
    • % de similarité
    • % des gaps

    • Comme à priori on ne connaît pas le pourcentage d’identité entre les séquences on choisit une matrice de substitution prévue pour les séquences d’un pourcentage d'identité modéré.
    • Needle suggère par défaut la matrice BLOSUM62. (Cliquer sur le bouton "More options" dans "STEP2" pour voir les paramètres). Cette matrice est destinée pour la comparaison de protéines présentant au moins 62% d’identité.

  3. Observez le pourcentage d’identité entre chaque paire de protéines, et réalignez les si vous jugez qu’une autre matrice de substitution conviendrait mieux. Faite les nouveaux alignements dans des fenêtres séparées, pour pouvoir les comparer.

  4. Questionnaire : Alignement global avec l’algorithme Needleman et Wunsch

    1. Identifiant ("Entry") Uniprot de l'opsine bleue (SWS) humaine
    2. Identifiant de l'opsine bleue (SWS) de souris
    3. Identifiant de l'opsine verte (MWS) de souris
    4. Quel est la signification des signes suivants dans les alignements produits par "needle"
      1. -
      2. :
      3. |
    5. Alignement des opsines bleues de souris et d'humain avec les paramètres par défaut
      1. Pourcentage d'identités de l’alignement par défaut
      2. Pourcentage de similarités de l’alignement par défaut
      3. Pourquoi le % de similarité est-il plus élevé que le % d’identité ?
      4. Quel est la longueur de l’alignement ?
      5. Quel est la longueur l’opsine bleue de la souris ?
      6. Quel est le 45ème aa de l’opsine bleue de la souris ?
      7. Quelle est la position de cet acide aminé dans l’alignement ?
    6. Alignement des opsines bleues de souris et d'humain avec la matrice de substitution la mieux adaptée à cet alignement
      1. Matrice de substitution choisie
      2. Pourcentage d'identité de l’alignement avec la nouvelle matrice
      3. Pourcentage de similarité de l’alignement avec la nouvelle matrice
      4. On constate que les deux alignements sont identiques. Expliquez à quoi le changement de pourcentage de similarité est dû.
      5. Pouvez-vous utiliser le score de l’alignement pour choisir entre ces deux alignements ?
    7. Alignement des opsines bleue et verte de la souris
      1. Pourcentage d'identité de l’alignement par défaut
      2. Pourcentage de similarité de l’alignement par défaut
      3. Matrice de substitution choisie
      4. Pourcentage d'identité de l’alignement avec la nouvelle matrice
      5. Pourcentage de similarité de l’alignement avec la nouvelle matrice
      6. Score de l’alignement avec la nouvelle matrice
      7. Lequel des deux alignements préférez-vous pour les opsines verte et bleue de la souris ? Expliquez.
[Retour à la table des matières]

Alignements multiples des opsines des mammifères

Buts de cet exercice

Dans cet exercice, nous allons réaliser un alignement multiple de séquences des opsines de mammifères sensibles à des longueurs d'ondes différentes, afin d'identifier les régions conservées et variables entre ces protéines. Sur base de cet alignement, nous tenterons ensuite d'identifier les résidus associés à la spécificité de la perception.

Au cours du TD précédent, chaque étudiant a effectué des recherches par mots-clés dans Uniprot pour collecter les séquences peptidiques d'une série d'opsines de mammifères. Nous avons appliqué le même protocole et sélectionné 36 séquences protéiques des opsines, à partir desquelles nous allons réaliser un alignement multiple pour

  1. identifier les résidus susceptibles d'intervenir dans la spécificité de longueur d'onde;
  2. préparer une étude phylogénétique afin d'inférer l'évolution des opsines chez les mammifères.

Protocole

  1. Cliquez ici pour télécharger le fichier fasta avec la sélection des opsines bleues, rouges et vertes des mammifères.
  2. Le format FASTA est un format de fichier texte utilisé pour stocker des séquences biologiques de nature nucléique ou protéique.

    Pour chaque séquence, le fichier fasta contient une ligne d'identification qui commence par le signe >, suivi immédiatement par l'identifiant de la séquence puis par au moins un espace et les éventuels informations supplémentaires. Les lignes suivantes contiennent la séquence elle-même.

  3. Dans une fenêtre séparée, connectez-vous à l'outil ClustalW de l'EBI.

  4. Lancez un alignement multiple avec votre fichier contenant les opsines en utilisant les paramètres par défaut.

  5. Alignez les mêmes séquences sur le site Clustal du PBIL (Pôle Bioinformatique Lyonnais).

  6. Affichez les couleurs sur la page de résultat.

  7. Le serveur du PBIL est rapide, et la page de résultats présente des informations complémentaires à celui de l'EBI. En particulier, la page de résultats du PBIL présente l'avantage d'afficher les positions relatives à l'alignement (colonnes de l'alignement), plutôt que par rapport aux séquences individuelles. Ceci vous aidera à répondre à plusieurs questions du questionnaire 2.

Interprétation de l'alignement

Questionnaire 2 : Alignement des opsines de mammifères

  1. Quelle est la taille de la séquence la plus longue de votre alignement ?

  2. A quel(s) organisme(s) ces séquences appartiennent-elles ?

  3. Quelle est la longueur de l'alignement ?

  4. Combien de sites parfaitement conservés (résidus identiques dans toutes les séquences) avez-vous trouvé dans l'alignement ?

  5. Quel est le 100ème résidu de la séquence d'opsine bleue humaine ?

  6. A quelle position se trouve ce résidu dans l'alignement ?

  7. Quelles sont les coordonnées de la région conservée (nous définirons ici le concept de "région conservée" comme une succession contiguë de résidus identiques, fortement ou faiblement conservés) la plus large dans l'alignement des opsines de mammifères ?

  8. Indiquez quelques positions qui discriminent les opsines sensibles au bleu des opsines sensible au vert/rouge, et décrivez les différences.

  9. Sur quel critère avez-vous identifié (ou tenté d'identifier) ces positions ?

  10. Votre alignement comporte-t-il un gap qui différencie (en partie ou complètement) les opsines bleues des opsines rouges/vertes ? Si oui, indiquez sa position relative à l'opsine bleue humaine.

[Retour à la table des matières]

Interpréter la e-valeur d'un résultat de BLAST

Nous avons vu au TD1 que BLAST caractérise chaque hit par une série de scores: score brut, pourcentages d'identités, de positifs, expect, etc. Afin de comprendre la signification d'un hit, il est essentiel de pouvoir interpréter ces scores.

A partir de quel moment peut-on considérer qu'un hit est significatif ? Peut-on définir un pourcentage d'identité ou de similarité au-delà duquel les alignements correspondent à de "vraies" homologies, et les pourcentages plus bas à des ressemblances fortuites ? Est-il plus significatif d'observer un pourcentage de similarité élevé sur une séquence courte ou un pourcentage plus faible sur une séquence longue ? La réponse à ces questions n'est pas triviale.

Nous avons constaté que l'outil BLAST trie les résultat par valeur croissante de la e-valeur expect (aussi appelé e-value pour expected value).

Test empirique de la e-valeur avec des séquences aléatoires

  1. Connectez-vous au site web Regulatory Sequence Analysis Tools (RSAT, http://rsat.ulb.ac.be/rsat/), et utilisez l'outil random sequence (qui se trouve dans Sequence tools) pour générer une séquence aléatoire de la même longueur que l'opsine verte de la souris, en choisissant un modèle de fond afin d'obtenir une composition en dipeptide semblable à celle des protéines de la souris. Pour cela, activez les options suivantes dans le cadre background model :

    1. Consultez dans Uniprot la longueur de l'opsine verte de la souris, et indiquez sa valeur dans l'option Sequence length.
    2. Indiquez la valeur 1 pour l'option Number of sequences.
    3. Organism: 'Mus musculus EnsEMBL' [sans numéro]
    4. Cochez l'option Protein sequences calibrated on ....
    5. Selectionnez 2 pour l'option Oligopeptide size.

  2. Utilisez l'outil protein blast du NCBI BLAST (http://blast.ncbi.nlm.nih.gov/) pour rechercher des protéines similaires à cette séquence aléatoire, dans les bases de données suivantes:

    • Non-redundant database (NR)
    • UniprotKb/Swiss-Prot
    • UniprotKb/Swiss-Prot restreint aux protéines de la souris
    Attention, il est possible que le formulaire de BLAST affiche toujours les paramètres sélectionnés lors de votre dernière requête. Avant de réaliser cette analyse, assurez-vous que les paramètres de blast soient remis à leurs valeurs par défaut
    • Expect threshold = 10.
    • La case Organism doit être vide.

Questionnaire: séquences aléatoires

  1. Copiez ici votre séquence aléatoire en format fasta

  2. Quel est le seuil de la e-valeur recherchée par Blast de NCBI ?

  3. Avec cette e-valeur, combien de hits vous attendriez-vous à obtenir en soumettant une séquence aléatoire ?

  4. Combien de hits BLAST trouve-t-il pour votre séquence aléatoire:

  5. dans la base de données non-redondantes ?
  6. dans UniprotKB/Swissprot ?
  7. dans la base de UniprotKB/Swissprot, en restreignant l'analyse aux protéines de la souris ?
  8. Commentez les résultats, en termes de longueurs des alignements trouvés, de pourcentages d'identité et de similarité, et d'expect score.

[Retour à la table des matières]

Ressources

Ce TD est basé sur les ressources suivants.

Acronym Type+URL Description+URL
UniProt Protein sequences
http://www.uniprot.org/
UniProt - the Universal Protein Resource
Entrez Multi-database
http://www.ncbi.nlm.nih.gov/Entrez/
A collection of biomolecular databases maintained at the NCBI (USA), accessible via an interface called Entrez.
PSA Sequence alignment
http://www.ebi.ac.uk/Tools/psa/
EBI Pairwise Sequence Alignment tools (needle, water, ...)
BLOSUM Substitution matrices
ftp://ftp.ncbi.nih.gov/repository/blocks/unix/blosum/blosum.tar.Z
Series of BLOSUM matrices in various formats, with all the detail of computation + the software to build them.
clustalw for proteins (PBIL site) http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html Web interface to clustalw, with nice visualization options, in particular the possibility to highlight conserved, or divergent residues.
clustalw for DNA (PBIL site) http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_clustalwan.html
clustalw (EBI site) http://www.ebi.ac.uk/Tools/msa/clustalw2/ Web interface to clustalw, with the possibility to visualize the guide tree.
RSAT http://rsat.ulb.ac.be/rsat/ Regulatory Sequence Analysis Tools (used here for another purpose: the tool "random sequence" can generate random peptidic sequences calibrated on oligopeptide frequencies (1, 2, or 3-mers) of a given organism).
[Retour à la table des matières]
Emese Meglécz (IMBE, Aix-Marseille Université) & Jacques van Helden (TAGC, Aix-Marseille Université).