AMU  :: Sciences et Humanités - L2  :: Nature et culture  :: année 2014/2015

Phylogénie moléculaire - TD1
Bases de données et recherche par similarité de séquences


Contenu

[Retour à la table des matières]

Prérequis

Le matériel de support est disponible ici.

Lors du premier cours, nous avons présenté une introduction aux concepts biologiques liés à la vision des couleurs, et commencé à fournir les premiers éléments pour l'analyse bioinformatique des séquences.

  1. La vision des couleurs
  2. Bases de données biologiques
  3. Alignement par paire
  4. Matrice de substitution
  5. Recherche de séquences par similarité

Nous n'avons pas eu le temps d'approfondir ces concepts,mais nous reviendrons dessus pendant les séances de TP.

[Retour à la table des matières]

Introduction

Pendant le cours, nous avons vu que la perception des couleurs repose sur une famille de protéines spécialisées appelées opsines, qui sont exprimées dans les cellules-cônes de la rétine.

La plupart des mammifères ont une vision dichromatique, dans laquelle interviennent deux opsines:

La vision trichromatique est apparue chez les primates de l'ancien monde, du fait d'une duplication de l'opsine MWS/LWS, suivie d'une spécialisation de chacune des copies. On trouve donc chez ces espèces trois opsines:


[Retour à la table des matières]

Objectifs des TD

Le but de cette série de TD sera d'utiliser une série de méthodes bioinformatiques afin de retracer l'évolution des opsines chez les mammifères. En particulier, nous tenterons d'identifier les événements évolutifs qui ont présidé à l'apparition de la vision trichromatique chez les primates de l'ancien monde.

Objectifs spécifiques

Convention: nous adoptons un style particulier pour introduire les concepts. Pour plus d'information, consultez la page de définition des concepts.

  1. TD1. Apprendre à formuler une requête structurée pour obtenir la liste des séquences d'opsines dans une base des données.

  2. TD1. Effectuer une recherche par similarité de séquences.

  3. TD2. Réaliser un alignement par paire: aligner deux séquences particulières afin d'identifier les régions conservées et divergentes, et de quantifier leur degré de similarité.

  4. TD2. Réaliser un alignement multiple: aligner plusieurs séquences d'opsines pour pouvoir effectuer une comparaison globale, et identifier les différences de séquences associées à la spécificité fonctionnelle (sensibilité à différentes longueur d’ondes).

  5. TD3. Inférer un arbre phylogénétique des opsines des mammifères pour pouvoir retracer l’évolution des opsines et les espèces. Effectuer une réconciliation entre cet arbre moléculaire et l'arbre des espèces, afin d'identifier les événements de spéciation et duplication.

[Retour à la table des matières]

Contrôle des connaissances

Les tutoriels sont entrecoupés de questions auxquelles vous pouvez répondre en un ou quelques mots. Nous vous indiquerons, au fil de ce TD, les moments où il vous faudra encoder les réponses dans les questionnaires du site EduBio.


[Retour à la table des matières]

UniprotKb/Swiss-prot, base de données de séquences protéiques

Buts de ce tutoriel

Tips

  1. Comme pour les autres bases de données, il est vivement recommandé d'utiliser les requêtes structurées (Advanced search), pour formuler une requête initiale ou pour la raffiner progressivement.

  2. Pour certains champs (par exemple Organism, ou Taxonomy), l'interface d'Uniprot dispose d'un mécanisme de complétion automatique:

    Quand vous tapez les premières lettres de votre requête, toutes les valeurs qui commencent par ces lettres vous sont présentées. Cette fonctionnalité est particulièrement utile pour les champs dont le contenu est restreint à une liste de valeurs précises (noms d'organismes, groupes taxonomiques), ou est défini par un vocabulaire contrôlé (par exemple Gene Ontology).

Tutoriel

Note: Les questions qui apparaissent sur fond rose se trouvent dans le questionnaire téléchargeable de site d’EduBIO. Nous vous conseillons d'entrer vos réponses dans le questionnaire au fur et à mesure. Si vous êtes coincé à un endroit du tutoriel, vous pouvez cependant tenter de passer aux étapes suivantes, quitte à revenir sur une question un peu plus tard.

  1. Dans un onglet séparé, ouvrez une connexion à la base de données Uniprot.

  2. Affichage du nombre d'entrées sélectionnées.
    Cliquez immédiatement sur le bouton Search sans entrer aucune valeur dans la boîte de requêtes (Query). En toute logique, le serveur sélectionne la liste complète des entrées de la base de données. Au-dessus de la table de résultats, vous pouvez noter le nombre d'entrées revues par des annotateurs de l'équipe Swiss-prot (reviewed), et le nombre d'entrées annotées automatiquement par l'outil TREMBL (unreviewed), et qui n'ont fait l'objet d'aucune vérification par un être humain.
  3. Questionnaire 1.1 - Taille de la base de données Uniprot
    1. Combien de protéines contient la base de données UniprotKB ?
    2. Parmi ces protéines, combien ont été révisées par un être humain ?
  4. Requête naïve
    Dans la boîte de requêtes (Query), tapez une série de mots-clés pour sélectionner les opsines humaines (par exemple human opsin). Combien de résultats obtenez-vous ?

  5. Nombre d'entrées affichées
    Par défaut, le site Web Uniprot vous affiche les résultats par groupes de 25. Vous pouvez augmenter le nombre de résultats affichés au moyen du menu Show au coin supérieur droit de la table de résultats.

    Sélection des champs à afficher dans le tableau de résultats.
    L'interface d'Uniprot vous permet également de sélectionner les "champs" (types d'informations) à afficher. Au sommet du tableau de résultats, cliquez sur le lien Columns.

    • Cliquez sur le titre Taxonomic lineage.
    • Uniprot vous présente une liste de niveaux taxonomiques: sélectionnez classe, ordre et famille.
    • Au sommet de la page, cliquez Save.

    La table de résultats est mise à jour, avec l'ajout de colonnes indiquant les informations taxonomiques que vous avez sélectionnées. Ces résultats correspondent-ils à vos attentes ? Toutes les protéines appartiennent-elles à l'espèce humaine ? Pourquoi ?

  6. Questionnaire 1.2 - Sélection d'entrées au moyen d'une requête naïve
    1. Combien d'entrées retourne la requête naïve human opsin dans UniprotKB ?
    2. Pourquoi cette requête retourne-t-elle un tas de protéines non humaines (réponse en une phrase) ?
  7. Requête structurée

    • Dans la boîte de requête, ciquez sur la croix pour effacer votre requête précédente.
    • Cliquez ensuite sur le bouton Advanced search.
    • Dans le champ Field, sélectionnez Organism [OS], et commencez à taper les lettres de l'espèce Homo sapiens. Au fil de votre encodage, l'interface Uniprot affiche un menu de plus en plus restreint, avec la liste des organismes correspondant à ce que vous avez tapé. Sélectionnez Homo sapiens [9606] et cliquez Add & Search. Combien de protéines obtenez-vous ? Combien ont été annotées par un être humain?
    • Pour ajouter un filtre de sélection, cliquez à nouveau sur Advanced search.
    • Notez l'opérateur logique AND en début de ligne (il correspond à nos besoins, mais pour d'autres requêtes nous pourrions utiliser NOT ou OR.
    • Sélectionnez le champ (Field) Protein name [DE], entrez opsin et cliquez Add & Search. La sélection correspond-elle mieux à vos attentes  ?
    • Lisez attentivement la requête structurée qui apparaît dans la boîte de requête (Query). L'interface interactive convertit automatiquement vos requêtes en une phrase de requête que vous pourrez éventuellement réutiliser ou adapter ultérieurement.
  8. Questionnaire 1.3 - Sélection progressive au moyen de requêtes avancées
    1. Formulez une requête structurée (Advanced search) pour obtenir toutes les protéines de l'espèce Homo sapiens dans Uniprot. Comment est formulée votre requête (après avoir exécuté la requête structurée, sa syntaxe est affichée dans la boîte « Search ») ?
    2. En formulant cette requête structurée, combien de protéines trouvez-vous ?
    3. Comment formulez-vous une requête structurée pour obtenir toutes les protéines (tous organismes confondus) dont le nom comporte le mot « opsin » ?
    4. Combien de protéines trouvez-vous avec cette requête ?
    5. Comment est formulée la requête qui combine les deux critères ci-dessus (organisme « Homo sapiens » et « opsin » dans le nom de protéine) ?
    6. Combien d'opsines humaines trouvez-vous dans Uniprot?
    7. Quel est le nombre de ces fiches Uniprot qui ont été revues par un être humain ?
  9. Vous pouvez facilement sélectionner le sous-ensemble des protéines de Swiss-prot (celles qui ont été annotées ou tout au moins validées par un être humain), en cliquant sur reviewed (7), juste avant l'étoile jaune dessous du titre "Results". Notez la modification de la formule syntactique pour la requête stucturée (boîte Query).

    Questionnaire 1.4 - La fonction des opsines
    Lisez les annotations des 7 opsines humaines de Swiss-prot en tentant de comprendre la fonction de chacune.
    1. Parmi ces opsines, combien sont impliquées dans la vision des couleurs?
    2. Indiquez les identifiants des entrées Swiss-prot (Entry) correspondant à des opsines impliquées dans la vision des couleurs chez l'humain.
    3. Quel est le numéro d'entrée de la mélanopsine ?
    4. Quelle est la fonction de la mélanopsine (une phrase max)?
    5. Quel est le numéro d'entrée de la rhodopsine
    6. Quelle est la fonction de la rhodopsine (une phrase max)?
  10. Nous allons maintenant élargir la requête, en sélectionnant toutes opsines de Swiss-prot pour l'ensemble des Mammifères (Mammalia en latin).

    Cet exercice-ci vous demande un petit effort supplémentaire par rapport aux précédents. Vous devrez maintenant combiner une série de critères vus ci-dessus, et certains autres qu'il vous reste à découvrir.

    En vous inspirant de la recherche avancée décrite ci-dessus, faite une recherche qui combine les critères suivants :

    1. Les protéines doivent provenir d'un mammifère (Taxonomy ID: 40674).
    2. Le nom de la protéine doit contenir "opsin".
    3. Le nom de la protéine ne peut contenir ni "melanopsin", ni "rhodopsin", ni "rod".
    4. La séquence doit être complète (il ne peut pas s'agir d'un fragment).
  11. Questionnaire 1.5 - Sélection des opsines complètes des mammifères
    1. Comment formulez-vous une requête structurée permettant de sélectionner les opsines impliquées dans la vision des couleurs, et dont la séquence protéique est complète (il ne s'agit pas d'un fragment de séquence), pour l'ensemble des mammifères ("Mammalia") ?
    2. Combien des séquences avez obtenu avec votre recherche ?
  12. Sauvegarde de la table de résultats.

    • Au sommet de la feuille de résultats, cliquez sur le lien Download.
    • Uniprot vous permet d'exporter les résultats dans divers formats.
    • Les formats les plus pratiques pour les tables de résultats sont Tab-Delimited ou Excel. Exportez la table de résultats pour les opsines de mammifères, en format Excel. Vous pouvez ouvrir le fichier avec un tableur (Microsoft Excel ou OpenOffice) pour vérifier le contenu. Notez que les colonnes taxonomiques (classe, ordre, famille) s'affichent sous forme de nombres. Il s'agit des identifiants taxonomiques du NCBI. Vous pouvez donc retrouver leur nom en vous connectant à cette base de données.
  13. Obtention des séquences protéiques

    • Cliquez à nouveau sur le lien Download au sommet de la page de résultats, et sauvegardez les séquences en format fasta (canonical). Nommez par exemple le fichier mammalian_opsins_complete.fasta. Ouvrez le ficher fasta avec un éditeur de texte. Vérifiez le format des séquences. En principe, le fichier devrait ressembler à ceci (les premières protéines peuvent varier selon la requête effectuée):
      >sp|P51491|OPSB_MOUSE Short-wave-sensitive opsin 1 OS=Mus musculus GN=Opn1sw PE=1 SV=1
      MSGEDDFYLFQNISSVGPWDGPQYHLAPVWAFRLQAAFMGFVFFVGTPLNAIVLVATLHY
      KKLRQPLNYILVNVSLGGFLFCIFSVFTVFIASCHGYFLFGRHVCALEAFLGSVAGLVTG
      WSLAFLAFERYVVICKPFGSIRFNSKHALMVVLATWIIGIGVSIPPFFGWSRFIPEGLQC
      SCGPDWYTVGTKYRSEYYTWFLFIFCFIIPLSLICFSYSQLLRTLRAVAAQQQESATTQK
      AEREVSHMVVVMVGSFCLCYVPYAALAMYMVNNRNHGLDLRLVTIPAFFSKSSCVYNPII
      YCFMNKQFRACILEMVCRKPMADESDVSGSQKTEVSTVSSSKVGPH
      >sp|O35599|OPSG_MOUSE Medium-wave-sensitive opsin 1 OS=Mus musculus GN=Opn1mw PE=1 SV=1
      MAQRLTGEQTLDHYEDSTHASIFTYTNSNSTKGPFEGPNYHIAPRWVYHLTSTWMILVVV
      ASVFTNGLVLAATMRFKKLRHPLNWILVNLAVADLAETIIASTISVVNQIYGYFVLGHPL
      CVIEGYIVSLCGITGLWSLAIISWERWLVVCKPFGNVRFDAKLATVGIVFSWVWAAIWTA
      PPIFGWSRYWPYGLKTSCGPDVFSGTSYPGVQSYMMVLMVTCCIFPLSIIVLCYLQVWLA
      IRAVAKQQKESESTQKAEKEVTRMVVVMVFAYCLCWGPYTFFACFATAHPGYAFHPLVAS
      LPSYFAKSATIYNPIIYVFMNRQFRNCILHLFGKKVDDSSELSSTSKTEVSSVSSVSPA
      
    • Le fichier contient plusieurs séquences, chacune étant précédée d'une ligne de descripton commençant par un caractère >.
      • Le premier mot de la ligne de description (ce qui précède le premier espace) est l'identifiant de la séquence (par exemple sp|Q9H1Y3|OPN3_HUMAN).
      • La ligne de description peut éventuellement contenir des commentaires libres (pour la première séquence ci-dessus: Opsin-3 OS=Homo sapiens GN=OPN3 PE=1 SV=1).
[Retour à la table des matières]

Collecte des protéines similaires aux opsines avec blastp

Nous voudrions collecter les séquences similaires aux opsines chez différents organismes, pour étudier leur degré de conservation en fonction de leur rôle et de la distance évolutive.

Buts de ce tutoriel

L'objectif général de ce tutoriel est d'apprendre à effectuer des recherches par similarités, en comparant une séquence d'intérêt (query sequence) avec chacune des séquences d'une base de données. Pour effectuer les recherches par similarité, nous utiliserons le logiciel BLAST.

Les objectifs particuliers sont d'acquérir les compétences suivantes:

  1. Comprendre les situations pour lesquelles une recherche par similarités de séquences peut s'avérer utile.
  2. Connaître les différentes modalités de comparaisons de séquences (selon la nature, peptidique ou nucléique, des séquences requête et de la base de données).
  3. Interpréter les résultats de la recherche en termes de significativité statistique (en particulier, savoir interpréter la e-valeur).
  4. Comprendre la signification biologique des résultats.

Tutoriel

  1. Connectez-vous à Uniprot et récupérez la séquence peptidique de l'opsine sensible aux ondes courtes (short-wave sensitive opsin 1) chez l'humain.

    Pour récupérer une séquence peptidique à partir d'une fiche Uniprot, vous pouvez ouvrir la fiche correspondante, rendez-vous à la section "Sequence", et cliquez sur le lien fasta au-dessus de la séquence. Vous pouvez alors copier le résultat (y compris l'en-tête avec l'identifiant de la séquence).

  2. Ouvrez une connexion au serveur BLAST du NCBI server, ouvrez l'outil protein blast (blastp) et cherchez les protéines similaires chez les primates.

    • L'option Organism permet de spécifier soit un nom d'espèce, soit un nom de taxon.
    • L'interface assure la complétion automatique: quand vous commencez à taper un nom d'organisme ou de taxon, les noms compatibles sont affichés, et leur choix se retreint au fur et à mesure que vous complétez le nom.
  3. Au bout de quelques secondes, le résultat devrait apparaître.

    • La page de résultats commence par une en-tête qui récapitule les options de la recherce effectuée.
    • Ensuite, un schéma graphique (Graphics summary) représente les 100 premiers hits, sous forme de barres horizontales colorées.
    • La table Descriptions indique fournir les indications sommaires concernant les différents hits, avec des liens actifs permettant d'inspecter les détails des alignements.
  4. Dans la table Descriptions, sélectionnez le premier hit dont le pourcentage d'identités est inférieur à 95%. Cliquez sur le nom de la protéine sélectionnée, pour afficher l'alignement. Tentez de faire le rapport entre les caractéristiques de cet alignement et les scores qui le caractérisent: score brut, identités, résidus "positifs" (identités et substitutions conservatives), gaps, expect.

    1. BLAST retourne une série de scores associés à chaque alignement: score brut, pourcentage d'identités, pourcentage de positifs, e-valeur, ... A priori il n'est donc pas évident de savoir quel score indique le "meilleur hit". Le critère le plus pertinent pour évaluer la significativité d'un alignement est sa e-valeur (notée expect dans le résultat de BLAST): les e-valeurs les plus faibles correspondent aux hits les plus significatifs. Par défaut, les résultats de BLAST sont donc triés par ordre croissant d'e-valeur. Consultez la page de description des concepts pour obtenir des explications plus détaillées concernant la e-valeur.
    2. Pour des raisons de calcul, la précision de la e-valeur de BLAST est limitée à 1e-170. Les valeurs inférieures à cette limite sont donc arrondies à 0. Dans ce cas, BLAST utilise le score brut comme second critère de tri, pour départager les hits dont la e-valeur est arrondie à 0 (il y en a quelques dizaines dans notre cas).
    3. Au bas de la able de scores, observez attentivement le premier alignement, en commençant par identifier les paramètres de l'analyse. Quelle est la longueur de votre protéine de requête (query) et celle de la protéine détectée (le sujet? Observez les positions des débuts et fin de l'alignement pour chacune des deux protéines alignées.
  5. Ouvrez une nouvelle fenêtre de requête sur le serveur BLAST. Refaites tourner blastp avec la même protéine requête, en limitant cette fois la recherche aux protéines d'insectes (Taxonomy: insects). Comparez les résultats avec ceux des primates.

  6. Ouvrez une nouvelle fenêtre de requête sur le serveur BLAST. Refaites tourner blastp avec la même protéine requête, en limitant cette fois la recherche aux protéines de Fungi (champignons et levures). Comparez les résultats avec ceux des primates.

  7. Observez attentivement le premier alignement, en commençant par identifier les paramètres de l'analyse. Quelle est la longueur de votre protéine de requête (query) et celle de la protéine détectée (le sujet? Observez les positions des débuts et fin de l'alignement pour chacune des deux protéines alignées.
  8. En quoi les trois résultats ci-dessus révèlent-ils le type d'alignement réalisé par BLAST (global ou local) ?

  9. Ouvrez une nouvelle fenêtre de requête sur le serveur BLAST. Faites une recherche de similarités en utilisant comme requête l'opsine bleue humaine, contre l'ensemble des protéines humaines de la base de données non-redondante, en restreignant la e-valeur à 1e-10.

    • Pour modifier le seuil de e-valeur, cliquez sur le lien Algorithm parameters au bas du formulaire BLAST, et modifiez la valeur de l'option Expect threshold
    • BLAST vous fournit par défaut les 100 meilleurs hits. Si vous voulez récupérer plus de hits, il faut changer le paramètre 'Max target' à 10000.
  10. Dans la liste de hits, analysez la fonction des protéines les plus éloignées de la séquence requête. Leur fonction semble-t-elle liée à la vision des couleurs? Comment interprétez-vous la similarité entre ces protéines et l'opsine ?

Exercice

Répondez aux questions du questionnaire 2: recherche des opsines avec blastp

[Retour à la table des matières]

Ressources

Ce TD est basé sur les ressources suivants.

Acronym Type Description+URL
EMBL Nucleic sequences The EMBL Nucleic Sequence Database (EBI - UK)
http://www.ebi.ac.uk/embl/
Genbank Nucleic sequences Genbank (NCBI - USA)
http://www.ncbi.nlm.nih.gov/Genbank/
DDBJ Nucleic sequences DDBJ - DNA Data Bank of Japan
http://www.ddbj.nig.ac.jp/
UniProt Protein sequences UniProt - the Universal Protein Resource
http://www.uniprot.org/
EnsEMBL Genome browser EnsEMBL Genome Browser (Sanger Institute + EBI)
http://www.ensembl.org/
UCSC Genome browser UCSC Genome Browser (University California Santa Cruz - USA)
http://genome.ucsc.edu/
ECR Genome browser ECR Browser
http://ecrbrowser.dcode.org/
Entrez Multi-database A collection of biomolecular databases maintained at the NCBI (USA), accessible via an interface called Entrez.
http://www.ncbi.nlm.nih.gov/Entrez/
SRS Data warehouse A collection of biomolecular databases maintained at the European Institute for Bioinformatics (EBI, UK), accessible via an interface called SRS
http://srs.ebi.ac.uk/
[Retour à la table des matières]
Emese Meglécz (IMBE, Aix-Marseille Université) & Jacques van Helden (TAGC, Aix-Marseille Université).