AMU :: L2 :: Bioinformatique appliquée :: année 2013/2014
Ce TD repose sur les cours suivants.
| Name | Link | Description |
|---|---|---|
| UniProt | http://www.uniprot.org/ | UniProt - the Universal Protein Resource. Database of protein sequences with human-intensive annotations (function, features, domains, ...). |
| NCBI-BLAST | http://blast.ncbi.nlm.nih.gov/Blast | Basic Local Alignment Search Tool comparing query sequences to a sequence database |
| clustalw for proteins (PBIL site) | http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html | Web interface to clustalw, with nice visualization options, in particular the possibility to highlight conserved, or divergent residues. |
| clustalw for DNA (PBIL site) | http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_clustalwan.html | |
| clustalw (EBI site) | http://www.ebi.ac.uk/Tools/msa/clustalw2/ | Web interface to clustalw, with the possibility to visualize the guide tree. |
| RSAT | http://rsat.ulb.ac.be/rsat/ | Regulatory Sequence Analysis Tools (used here for another purpose: the tool "random sequence" can generate random peptidic sequences calibrated on oligopeptide frequencies (1, 2, or 3-mers) of a given organism). |
| PSA | http://www.ebi.ac.uk/Tools/psa/' | EBI Pairwise Sequence Alignment tools (needle, water, ...) |
| Webogo | http://weblogo.berkeley.edu/ | Generate sequence logos, i.e. graphical representation of residue conservation at each position of a multiple alignment. |
| ProSite | http://prosite.expasy.org/ | Database of protein domains, families and functional sites. |
Ce TD contient deux exercices supplémentaires au TD3, pour la recherche de séquences par similarité. La seconde partie du TD porte sur les alignements multiples et sur la représentation de motifs au moyen de matrices de profils.
Les objectifs des exercices de BLAST sont d'acquérir les compétences suivantes:
Objectifs des exrecices d'alignements multiples.
Lisez la fiche Uniprot de la protéine Aro1 (P08566) de levure du boulanger Saccharomyces cerevisiae, et tentez de comprendre la façon dont cette protéine est organisée.
Analysez les étapes métaboliques catalysées par cette enzyme dans la voie de biosynthèse du chorismate de la base de données MetaCyc.
Utilisez l'outil protein blast du NCBI BLAST pour chercher des séquences similaires dans le sous-ensemble de la base de données non-redonante restreinte aux protéines de la bactérie Escherichia coli K-12 (TAXID 83333).
Quelle est la longueur (en acides aminés) de la protéine Aro1?
Combien y a-t-il d'étapes dans la voie de biosynthèse du chorismate ?
Combien de ces étapes sont catalysées par ARO1 ?
Interprétez les résultats du BLAST en termes biologiques (proportion de Aro1 couverte par chacun des hits, fonction des protéines de Escherichia coli identifiées).
Interprétez les résultats du BLAST en termes statistiques (pourcentages d'identités, de similarités, e-valeurs, ...).
En quoi ce résultat révèle-t-il le type d'alignement réalisé par BLAST (global ou local) ?
Nous allons chercher les homologues de protéine urate oxydase de souris (P25688) chez l’homme en suivant deux stratégies :
Dans cet exercice, nous allons réaliser des alignements multiples de séquences des opsines de mammifères sensibles à des longueurs d'ondes différentes, afin d'identifier les régions conservées et variables entre ces protéines. En particulier, nous analyserons les substitutions entre les protéines sensibles à des longueurs d'onde différentes.
Pour obtenir les séquences des opsines des mammifères, nous avons effectué des recherches par mots-clés dans Uniprot. Nous avons sélectionné 36 séquences protéiques des opsines qui vont être utilisées pour faire un alignement multiple pour
Comme la collecte des séquences est longue, nous avons fait ce travail à votre place et le fichier qui en sort se trouve ici. Néanmoins, il est important que vous sachiez comment procéder. Le description de protocole de collecte des séquences ce trouve ici.
Le format FASTA
est un format de fichier texte utilisé pour stocker des séquences biologiques de nature nucléique ou protéique.
Pour chaque séquence, le fichier fasta contient une ligne d'identification qui commence
par le signe >, suivi immédiatement par
l'identifiant de la séquence, puis par au moins un espace et les éventuels
informations supplémentaires. Les lignes suivantes contiennent la séquence elle-même.
Dans une fenêtre séparée, connectez-vous à l'outil ClustalW de l'EBI.
Lancez un alignement multiple avec votre fichier contenant uniquement les opsines bleues en utilisant les paramètres par défaut.
Affichez les couleurs sur la page de résultat (Show colors).
Alignez les mêmes séquences sur le site Clustal du PBIL (Pôle Bioinformatique Lyonnais). L'alignement est assez rapide, et ce site présente des informations complémentaires à celui de l'EBI.
| * | Identité | colonne composée de résidus identiques dans toutes les séquences |
| : | Forte similarité | colonne composée d'un bon nombre de résidus identiques et/ou de substitutions conservatives (d'après les scores de la matrice de substitutions utilisée) |
| . | Faible similarité | colonne composée d'un nombre moins élevé mais néanmoins significatif de résidus identiques ou similaires. |
A l'EBI, vous pouvez aussi visualiser l'alignement au moyen du Logiciel JalView (ceci nécessite de disposer du logiciel Java sur votre machine). Pour y accéder, cliquez sur l'onglet Result summary puis sur le bouton Jalview.
Dans une fenêtre séparée, ouvrez une nouvelle connexion à l'outil ClustalW de l'EBI ou Clustal du PBIL, selon vos préférences.
Alignez les séquences des opsines vertes et rouge des primates.
Visualisez l'alignement dans JalView ou si ce n'est pas possible, affichez la cloloration dans l'alignement.
Essayez d'identifier les résidus susceptibles d'intervenir dans la différence de perception entre opsines vertes et rouges.
Sur base de l'alignement multiple des opsines vertes et rouges, pouvez-vous identifier des résidus susceptibles d'intervenir dans la différence de spectre entre ces deux protéines ? Si oui, indiquez les positions et acides aminés des résidus candidats.
Sur quel critère avez-vous identifié (ou tenté d'identifier) ces positions ?
Dans une fenêtre séparée, ouvrez une nouvelle connexion à l'outil ClustalW de l'EBI, et alignez les séquences.
Observez le graphique de l'arbre-guide qui est généré quand vous ouvrez l'onglet guide tree sur le site de EBI.
Vous pouvez consulter la page des concepts pour obtenir des informations concernant l'arbre-guide.
En principe, dans l'alignement, les opsines bleues devraient apparaîre clairement séparés des opsines rouges et vertes.
Alignez ces séquences sur le site Clustal du PBIL (nous suggérons de refaire l'alignement sur ce site car le formatage des résultats facilite l'analyse des positions de blocs conservés).
Analysez les positions des blocs les plus conservés, et les régions plus variables, en les comparant avec les annotations des différentes régions de l'opsine humaine sensible au vert.
L'arbre-guide est-il basé sur les alignements multiples, ou par paires ?
Sur quelle méthode s'est appuyé clustal pour construire cet arbre-guide ?
Consultez les paramètres de CLUSTALW.
Sur base de vos connaissances concernant l'évolution des opsines, où placeriez-vous a priori la racine de l'arbre des opsines de mammifères ?
Les longueurs relatives des branches du phylogramme semblent-elles correspondre à cet a priori ?
Quelle est l'utilité de l'arbre guide ?
Peut-on l'interpréter comme un arbre phylogénétique ? Pourquoi ?
Consultez les diapos de support du cours.
Quelles sont les coordonnées de la région conservée (succession contigue de résidus conservés) la plus large dans l'alignement des opsines de mammifère ?
Indiquez quelques positions qui discriminent les opsines sensibles au bleu des opsines sensible au vert/rouge, et décrivez les différences.
Votre alignement comporte-t-il un gap qui différencie (en partie ou complètement) les opsines bleues des opsines rouges/vertes ? Si oui, indiquez sa position relative à l'opsine bleue humaine.
Comprendre les modes de representations des motifs conservés (motifs protéiques dans ce cas-ci).
Un motif est un élément partagé par un certain nombre de séquences. On peut le décrire par des alignements multiples, par les séquences consensus, par des expressions régulières, par les logos etc.
Les motifs sont fréquemment utilisés en biologie, pour décrire les résidus conservés au sein d'un alignement de séquences (nucléiques ou peptidiques). La conservation de certains résidus révèle généralement l'effet d'une pression sélective positive, qui suggère une importance particulière de ces résidus pour la structure et/ou la fonction des protéines d'une même famille (protéines homologues).
Dans cet exercice, nous allons étudier le motif "basic leucine zipper" (bZIP) et comparer son expression régulière, son logo et l'alignement multiple qui a servi pour le caractériser.
Le page 'concepts' vous donne des explications sur les expressions régulières
Comparez l'alignement multiple en format clustal et format fasta. Ces deux formats représentent le même alignement, selon deux modes affichage différents. En quoi consistent les différences entre les deux formats ?
D'après l'alignement multiple (en format clustal) quelles sont les deux positions les plus conservées ? Indiquez les positions et les acides aminés qui s’y trouvent.
Retrouvez dans l'expression régulière les deux acides aminés identifiées précédemment. Copiez la partie de l'expression régulière qui décrit le premier acide aminé conservé et les deux acides aminés consécutifs.
Observez le logo que vous avez créé avec l'alignement multiple. Comment sont représentés les deux acides aminés conservés sur le logo ?
Dans l'exercice sur les opsines, nous disposions d'une famille de protéines extrêmement bien conservées. Dans cet exercice, nous testerons le comportement du logiciel d'alignement multiple (clustal) quand on lui soumet des séquences qui ne présentent aucune origine commune (elles ne sont pas homologues), puisque nous les générons aléatoirement.
Utilisez l'outil random sequence du site RSAT (http://rsat.ulb.ac.be/rsat/, pour générer 10 séquences nucléique de 100 bases chacune).
L'outil random sequence se trouve parmi les sequence tools dans le menu à gauche
Dans un nouvel onglet, ouvrez une connexion a l'outil needle, que nous allons utiliser pour effectuer des alignements globaux pour quelques paires de ces séquences aléatoires (faites 5 alignements au total).
Dans le formulaire ClustalW, n'oubliez pas de spécifier que vous allez aligner les séquences d'ADN.
Cet exercice est la description détaillée du protocole que nous avons suivi pour obtenir des séquences des opsines des mammifères. Comme le procédé est long, vous ne devez pas faire cet exercice, nous l’avons fait à votre place et le fichier qui en sort se trouve ici. Néanmoins, il est important que vous sachiez comment procéder.
Effectuez une recherche structurée (option Advanced search) dans Uniprot pour identifier les protéines selon les critères suivants:
Il est très important que votre requête soit formulée précisément pour appliquer les cirtères ci-dessus, sans quoi vous vous retrouverez avec des centaines de protéines, et vous perdrez énormément de temps pour les tâches ultérieures.
Personnalisez l'affichage des résultats en cliquant sur l'option Customize de la table de résultats d'Uniprot.
Pour ajouter des colonnes, cliquez sur Columns > Taxon ID > Show. Ceci fera apparaître une nouvelle liste d'options avec les niveaux taxonomiques cochez les cases Class, Order et Family, puis cliquez sur le bouton Show, et confirmez en cliquant Save. Vous devriez alors voir apparaître les colonnes "Taxon ID (Class)", "Taxon ID (Order)", et "Taxon ID (Family)".
Sélectionnez (en cochant les cases devant l'identifiant) entre 20 et 30 opsines, selon les critères suivants :
ces opsines particulières seront nécessaire pour répondre aux questions ci-dessous.
Après avoir effectué votre sélection manuelle, sauvegardez la page Web, pour conserver une trace dans l'état.
Nous expliquons ci-dessous comment sauvegarder les résultats sous différents formats (séquences fasta, fichier de tableur), mais il est toujours prudent de conserver une copie de vos résultats dans l'état où ils vous apparaissent initialement sur un site Web. Nous vous suggérons de sauvegarder régulièrement les pages web de résultats aux différentes étapes du TD qui suit.
Téléchargez les séquences sélectionnées en format fasta.
Attention: si vous cliquez sur le bouton orange Download en haut de la table de résultats, vous téléchargerez les séquences pour l'ensemble des résultats de la requête.
Pour télécharger uniquement les séquences sélectionnées, cliquez sur le bouton Retrieve dans la règle verte qui est apparue au bas de la page dès que vous avez sélectionné une protéine.
Faites une copie séparée du fichier fasta téléchargé, et ouvrez-la dans un éditeur de texte simple (e.g. gedit, Notepad++).
Renommez les séquences, pour avoir des noms informatifs
La structure d'un fichier fasta. Le
fichier fasta est un simple fichier texte qui
contient une ou plusieurs séquences. Pour chaque
séquence il y a une ligne d'identification, où le
signe
> est suivi d'une courte description de
la séquence (identifiant, origine taxonomique,
longueur etc.).
Exemple d'en-tête fasta:
>sp|P51490|OPSB_BOVIN Short-wave-sensitive opsin 1 OS=Bos taurus GN=OPN1SW PE=1 SV=1
Cette ligne est suivie d'une ou plusieurs lignes contenant la séquence elle-même.
Pourquoi s'embêter à renommer les
séquences ?
Les logiciels d'alignement
acceptent les fichiers fasta comme fichiers
d'entrée, et utilisent les premiers caractères de
la ligne d'identification comme identifiants de
séquences. Dans le cas des séquences téléchargées
à partir des banques des donnés, la première
partie de ligne d'identification contient le
numéro d'accession de la séquence. Cela est peu
informatif pour les humains qui interprètent les
résultats de l'alignement, donc il est préférable
de renommer les séquences en plaçant en premier
lieu les noms informatifs.
Comment renommer les séquences ?
Le plus simple est d'insérer, tout au début de
la ligne d'en-tête fasta, un idendifiant en un mot
(pas d'espace), qui indiquera le nom de l'espèce et
le spectre de sensibilité de l'opsine (bleu, vert,
rouge, vert-rouge, ...). Par exemple,
Chimp_blue désignera l'opsine sensible aux
bleu (short-wave-sensitive) du chimpanzé (Pan
troglodytus)
Pour la traçabilité, vous pouvez éventuellement conserver l'en-tête original en commentaire sur la même ligne, mais veillez à placez l'identifiant informatif juste après le signe >.
Par exemple, vous pourrez changer la ligne originale suivante:
>sp|P60015|OPSB_PANTR Short-wave-sensitive opsin 1 OS=Pan troglodytes GN=OPN1SW PE=2 SV=1
en insérant Chimp_blue juste après >:
>Chimp_blue sp|P60015|OPSB_PANTR Short-wave-sensitive opsin 1 OS=Pan troglodytes GN=OPN1SW PE=2 SV=1
Ne laissez pas d'espace entre le signe > et votre identifiant
Séparerez votre identifiant du reste de la ligne par au moins un espace.
Les identifiants devrait être uniques (chaque identifiant dans le fichier devrait être différent) et courts (5-20 caractères).
Soumettez sur le l'AMeTICE le fichier de séquences fasta que vous avez édité, en suivant le lien 'Fichier fasta avec les séquences protéiques des opsines des mammifères'.
Par prudence, conservez une copie locale de vos résultats:
Préparez deux fichiers fasta séparés à partir de votre fichier avec les séquences renommées.
Ces fichiers serviront à générer des alignements séparés pour les opsines bleues, et pour les autres opsines (vertes et rouges rassemblées).