AMU  :: L2  :: Bioinformatique appliquée  :: année 2013/2014

BLAST (suite), alignements multiples et motifs protéiques


Contenu

[Retour à la table des matières]

Prérequis

Ce TD repose sur les cours suivants.

Luminy (Jacques van Helden)

Saint Charles (Emese Meglécz)

[Retour à la table des matières]

Resources

Name Link Description
UniProt http://www.uniprot.org/ UniProt - the Universal Protein Resource. Database of protein sequences with human-intensive annotations (function, features, domains, ...).
NCBI-BLAST http://blast.ncbi.nlm.nih.gov/Blast Basic Local Alignment Search Tool comparing query sequences to a sequence database
clustalw for proteins (PBIL site) http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html Web interface to clustalw, with nice visualization options, in particular the possibility to highlight conserved, or divergent residues.
clustalw for DNA (PBIL site) http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_clustalwan.html
clustalw (EBI site) http://www.ebi.ac.uk/Tools/msa/clustalw2/ Web interface to clustalw, with the possibility to visualize the guide tree.
RSAT http://rsat.ulb.ac.be/rsat/ Regulatory Sequence Analysis Tools (used here for another purpose: the tool "random sequence" can generate random peptidic sequences calibrated on oligopeptide frequencies (1, 2, or 3-mers) of a given organism).
PSA http://www.ebi.ac.uk/Tools/psa/' EBI Pairwise Sequence Alignment tools (needle, water, ...)
Webogo http://weblogo.berkeley.edu/ Generate sequence logos, i.e. graphical representation of residue conservation at each position of a multiple alignment.
ProSite http://prosite.expasy.org/ Database of protein domains, families and functional sites.
[Retour à la table des matières]

Objectifs

Ce TD contient deux exercices supplémentaires au TD3, pour la recherche de séquences par similarité. La seconde partie du TD porte sur les alignements multiples et sur la représentation de motifs au moyen de matrices de profils.

Les objectifs des exercices de BLAST sont d'acquérir les compétences suivantes:

  1. Comprendre les situations pour lesquelles une recherche par similarités de séquences peut s'avérer utile.
  2. Connaître les différentes modalités de comparaisons de séquences (selon la nature, peptidique ou nucléique, des séquences requête et de la base de données).
  3. Interpréter les résultats de la recherche en termes de significativité statistique (en particulier, savoir interpréter la e-valeur).
  4. Comprendre la signification biologique des résultats.

Objectifs des exrecices d'alignements multiples.

  1. Comprendre la procédure d'alignement multiple.
  2. Comprendre le lien entre alignement multiple et matrice de profil.

[Retour à la table des matières]

Aro1, une enzyme multifonctionnelle

  1. Lisez la fiche Uniprot de la protéine Aro1 (P08566) de levure du boulanger Saccharomyces cerevisiae, et tentez de comprendre la façon dont cette protéine est organisée.

  2. Analysez les étapes métaboliques catalysées par cette enzyme dans la voie de biosynthèse du chorismate de la base de données MetaCyc.

  3. Utilisez l'outil protein blast du NCBI BLAST pour chercher des séquences similaires dans le sous-ensemble de la base de données non-redonante restreinte aux protéines de la bactérie Escherichia coli K-12 (TAXID 83333).

    • La bactérie Escherichia coli a servi d'organisme modèle aux biochimistes et généticiens pendant des décennies. Etant donné son intérêt pour la recherche et la médecine, on dispose actuellement de génomes complètes pour des centaines de souches de la même espèce. Il est donc nécessaire de préciser la souche qui nous intéresse, en indiquant son identifiant taxonomique (TAXID).
    • Pour sélectionner un organisme, vous pouvez commencer à taper sonnom dans l'option Organism du formulaire BLAST. Quand vous commencez à entrer le nom de l'orgnaisme, l'interface Web vous présente une liste avec le sous-ensemble des organismes correspondant à ce que vous avez tapé. Ceci permet de sélectionner aisément le nom correct.

Questionnaire: Aro1

  1. Quelle est la longueur (en acides aminés) de la protéine Aro1?

  2. Combien y a-t-il d'étapes dans la voie de biosynthèse du chorismate ?

  3. Combien de ces étapes sont catalysées par ARO1 ?

  4. Interprétez les résultats du BLAST en termes biologiques (proportion de Aro1 couverte par chacun des hits, fonction des protéines de Escherichia coli identifiées).

  5. Interprétez les résultats du BLAST en termes statistiques (pourcentages d'identités, de similarités, e-valeurs, ...).

  6. En quoi ce résultat révèle-t-il le type d'alignement réalisé par BLAST (global ou local) ?

[Retour à la table des matières]

Urate oxydase

Nous allons chercher les homologues de protéine urate oxydase de souris (P25688) chez l’homme en suivant deux stratégies :

Questionnaire a: Urate oxydase

  1. Quel type de BLAST allez-vous utiliser pour comparer la protéine urate oxydase avec la banque des protéique ?
  2. Quel type de BLAST allez-vous utiliser pour comparer la protéine urate oxydase avec les séquences génomiques ?
  1. Lancer les deux BLAST dans deux fenêtres différentes.
  2. L’identifiant de votre séquence requête est P25688 dans le deux cas.
  3. Vous pouvez utiliser les paramètres par défaut des BLAST, mais

Questionnaire b: Urate oxydase

  1. Combien de hits obtenez-vous au BLAST contre la banque refseq-proteins ?
  2. Combien d’homologues avez-vous trouvés dans le même BLAST ?
  3. Parmi les nombreux indices rapportés par BLAST, quels sont les trois qui vous paraissent les plus informatifs pour qualifier un alignement? Lequel d'entre eux est déterminant pour décider si une séquence trouvée par BLAST est vraisemblablement homologue ou pas ?
  4. Combien de séquences BLAST a-t-il trouvé dans la banque « refseq_genomic »?
  5. Sont-elles homologues à la séquence requête ? Justifiez !
  6. Correspondent-elles à un gène humain ou à plusieurs gènes ?
  7. Pour chacune de ces séquences combien y a-t-il des régions similaires à la protéine ?
  8. A quoi correspondent ces régions ?
  9. Les séquences génomiques identifiées dans l’ADN génomique correspondent à un/des pseudogène(s). Définissez le terme pseudogène !
  10. Quel(s) indice(s) qui nous permet(tent) d'affirmer que les séquences génomiques identifiées dans l’ADN génomique correspondent à un/des pseudogène(s) ?
  11. Expliquez brièvement, le différence entre la résultats des deux BLAST.
[Retour à la table des matières]

Alignement multiple des opsines des mammifères

Buts de cet exercice

Dans cet exercice, nous allons réaliser des alignements multiples de séquences des opsines de mammifères sensibles à des longueurs d'ondes différentes, afin d'identifier les régions conservées et variables entre ces protéines. En particulier, nous analyserons les substitutions entre les protéines sensibles à des longueurs d'onde différentes.

Pour obtenir les séquences des opsines des mammifères, nous avons effectué des recherches par mots-clés dans Uniprot. Nous avons sélectionné 36 séquences protéiques des opsines qui vont être utilisées pour faire un alignement multiple pour

  1. identifier les résidus susceptibles d'intervenir dans la spécificité de longueur d'onde;
  2. faire une étude phylogénétique pour inférer l'évolution des opsines chez les mammifères (TD5).

Comme la collecte des séquences est longue, nous avons fait ce travail à votre place et le fichier qui en sort se trouve ici. Néanmoins, il est important que vous sachiez comment procéder. Le description de protocole de collecte des séquences ce trouve ici.

Alignement des opsines bleues des mammifères

Protocole

  1. Télécharger le fichier fasta les opsines bleues des quelques mammifères ici .
  2. Le format FASTA est un format de fichier texte utilisé pour stocker des séquences biologiques de nature nucléique ou protéique.

    Pour chaque séquence, le fichier fasta contient une ligne d'identification qui commence par le signe >, suivi immédiatement par l'identifiant de la séquence, puis par au moins un espace et les éventuels informations supplémentaires. Les lignes suivantes contiennent la séquence elle-même.

  3. Dans une fenêtre séparée, connectez-vous à l'outil ClustalW de l'EBI.

  4. Lancez un alignement multiple avec votre fichier contenant uniquement les opsines bleues en utilisant les paramètres par défaut.

  5. Affichez les couleurs sur la page de résultat (Show colors).

  6. Alignez les mêmes séquences sur le site Clustal du PBIL (Pôle Bioinformatique Lyonnais). L'alignement est assez rapide, et ce site présente des informations complémentaires à celui de l'EBI.

Interprétation de l'alignement

Questionnaire : Alignement des opsines bleues de mammifères

  1. Quelle est la taille de la séquence la plus longue de votre alignement ?
  2. Quelle est la longueur de l'alignement ?
    • Vous pouvez télécharger le fichier de l'alignement et l'ouvrir avec un éditeur de texte pour pouvoir plus facilement compter les nombres des colonnes.
    • Sur le site de PBIL la longueur de l'alignement, et le pourcentage des sites conservés sont affichées après l'alignement.
  3. Combien de sites parfaitement conservés (résidus identiques dans toutes les séquences) avez-vous trouvés dans l'alignement ?
  4. Quel est le 50eme aa de séquence d'opsine bleue humaine ?
  5. A quelle position se trouve cet aa dans l'alignement ?
  6. Les séquences des opsines bleues présentent en général une forte similarité. A quelle(s) espèce(s) appartien(nen)t la ou les opsines les plus éloignées de l'opsine bleue humaine?
  7. Est-ce conforme à vos attentes ? Argumentez votre réponse.
[Retour à la table des matières]

Qu'est-ce qui différencie les opsines vertes et rouges des primates ?

  1. Téléchardez le fichier avec les opsines vertes et rouges des primates ici.
  2. Dans une fenêtre séparée, ouvrez une nouvelle connexion à l'outil ClustalW de l'EBI ou Clustal du PBIL, selon vos préférences.

  3. Alignez les séquences des opsines vertes et rouge des primates.

  4. Visualisez l'alignement dans JalView ou si ce n'est pas possible, affichez la cloloration dans l'alignement.

  5. Essayez d'identifier les résidus susceptibles d'intervenir dans la différence de perception entre opsines vertes et rouges.

Questionnaire : Opsines vertes et rouges des primates

  1. Sur base de l'alignement multiple des opsines vertes et rouges, pouvez-vous identifier des résidus susceptibles d'intervenir dans la différence de spectre entre ces deux protéines ? Si oui, indiquez les positions et acides aminés des résidus candidats.

  2. Sur quel critère avez-vous identifié (ou tenté d'identifier) ces positions ?

[Retour à la table des matières]

Identification des régions conservées et variables dans les séquences d'opsines de mammifères

  1. Téléchardez le fichier avec toutes les opsines des mammifères ici.
  2. Dans une fenêtre séparée, ouvrez une nouvelle connexion à l'outil ClustalW de l'EBI, et alignez les séquences.

    • Observez le graphique de l'arbre-guide qui est généré quand vous ouvrez l'onglet guide tree sur le site de EBI.

      Vous pouvez consulter la page des concepts pour obtenir des informations concernant l'arbre-guide.

    • En principe, dans l'alignement, les opsines bleues devraient apparaîre clairement séparés des opsines rouges et vertes.

  3. Alignez ces séquences sur le site Clustal du PBIL (nous suggérons de refaire l'alignement sur ce site car le formatage des résultats facilite l'analyse des positions de blocs conservés).

  4. Analysez les positions des blocs les plus conservés, et les régions plus variables, en les comparant avec les annotations des différentes régions de l'opsine humaine sensible au vert.

Questionnaire : Opsines des mammifères

  1. L'arbre-guide est-il basé sur les alignements multiples, ou par paires ?

  2. Sur quelle méthode s'est appuyé clustal pour construire cet arbre-guide ?

    Consultez les paramètres de CLUSTALW.

  3. Sur base de vos connaissances concernant l'évolution des opsines, où placeriez-vous a priori la racine de l'arbre des opsines de mammifères ?

  4. Les longueurs relatives des branches du phylogramme semblent-elles correspondre à cet a priori ?

  5. Quelle est l'utilité de l'arbre guide ?

  6. Peut-on l'interpréter comme un arbre phylogénétique ? Pourquoi ?

    Consultez les diapos de support du cours.

  7. Quelles sont les coordonnées de la région conservée (succession contigue de résidus conservés) la plus large dans l'alignement des opsines de mammifère ?

  8. Indiquez quelques positions qui discriminent les opsines sensibles au bleu des opsines sensible au vert/rouge, et décrivez les différences.

  9. Votre alignement comporte-t-il un gap qui différencie (en partie ou complètement) les opsines bleues des opsines rouges/vertes ? Si oui, indiquez sa position relative à l'opsine bleue humaine.

[Retour à la table des matières]

Motif protéique bZIP

Le but de l'exercice

Comprendre les modes de representations des motifs conservés (motifs protéiques dans ce cas-ci).

Un motif est un élément partagé par un certain nombre de séquences. On peut le décrire par des alignements multiples, par les séquences consensus, par des expressions régulières, par les logos etc.

Les motifs sont fréquemment utilisés en biologie, pour décrire les résidus conservés au sein d'un alignement de séquences (nucléiques ou peptidiques). La conservation de certains résidus révèle généralement l'effet d'une pression sélective positive, qui suggère une importance particulière de ces résidus pour la structure et/ou la fonction des protéines d'une même famille (protéines homologues).

Dans cet exercice, nous allons étudier le motif "basic leucine zipper" (bZIP) et comparer son expression régulière, son logo et l'alignement multiple qui a servi pour le caractériser.

Prosite

  1. Connectez-vous au site de Prosite, une base de données des sites fonctionnels et des domaines protéiques.
  2. Trouvez la fiche qui décrit le motif bZIP.
  3. Retrouvez l'expression régulière qui décrit les positions relatives et les fréquences des acides aminées clefs dans le motif bZIP (voir: Consensus pattern de BZIP_BASIC, PS00036; Basic-leucine zipper (bZIP) domain signature (PATTERN))

Questionnaire - Prosite

  1. Décrivez en une ou deux phrases la fonction de motif bZIP.
  2. Indiquez l'expression régulière du motif bZIP

    Le page 'concepts' vous donne des explications sur les expressions régulières

  3. Quelle est la longueur maximale d'un motif bZIP, selon cette expression ?
  4. Quelle est la longueur minimale d'un motif bZIP, selon cette expression ?

WebLogo

  1. Observez l'alignement multiple en format clustal qui était utilisé pour identifier le motif bZIP.
  2. Téléchargez l'alignement multiple en format fasta.
  3. Sur le site de WebLogo, créez un logo basé sur l'alignement multiple en utilisant l'alignement en format fasta.

Questionnaire - WebLogo

  1. Comparez l'alignement multiple en format clustal et format fasta. Ces deux formats représentent le même alignement, selon deux modes affichage différents. En quoi consistent les différences entre les deux formats ?

  2. D'après l'alignement multiple (en format clustal) quelles sont les deux positions les plus conservées ? Indiquez les positions et les acides aminés qui s’y trouvent.

  3. Retrouvez dans l'expression régulière les deux acides aminés identifiées précédemment. Copiez la partie de l'expression régulière qui décrit le premier acide aminé conservé et les deux acides aminés consécutifs.

  4. Observez le logo que vous avez créé avec l'alignement multiple. Comment sont représentés les deux acides aminés conservés sur le logo ?

[Retour à la table des matières]

Bonus - Alignement des séquences non-apparentées

Le but de l'exercice

Dans l'exercice sur les opsines, nous disposions d'une famille de protéines extrêmement bien conservées. Dans cet exercice, nous testerons le comportement du logiciel d'alignement multiple (clustal) quand on lui soumet des séquences qui ne présentent aucune origine commune (elles ne sont pas homologues), puisque nous les générons aléatoirement.

Alignement par paire des séquences non-apparentées

  1. Utilisez l'outil random sequence du site RSAT (http://rsat.ulb.ac.be/rsat/, pour générer 10 séquences nucléique de 100 bases chacune).

    L'outil random sequence se trouve parmi les sequence tools dans le menu à gauche

    • Entrez les bonnes valeurs pour les options Sequence length et number of sequences.
    • Choisissez option Independent and equiprobable nucleotides afin d'obtenir des séquences où la fréquence de chaque nucléotide est de ~25%.
    • Cliquez GO pour soumettre votre requête, et suivez le lien Result file(s) > sequence pour accéder au résultat.

  2. Dans un nouvel onglet, ouvrez une connexion a l'outil needle, que nous allons utiliser pour effectuer des alignements globaux pour quelques paires de ces séquences aléatoires (faites 5 alignements au total).

  3. Calculez ensuite la moyenne de chaque colonne de votre feuille de calcul.

Questionnaire - Alignement par paires des séquences non-apparentées

  1. Quel serait le pourcentage d'identités attendu au hasard si l'on superposait deux séquences nucléiques de même longueur sans appliquer aucun algorithme d'alignement ?
  2. Justifiez le calcul de ce taux d'identité attendu.
  3. Quelle est la longueur moyenne de vos alignements par paire ?
  4. Quel est le nombre moyen des gaps par alignement ?
  5. Quel est le pourcentage d'identité moyen entre les séquences, si l'on compte les positions avec gaps  dans le total?
  6. Quel est le pourcentage d'identité moyen entre les séquences, sans tenir compte des positions avec gaps ?
  7. Pourquoi le taux moyen d'identité est-il plus élevé que vos attentes (première question de cette série) ?

Alignement multiple des séquences non-apparentées

  1. Faites un alignement multiple des 10 séquences aléatoires avec ClustalW pour séquences nucléiques au PBIL
  2. Dans le formulaire ClustalW, n'oubliez pas de spécifier que vous allez aligner les séquences d'ADN.

Questionnaire - Alignement multiple des séquences non-apparentées

  1. Imaginons que l'on superpose (sans optimiser l'alignement) 10 séquences protéiques aléatoires de même taille, générées selon un modèle de résidus indépendants et équiprobables. Quelle est la probabilité, pour une colonne donnée de l'alignement, de ne contenir que des résidus identiques ? Fournissez la formule du calcul.
  2. Quel est le pourcentage des sites conservés au sein de l'alignement multiple ?
  3. Comment ce pourcentage se compare-t-il à celui observé dans les alignements par paire ? Commentez.
[Retour à la table des matières]

Collecte des séquences (pour information)

Cet exercice est la description détaillée du protocole que nous avons suivi pour obtenir des séquences des opsines des mammifères. Comme le procédé est long, vous ne devez pas faire cet exercice, nous l’avons fait à votre place et le fichier qui en sort se trouve ici. Néanmoins, il est important que vous sachiez comment procéder.

  1. Effectuez une recherche structurée (option Advanced search) dans Uniprot pour identifier les protéines selon les critères suivants:

    1. les protéines doivent provenir d'un mammifère (Taxonomy ID: 40674).
    2. le nom doit contenir "opsin"
    3. la séquence doit couvrir au moins 300 aa
    4. le nom de la protéine ne peut contenir ni "melanopsin", ni "rhodopsin", ni "rod"

    Il est très important que votre requête soit formulée précisément pour appliquer les cirtères ci-dessus, sans quoi vous vous retrouverez avec des centaines de protéines, et vous perdrez énormément de temps pour les tâches ultérieures.

    1. Au terme de cette sélection, vous devriez avoir obtenu entre 100 et 200 protéines, pas plus.
    2. Pour écarter des protéines lors d'une requête avancée Uniprot, vous pouvez utiliser l'opérateur logique NOT, dans le menu déroulant qui précède l'option Field.

  2. Personnalisez l'affichage des résultats en cliquant sur l'option Customize de la table de résultats d'Uniprot.

    1. Affichez 250 lignes résultats par page (option rows), pour éviter de devoir trop souvent passer d'une page à l'autre. !
    2. Ajoutez au résultat des colonnes indiquant la classe, l'ordre, la famille de chaque espèce, et le longueur des séquences.

      Pour ajouter des colonnes, cliquez sur Columns > Taxon ID > Show. Ceci fera apparaître une nouvelle liste d'options avec les niveaux taxonomiques cochez les cases Class, Order et Family, puis cliquez sur le bouton Show, et confirmez en cliquant Save. Vous devriez alors voir apparaître les colonnes "Taxon ID (Class)", "Taxon ID (Order)", et "Taxon ID (Family)".

    3. Triez les résultats par ordre alphabétique des noms d'espèces, en cliquant sur les petits triangles devant l'en-tête de la colonne "Organism", afin de facilement voir tous les opsines disponibles pour chaque espèce.

  3. Sélectionnez (en cochant les cases devant l'identifiant) entre 20 et 30 opsines, selon les critères suivants :

    1. Sélectionnez d'abord toutes les opsines impliquées dans la vision des couleurs (short-wave-sensitive, medium-wave-sensitive et long-wave-sensitive) pour les organismes suivants.
      • humain (Homo sapiens)
      • macaque (Macaca fascicularis)
      • babouin (Papio anubis)
      • ornithorynque (Ornithorhynchus anatinus)
      • lapin (Oryctolagus cuniculus)
      • souris (Mus musculus)
      • rat (Rattus norvegicus)

      ces opsines particulières seront nécessaire pour répondre aux questions ci-dessous.

    2. Sélectionnez ensuite quelques autres espèces réparties sur des ordres différents de mammifères, pour arriver à un total de 20 à 30 opsines
    3. Attention, veilllez à répartir la sélection entre opsines sensibles au bleu, au vert et au rouge.
    4. Assurez-vous que les séquences sélectionnées soient complètes (la longueur des opsines bleues tourne autour des 350aa, celle des vertes et rouges autour de 360aa)

  4. Après avoir effectué votre sélection manuelle, sauvegardez la page Web, pour conserver une trace dans l'état.

    Nous expliquons ci-dessous comment sauvegarder les résultats sous différents formats (séquences fasta, fichier de tableur), mais il est toujours prudent de conserver une copie de vos résultats dans l'état où ils vous apparaissent initialement sur un site Web. Nous vous suggérons de sauvegarder régulièrement les pages web de résultats aux différentes étapes du TD qui suit.

  5. Téléchargez les séquences sélectionnées en format fasta.

    Attention: si vous cliquez sur le bouton orange Download en haut de la table de résultats, vous téléchargerez les séquences pour l'ensemble des résultats de la requête.

    Pour télécharger uniquement les séquences sélectionnées, cliquez sur le bouton Retrieve dans la règle verte qui est apparue au bas de la page dès que vous avez sélectionné une protéine.

  6. Faites une copie séparée du fichier fasta téléchargé, et ouvrez-la dans un éditeur de texte simple (e.g. gedit, Notepad++).

  7. Renommez les séquences, pour avoir des noms informatifs

    • La structure d'un fichier fasta. Le fichier fasta est un simple fichier texte qui contient une ou plusieurs séquences. Pour chaque séquence il y a une ligne d'identification, où le signe > est suivi d'une courte description de la séquence (identifiant, origine taxonomique, longueur etc.).
      Exemple d'en-tête fasta:

      >sp|P51490|OPSB_BOVIN Short-wave-sensitive opsin 1 OS=Bos taurus GN=OPN1SW PE=1 SV=1

      Cette ligne est suivie d'une ou plusieurs lignes contenant la séquence elle-même.

    • Pourquoi s'embêter à renommer les séquences ?
      Les logiciels d'alignement acceptent les fichiers fasta comme fichiers d'entrée, et utilisent les premiers caractères de la ligne d'identification comme identifiants de séquences. Dans le cas des séquences téléchargées à partir des banques des donnés, la première partie de ligne d'identification contient le numéro d'accession de la séquence. Cela est peu informatif pour les humains qui interprètent les résultats de l'alignement, donc il est préférable de renommer les séquences en plaçant en premier lieu les noms informatifs.

    • Comment renommer les séquences ?
      Le plus simple est d'insérer, tout au début de la ligne d'en-tête fasta, un idendifiant en un mot (pas d'espace), qui indiquera le nom de l'espèce et le spectre de sensibilité de l'opsine (bleu, vert, rouge, vert-rouge, ...). Par exemple, Chimp_blue désignera l'opsine sensible aux bleu (short-wave-sensitive) du chimpanzé (Pan troglodytus)

      Pour la traçabilité, vous pouvez éventuellement conserver l'en-tête original en commentaire sur la même ligne, mais veillez à placez l'identifiant informatif juste après le signe >.

      Par exemple, vous pourrez changer la ligne originale suivante:

      >sp|P60015|OPSB_PANTR Short-wave-sensitive opsin 1 OS=Pan troglodytes GN=OPN1SW PE=2 SV=1
      en insérant Chimp_blue juste après >:
      >Chimp_blue sp|P60015|OPSB_PANTR Short-wave-sensitive opsin 1 OS=Pan troglodytes GN=OPN1SW PE=2 SV=1

    • Ne laissez pas d'espace entre le signe > et votre identifiant

    • Séparerez votre identifiant du reste de la ligne par au moins un espace.

    • Les identifiants devrait être uniques (chaque identifiant dans le fichier devrait être différent) et courts (5-20 caractères).

  8. Soumettez sur le l'AMeTICE le fichier de séquences fasta que vous avez édité, en suivant le lien 'Fichier fasta avec les séquences protéiques des opsines des mammifères'.

  9. Par prudence, conservez une copie locale de vos résultats:

    1. le fichier de séquecnes fasta original téléchargé de Uniprot:
    2. la copie que vous avez éditée:
  10. Préparez deux fichiers fasta séparés à partir de votre fichier avec les séquences renommées.

    1. Un qui contient uniquement les séquences d'opsines sensible à la lumière bleue (SWS)
    2. Un autre qui regroupera les opsines sensible à la lumière verte (MWS) et rouge (LWS) des primates

    Ces fichiers serviront à générer des alignements séparés pour les opsines bleues, et pour les autres opsines (vertes et rouges rassemblées).

[Retour à la table des matières]
Emese Meglécz (IMBE, Aix-Marseille Université) & Jacques van Helden (TAGC, Aix-Marseille Université).