AMU  :: L2  :: Bioinformatique appliquée  :: année 2013/2014

Recherches de séquences par similarités


Contenu

[Retour à la table des matières]

Prérequis

Ce TD repose sur les cours suivants.

Luminy (Jacques van Helden)

Saint Charles (Emese Meglécz)

[Retour à la table des matières]

Objectifs

L'objectif général de ce TD est d'apprendre à effectuer des recherches par similarités, en comparant une séquence d'intérêt (query sequence) avec chacune des séquences d'une base de données. Pour effectuer les recherches par similarité, nous utiliserons le logiciel BLAST.

Les objectifs particuliers sont d'acquérir les compétences suivantes:

  1. Comprendre les situations pour lesquelles une recherche par similarités de séquences peut s'avérer utile.
  2. Connaître les différentes modalités de comparaisons de séquences (selon la nature, peptidique ou nucléique, des séquences requête et de la base de données).
  3. Interpréter les résultats de la recherche en termes de significativité statistique (en particulier, savoir interpréter la e-valeur).
  4. Comprendre la signification biologique des résultats.

[Retour à la table des matières]

Collecte des protéines similaires aux opsines avec blastp

Nous voudrions collecter les séquences similaires aux opsines chez différents organismes, pour étudier leur degré de conservation en fonction de leur rôle et de la distance évolutive.

Recherche des opsines avec blastp

  1. Connectez-vous à Uniprot et récupérez la séquence peptidique de l'opsine sensible aux ondes moyennes (middle-wave sensitive opsin) chez la souris.

  2. Ouvrez une connexion au serveur BLAST du NCBI server, ouvrez l'outil protein blast (blastp) et cherchez les protéines similaire chez les rongeurs.

    • L'option Organism permet de spécifier soit un nom d'espèce, soit un nom de taxon.
    • L'interface assure la complétion automatique: quand vous commencez à taper un nom d'organisme ou de taxon, les noms compatibles sont affichés, et leur choix se retreint au fur et à mesure que vous complétez le nom.

  3. Sélectionnez le meilleur hit qui ne vient pas de la souris, et analysez-le en tentant de faire le rapport entre les caractéristiques de l'alignement et les scores qui le caractérisent: score brut, identités, résidus "positifs" (identités et substitutions conservatives), gaps, expect.

    BLAST retourne une série de scores associés à chaque alignement: score brut, pourcentage d'identités, pourcentage de positifs, e-valeur, ... A priori il n'est donc pas évident de savoir quel score indique le "meilleur hit".

    Le critère le plus pertinent pour évaluer la significativité d'un alignement est sa e-valeur: les e-valeurs les plus faibles correspondent aux hits les plus significatifs. Par défaut, les résultats de BLAST sont donc triés par ordre croissant d'e-valeur. Consultez la page de description des concepts pour obtenir des explications plus détaillées concernant la e-valeur.

  4. Refaites tourner blastp avec la même protéine requête, en limitant cette fois la recherche aux protéines d'insectes. Comparez les résultats avec ceux des rongeurs.

  5. Refaites tourner blastp avec la même protéine requête, en limitant cette fois la recherche aux protéines de Fungi (champignons et levures). Comparez les résultats avec ceux des rongeurs.

  6. En quoi les trois résultats ci-dessus révèlent-ils le type d'alignement réalisé par BLAST (global ou local) ?

  7. Faites une recherche de similarités en utilisant comme requête l'opsine verte de la souris, contre l'ensemble des protéines de la souris de la base de données non-redondante, en restreignant la e-valeur à 1e-10 et en spécifiant de retourner 250 hits maximum.

    Pour modifier le seuil de e-valeur et les nombre maximum des hits, cliquez sur le lien Algorithm parameters au bas du formulaire BLAST, et modifiez la valeur de l'option Expect threshold et Max target sequences

  8. Dans la liste de hits, analysez la fonction des protéines les plus éloignées de la séquence requête. Leur fonction semble-t-elle liée à la vision des couleurs? Comment interprétez-vous la similarité entre ces protéines et l'opsine ?

Questionnaire : Collecte de protéines similaire aux opsines avec blastp

Répondez aux questions du questionnaire Q1, que vous trouverez sur le site Ametice.

[Retour à la table des matières]

A la recherche des récepteurs olfactifs

Les récepteurs olfactifs forment l'une des plus grandes familles de gènes dans les génomes des métazoaires. Le nombre de récepteurs varie très fortement entre espèces (voir figure 1 de Keller et al., 2012), mais on trouve dans tous les cas plusieurs centaines de gènes codant pour des récepteurs olfactifs (OR). La perception des odeurs repose sur le fait que chaque cellule olfactive exprime, de façon spécifique, un seul des gènes de l'énorme famille des récepteurs olfactifs.

Chaque protéine OR est spécialisée dans la perception d'une ou de quelques molécules particulières (ligands). Quand le ligand se lie au récepteur, la cellule olfactive est activée et transmet un signal vers le système nerveux central, indiquant la présence de la molécule dans le milieu.

Le but de cet exercice est de chercher l’information sur les nombre de récepteurs olfactifs dans les espèces différentes. Nous allons utiliser deux stratégies :

Recherche par nom de protéine

Formulez une requête structurée ("Advanced search") dans Uniprot pour obtenir les protéines dont le nom comporte les mots "olfactory receptor", pour le chien (Canis lupus familiaris)

Questionnaire : Recherche des récepteurs olfactifs par nom de protéine

  1. Copiez la phrase de votre requête pour trouver les protéines olfactives chez le chien

  2. Combien de protéines avez-vous trouvées, en comptant les protéines révisées (Swissprot), et non-révisées ("unreviewed") chez le chien

Recherche par similarité de séquence

Nous allons utiliser maintenant une approche fondamentalement différente pour identifier des protéines des récepteurs olfactifs. En partant une séquence d'un récepteur olfactif du chien, nous allons chercher les séquences similaires dans une base de données des séquences protéiques. Nous effectuerons deux analyses séparées:

blastp: recherche des récepteurs par similarités de séquences peptidiques

  1. A partir d'Uniprot, téléchargez la séquence d'un récepteur olfactif du chien F1PLD4 (accès direct :F1PLD4).

  2. Connectez-vous au site Web BLAST du NCBI et sélectionnez l'outil protein blast, qui compare des séquences protéiques avec les banques de données protéiques.

  3. Copiez votre séquence requête dans la fenêtre Enter accession number(s), gi(s), or FASTA séquence(s). Alternativement, vous pouvez copier l’identifiant de votre séquence dans la même fenêtre, ou télécharger le fichier que vous aviez précédemment sauvegardé, en cliquant sur le bouton upload file.

  4. Observez les différentes bases des données disponibles dans le menu déroulant Database. Sélectionnez la base de données non-redondante (non-redundant protein sequences (nr)).

  5. Sélectionnez l'algorithme blastp.

  6. Cliquer sur Algorithm parameters pour pouvoir changer les paramètres de BLAST

  7. Réglez Max target sequences à 1000, pour limiter le nombre de résultats dans le rapport de BLAST.

  8. Laissez les autres paramètres à leur valeur par défaut, et lancez la recherche.

Questionnaire : recherche des récepteurs olfactifs avec blastp

    Analysez le dernier hit (celui avec la e-valeur la plus élevée).

  1. De quelle espèce provient cette séquence (nom latin et nom français) ?
  2. Que vaut l'e-valeur (expect) de ce hit ?
  3. Quel est le pourcentage d’identité ?
  4. Quel est le pourcentage de similarité (positifs) ?
  5. Combien de gaps l’alignement comporte-t-il ?
  6. Quel pourcentage de la séquence requête est couvert par l'alignement ?
  7. Pensez-vous que cette séquence soit homologue à votre séquence requête ?
  8. Justifiez votre réponse en une ou deux phrases.
  9. Pensez-vous que BLAST a trouvé toutes les séquences homologues à votre séquence requête dans la banque nr ? Justifiez votre réponse.
  10. Quel paramètre pourriez-vous changer pour obtenir tous les homologues ?

Distribution taxonomique des récepteurs olfactifs retournés par blastp

L'interface BLAST du NCBI permet non seulement d'afficher les hits individuels, mais également d'analyser leur distribution au sein des groupes taxonomiques.

  1. Pour observer la distribution taxonomique des hits, cliquez sur le lien Taxonomy reports en haut de la page de résultats du BLAST précédent, juste en-dessous de la description des paramètres du BLAST. Le rapport taxonomique s’ouvre dans une nouvelle fenêtre.
  2. La première partie (Lineage Report) indique les espèces d’où provenaient les séquences trouvées par BLAST (en limitant aux 1000 premiers hits, comme vous l'avez spécifié). Chaque ligne indique la lignée taxonomique, le meilleur score brut (en bits) et le nombre de hits pour une espèce donnée.
  3. La deuxième partie du rapport taxonomique (Organism Report) récapitule les scores des hits par espèce.

Questionnaire: distribution taxonomique des opsines détectées

  1. Quelle est l’espèce la plus éloignée de l’humain dans le rapport taxonomique ?
  2. Le dernier hit (avec le score le plus faible), provient-il de cette espèce ?
  3. Comment pouvez-vous l’expliquer ?
  4. Combien de hit avez–vous pour le chien ?
  5. Comment pouvez-vous expliquer la différence entre le nombre des protéines trouvés par BLAST et par la recherche par nom ?

Recherche des récepteurs olfactifs par differents types de BLAST

Nous allons comparer les spécificités des différents types de BLAST en cherchant les gènes ou protéines des récepteurs olfactifs chez le chien.

Comme séquence requête nous disposons de la séquence protéique F1PLD4 et la séquence nucléique JF733512, qui correspond du segment codant du gène de cette protéine.

Pour qu’on ait une bonne base de comparaison entre les différents BLASTs, nous allons commencer par vérifier la correspondance entre la séquence protéique F1PLD4 et la séquence nucléique JF733512.

Bien que BLAST soit principalement utilisé pour repérer les séquences similaires à une séquence requête dans une banque, on peut aussi comparer une séquence choisie avec une autre.

Alignement de deux séquences par BLAST

  1. Ouvrez la page de BLAST du NCBI et sélectionnez la version de BLAST appropriée pour comparer une séquence protéique ( F1PLD4) avec une séquence nucléique (JF733512). A priori, deux possibilités s'offrent à vous. Choisissez celle qui permet d'utiliser la protéine comme "base de données" (subject), et la séquence du gène comme requête (query).

  2. Dans le boîte de dialogue Enter Query Sequence, cochez la case Align two or more sequences. Une nouvelle fenêtre Enter Subject Sequence apparaît.

  3. Copiez les séquences F1PLD4 et JF733512 chacune dans une des deux fenêtres.

    Attention! Vous devez soigneusement choisir la séquence qui correspond à la requête (query), et celle qui correspond à la "base de données" (subject).

  4. Lancez le BLAST.

  5. Observez les alignements des HSPs.

  6. Cliquez sur 'dot Matrix view' pour accéder au Dot plot entre les deux séquences

Questionnaire : Alignement de deux séquences par BLAST

  1. Quel algorithme avez-vous choisi pour comparer les séquences ? Justifier ce choix en 1-2 phrases.

  2. Quelle est la longueur de la séquence protéique ?

  3. Quel est le pourcentage de la séquence protéique couvert par le meilleur HSP ?

  4. Quelle est la longueur de la séquence nucléique ?

  5. Quel est le pourcentage de la séquence nucléique couvert par le meilleur HSP ?

  6. A quoi correspondent les quelques bases de la séquence nucléique non-couvertes par l’alignement ?

  7. Quel est le pourcentage d’identité entre les séquences ?

  8. A quoi correspondent les HSPs courtes (<25 aa) ? Justifiez votre réponse.

  9. Pourquoi ces courtes HSPs sont représentés sur le dot-plot comme les diagonaux dans 'contre sens' (n’est pas la même sens que le diagonale principale) ?

Selon le type de la banque interrogée et la type des séquences requêtes nous pouvons faire les BLASTs suivants :

Séquence requête Type de séquence requête Banque protéique Banque nucléotidique
F1PLD4 protéique BLASTp  
F1PLD4 protéique   tBLASTn
JF733512 nucléotidique BLASTx  
JF733512 nucléotidique   BLASTn (blastn)
JF733512 nucléotidique   BLASTn (megablast)
JF733512 nucléotidique   tBLASTx

Pour rappel

Recherche des récepteurs olfactifs par differents types de BLAST

  1. Ouvrez la page de BLAST du NCBI (6 fois).
  2. Lancer les 6 BLASTs représentés dans le tableau ci-dessus. Pour chaque BLAST choisissez les paramètre suivants :
    • Banque : non-redondant (nr/nt)
    • Organism : Canis lupus familiaris
    • Max target sequences : 1000
    • Expect: 1e-5
    • L'interface BLAST du NCBI vous permet d'entrer soit une séquence complète, soit l'identifiant d'une séquence présente dans les bases de données du NCBI.
    • Pour choisir l’algorithme BLASTn ou megablast vous devez sélectionner l’algorithme dans Program Selection sur le page de BLASTn.
  3. Notez le nombre des hits que vous obtenez avec ces BLASTs.

    La façon la plus simple de compter les hits est de cliquer sur l'option Select: All sous le titre Descriptions. Le nombre de hits sélectionné apparaît alors à côté de l'option.

Questionnaire: Recherche des récepteurs olfactifs par différents types de BLAST parmi les séquences du chien

  1. Combien de hits obtenez-vous avec chacun des BLASTs ?

  2. Quel est(sont) les BLAST(s) qui pourrait(ont) retourner plus des hits en augmentant le max target sequences ?

  3. Expliquez pourquoi vous avez obtenu plus des hits avec BLASTp que par la recherche par mot clé dans l’exercice précédent.

  4. Expliquez pourquoi vous obtenez plus des hits avec BLASTn qu’avec megablast ?

    Regardez la longueur de mot par défaut pour blastn et megablast. Vous pouvez trouver cette information en cliquant sur le lien Search summary en haut de la page de résultatsde BLAST.

  5. Expliquez pourquoi vous obtenez plus des hits avec BLASTp qu’avec BLASTn.

  6. Expliquez pourquoi vous obtenez à peu près le même nombre des hits avec BLASTp et BLASTx.

  7. Expliquez pourquoi tBLASTx et tBLASTn retournent plus des hits que BLASTx ou BLASTp.

[Retour à la table des matières]

Interpréter la e-valeur d'un résultat de BLAST

Nous avons vu ci-dessus que BLAST caractérise chaque hit par une série de scores: score brut, pourcentages d'identités, de positifs, expect, etc. Afin de comprendre la signification d'un hit, il est essentiel de pouvoir interpréter ces scores.

A partir de quel moment peut-on considérer qu'un hit est significatif ? Peut-on définir un pourcentage d'identité ou de similarité au-delà duquel les alignements correspondent à de "vraies" homologies, et les pourcentages plus bas à des ressemblances fortuites ? Est-il plus significatif d'observer un pourcentage de similarité élevé sur une séquence courte ou un pourcentage plus faible sur une séquence longue ? La réponse à ces question n'est pas triviale.

Nous avons constaté que l'outil BLAST trie les résultat par valeur décroissante du score expect (aussi appelé e-value pour expected value).

Test empirique de la e-valeur avec des séquences aléatoires

  1. Connectez-vous au site web Regulatory Sequence Analysis Tools (RSAT, http://rsat.ulb.ac.be/rsat/), et utilisez l'outil random sequence (qui se trouve dans Sequence tools) pour générer une séquence aléatoire de la même longueur que l'opsine verte de la souris, en choisissant un modèle de fond afin d'obtenir une composition en dipeptide semblable à celle des protéines de la souris. Pour cela, activez les options suivantes dans le cadre background model :

    1. Consultez dans Uniprot la longueur de l'opsine verte de la souris, et indiquez sa valeur dans l'option Sequence length.
    2. Indiquez la valeur 1 pour l'option Number of sequences.
    3. Organism: Mus musculus Ensembl.
    4. Cochez l'option Protein sequences calibrated on ....
    5. Selectionnez 2 pour l'option Oligopeptide size.

  2. Utilisez l'outil protein blast du NCBI BLAST (http://blast.ncbi.nlm.nih.gov/) pour rechercher des protéines similaires à cette séquence aléatoire, dans les bases de données suivantes:

    • Non-redundant database (NR)
    • UniprotKb/Swiss-Prot
    • UniprotKb/Swiss-Prot restreint aux protéines de la souris
    Attention, il est possible que le formulaire de BLAST affiche toujours les paramètres sélectionnés lors de votre dernière requête. Avant de réaliser cette analyse, assurez-vous que les paramètres de blast soient remis à leur valeur par défaut
    • Expect threshold = 10.
    • La case Organism doit être vide.

Questionnaire: séquences aléatoires

  1. Quelle est la e-valeur par défaut pour l'outil BLAST du NCBI ?

  2. Avec cette e-valeur, combien de hits vous attendriez-vous à obtenir en soumettant une séquence aléatoire ?

  3. Combien de hits BLAST trouve-t-il pour votre séquence aléatoire:

  4. dans la base de données non-redondantes ?
  5. dans UniprotKB/Swissprot ?
  6. dans la base de UniprotKB/Swissprot, en restreignant l'analyse aux protéines de la souris ?
  7. Commentez les résultats, en termes de longueurs des alignements trouvés, de pourcentages d'identité et de similarité, et d'expect score.

[Retour à la table des matières]

Bonus - Alignement de la séquence protéique de l'insuline avec la séquence de son gène

Nous allons localiser les introns dans le gène de l’insuline humaine en comparant la séquence du gène avec la séquence protéique de l’insuline.

Bien que BLAST soit principalement utilisé pour repérer les séquences similaires à une séquence requête dans une banque, on peut aussi comparer une séquence choisie avec une autre.

  1. Ouvrez la page de BLAST du NCBI et sélectionnez la version de BLAST appropriée pour comparer une séquence protéique (insuline) avec une séquence nucléique (le gène de l'insuline). A priori, deux possibilités s'offrent à vous. Choisissez celle qui permet d'utiliser la protéine comme "base de données" (sujbect), et la séquence du gène comme requête (query).

  2. Dans le boîte de dialogue Enter Query Sequence, cochez la case Align two or more sequences. Une nouvelle fenêtre Enter Subject Sequence apparaît.

  3. Copiez l’identifiant d’insuline P01308 dans une des fenêtres, et l’identifiant du gène V00565, dans l’autre

    Attention! Vous devez soigneusement choisir la séquence qui correspond à la requête (query), et celle qui correspond à la "base de données" (subject).

  4. Lancez le BLAST.

  5. Observez les alignements des HSPs.

  6. Cliquez sur 'dot Matrix view' pour accéder au Dot plot entre les deux séquences

  7. Questionnaire: alignement de la séquence protéique de l'insuline avec la séquence de son gène

    1. Quel algorithme avez-vous choisi pour comparer la séquence de l'insuline à celle de son gène ? Justifier ce choix en 1-2 phrases.

    2. Sur le dotplot vous trouvez deux diagonales qui ne penchent pas dans le même sens que les autres. Identifier la région de la protéine qui correspond à la diagonale la plus longue dans le contre sens. Donnez la position du premier et du dernier acide aminé de cette région.

    3. Comment pouvez-vous expliquer que tous les diagonales ne penchent pas dans le même sens ?

    4. A quoi correspondent les HSPs courtes (<25 aa) ?

    5. Argumentez votre réponse en 1-2 phrases.

  8. Dans une nouvelle fenêtre, refaites le BLAST en descendant le seuil de E-value à 1e-5

  9. Dans une nouvelle fenêtre, refaites le BLAST en abaissant le seuil de E-valeur à 1e-5, et en décochant l'option Filter Low complexity regions.

  10. Comparez les dot plots des résultats du BLAST obtenus avec ces différentes valeurs de paramètres.

  11. Questionnaire: effet de l'ajustement des paramètres de BLAST

    1. Comment pouvez-vous expliquer la disparition des HSP courtes  ?

    2. A part de la disparition des HSPs courtes, il y un autre changement important par rapport au premier BLAST. Lequel ?

    3. A quoi ce changement est-il dû ?

    4. Un des HSPs a une substitution, et les deux HSPs se chevauchent sur 2 aa. Comment pouvez-vous expliquer cette observation ?

    5. Quelles sont les vraies cordonnées des exons dans la séquence du gène ? Donnez la première et la dernière position dans la séquence du gène pour les deux exons.

[Retour à la table des matières]

Bibliographie

  1. Keller A (2012) Different noses for different mice and men. BMC Biology 10:75.
[Retour à la table des matières]
Emese Meglécz (IMBE, Aix-Marseille Université) & Jacques van Helden (TAGC, Aix-Marseille Université).