AMU :: L2 :: Bioinformatique appliquée :: année 2013/2014
Ce TD repose sur les cours suivants.
L'objectif général de ce TD est d'apprendre à effectuer des recherches par similarités, en comparant une séquence d'intérêt (query sequence) avec chacune des séquences d'une base de données. Pour effectuer les recherches par similarité, nous utiliserons le logiciel BLAST.
Les objectifs particuliers sont d'acquérir les compétences suivantes:
Nous voudrions collecter les séquences similaires aux opsines chez différents organismes, pour étudier leur degré de conservation en fonction de leur rôle et de la distance évolutive.
Connectez-vous à Uniprot et récupérez la séquence peptidique de l'opsine sensible aux ondes moyennes (middle-wave sensitive opsin) chez la souris.
Ouvrez une connexion au serveur BLAST du NCBI server, ouvrez l'outil protein blast (blastp) et cherchez les protéines similaire chez les rongeurs.
Sélectionnez le meilleur hit qui ne vient pas de la souris, et analysez-le en tentant de faire le rapport entre les caractéristiques de l'alignement et les scores qui le caractérisent: score brut, identités, résidus "positifs" (identités et substitutions conservatives), gaps, expect.
BLAST retourne une série de scores associés à chaque alignement: score brut, pourcentage d'identités, pourcentage de positifs, e-valeur, ... A priori il n'est donc pas évident de savoir quel score indique le "meilleur hit".
Le critère le plus pertinent pour évaluer la significativité d'un alignement est sa e-valeur: les e-valeurs les plus faibles correspondent aux hits les plus significatifs. Par défaut, les résultats de BLAST sont donc triés par ordre croissant d'e-valeur. Consultez la page de description des concepts pour obtenir des explications plus détaillées concernant la e-valeur.
Refaites tourner blastp avec la même protéine requête, en limitant cette fois la recherche aux protéines d'insectes. Comparez les résultats avec ceux des rongeurs.
Refaites tourner blastp avec la même protéine requête, en limitant cette fois la recherche aux protéines de Fungi (champignons et levures). Comparez les résultats avec ceux des rongeurs.
En quoi les trois résultats ci-dessus révèlent-ils le type d'alignement réalisé par BLAST (global ou local) ?
Faites une recherche de similarités en utilisant comme requête l'opsine verte de la souris, contre l'ensemble des protéines de la souris de la base de données non-redondante, en restreignant la e-valeur à 1e-10 et en spécifiant de retourner 250 hits maximum.
Pour modifier le seuil de e-valeur et les nombre maximum des hits, cliquez sur le lien Algorithm parameters au bas du formulaire BLAST, et modifiez la valeur de l'option Expect threshold et Max target sequences
Dans la liste de hits, analysez la fonction des protéines les plus éloignées de la séquence requête. Leur fonction semble-t-elle liée à la vision des couleurs? Comment interprétez-vous la similarité entre ces protéines et l'opsine ?
Répondez aux questions du questionnaire Q1, que vous trouverez sur le site Ametice.
Les récepteurs olfactifs forment l'une des plus grandes familles de gènes dans les génomes des métazoaires. Le nombre de récepteurs varie très fortement entre espèces (voir figure 1 de Keller et al., 2012), mais on trouve dans tous les cas plusieurs centaines de gènes codant pour des récepteurs olfactifs (OR). La perception des odeurs repose sur le fait que chaque cellule olfactive exprime, de façon spécifique, un seul des gènes de l'énorme famille des récepteurs olfactifs.
Chaque protéine OR est spécialisée dans la perception d'une ou de quelques molécules particulières (ligands). Quand le ligand se lie au récepteur, la cellule olfactive est activée et transmet un signal vers le système nerveux central, indiquant la présence de la molécule dans le milieu.
Le but de cet exercice est de chercher l’information sur les nombre de récepteurs olfactifs dans les espèces différentes. Nous allons utiliser deux stratégies :
Formulez une requête structurée ("Advanced search") dans Uniprot pour obtenir les protéines dont le nom comporte les mots "olfactory receptor", pour le chien (Canis lupus familiaris)
Copiez la phrase de votre requête pour trouver les protéines olfactives chez le chien
Combien de protéines avez-vous trouvées, en comptant les protéines révisées (Swissprot), et non-révisées ("unreviewed") chez le chien
Nous allons utiliser maintenant une approche fondamentalement différente pour identifier des protéines des récepteurs olfactifs. En partant une séquence d'un récepteur olfactif du chien, nous allons chercher les séquences similaires dans une base de données des séquences protéiques. Nous effectuerons deux analyses séparées:
A partir d'Uniprot, téléchargez la séquence d'un récepteur olfactif du chien F1PLD4 (accès direct :F1PLD4).
Connectez-vous au site Web BLAST du NCBI et sélectionnez l'outil protein blast, qui compare des séquences protéiques avec les banques de données protéiques.
Copiez votre séquence requête dans la fenêtre Enter accession number(s), gi(s), or FASTA séquence(s). Alternativement, vous pouvez copier l’identifiant de votre séquence dans la même fenêtre, ou télécharger le fichier que vous aviez précédemment sauvegardé, en cliquant sur le bouton upload file.
Observez les différentes bases des données disponibles dans le menu déroulant Database. Sélectionnez la base de données non-redondante (non-redundant protein sequences (nr)).
Sélectionnez l'algorithme blastp.
Cliquer sur Algorithm parameters pour pouvoir changer les paramètres de BLAST
Réglez Max target sequences à 1000, pour limiter le nombre de résultats dans le rapport de BLAST.
Laissez les autres paramètres à leur valeur par défaut, et lancez la recherche.
Analysez le dernier hit (celui avec la e-valeur la plus élevée).
L'interface BLAST du NCBI permet non seulement d'afficher les hits individuels, mais également d'analyser leur distribution au sein des groupes taxonomiques.
Nous allons comparer les spécificités des différents types de BLAST en cherchant les gènes ou protéines des récepteurs olfactifs chez le chien.
Comme séquence requête nous disposons de la séquence protéique F1PLD4 et la séquence nucléique JF733512, qui correspond du segment codant du gène de cette protéine.
Pour qu’on ait une bonne base de comparaison entre les différents BLASTs, nous allons commencer par vérifier la correspondance entre la séquence protéique F1PLD4 et la séquence nucléique JF733512.
Bien que BLAST soit principalement utilisé pour repérer les séquences similaires à une séquence requête dans une banque, on peut aussi comparer une séquence choisie avec une autre.
Ouvrez la page de BLAST du NCBI et sélectionnez la version de BLAST appropriée pour comparer une séquence protéique ( F1PLD4) avec une séquence nucléique (JF733512). A priori, deux possibilités s'offrent à vous. Choisissez celle qui permet d'utiliser la protéine comme "base de données" (subject), et la séquence du gène comme requête (query).
Dans le boîte de dialogue Enter Query Sequence, cochez la case Align two or more sequences. Une nouvelle fenêtre Enter Subject Sequence apparaît.
Copiez les séquences F1PLD4 et JF733512 chacune dans une des deux fenêtres.
Lancez le BLAST.
Observez les alignements des HSPs.
Cliquez sur 'dot Matrix view' pour accéder au Dot plot entre les deux séquences
Quel algorithme avez-vous choisi pour comparer les séquences ? Justifier ce choix en 1-2 phrases.
Quelle est la longueur de la séquence protéique ?
Quel est le pourcentage de la séquence protéique couvert par le meilleur HSP ?
Quelle est la longueur de la séquence nucléique ?
Quel est le pourcentage de la séquence nucléique couvert par le meilleur HSP ?
A quoi correspondent les quelques bases de la séquence nucléique non-couvertes par l’alignement ?
Quel est le pourcentage d’identité entre les séquences ?
A quoi correspondent les HSPs courtes (<25 aa) ? Justifiez votre réponse.
Pourquoi ces courtes HSPs sont représentés sur le dot-plot comme les diagonaux dans 'contre sens' (n’est pas la même sens que le diagonale principale) ?
Selon le type de la banque interrogée et la type des séquences requêtes nous pouvons faire les BLASTs suivants :
| Séquence requête | Type de séquence requête | Banque protéique | Banque nucléotidique |
| F1PLD4 | protéique | BLASTp | |
| F1PLD4 | protéique | tBLASTn | |
| JF733512 | nucléotidique | BLASTx | |
| JF733512 | nucléotidique | BLASTn (blastn) | |
| JF733512 | nucléotidique | BLASTn (megablast) | |
| JF733512 | nucléotidique | tBLASTx |
Pour rappel
La façon la plus simple de compter les hits est de cliquer sur l'option Select: All sous le titre Descriptions. Le nombre de hits sélectionné apparaît alors à côté de l'option.
Combien de hits obtenez-vous avec chacun des BLASTs ?
Quel est(sont) les BLAST(s) qui pourrait(ont) retourner plus des hits en augmentant le max target sequences ?
Expliquez pourquoi vous avez obtenu plus des hits avec BLASTp que par la recherche par mot clé dans l’exercice précédent.
Expliquez pourquoi vous obtenez plus des hits avec BLASTn qu’avec megablast ?
Regardez la longueur de mot par défaut pour blastn et megablast. Vous pouvez trouver cette information en cliquant sur le lien Search summary en haut de la page de résultatsde BLAST.
Expliquez pourquoi vous obtenez plus des hits avec BLASTp qu’avec BLASTn.
Expliquez pourquoi vous obtenez à peu près le même nombre des hits avec BLASTp et BLASTx.
Expliquez pourquoi tBLASTx et tBLASTn retournent plus des hits que BLASTx ou BLASTp.
Nous avons vu ci-dessus que BLAST caractérise chaque hit par une série de scores: score brut, pourcentages d'identités, de positifs, expect, etc. Afin de comprendre la signification d'un hit, il est essentiel de pouvoir interpréter ces scores.
A partir de quel moment peut-on considérer qu'un hit est significatif ? Peut-on définir un pourcentage d'identité ou de similarité au-delà duquel les alignements correspondent à de "vraies" homologies, et les pourcentages plus bas à des ressemblances fortuites ? Est-il plus significatif d'observer un pourcentage de similarité élevé sur une séquence courte ou un pourcentage plus faible sur une séquence longue ? La réponse à ces question n'est pas triviale.
Nous avons constaté que l'outil BLAST trie les résultat par valeur décroissante du score expect (aussi appelé e-value pour expected value).
Connectez-vous au site web Regulatory Sequence Analysis Tools (RSAT, http://rsat.ulb.ac.be/rsat/), et utilisez l'outil random sequence (qui se trouve dans Sequence tools) pour générer une séquence aléatoire de la même longueur que l'opsine verte de la souris, en choisissant un modèle de fond afin d'obtenir une composition en dipeptide semblable à celle des protéines de la souris. Pour cela, activez les options suivantes dans le cadre background model :
Utilisez l'outil protein blast du NCBI BLAST (http://blast.ncbi.nlm.nih.gov/) pour rechercher des protéines similaires à cette séquence aléatoire, dans les bases de données suivantes:
Quelle est la e-valeur par défaut pour l'outil BLAST du NCBI ?
Avec cette e-valeur, combien de hits vous attendriez-vous à obtenir en soumettant une séquence aléatoire ?
Combien de hits BLAST trouve-t-il pour votre séquence aléatoire:
Commentez les résultats, en termes de longueurs des alignements trouvés, de pourcentages d'identité et de similarité, et d'expect score.
Nous allons localiser les introns dans le gène de l’insuline humaine en comparant la séquence du gène avec la séquence protéique de l’insuline.
Bien que BLAST soit principalement utilisé pour repérer les séquences similaires à une séquence requête dans une banque, on peut aussi comparer une séquence choisie avec une autre.
Ouvrez la page de BLAST du NCBI et sélectionnez la version de BLAST appropriée pour comparer une séquence protéique (insuline) avec une séquence nucléique (le gène de l'insuline). A priori, deux possibilités s'offrent à vous. Choisissez celle qui permet d'utiliser la protéine comme "base de données" (sujbect), et la séquence du gène comme requête (query).
Dans le boîte de dialogue Enter Query Sequence, cochez la case Align two or more sequences. Une nouvelle fenêtre Enter Subject Sequence apparaît.
Copiez l’identifiant d’insuline P01308 dans une des fenêtres, et l’identifiant du gène V00565, dans l’autre
Lancez le BLAST.
Observez les alignements des HSPs.
Cliquez sur 'dot Matrix view' pour accéder au Dot plot entre les deux séquences
Quel algorithme avez-vous choisi pour comparer la séquence de l'insuline à celle de son gène ? Justifier ce choix en 1-2 phrases.
Sur le dotplot vous trouvez deux diagonales qui ne penchent pas dans le même sens que les autres. Identifier la région de la protéine qui correspond à la diagonale la plus longue dans le contre sens. Donnez la position du premier et du dernier acide aminé de cette région.
Comment pouvez-vous expliquer que tous les diagonales ne penchent pas dans le même sens ?
A quoi correspondent les HSPs courtes (<25 aa) ?
Argumentez votre réponse en 1-2 phrases.
Dans une nouvelle fenêtre, refaites le BLAST en descendant le seuil de E-value à 1e-5
Dans une nouvelle fenêtre, refaites le BLAST en abaissant le seuil de E-valeur à 1e-5, et en décochant l'option Filter Low complexity regions.
Comparez les dot plots des résultats du BLAST obtenus avec ces différentes valeurs de paramètres.
Comment pouvez-vous expliquer la disparition des HSP courtes ?
A part de la disparition des HSPs courtes, il y un autre changement important par rapport au premier BLAST. Lequel ?
A quoi ce changement est-il dû ?
Un des HSPs a une substitution, et les deux HSPs se chevauchent sur 2 aa. Comment pouvez-vous expliquer cette observation ?
Quelles sont les vraies cordonnées des exons dans la séquence du gène ? Donnez la première et la dernière position dans la séquence du gène pour les deux exons.