AMU :: L2 :: Bioinformatique appliquée :: année 2012/2013
Chaque TD compore une série de questionnaires pour lesquels vous serez notés.
Avant de remplir les questionnaires, veillez à indiquer les noms, prénoms, numéros de carte d'étudiant et adresse courriel des deux membres de votre binôme.
Ce TD repose sur les supports de cours suivants.
Pendant le cours, nous avons vu que la perception des couleurs repose sur une famille de protéines spécialisées appelées opsines, qui sont exprimées dans les cellules-cônes de la rétine.
La plupart des mammifères ont une vision dichromatique, dans laquelle interviennent deux opsines:
La vision trichromatique est apparue chez les primates de l'ancien monde, du fait d'une duplication de l'opsine MWS/LWS, suivie d'une spécialisation de chacune des copies. On trouve donc chez ces espèces trois opsines:
Le but de ce TD est de collecter, dans une série de bases de données, des informations concernant les opsines et les gènes correspondant.
[Retour à la table des matières]Les tutoriels sont entrecoupés de questions auxquelles vous pouvez répondre en un ou quelques mots. Nous vous indiquerons, au fil de ce TD, les moments où il vous faudra encoder les réponses dans les questionnaires du site Ametice.
Avant de poursuivre ce TD, les étudiants de L2 BIO doivent se connecter à Ametice et sélectionner le cours "Bioinformatique appliquée".
[Retour à la table des matières]Le National Center for Biotechnology Information (NCBI) est une organisation américaine qui gère des ressources bioinformatiques représentant une grande diversité de données biologiques). Ces différentes bases de données sont consultables au moyen d'une interface appelée Entrez.
Nous allons consulter quelques-unes des ressources du NCBI pour collecter de l'information concernant les opsines.
Nous allons commencer par effectuer quelques requêtes naïves, en combinant quelques mots-clés. Cette façon de formuler les requêtes est cependant imprécise, et nous ne la recommandons pas. Dans la section suivante, nous verrons comment structurer une requête afin de limiter les résultats aux données les plus pertinentes.
Dans un onglet séparé, connectez-vous à l'outil de recheche multi-bases de données "Search across databases" (http://www.ncbi.nlm.nih.gov/sites/gquery).
Dans la boîte de requête, tapez le mot opsin, et cliquez GO.
Toutes les requêtes doivent être formulées en anglais. Evitez donc 'ajouter un "e" à la fin de "opsin".
Pour les étudiants de L2-Bio-AMU: connectez-vous au
site Ametice (http://ametice.univ-amu.fr/),
-> SBI4U2 - Bioinformatique appliquée
-> TD1 - Bases de données biomoléculaires
-> Questionnaire sur Entrez
Combien de résultats returne la requête opsin pour les bases de données suivantes ?
Concevez une requête naïve basée sur une combinaison de quelques mots-clés pour sélectionner les opsines chez les rongeurs.
Astuce: sur la page qui affiche des résultats de recherche dans la banque protéique, vous pouvez utiliser l'option 'Tree' des 'Top Organisms' pour obtenir la liste des espèces les plus fréquentes.
Dans la section précédente, nous avons effectué des requêtes naïves en tapant simplement une succession de mots-clés. L'outil Entrez permet de structurer les requêtes de façon beaucoup plus précise, afin d'obtenir des résultats pertinents.
Dans un nouvel onglet, connectez-vous à PubMed, la base de données de bibliographie biomédicale.
Commençons par une requête naïve: tapez les mots clés mammalian blue opsin et cliquez Search. Combien de résultats obtenez-vous?
Dans le haut de la page de résultats, cliquez Display Settings et sélectionnez 200 items per page.
Lisez en diagonale les titres des articles. La requête naïve nous a retourné une série d'articles liés aux opsines de mammifères, mais vous constaterez que la réponse comporte une grande diversité d'articles.
A titre d'exercice, imaginons que nous voulions trouver une revue récente (de 2010 à maintenant) sur l'évolution des opsines de mammifères. Pour cela, nous formulerons une requête structurée en utilisant l'interface interactive d'Entrez.
Nous allons maintenant combiner nos deux requêtes précédentes. Cliquez Advanced. La liste des requêtes précédente s'affiche dans votre historique, en commençant par la dernière requête introduite:
Search (opsin[Title]) OR opsins[Title]
suivie de celle-ci:
Search ("2010"[Date - Publication] : "3000"[Date - Publication])
Cliquez les booutons Add à gauche de ces deux requêtes, puis cliquez Search. Vous obtenez maintenant l'intersection entre les résultats des deux requêtes précédente, c'est-à-dire les articles publiés depuis 2010, et dont le titre comporte au moins l'un des mots "opsin" et "opsins" (148 résultats le 4 mars 2014).
Il nous reste à sélectionner les revues parmi ces ouvrages. Cliquez une fois de plus sur Advanced. Sélectionnez le champ Publication type. Cliquez ensuite sur Show index list, et sélectionnez la valeur "review" dans le menu qui s'affiche. Cliquez Search.
Revues récentes sur les opsines: combinez l'ensemble des critères ci-dessus pour trouver les revues récentes (depuis 2010) qui traitent des opsines. Combien de revues avez-vous trouvé?
Ouvrez la fiche de la revue intitulée "Shedding new light on opsin evolution". Quel est le numéro d'identification de cette revue (PMID) ?
La base de données Pubmed associe un numéro unique (PMID pour "Pubmed Identifier") à chaque publication dans le domaine biologique ou médical. Ce numéro permet d'identifier chaque publication de façon univoque, et de s'y référer dans d'autres bases de données ou sur des sites Web. Pour vos travaux de biologie, veillez à toujours noter le PMID des articles auxquels vous vous référerez.
Nous venons d'explorer quelques-unes des foncitonalités de l'outil de consruction de requêtes avancées d'Entrez. Nous vous proposons d'approfondir votre connaissance de cet outil en réalisant l'exercice suivant.
En suivant le protocole ci-dessus, combien avez-vous trouvé de revues récentes (depuis 2010) traitant des opsines dans NCBI-PubMed?
Quel est le numéro d'identification (PMID) de la revue "Shedding new light on opsin evolution"?
Elaborez une requête naïve pour obtenir les opsines chez la souris (Mus musculus) dans la base de données NCBI-Protein.
Le menu à gauche de la boîte de requête affiche la liste des bases de données disponibles. Sélectionnez Protein à la place de PubMed pour changer de base de données.
Elaborez une requête structurée pour obtenir les opsines chez la souris (Mus musculus) dans la base de données NCBI-Protein.
Le NCBI regroupe une grande diversité de bases de données, qui peuvent être consultées via l'interface Entrez.
Cet outil permet de formuler des requêtes naïves (succession de mots-clés) ou structurées (avec une syntaxe précise).
En théorie, il vaut toujours mieux formuler une requête structurée. En pratique, les résultats attendus échappent quelquefois à la requête, pour une série de raisons contextuelles. Quand c'est le cas, une recherche naïve permet parfois de collecter un plus grand nombre de réponses pertinentes, mais ceci présente un coût, car on récolte également des réponses non appropriées.
Comme pour les autres bases de données, il est vivement recommandé d'utiliser les requêtes structurées (Advanced search), pour formuler une requête initiale ou pour la raffiner progressivement.
Pour certains champs, l'interface d'Uniprot dispose d'un mécanisme de complétion automatique : quand vous tapez les premières lettres de votre requête, toutes les valeurs qui commencent par ces lettres vous sont présentées. Cette fonctionnalité est particulièrement utile pour les champs dont le contenu est restreint à une liste de valeurs précises (noms d'organismes, groupes taxonomiques), ou est défini par un vocabulaire contrôlé (par exemple Gene Ontology.
Dans un onglet séparé, ouvrez une connexion à la base de données Uniprot.
Affichage du nombre d'entrées sélectionnées.
Cliquez immédiatement sur le bouton Search sans
entrer aucune valeur dans la boîte de requêtes
(Query). En toute logique, le serveur sélectionne
la liste complète des entrées de la base de
données. Au-dessus de la table de résultats, vous pouvez
noter le nombre d'entrées revues par des annotateurs de
l'équipe Swiss-prot (reviewed), et le nombre
d'entrées annotées automatiquement par l'outil
TREMBL( unreviewed), et qui n'ont fait l'objet
d'aucune vérification par un être humain.
Note: après avoir suivi ce tutoriel, vous répondrez à cette question et aux suivantes du questionnaire ci-dessous. Notez temporairement le résultat sur un papier ou copiez-le dans un document texte, vous vous en servirez pour répondre au questionnaire.
Requête naïve
Dans la boîte de requêtes (Query), tapez une
série de mots-clés pour sélectionner les opsines humaines
(par exemple human opsin). Combien de résultats
obtenez-vous ?
Sélection des champs à afficher dans le tableau de résultats.
Sous le titre "Result", cliquez sur le
lien Customize.
La table de résultats est mise à jour, avec l'ajout de la colonne indiquant les informations sur les familles protéique.
Requête structurée
Nous allons maintenant élargir la requête: sélectionnez toutes opsines de Swiss-prot pour l'ensemble des Mammifères (Mammalia en anglais).
Astuce: pour une raison qui m'échappe, la complétion automatique ne fonctionne pas quand on entre Mammalia pour le champ Taxonomy. Par contre, l'outil fonctionne quand on introduit l'identifiant taxonomique du NCBI. Pour sélectionner les mammifères sur Uniprot:
Sauvegarde de la table de résultats.
Obtention des séquences protéiques
>sp|Q9H1Y3|OPN3_HUMAN Opsin-3 OS=Homo sapiens GN=OPN3 PE=1 SV=1 MYSGNRSGGHGYWDGGGAAGAEGPAPAGTLSPAPLFSPGTYERLALLLGSIGLLGVGNNL LVLVLYYKFQRLRTPTHLLLVNISLSDLLVSLFGVTFTFVSCLRNGWVWDTVGCVWDGFS GSLFGIVSIATLTVLAYERYIRVVHARVINFSWAWRAITYIWLYSLAWAGAPLLGWNRYI LDVHGLGCTVDWKSKDANDSSFVLFLFLGCLVVPLGVIAHCYGHILYSIRMLRCVEDLQT IQVIKILKYEKKLAKMCFLMIFTFLVCWMPYIVICFLVVNGHGHLVTPTISIVSYLFAKS NTVYNPVIYVFMIRKFRRSLLQLLCLRLLRCQRPAKDLPAAGSEMQIRPIVMSQKDGDRP KKKVTFNSSSIIFIITSDESLSVDDSDKTNGSKVDVIQVRPL >sp|Q9UHM6|OPN4_HUMAN Melanopsin OS=Homo sapiens GN=OPN4 PE=1 SV=1 MNPPSGPRVPPSPTQEPSCMATPAPPSWWDSSQSSISSLGRLPSISPTAPGTWAAAWVPL PTVDVPDHAHYTLGTVILLVGLTGMLGNLTVIYTFCRSRSLRTPANMFIINLAVSDFLMS FTQAPVFFTSSLYKQWLFGETGCEFYAFCGALFGISSMITLTAIALDRYLVITRPLATFG VASKRRAAFVLLGVWLYALAWSLPPFFGWSAYVPEGLLTSCSWDYMSFTPAVRAYTMLLC CFVFFLPLLIIIYCYIFIFRAIRETGRALQTFGACKGNGESLWQRQRLQSECKMAKIMLL VILLFVLSWAPYSAVALVAFAGYAHVLTPYMSSVPAVIAKASAIHNPIIYAITHPKYRVA IAQHLPCLGVLLGVSRRHSRPYPSYRSTHRSTLTSHTSNLSWISIRRRQESLGSESEVGW THMEAAAVWGAAQQANGRSLYGQGLEDLEAKAPPRPQGHEAETPGKTKGLIPSQDPRM
Le fichier contient plusieurs séquences, chacune étant précédée d'une ligne de descripton commençant par un caractère >.
Taille de la base de données Uniprot
Sélection d'entrées au moyen d'une requête naïve
Sélection progressive au moyen de requêtes avancées
La fonction des opsines
Sélectionnez les opsines humaines annotées par un être
humain. Lisez les annotations pour comprendre la fonction
de chaque opsine.
Nous utiliserons différents navigateurs de génome pour observer les régions chromosomiques aux alentour des gènes codant pour des opsines chez différents mammifères.
En particulier, nous tenterons d'identifier les espèces chez lesquelles on trouve deux ou trois gènes codant pour opsines distinctes, respectivement.
Dans le formulaire de requête du ECR genome browser, selectionnez Human comme génome de base (option base genome), tapez opsin pour l'option feature or position, et cliquez Submit. Dans la liste des gènes "Refseq", identifiez l'opsine sensible aux ondes moyennes (OPN1MW).
Vis-à-vis de chaque nom de gène, les coordonées génomiques s'affichent sous le format suivant:
chromosome:position_de_début-position_de_finPar exemple, pour OPN1MW, vous obtenez:
chrX:153448085-153462352ce qui vous indique que le gène OPN1MW débute au nucléotide 153,448,085 et se termine au nucléotide 153,462,352 du chromosome X.
Cliquez sur les coordonnées génomiques de OPN1MW. ECR browser génère une carte. Suivez le lien Instructions pour comprendre la signification du graphique, et le code de couleur des profils d'identité.
Revenez à la carte du gène OPN1MW,
Dans un onglet séparé, connectez-vous au UCSC genome browser, sélectionnez le génome humain (version hg19), et le gène OPN1MW (position: chrX:153448085-153462352).
Elargissez la région affichée (par exemple chrX:153230000-153630000 ou en utilisant les boutons 'zoom out') et identifiez les gènes voisins de part et d'autre du gène OPN1MW. Leur fonction est-elle liée à la vision des couleurs ?
Analysez les pistes de conservation d'ECR et UCSC (pour UCSC, activez l'affichage "Full display" pour la piste "Conservation", sous le titre "Comparative genomics"). Identifiez-vous une conservation des gènes sensibles aux ondes moyennes (MW) et longues (LW) dans le génome d'autres mammifères (souris, chien, éléphant) ?
Dans un onglet séparé, ouvrez une nouvelle connexion à UCSC genome browser. Sélectionnez le génome de souris, et identifiez le gène codant pour l'opsine MW ou LW. Elargissez la vue pour analyser les gènes voisins. Comparez la carte chromosomique de la souris à celle de l'humain (dans l'onglet précédent).
Analysez la région correspondante chez les organismes suivants: chimpanzé, chien, poulet, poisson-zèbre.
Attention: pour certains génomes, le séquençage ou l'assemblage sont imparfaits, et les annotations incomplètes. Soyez donc critique dans vos interprétation de l'information disponible.
ECR Browser - région OPN1MW chez l'humain
UCSC Genome Browser: indiquez les noms et fonctions des gènes voisins d'OPN1MW chez l'humain. (Tenez compte de la piste RefSeq Genes)
UCSC Genome Browser:Observe-t-on une série de gènes d'opsines en tandem dans les génomes suivants ?
This tutorial will be based on the following Web ressources.
| Acronym | Type | Description+URL |
|---|---|---|
| EMBL | Nucleic sequences | The EMBL Nucleic Sequence Database (EBI - UK)
http://www.ebi.ac.uk/embl/ |
| Genbank | Nucleic sequences | Genbank (NCBI - USA)
http://www.ncbi.nlm.nih.gov/Genbank/ |
| DDBJ | Nucleic sequences | DDBJ - DNA Data Bank of Japan
http://www.ddbj.nig.ac.jp/ |
| UniProt | Protein sequences | UniProt - the Universal Protein Resource
http://www.uniprot.org/ |
| PDB | 3D structure of macromolecules | PDB - The Protein Data Bank
http://www.rcsb.org/pdb/ |
| EnsEMBL | Genome browser | EnsEMBL Genome Browser (Sanger Institute + EBI)
http://www.ensembl.org/ |
| UCSC | Genome browser | UCSC Genome Browser (University California Santa Cruz - USA)
http://genome.ucsc.edu/ |
| ECR | Genome browser | ECR Browser
http://ecrbrowser.dcode.org/ |
| Integr8 | Comparative genomics | Integr8 - access to complete genomes and proteomes
http://www.ebi.ac.uk/integr8/ |
| Prosite | Protein domains | Prosite - protein domains, families and functional sites
http://www.expasy.ch/prosite/ |
| Pfam | Protein domains | PFAM - Protein families represented by multiple sequence
alignments and hidden Markov models (HMMs) (Sanger Institute - UK)
http://pfam.sanger.ac.uk/ |
| CATH | Protein domains | CATH - Protein Structure Classification
http://www.cathdb.info/ |
| InterPro | Protein domains | InterPro (EBI - UK)
http://www.ebi.ac.uk/interpro/ |
| GO | Gene ontology | Gene Ontology Database
http://www.geneontology.org/ |
| Entrez | Multi-database | A collection of biomolecular databases maintained at the NCBI (USA), accessible via an interface called Entrez.
http://www.ncbi.nlm.nih.gov/Entrez/ |
| SRS | Data warehouse | A collection of biomolecular databases maintained at the European Institute for Bioinformatics (EBI, UK), accessible via an interface called SRS
http://srs.ebi.ac.uk/ |