AMU  :: L2  :: Bioinformatique appliquée  :: année 2012/2013

TD1 - Bases de données biomoléculaires

Chaque TD compore une série de questionnaires pour lesquels vous serez notés.

Avant de remplir les questionnaires, veillez à indiquer les noms, prénoms, numéros de carte d'étudiant et adresse courriel des deux membres de votre binôme.


Contenu

[Retour à la table des matières]

Prérequis

Ce TD repose sur les supports de cours suivants.

[Retour à la table des matières]

Introduction

Pendant le cours, nous avons vu que la perception des couleurs repose sur une famille de protéines spécialisées appelées opsines, qui sont exprimées dans les cellules-cônes de la rétine.

La plupart des mammifères ont une vision dichromatique, dans laquelle interviennent deux opsines:

La vision trichromatique est apparue chez les primates de l'ancien monde, du fait d'une duplication de l'opsine MWS/LWS, suivie d'une spécialisation de chacune des copies. On trouve donc chez ces espèces trois opsines:

Le but de ce TD est de collecter, dans une série de bases de données, des informations concernant les opsines et les gènes correspondant.

[Retour à la table des matières]

Objectifs pédagogiques

  1. Se familiariser avec quelques-unes des principales bases de données biomoléculaires.
  2. Apprendre à formuler des requêtes structurées, en imposant des contraintes sur des paramètres multiples.
  3. Interpréter les annotations, et évaluer leur degré de fiabilité.
  4. Comparer les informations disponibles dans différentes bases de données.
  5. Naviguer d'une base de données à l'autre pour collecter des informations complémentaires.
  6. Comprendre le format de séquences fasta, qui sera utilisé dans les TD ultérieurs.
[Retour à la table des matières]

Contrôle des connaissance

Les tutoriels sont entrecoupés de questions auxquelles vous pouvez répondre en un ou quelques mots. Nous vous indiquerons, au fil de ce TD, les moments où il vous faudra encoder les réponses dans les questionnaires du site Ametice.

Avant de poursuivre ce TD, les étudiants de L2 BIO doivent se connecter à Ametice et sélectionner le cours "Bioinformatique appliquée".

[Retour à la table des matières]

La base de données Entrez du NCBI

Contexte

Le National Center for Biotechnology Information (NCBI) est une organisation américaine qui gère des ressources bioinformatiques représentant une grande diversité de données biologiques). Ces différentes bases de données sont consultables au moyen d'une interface appelée Entrez.

Buts de cet exercice

Nous allons consulter quelques-unes des ressources du NCBI pour collecter de l'information concernant les opsines.

Tutoriel

Requêtes naïves

Nous allons commencer par effectuer quelques requêtes naïves, en combinant quelques mots-clés. Cette façon de formuler les requêtes est cependant imprécise, et nous ne la recommandons pas. Dans la section suivante, nous verrons comment structurer une requête afin de limiter les résultats aux données les plus pertinentes.

  1. Dans un onglet séparé, connectez-vous à l'outil de recheche multi-bases de données "Search across databases" (http://www.ncbi.nlm.nih.gov/sites/gquery).

  2. Dans la boîte de requête, tapez le mot opsin, et cliquez GO.

    Toutes les requêtes doivent être formulées en anglais. Evitez donc 'ajouter un "e" à la fin de "opsin".

Questionnaire 1: Entrez - requêtes naïves

Pour les étudiants de L2-Bio-AMU: connectez-vous au site Ametice (http://ametice.univ-amu.fr/),
-> SBI4U2 - Bioinformatique appliquée
-> TD1 - Bases de données biomoléculaires
-> Questionnaire sur Entrez

  1. Combien de résultats returne la requête opsin pour les bases de données suivantes ?

    1. NCBI-PubMed (littérature biomédicale)
    2. NCBI-Nucleotide (acides nucléiques)
    3. NCBI-Taxonomy (organismes)
    4. NCBI-Protein (séquences protéiques)
    5. NCBI-Structure (structures tri-dimensionnelles de macromolécules)

  2. Concevez une requête naïve basée sur une combinaison de quelques mots-clés pour sélectionner les opsines chez les rongeurs.

    1. Les mots-clés que vous avez retenus.
    2. Le nombre de résultats trouvés dans PubMed.
    3. Le nombre de résultats trouvés dans Protein.
    4. Parmi les séquences protéique trouvées avec ces mots clef, vous avez très probablement obtenu quelques séquences de chien (Canis lupus familiaris) en plus des séquences des rongeurs. Comment pouvez-vous expliquer cette observation ?
    5. Astuce: sur la page qui affiche des résultats de recherche dans la banque protéique, vous pouvez utiliser l'option 'Tree' des 'Top Organisms' pour obtenir la liste des espèces les plus fréquentes.

Recherche structurée sur PubMed (base de données bibliographique)

Dans la section précédente, nous avons effectué des requêtes naïves en tapant simplement une succession de mots-clés. L'outil Entrez permet de structurer les requêtes de façon beaucoup plus précise, afin d'obtenir des résultats pertinents.

  1. Dans un nouvel onglet, connectez-vous à PubMed, la base de données de bibliographie biomédicale.

  2. Commençons par une requête naïve: tapez les mots clés mammalian blue opsin et cliquez Search. Combien de résultats obtenez-vous?

  3. Dans le haut de la page de résultats, cliquez Display Settings et sélectionnez 200 items per page.

Lisez en diagonale les titres des articles. La requête naïve nous a retourné une série d'articles liés aux opsines de mammifères, mais vous constaterez que la réponse comporte une grande diversité d'articles.

A titre d'exercice, imaginons que nous voulions trouver une revue récente (de 2010 à maintenant) sur l'évolution des opsines de mammifères. Pour cela, nous formulerons une requête structurée en utilisant l'interface interactive d'Entrez.

  1. Sous la boîte de requête du formulaire PubMed, cliquez Advanced. Le constructeur de requête vous propose d'emblée deux critères de sélection.
  2. Pour le premier critère, cliquez sur le menu déroulant (par défaut, il affiche All fields), et sélectionnez le champ Date - Publication. Entrez 2010 dans la première boîte, et present dans la seconde. Cliquez Search. Combien de résultats obtenez-vous ?
  3. Cliquez à nouveau sur Advanced. Notez que la table History affiche le nombre de résultats de vos requêtes précédentes. Nous allons maintenant compter le nombre d'article dont le titre comporte opsin ou opsins. Pour le premier champ, sélectionnez Title et tapez opsin. Choisissez l'opérateur logique OR.Pour le second champ, sélectionnez à nouveau Title et tapez opsins. Cliquez Search.
  4. Nous allons maintenant combiner nos deux requêtes précédentes. Cliquez Advanced. La liste des requêtes précédente s'affiche dans votre historique, en commençant par la dernière requête introduite:

    Search (opsin[Title]) OR opsins[Title]

    suivie de celle-ci:

    Search ("2010"[Date - Publication] : "3000"[Date - Publication])

    Cliquez les booutons Add à gauche de ces deux requêtes, puis cliquez Search. Vous obtenez maintenant l'intersection entre les résultats des deux requêtes précédente, c'est-à-dire les articles publiés depuis 2010, et dont le titre comporte au moins l'un des mots "opsin" et "opsins" (148 résultats le 4 mars 2014).

  5. Il nous reste à sélectionner les revues parmi ces ouvrages. Cliquez une fois de plus sur Advanced. Sélectionnez le champ Publication type. Cliquez ensuite sur Show index list, et sélectionnez la valeur "review" dans le menu qui s'affiche. Cliquez Search.

  6. Revues récentes sur les opsines: combinez l'ensemble des critères ci-dessus pour trouver les revues récentes (depuis 2010) qui traitent des opsines. Combien de revues avez-vous trouvé?

  7. Ouvrez la fiche de la revue intitulée "Shedding new light on opsin evolution". Quel est le numéro d'identification de cette revue (PMID) ?

    La base de données Pubmed associe un numéro unique (PMID pour "Pubmed Identifier") à chaque publication dans le domaine biologique ou médical. Ce numéro permet d'identifier chaque publication de façon univoque, et de s'y référer dans d'autres bases de données ou sur des sites Web. Pour vos travaux de biologie, veillez à toujours noter le PMID des articles auxquels vous vous référerez.

Nous venons d'explorer quelques-unes des foncitonalités de l'outil de consruction de requêtes avancées d'Entrez. Nous vous proposons d'approfondir votre connaissance de cet outil en réalisant l'exercice suivant.

Questionnaire 2: Entrez - requête structurée

  1. En suivant le protocole ci-dessus, combien avez-vous trouvé de revues récentes (depuis 2010) traitant des opsines dans NCBI-PubMed?

  2. Quel est le numéro d'identification (PMID) de la revue "Shedding new light on opsin evolution"?

  3. Elaborez une requête naïve pour obtenir les opsines chez la souris (Mus musculus) dans la base de données NCBI-Protein.

    Le menu à gauche de la boîte de requête affiche la liste des bases de données disponibles. Sélectionnez Protein à la place de PubMed pour changer de base de données.

    1. Comment avez-vous formulé votre requête (tapez la liste des mots-clés) ?
    2. Combien de protéines obtenez-vous?
    3. Avez-vous obtenu les séquences qui ne proviennent pas de la souris ?
  4. Elaborez une requête structurée pour obtenir les opsines chez la souris (Mus musculus) dans la base de données NCBI-Protein.

    1. Comment avez-vous formulé votre requête structurée (la "phrase" avec les AND, OR, crochets, ...)
    2. Combien de protéines obtenez-vous?
    3. Avez-vous obtenu les séquences qui ne proviennent pas de la souris ?

Que retenir de tout ceci?

  1. Le NCBI regroupe une grande diversité de bases de données, qui peuvent être consultées via l'interface Entrez.

  2. Cet outil permet de formuler des requêtes naïves (succession de mots-clés) ou structurées (avec une syntaxe précise).

  3. En théorie, il vaut toujours mieux formuler une requête structurée. En pratique, les résultats attendus échappent quelquefois à la requête, pour une série de raisons contextuelles. Quand c'est le cas, une recherche naïve permet parfois de collecter un plus grand nombre de réponses pertinentes, mais ceci présente un coût, car on récolte également des réponses non appropriées.


[Retour à la table des matières]

UniprotKb/Swiss-prot, base de données de séquences protéiques

Buts de ce tutorial

Tips

  1. Comme pour les autres bases de données, il est vivement recommandé d'utiliser les requêtes structurées (Advanced search), pour formuler une requête initiale ou pour la raffiner progressivement.

  2. Pour certains champs, l'interface d'Uniprot dispose d'un mécanisme de complétion automatique : quand vous tapez les premières lettres de votre requête, toutes les valeurs qui commencent par ces lettres vous sont présentées. Cette fonctionnalité est particulièrement utile pour les champs dont le contenu est restreint à une liste de valeurs précises (noms d'organismes, groupes taxonomiques), ou est défini par un vocabulaire contrôlé (par exemple Gene Ontology.

Tutoriel

  1. Dans un onglet séparé, ouvrez une connexion à la base de données Uniprot.

  2. Affichage du nombre d'entrées sélectionnées.
    Cliquez immédiatement sur le bouton Search sans entrer aucune valeur dans la boîte de requêtes (Query). En toute logique, le serveur sélectionne la liste complète des entrées de la base de données. Au-dessus de la table de résultats, vous pouvez noter le nombre d'entrées revues par des annotateurs de l'équipe Swiss-prot (reviewed), et le nombre d'entrées annotées automatiquement par l'outil TREMBL( unreviewed), et qui n'ont fait l'objet d'aucune vérification par un être humain.

    Note: après avoir suivi ce tutoriel, vous répondrez à cette question et aux suivantes du questionnaire ci-dessous. Notez temporairement le résultat sur un papier ou copiez-le dans un document texte, vous vous en servirez pour répondre au questionnaire.

  3. Requête naïve
    Dans la boîte de requêtes (Query), tapez une série de mots-clés pour sélectionner les opsines humaines (par exemple human opsin). Combien de résultats obtenez-vous ?

  4. Sélection des champs à afficher dans le tableau de résultats.
    Sous le titre "Result", cliquez sur le lien Customize.

    • Dans la liste de gauche ("Columns"), sélectionnez "Protein families" et cliquez Show.
    • Augmentez le nombre de lignes à afficher (250 , si votre réseau le permet).
    • Cliquez Save

      La table de résultats est mise à jour, avec l'ajout de la colonne indiquant les informations sur les familles protéique.

    • Triez les résultats en ordre alphabétique en cliquant sur le triangle pointant vers le haut à coté l’entête de la colonne "Protein families".
      Ces résultats correspondent-ils à vos attentes ? Toutes les protéines appartiennent-elles à la sous-famille des opsines ? Pourquoi ?
    • Ouvrez la fiche de description de la protéine P15372 dans un nouvel onglet. Expliquez pourquoi cette protéine était retournée par la recherche avec les mots de clé 'human opsin'.

  5. Requête structurée

    • CLiquez Clear pour effacer votre requête précédente.
    • Cliquez ensuite sur le bouton Advanced search.
    • Dans le champ Field, sélectionnez Organism [OS], et commencez à taper les lettres de l'espèce Homo sapiens. Au fil de votre encodage, l'interface Uniprot affiche un menu de plus en plus restreint, avec la liste des organismes correspondant à ce que vous avez tapé. Sélectionnez Homo sapiens [9606] et cliquez Add & Search. Combien de protéines obtenez-vous ? Combien ont été annotées par un être humain?
    • Pour ajouter un filtre de sélection, cliquez à nouveau sur Advanced search.
    • Notez l'opérateur logique AND en début de ligne (il correspond à nos besoins, mais pour d'autres requêtes nous pourrions utiliser NOT ou OR.
    • Sélectionnez le champ (Field) Protein name [DE], entrez opsin et cliquez Add & Search. La sélection correspond-elle mieux à vos attentes ?
    • Lisez attentivement la requête structurée qui apparaît dans la boîte de requête (Query). L'interface interactive convertit automatiquement vos requêtes en une phrase que vous pourrez éventuellement réutiliser ou adapter ultérieurement.
    • Vous pouvez facilement sélectionner les protéines de Swiss-prot, en cliquant sur "reviewed (7)", juste avant l'étoile jaune dessous du titre "Results". Notez la modification de la formule syntactique pour la requête stucturée (boîte Query).

  6. Nous allons maintenant élargir la requête: sélectionnez toutes opsines de Swiss-prot pour l'ensemble des Mammifères (Mammalia en anglais).

    Astuce: pour une raison qui m'échappe, la complétion automatique ne fonctionne pas quand on entre Mammalia pour le champ Taxonomy. Par contre, l'outil fonctionne quand on introduit l'identifiant taxonomique du NCBI. Pour sélectionner les mammifères sur Uniprot:

    • Ouvrez une connexion vers NCBI-Taxonomy sur Entrez, cherchez les mamifères (Mammalia), copiez leur identifiant (taxonomic ID).
    • Revenez sur la requête avancé de Uniprot, et tapez l'identifiant taxonomique dans la boîte de requête. La complétion automatique vous propose maintenant Mammalia.

  7. Sauvegarde de la table de résultats.

    • Dans le coin supérieur droit de la feuille de résultat, cliquez sur le lien Download visibleen blanc sur fond orange.
    • Uniprot vous permet d'exporter les résultats dans divers formats. Les formats les plus pratiques pour les tables de résultats sont Tab-Delimiter ou Excel.
    • Exportez la table de résultats pour les opsines de mammifères. Vous pouvez ouvrir le fichier avec un tableur (Microsoft Excel ou OpenOffice) pour vérifier le contenu.

  8. Obtention des séquences protéiques

    • Sur la page Download, cliquez sur le lien Download sous le titre FASTA - Canonical sequence data in FASTA format. Sauvegardez le fichier sur votre ordinateur, et ouvrez le avec un éditeur de texte. Vérifiez le format des séquences. EN principe, le fichier devrait ressembler à ceci (les premières protéines peuvent varier slon la requête effectuée):
      >sp|Q9H1Y3|OPN3_HUMAN Opsin-3 OS=Homo sapiens GN=OPN3 PE=1 SV=1
      MYSGNRSGGHGYWDGGGAAGAEGPAPAGTLSPAPLFSPGTYERLALLLGSIGLLGVGNNL
      LVLVLYYKFQRLRTPTHLLLVNISLSDLLVSLFGVTFTFVSCLRNGWVWDTVGCVWDGFS
      GSLFGIVSIATLTVLAYERYIRVVHARVINFSWAWRAITYIWLYSLAWAGAPLLGWNRYI
      LDVHGLGCTVDWKSKDANDSSFVLFLFLGCLVVPLGVIAHCYGHILYSIRMLRCVEDLQT
      IQVIKILKYEKKLAKMCFLMIFTFLVCWMPYIVICFLVVNGHGHLVTPTISIVSYLFAKS
      NTVYNPVIYVFMIRKFRRSLLQLLCLRLLRCQRPAKDLPAAGSEMQIRPIVMSQKDGDRP
      KKKVTFNSSSIIFIITSDESLSVDDSDKTNGSKVDVIQVRPL
      >sp|Q9UHM6|OPN4_HUMAN Melanopsin OS=Homo sapiens GN=OPN4 PE=1 SV=1
      MNPPSGPRVPPSPTQEPSCMATPAPPSWWDSSQSSISSLGRLPSISPTAPGTWAAAWVPL
      PTVDVPDHAHYTLGTVILLVGLTGMLGNLTVIYTFCRSRSLRTPANMFIINLAVSDFLMS
      FTQAPVFFTSSLYKQWLFGETGCEFYAFCGALFGISSMITLTAIALDRYLVITRPLATFG
      VASKRRAAFVLLGVWLYALAWSLPPFFGWSAYVPEGLLTSCSWDYMSFTPAVRAYTMLLC
      CFVFFLPLLIIIYCYIFIFRAIRETGRALQTFGACKGNGESLWQRQRLQSECKMAKIMLL
      VILLFVLSWAPYSAVALVAFAGYAHVLTPYMSSVPAVIAKASAIHNPIIYAITHPKYRVA
      IAQHLPCLGVLLGVSRRHSRPYPSYRSTHRSTLTSHTSNLSWISIRRRQESLGSESEVGW
      THMEAAAVWGAAQQANGRSLYGQGLEDLEAKAPPRPQGHEAETPGKTKGLIPSQDPRM
      		

      Le fichier contient plusieurs séquences, chacune étant précédée d'une ligne de descripton commençant par un caractère >.

      • Le premier mot de la ligne de description (ce qui précède le premier espace) est l'identifiant de la séquence (par exemple sp|Q9H1Y3|OPN3_HUMAN).
      • La ligne de description peut éventuellement contenir des commentaires libres (pour la première séquence ci-dessus: Opsin-3 OS=Homo sapiens GN=OPN3 PE=1 SV=1).

Questionnaire 3: Uniprot

  1. Taille de la base de données Uniprot

    1. Combien de protéines contient la base de données UniprotKB ?
    2. Parmi ces protéines, combien ont été annotées par un être humain ?

  2. Sélection d'entrées au moyen d'une requête naïve

    1. Combien d'entrées retourne la requête naïve human opsin dans UniprotKB ?
    2. Expliquez pourquoi la protéine P15374 était retournée par les mots de clé 'human opsin'.

  3. Sélection progressive au moyen de requêtes avancées

    1. En formulant une requête structuée (Advanced search), combien de protéines trouvez-vous pour l'espèce Homo sapiens dans Uniprot ?
    2. Combien d'opsines trouvez-vous dans Uniprot?
    3. Combien d'opsine humaines se trouvent dans Uniprot?
    4. Indiquez la requête structurée qui vous a permis d'obtenir la dernière réponse (copiez-collez le contenu de la boîte Query après la requête).

  4. La fonction des opsines
    Sélectionnez les opsines humaines annotées par un être humain. Lisez les annotations pour comprendre la fonction de chaque opsine.

    1. Parmi ces opsines, combien sont impliquées dans la vision des couleurs?
    2. Indiquez les identifiants des entrées Swiss-prot (Entry) correspondant à des opsines impliquées dans la vision des couleurs chez l'humain.
    3. Quel est le numéro d'entrée de la rhodopsine
    4. Quelle est la fonction de la rhodopsine (une phrase max)?
    5. Quel est le numéro d'entrée de la mélanopsine
    6. Quelle est la fonction de la mélanopsine (une phrase max)?


[Retour à la table des matières]

Exploration des génomes

Contexte

Nous utiliserons différents navigateurs de génome pour observer les régions chromosomiques aux alentour des gènes codant pour des opsines chez différents mammifères.

En particulier, nous tenterons d'identifier les espèces chez lesquelles on trouve deux ou trois gènes codant pour opsines distinctes, respectivement.

But de cet exercice

Astuces

  1. Le bouton + du côté droit d'ECR genome brower permet de visualiser des organismes supplémentaires.
  2. Dans la boîte de requête des navigateurs de génomes utilisés ici, vous pouvez taper soit des coordonnées chromosomiques (par exemple chr10:88414314-88426605), soit simplement un nom de gène (par exemple "opsin"). En cas d'ambiguïté, le navigateur vous présentera une liste des gènes correspondant au nom que vous avez entré.
  3. Presque toutes les ressources scientifiques sont en anglais. Utilisez donc systématiquement les mots anglais ("opsine" risque de ne pas donner de résultats).
  4. Dans le navigateur UCSC genome browser, vous pouvez visualiser des pistes d'annotation (tracks) avec différents niveaux de détail. Adaptez le niveau à vos besoins, afin d'afficher l'information pertinente sans la diluer dans une masse de détails.

Tutoriel

  1. Dans le formulaire de requête du ECR genome browser, selectionnez Human comme génome de base (option base genome), tapez opsin pour l'option feature or position, et cliquez Submit. Dans la liste des gènes "Refseq", identifiez l'opsine sensible aux ondes moyennes (OPN1MW).

  2. Vis-à-vis de chaque nom de gène, les coordonées génomiques s'affichent sous le format suivant:

    chromosome:position_de_début-position_de_fin
    Par exemple, pour OPN1MW, vous obtenez:
    chrX:153448085-153462352
    ce qui vous indique que le gène OPN1MW débute au nucléotide 153,448,085 et se termine au nucléotide 153,462,352 du chromosome X.

  3. Cliquez sur les coordonnées génomiques de OPN1MW. ECR browser génère une carte. Suivez le lien Instructions pour comprendre la signification du graphique, et le code de couleur des profils d'identité.

  4. Revenez à la carte du gène OPN1MW,

  5. Cliquez sur l'icône + à droite de la fenêtre, au-dessus des images représentant des espèces animales. Sélectionne les génomes suivants: chimpanzé, macaque rhésus, chien, souris, grenouille, et tétraodon. Analysez le niveau de conservation dans ces espèces.

  6. Dans un onglet séparé, connectez-vous au UCSC genome browser, sélectionnez le génome humain (version hg19), et le gène OPN1MW (position: chrX:153448085-153462352).

  7. Elargissez la région affichée (par exemple chrX:153230000-153630000 ou en utilisant les boutons 'zoom out') et identifiez les gènes voisins de part et d'autre du gène OPN1MW. Leur fonction est-elle liée à la vision des couleurs ?

    • Tenez compte de la piste RefSeq Genes (vous pouvez cacher la piste USCS Genes), qui affiche les gènes présents dans la collection de gène de référence de NCBI.
    • Pour une lisibilité plus claire, les gènes voisins peuvent être affichés un peu décalé verticalement. Par exemple le gène TEX28 qui se trouve entre les gènes OPN1MW et TKTL1, apparait décalé vers le bas par rapport à ces voisins.
  8. Analysez les pistes de conservation d'ECR et UCSC (pour UCSC, activez l'affichage "Full display" pour la piste "Conservation", sous le titre "Comparative genomics"). Identifiez-vous une conservation des gènes sensibles aux ondes moyennes (MW) et longues (LW) dans le génome d'autres mammifères (souris, chien, éléphant) ?

  9. Dans un onglet séparé, ouvrez une nouvelle connexion à UCSC genome browser. Sélectionnez le génome de souris, et identifiez le gène codant pour l'opsine MW ou LW. Elargissez la vue pour analyser les gènes voisins. Comparez la carte chromosomique de la souris à celle de l'humain (dans l'onglet précédent).

  10. Analysez la région correspondante chez les organismes suivants: chimpanzé, chien, poulet, poisson-zèbre.

    Attention: pour certains génomes, le séquençage ou l'assemblage sont imparfaits, et les annotations incomplètes. Soyez donc critique dans vos interprétation de l'information disponible.

Questionnaire "Exploration des génomes"

  1. ECR Browser - région OPN1MW chez l'humain

    1. Que se passe-t-il quand on passe progressiveent d'espèces proches de l'humain à des espèces plus éloignées ? (une phrase)
    2. Dans quel type de séquences la conservation est-elle la plus marquée entre le génome humaine et la grenouille ?
    3. Ces résultats correspondent-ils à vos attentes ?
    4. La conservation du type de séquence identifié au-dessus n’est pas apparente entre le génome humains et celui du chimpanzé. Comment pouvez-vous expliquer cette observation ?

  2. UCSC Genome Browser: indiquez les noms et fonctions des gènes voisins d'OPN1MW chez l'humain. (Tenez compte de la piste RefSeq Genes)

    1. Second voisin de gauche (nom, fonction).
    2. Premier voisin de gauche (nom, fonction).
    3. Premier voisin de droite (nom, fonction).
    4. Second voisin de droite (nom, fonction).

  3. UCSC Genome Browser:Observe-t-on une série de gènes d'opsines en tandem dans les génomes suivants ?

    1. Humain (oui/non)
    2. Chimpanzé (oui/non)
    3. Souris (oui/non)
    4. Poulet (oui/non)
    5. Poisson-zèbre (oui/non)
[Retour à la table des matières]

Ressources

This tutorial will be based on the following Web ressources.

Acronym Type Description+URL
EMBL Nucleic sequences The EMBL Nucleic Sequence Database (EBI - UK)
http://www.ebi.ac.uk/embl/
Genbank Nucleic sequences Genbank (NCBI - USA)
http://www.ncbi.nlm.nih.gov/Genbank/
DDBJ Nucleic sequences DDBJ - DNA Data Bank of Japan
http://www.ddbj.nig.ac.jp/
UniProt Protein sequences UniProt - the Universal Protein Resource
http://www.uniprot.org/
PDB 3D structure of macromolecules PDB - The Protein Data Bank
http://www.rcsb.org/pdb/
EnsEMBL Genome browser EnsEMBL Genome Browser (Sanger Institute + EBI)
http://www.ensembl.org/
UCSC Genome browser UCSC Genome Browser (University California Santa Cruz - USA)
http://genome.ucsc.edu/
ECR Genome browser ECR Browser
http://ecrbrowser.dcode.org/
Integr8 Comparative genomics Integr8 - access to complete genomes and proteomes
http://www.ebi.ac.uk/integr8/
Prosite Protein domains Prosite - protein domains, families and functional sites
http://www.expasy.ch/prosite/
Pfam Protein domains PFAM - Protein families represented by multiple sequence alignments and hidden Markov models (HMMs) (Sanger Institute - UK)
http://pfam.sanger.ac.uk/
CATH Protein domains CATH - Protein Structure Classification
http://www.cathdb.info/
InterPro Protein domains InterPro (EBI - UK)
http://www.ebi.ac.uk/interpro/
GO Gene ontology Gene Ontology Database
http://www.geneontology.org/
Entrez Multi-database A collection of biomolecular databases maintained at the NCBI (USA), accessible via an interface called Entrez.
http://www.ncbi.nlm.nih.gov/Entrez/
SRS Data warehouse A collection of biomolecular databases maintained at the European Institute for Bioinformatics (EBI, UK), accessible via an interface called SRS
http://srs.ebi.ac.uk/
[Retour à la table des matières]
Emese Meglécz (IMBE, Aix-Marseille Université) & Jacques van Helden (TAGC, Aix-Marseille Université).