< ENSBBAU3 - Bioinfo 1 - TD1 - génomique comparative

ENSBBAU3 - Bioinfo 1
TD1 - génomique comparative


Contenu

  1. Introduction
  2. Prérequis
  3. Ressources
  4. Objectifs
  5. Documents
  6. Exercice 1: Navigateur taxonomique du NCBI
  7. Exercice 2: Annotations du protéome dans Uniprot
  8. Exercice 3: Identification des aspartokinases
  9. Exercice 4: Recherche d'aspartokinases par similarité (BLAST)
[Retour à la table des matières]

Introduction

Ce TP ne constitue pour le moment qu'une première étape pour aborder la génomique comparative. Nous commençons par effectuer des recherches de protéines par similarité en nous limitant à une famille de protéines d'intérêt (les aspartokinase) dans deux génomes particuliers (l'entérobactérie Escherichia coli et un organisme d'intérêt différent pour chaque étudiant.

Au passage, nous révisons une série de concepts et pratiques de base en bioinformatique, qui seront nécessaires pour comprendre les résultats de TP ultérieurs.

Ce TP sera prochainement complété par des exercices de génomique comparative à proprement parler, où les recherches de similarité seront effectuées pour l'ensemble des protéines d'un organisme de référence, dans un ensemble de génomes d'intérêt.

[Retour à la table des matières]

Prérequis

Concepts

Diaporama: Comparative genomics

  1. Homologie versus analogie.
  2. Orthologie versus paralogie.
  3. Recherches par similarités.
  4. Best hits, reciprocal (bidirectional) best hit.

Pratique

  1. Savoir formuler une requête dans la base de données Uniprot.
  2. Effectuer une recherche de séquences par similarité au moyen de l'outil BLAST.
[Retour à la table des matières]

Ressources

NCBI Taxonomy Browser Base de données taxonomique http://www.ncbi.nlm.nih.gov/taxonomy
Uniprot Base de données de protéines (plus précisément, séquences polypeptidiques annotées). http://www.uniprot.org/
NCBI BLAST Outil de recherche de séquences par similarité http://blast.ncbi.nlm.nih.gov/
EcoCyc Bases de données de voies métaboliques pour E.coli K-12 MG1655 http://ecocyc.org/
BioCyc Bases de données de voies métaboliques pour une diversité d'organismes http://biocyc.org/
KEGG pathways Cartes métaboliques colores en fonction de la présence/absence des enzymes dans le protéome inféré à partir du génome d'un organisme. http://www.genome.jp/kegg/pathway.html
[Retour à la table des matières]

Objectifs

Le but de ce TD est d'acquérir une première expérience pratique de quelques méthodes simples de génomique comparative.

Nous utiliserons comme référence le génome de l'entérobactérie Escherichia coli, souche K-12, sous-souche MG1655.

En début de TD, chaque étudiant(e) se verra assigner un organisme d'intérêt (une bactérie différente pour chacun), avec lequel elle/il devra réaliser les exercices ci-dessous, et remplir la table de réponses.

[Retour à la table des matières]

Documents

[Retour à la table des matières]

Exercice 1: le navigateur taxonomique du NCBI

Trouver l'identifiant taxonomique de votre génome d'intérêt

  1. Connectez-vous au navigateur taxonomique du NCBI.
  2. Trouvez la fiche correspondant à la souche Escherichia coli K-12, et notez son identifiant taxonomique.

    Attention ! En raison de son utilisation comme organisme modèle et de l'impact de certaines souches sur la santé, on a récemment séquencé un nombre croissant de souches, et même de sous-souches, de la bactérie E. coli. Pour ces exercices, nous utliserons d'une part l'entrée générique de la souche "Escherichia coli K-12" du NCBI, et d'autre part la sous-souche (sub-strain) particulière MG1655.

  3. Dans une fenêtre séparée, ouvrez la fiche de la sous-souche Escherichia coli K-12 MG1655. Notez les groupes taxonomiques auxquels appartient cette souche aux différents niveaux (genre, famille, ordre, classe).

    Note: quand vous positionnez pendant quelques secondes votre pointeur sur un niveau taxonomique (champ "Lineage"), un "tooltip" apparaît qui indique le niveau taxonomique correspondant (Genre, Ordre, Famille, Classe, ...).

  4. Identifiez la fiche de votre organisme d'intérêt, et notez son identifiant taxonomique ainsi que son lignage (Genre, Famille, Ordre, Classe).

Dessiner l'arbre des génomes d'intérêt

  1. Sauvegardez sur votre ordinateur une copie du fichier contenant la liste des génomes d'intérêt.
  2. Conectez-vous à l'outil NCBI Taxonomy Common Tree
  3. Chargez le fichier de génomes d'intérêt.
  4. Activez la case root, et cliquez Choose.
  5. Cliquez le bouton Expand all.

L'outil "Common tree" affiche une représentation arborescente de la liste des génoes d'intérêt.

Identifiez le dernier niveau taxonomique commun entre votre organisme d'intérêt et l'organisme de référence (Escherichia coli str. K-12 substr. MG1655).

[Retour à la table des matières]

Exercice 2: annotations du protéome dans Uniprot

  1. Connectez-vous au serveur Uniprot.
  2. Comptez le nombre total d'entrées de la base de données Uniprot, et, parmi elles, le nombre d'entrées annotées ("Reviewed", Swiss-prot).

    Pour obtenir la liste totale des entrées, il suffit de soumettre une requête vide.

  3. Comptez le nombre d'entrées Uniprot et Swiss-prot ("Reviewed") en sélectionnant .
  4. Comptez le nombre d'entrées Uniprot et Swiss-prot ("Reviewed") pour votre génome d'intérêt.
[Retour à la table des matières]

Exercice 3: Identification des aspartokinases

Dans cet exercice, nous nous intéresserons à la famille des aspartokinases, qui sont impliquées dans la biosynthèse des acides aminés dérivés de l'aspartate. Le but de cet exercice est de traiter cas illustratif où l'on trouve plusieurs protéines de la même famille dans un génome.

  1. Sur le serveur Uniprot, formulez une requête structurée (Advanced) pour identifier la ou les protéines de la souche référence (Escherichia coli K-12) dont le nom contient "aspartatokinase".
  2. Consultez les numéros enzymatiques (EC number) associés à ces protéines.

    Vous pouvez paramétrer le tableau résultats qui affiche la liste des protéines trouvées lors d'une requête Uniprot. Pour cela, cliquez sur l'onglet Columns, et sélectionnez les champs qui vous intéressent (par exemple "EC number"), puis cliquez sur Save.

[Retour à la table des matières]

Exercice 4: Recherche d'aspartokinases par similarité (BLAST)

Dans un premier temps, nous tenterons de nous familiariser avec la recherche de similarités en l’appliquant en terrain "balisé", chez l’organisme de référence. En principe nous nous attentons à retrouver les enzymes apsartokinases déjà annotées.

  1. Nous tenterons d'identifier les hits croisés entre aspartokinases.
  2. Après avoir détecté les hits, nous prendrons note du score le plus pertinent (la E-valeur) et nous en servirons pour calculer les rangs.
  3. Les rangs par colonnes nous indiqueront les best hits (rank 1, associé à la E-valeur la plus faible).
  4. En les combinant avec les rangs par lignes, nous pourrons identifier les bidirectional best hits
  1. Connectez-vous à l'outil BLAST du NCBI (protein blast), et cherchez les protéines simliaires à chacune des trois aspartokinases d'Escherichia coli K-12 dans l'ensemble du protéome d'Escherichia coli K-12.
    1. Le formulaire BLAST du NCBI vous permet d'entrer plusieurs séquences en une seule requête. Un menu déroulant vous permettra ensuite de passer de l'un à l'autre des résultats.
    2. Nous recommandons de sélectionner la base de données Reference proteins (refseq), qui contient apparemment moins de redondance que la base de données "non-redondante" proposée par défaut. toutefois, pour certains organismes cette requête ne retourne aucun résultat. Si c'est votre cas, revenez à la base de données non-redondante.
    3. Pour éviter les faux-positifs, imposez un seuil stringent sur la E-valeur (Advanced options, expect ≤ 1e-5).
  2. Effectuez maintenant la recherche de similarité dans le protéome de votre organisme d'intérêt, pour chacune des trois aspartate kinase d'Escherichia coli K-12.
  3. Obtenez-vous un meilleur hit réciproque ? Commentez le résultat.

Contact: Jacques van Helden