ENSBBAU3 - Bioinfo 1
TD1 - génomique comparative
Contenu
- Introduction
- Prérequis
- Ressources
- Objectifs
- Documents
- Exercice 1: Navigateur taxonomique du NCBI
- Exercice 2: Annotations du protéome dans Uniprot
- Exercice 3: Identification des aspartokinases
- Exercice 4: Recherche d'aspartokinases par similarité (BLAST)
[Retour à la table des matières]
Introduction
Ce TP ne constitue pour le moment qu'une première étape pour
aborder la génomique comparative. Nous commençons par effectuer
des recherches de protéines par similarité en nous limitant à
une famille de protéines d'intérêt (les aspartokinase) dans deux
génomes particuliers
(l'entérobactérie Escherichia coli
et un organisme d'intérêt différent pour chaque étudiant.
Au passage, nous révisons une série de concepts et pratiques de
base en bioinformatique, qui seront nécessaires pour comprendre
les résultats de TP ultérieurs.
Ce TP sera prochainement complété par des exercices de
génomique comparative à proprement parler, où les recherches de
similarité seront effectuées pour l'ensemble des protéines d'un
organisme de référence, dans un ensemble de génomes d'intérêt.
[Retour à la table des matières]
Prérequis
Concepts
Diaporama: Comparative genomics
- Homologie versus analogie.
- Orthologie versus paralogie.
- Recherches par similarités.
- Best hits, reciprocal (bidirectional) best hit.
Pratique
- Savoir formuler une requête dans la base de données
Uniprot.
- Effectuer une recherche de séquences par similarité au moyen
de l'outil BLAST.
[Retour à la table des matières]
Ressources
[Retour à la table des matières]
Objectifs
Le but de ce TD est d'acquérir une première expérience pratique
de quelques méthodes simples de génomique comparative.
- Recherches de similarités entre deux protéomes.
- Traitement des correspondances multiples: identification
de "best hits" uni- et bi-directionnels.
Nous utiliserons comme référence le génome de
l'entérobactérie Escherichia coli, souche K-12, sous-souche
MG1655.
En début de TD, chaque étudiant(e) se verra assigner un
organisme d'intérêt (une bactérie différente pour chacun), avec
lequel elle/il devra réaliser les exercices ci-dessous, et
remplir la table de réponses.
[Retour à la table des matières]
Documents
[Retour à la table des matières]
Exercice 1: le navigateur taxonomique du NCBI
Trouver l'identifiant taxonomique de votre génome d'intérêt
- Connectez-vous au navigateur
taxonomique du NCBI.
- Trouvez la fiche correspondant à la souche Escherichia
coli K-12, et notez son identifiant taxonomique.
Attention ! En raison de son utilisation
comme organisme modèle et de l'impact de certaines souches
sur la santé, on a récemment séquencé un nombre croissant de
souches, et même de sous-souches, de la bactérie
E. coli. Pour ces exercices, nous utliserons d'une
part l'entrée générique de la souche "Escherichia coli K-12"
du NCBI, et d'autre part la sous-souche (sub-strain)
particulière MG1655.
- Dans une fenêtre séparée, ouvrez la fiche de la sous-souche
Escherichia coli K-12 MG1655. Notez les groupes
taxonomiques auxquels appartient cette souche aux différents
niveaux (genre, famille, ordre, classe).
Note: quand vous positionnez pendant quelques
secondes votre pointeur sur un niveau taxonomique (champ
"Lineage"), un "tooltip" apparaît qui indique le niveau
taxonomique correspondant (Genre, Ordre, Famille, Classe,
...).
- Identifiez la fiche de votre organisme d'intérêt, et
notez son identifiant taxonomique ainsi que son lignage
(Genre, Famille, Ordre, Classe).
Dessiner l'arbre des génomes d'intérêt
- Sauvegardez sur votre ordinateur une copie du fichier
contenant la liste des génomes
d'intérêt.
- Conectez-vous à l'outil NCBI
Taxonomy Common Tree
- Chargez le fichier de génomes d'intérêt.
- Activez la case root, et
cliquez Choose.
- Cliquez le bouton Expand all.
L'outil "Common tree" affiche une représentation arborescente
de la liste des génoes d'intérêt.
Identifiez le dernier niveau taxonomique commun
entre votre organisme d'intérêt et l'organisme de référence
(Escherichia coli str. K-12 substr. MG1655).
[Retour à la table des matières]
Exercice 2: annotations du protéome dans Uniprot
- Connectez-vous au serveur Uniprot.
- Comptez le nombre total d'entrées de la base de données
Uniprot, et, parmi elles, le nombre d'entrées annotées
("Reviewed", Swiss-prot).
Pour obtenir la liste totale des entrées, il
suffit de soumettre une requête vide.
- Comptez le nombre d'entrées Uniprot et Swiss-prot ("Reviewed") en sélectionnant
- Organism name (OS)
correspondant à la souche de référence (Escherichia coli
K-12)
- Taxonomy (OC) correspondant
à la souche de référence (Escherichia coli K-12)
- Organism name (OS)
correspondant à la sous-souche de référence (MG1655)
- Taxonomy (OC)
correspondant à la sous-souche de référence (MG1655)
.
- Sur Uniprot, effectuez toujours les requêtes en
mode Advanced.
- Les noms d'organismes ne sont pas toujours annotés de
façon cohérente. Pour éviter toute ambiguité, vous pouvez
préciser un nom d'organisme en fournissant son identifiant
taxonomique (l'interface d'Uniprot vous proposera alors le
nom complet).
- Comptez le nombre d'entrées Uniprot et Swiss-prot
("Reviewed") pour votre génome d'intérêt.
[Retour à la table des matières]
Exercice 3: Identification des aspartokinases
Dans cet exercice, nous nous intéresserons à la famille des
aspartokinases, qui sont impliquées dans la biosynthèse des
acides aminés dérivés de l'aspartate. Le but de cet exercice est
de traiter cas illustratif où l'on trouve plusieurs protéines de
la même famille dans un génome.
- Sur le serveur Uniprot, formulez une
requête structurée (Advanced) pour
identifier la ou les protéines de la souche référence
(Escherichia coli K-12) dont le nom contient "aspartatokinase".
- Consultez les numéros enzymatiques (EC
number) associés à ces protéines.
Vous pouvez paramétrer le tableau résultats
qui affiche la liste des protéines trouvées lors d'une
requête Uniprot. Pour cela, cliquez sur
l'onglet Columns, et sélectionnez les
champs qui vous intéressent (par exemple "EC number"), puis
cliquez sur Save.
[Retour à la table des matières]
Exercice 4: Recherche d'aspartokinases par similarité (BLAST)
Dans un premier temps, nous tenterons de nous familiariser avec
la recherche de similarités en l’appliquant en terrain "balisé",
chez l’organisme de référence. En principe nous nous attentons à
retrouver les enzymes apsartokinases déjà annotées.
- Nous tenterons d'identifier
les hits croisés entre aspartokinases.
- Après avoir détecté les hits, nous prendrons note du score
le plus pertinent (la E-valeur)
et nous en servirons pour calculer
les rangs.
- Les rangs par colonnes nous indiqueront
les best hits (rank 1, associé à
la E-valeur la plus faible).
- En les combinant avec les rangs par lignes, nous pourrons
identifier les bidirectional best
hits
- Connectez-vous à l'outil BLAST du
NCBI (protein blast), et cherchez les protéines
simliaires à chacune des trois aspartokinases d'Escherichia
coli K-12 dans l'ensemble du protéome d'Escherichia
coli K-12.
- Le formulaire BLAST du NCBI vous permet d'entrer
plusieurs séquences en une seule requête. Un menu
déroulant vous permettra ensuite de passer de l'un à
l'autre des résultats.
- Nous recommandons de sélectionner la base de
données Reference proteins
(refseq), qui contient apparemment moins de
redondance que la base de données "non-redondante"
proposée par défaut. toutefois, pour certains
organismes cette requête ne retourne aucun
résultat. Si c'est votre cas, revenez à la base de
données non-redondante.
- Pour éviter les faux-positifs, imposez un seuil
stringent sur la E-valeur (Advanced
options, expect ≤ 1e-5).
- Effectuez maintenant la recherche de similarité dans le
protéome de
votre organisme d'intérêt, pour chacune des trois aspartate
kinase d'Escherichia coli K-12.
- Obtenez-vous un meilleur hit réciproque ? Commentez le
résultat.
Contact: Jacques
van Helden