ENSBBAU3 - Bioinfo 1
TD2 - familles de séquences
Contenu
- Prérequis
- Ressources
- Objectifs
- Formulaires
- Exercice 1: Définir une famille de séquence
- Exercice 2: Alignement multiple de séquences
- Exercice 3: Modéliser et visualiser une famille
- Exercice 4: Les domaines protéiques
[Retour à la table des matières]
Prérequis
- Savoir formuler une requête dans la base de données Uniprot.
- Savoir effectuer une recherche de séquences par similarité
au moyen de l'outil BLAST.
[Retour à la table des matières]
Ressources
[Retour à la table des matières]
Objectifs
Le but de ce TD est de se familiariser avec la notion de famille de séquences à travers:
- les alignements multiples d'homologues;
- la modélisation probabiliste de cet alignement;
- l'identification de domaines protéiques.
Nous utiliserons comme référence le génome de Bacteroides
thetaiotaomicron VPI-5482, bacterie symbiotique de notre flore
intestinale, et plus particulièrement aux protéines de transports
d'oligosaccharides SusC-like..
En début de TD, chaque étudiant(e) se verra assigner une
protéine d'intêret dans cet organisme/famille, avec lequel elle/il
devra réaliser les exercices ci-dessous, et remplir un document
texte avec réponses.
[Retour à la table des matières]
Formulaires
- Assignations protéine/étudiant
(ods/xls)
[Retour à la table des matières]
Exercice 1: Définir une famille de séquence
Objectif: identifier une protéine d'intêret dans une base de donnés de séquences et établir rapidement un ensemble de séquences similaires
- Retrouvez dans Uniprot votre protéine d'intérêt.
- À quel phylum appartient l'organisme dont
provient cette protéine?
- Quel est l'identifiant Uniprot de cette protéine?
- Décrivez avec vos mots la fonction de cette protéine d'après les annotations fonctionelles d'Uniprot?
- Recherchez des protéines ayant une séquence similaire
(E-value <= 1e-5) dans le monde du vivant sur le
site BLAST du NCBI ou
d'Uniprot.
- Combien de temps a duré cette recherche?
- Combien de résultats significatifs? Sur quels critères?
- Dans quel éventail taxonomique?
- L'objectif final étant de créer un modèle de cette famille, il
est préférable de sélectionner un sous-ensemble (seed) qui
contiennent à la fois assez de séquences (disons 10 à 20) mais
également assez de diversité (taux d'identité variés, par exemple
entre 40% à 60%).
- Ajouter une contrainte taxonomique sur votre recherche pour
faciliter la sélection de l'ensemble seed.
- Quels sont les avantages et inconvénients?
- Indiquez votre choix final taxonomique finale et le nombre
de résultats significatifs? Avez-vous révisé vos critères?
calcul?
[Retour à la table des matières]
Exercice 2: Alignement multiple de séquences
Objectif: Obtenir un alignement multiple d'une famille, le visualiser et l'éditer
- Téléchargez le fichier de vos séquences seed non-alignées
puis rendez-vous sur le lien ExPasy (cf section "Ressources"),
et testez quelques méthodes d'alignement multiple (par exemple MAFFT, MUSCLE, T-COFFEE,
MULTIALIGN).
- Téléchargez le fichier de vos séquences alignées. Plusieurs
formats différent sont courament utilisés... à observer!
- Utilisez l'application web JalView pour visualiser
l'alignement multiple. Modifiez-le (par exemple en enlevant
quelques colonnes avec beaucoup de gaps ou des séquences
fragmentées).
- Testez les différentes options de colorisation et
choisissez la plus ergonomique.
- Ordonnez les séquences par leur degré de similarité.
- Faites une capture d'écran d'une partie de l'alignement
multiple mettant en valeur les positions contraintes ou
non.
[Retour à la table des matières]
Exercice 3: Modéliser et visualiser une famille
Objectif: Construire un modèle de la famille, PSSM PSI-BLAST ou HMM profil. Ce modèle facilite la reconnaissance des membres de la famille(temps de calcul, calibration du seuil de significativité), en particulier pour les protéines les plus distantes (point de vue évolutif) de votre séquence de départ.
- Le programme BLAST permet une recherche itérative basée sur
les matrices de scores spécifiques de positions
(position-specific scoring
matrices, PSSM). La
version itérative est nommée PSI-Blast
pour Position-Specific Iterated BLAST. Avant de valider
une recherche classique, changer l'algorithme de BLAST à
PSI-BLAST. Une fois obtenus les premiers résultats, vous
pouvez sélectionner un ensemble de séquences qui vont être
alignées et servir à la construction d'un profil. C'est ce
profil qui servira à une nouvelle recherche, et ainsi de suite
à votre convenance.
- À partir de votre séquence de départ, recherchez l'ensemble
des membres de la familles dans les différentes
souches de l'espèce B. thetaiotaomicron
à l'aide de PSI-BLAST (E-value 1e-10) en notant à
chaque itération le temps écoulé et le nombre de hits
significatifs, jusqu'à stabilité (ou 5 itération maximum).
Combien de membres significatifs obtenez-vous?
- Récupérez le modèle final et visualiser le avec
seq2logo. Quelle est sa longueur?
- Rendez-vous sur le site d'HMMER
pour effectuer une recherche d'homologues dans le monde du
vivant nr (E-value <= 1e-20), à
partir de votre alignement multiple de l'exercice 2, avec
l'outil hmmsearch.
- Notez le temps de calcul et le nombre de hits
significatifs (pensez à utiliser la représentation
visuelle de la couverture du modèle et de la
séquence, customize -> Hit Positions) pour vous aider.
- Modifiez l'affichage des résultats pour faire
apparaître une éventuelle structure 3D.
- Visitez l'onglet "Domain". Qu'observez-vous? Votre
modèle couvre-t-il le domaine Pfam STN?
- L'onglet "Download" vous permet de récupérer
différentes informations/données dont le HMM de votre
famille. Téléchargez-le et rendez-vous sur Skylign pour
le visualiser. Quelle est sa longueur?
[Retour à la table des matières]
Exercice 4: Les domaines protéiques
Objectif: Découvrir les bases de données de domaines protéiques, principales sources systématiques de prédiction fonctionnelle.
- Repartez sur la fiche de votre protéine d'intérêt dans
Uniprot, plus spécialement à la section "Family &
Domains". Visualisez la composition en domaines protéiques sur
la méta-base Interpro.
- Combien de domaines différents composent votre
protéine?
- Combien existe-t-il d'entrées Interpro différentes pour
ces domaines?
- Quelle(s) base(s) de données de domaines vous semble(nt)
les plus en accord?
- Visualisez maintenant votre protéine dans les bases de
données de domaines Pfam et Gene3D. Visitez
les pages des différents domaines.
- Dans quels taxa les rencontre-t-on?
- Dans combien d'architectures différentes
apparaissent-ils?
- Quels types d'informations fonctionelles trouvez-vous?
Notez-vous des points communs/différences avec
Uniprot?
- Quels autres types d'informations trouvez-vous?
- Procédez vous-même à l'annotation en domaines de votre
protéine, à partir de sa séquence, sur les
sites Pfam
et
Interpro.
Contact: Nicolas Terrapon