ENSBBAU3 - Bioinfo 1
TD2 - familles de séquences


Contenu

  1. Prérequis
  2. Ressources
  3. Objectifs
  4. Formulaires
  5. Exercice 1: Définir une famille de séquence
  6. Exercice 2: Alignement multiple de séquences
  7. Exercice 3: Modéliser et visualiser une famille
  8. Exercice 4: Les domaines protéiques
[Retour à la table des matières]

Prérequis

  1. Savoir formuler une requête dans la base de données Uniprot.
  2. Savoir effectuer une recherche de séquences par similarité au moyen de l'outil BLAST.
[Retour à la table des matières]

Ressources

Uniprot www.uniprot.org/
NCBI BLAST blast.ncbi.nlm.nih.gov/
MSA (ExPasy) www.expasy.org/genomics/sequence_alignment
Jalview www.jalview.org
Seq2Logo www.cbs.dtu.dk/biotools/Seq2Logo
HMMER hmmer.janelia.org/
Skylign skylign.org
[Retour à la table des matières]

Objectifs

Le but de ce TD est de se familiariser avec la notion de famille de séquences à travers:

Nous utiliserons comme référence le génome de Bacteroides thetaiotaomicron VPI-5482, bacterie symbiotique de notre flore intestinale, et plus particulièrement aux protéines de transports d'oligosaccharides SusC-like..

En début de TD, chaque étudiant(e) se verra assigner une protéine d'intêret dans cet organisme/famille, avec lequel elle/il devra réaliser les exercices ci-dessous, et remplir un document texte avec réponses.

[Retour à la table des matières]

Formulaires

[Retour à la table des matières]

Exercice 1: Définir une famille de séquence

Objectif: identifier une protéine d'intêret dans une base de donnés de séquences et établir rapidement un ensemble de séquences similaires

  1. Retrouvez dans Uniprot votre protéine d'intérêt.
    1. À quel phylum appartient l'organisme dont provient cette protéine?
    2. Quel est l'identifiant Uniprot de cette protéine?
    3. Décrivez avec vos mots la fonction de cette protéine d'après les annotations fonctionelles d'Uniprot?
  2. Recherchez des protéines ayant une séquence similaire (E-value <= 1e-5) dans le monde du vivant sur le site BLAST du NCBI ou d'Uniprot.
    1. Combien de temps a duré cette recherche?
    2. Combien de résultats significatifs? Sur quels critères?
    3. Dans quel éventail taxonomique?
  3. L'objectif final étant de créer un modèle de cette famille, il est préférable de sélectionner un sous-ensemble (seed) qui contiennent à la fois assez de séquences (disons 10 à 20) mais également assez de diversité (taux d'identité variés, par exemple entre 40% à 60%).
    1. Ajouter une contrainte taxonomique sur votre recherche pour faciliter la sélection de l'ensemble seed.
    2. Quels sont les avantages et inconvénients?
    3. Indiquez votre choix final taxonomique finale et le nombre de résultats significatifs? Avez-vous révisé vos critères? calcul?
[Retour à la table des matières]

Exercice 2: Alignement multiple de séquences

Objectif: Obtenir un alignement multiple d'une famille, le visualiser et l'éditer

  1. Téléchargez le fichier de vos séquences seed non-alignées puis rendez-vous sur le lien ExPasy (cf section "Ressources"), et testez quelques méthodes d'alignement multiple (par exemple MAFFT, MUSCLE, T-COFFEE, MULTIALIGN).
  2. Téléchargez le fichier de vos séquences alignées. Plusieurs formats différent sont courament utilisés... à observer!
  3. Utilisez l'application web JalView pour visualiser l'alignement multiple. Modifiez-le (par exemple en enlevant quelques colonnes avec beaucoup de gaps ou des séquences fragmentées).
    1. Testez les différentes options de colorisation et choisissez la plus ergonomique.
    2. Ordonnez les séquences par leur degré de similarité.
    3. Faites une capture d'écran d'une partie de l'alignement multiple mettant en valeur les positions contraintes ou non.
[Retour à la table des matières]

Exercice 3: Modéliser et visualiser une famille

Objectif: Construire un modèle de la famille, PSSM PSI-BLAST ou HMM profil. Ce modèle facilite la reconnaissance des membres de la famille(temps de calcul, calibration du seuil de significativité), en particulier pour les protéines les plus distantes (point de vue évolutif) de votre séquence de départ.

  1. Le programme BLAST permet une recherche itérative basée sur les matrices de scores spécifiques de positions (position-specific scoring matrices, PSSM). La version itérative est nommée PSI-Blast pour Position-Specific Iterated BLAST. Avant de valider une recherche classique, changer l'algorithme de BLAST à PSI-BLAST. Une fois obtenus les premiers résultats, vous pouvez sélectionner un ensemble de séquences qui vont être alignées et servir à la construction d'un profil. C'est ce profil qui servira à une nouvelle recherche, et ainsi de suite à votre convenance.
    1. À partir de votre séquence de départ, recherchez l'ensemble des membres de la familles dans les différentes souches de l'espèce B. thetaiotaomicron à l'aide de PSI-BLAST (E-value 1e-10) en notant à chaque itération le temps écoulé et le nombre de hits significatifs, jusqu'à stabilité (ou 5 itération maximum). Combien de membres significatifs obtenez-vous?
    2. Récupérez le modèle final et visualiser le avec seq2logo. Quelle est sa longueur?
  2. Rendez-vous sur le site d'HMMER pour effectuer une recherche d'homologues dans le monde du vivant nr (E-value <= 1e-20), à partir de votre alignement multiple de l'exercice 2, avec l'outil hmmsearch.
    1. Notez le temps de calcul et le nombre de hits significatifs (pensez à utiliser la représentation visuelle de la couverture du modèle et de la séquence, customize -> Hit Positions) pour vous aider.
    2. Modifiez l'affichage des résultats pour faire apparaître une éventuelle structure 3D.
    3. Visitez l'onglet "Domain". Qu'observez-vous? Votre modèle couvre-t-il le domaine Pfam STN?
    4. L'onglet "Download" vous permet de récupérer différentes informations/données dont le HMM de votre famille. Téléchargez-le et rendez-vous sur Skylign pour le visualiser. Quelle est sa longueur?
[Retour à la table des matières]

Exercice 4: Les domaines protéiques

Objectif: Découvrir les bases de données de domaines protéiques, principales sources systématiques de prédiction fonctionnelle.

  1. Repartez sur la fiche de votre protéine d'intérêt dans Uniprot, plus spécialement à la section "Family & Domains". Visualisez la composition en domaines protéiques sur la méta-base Interpro.
    1. Combien de domaines différents composent votre protéine?
    2. Combien existe-t-il d'entrées Interpro différentes pour ces domaines?
    3. Quelle(s) base(s) de données de domaines vous semble(nt) les plus en accord?
  2. Visualisez maintenant votre protéine dans les bases de données de domaines Pfam et Gene3D. Visitez les pages des différents domaines.
    1. Dans quels taxa les rencontre-t-on?
    2. Dans combien d'architectures différentes apparaissent-ils?
    3. Quels types d'informations fonctionelles trouvez-vous? Notez-vous des points communs/différences avec Uniprot?
    4. Quels autres types d'informations trouvez-vous?
  3. Procédez vous-même à l'annotation en domaines de votre protéine, à partir de sa séquence, sur les sites Pfam et Interpro.

Contact: Nicolas Terrapon