AMU :: L2 :: Bioinformatique appliquée :: année 2012/2013
Pour vous guider durant l'exécution des exercices, nous vous renverrons, tout au long du TD, à différentes sections de la page de définition des concepts.
Ce TD repose sur les supports de cours suivants.
Ce tutoriel est basé sur les site web suivants.
| Acronym | Type | Description+URL |
|---|---|---|
| Entrez | Multi-database | A collection of biomolecular databases maintained at the NCBI (USA), accessible via an interface called Entrez.
http://www.ncbi.nlm.nih.gov/Entrez/ |
| UniProt | Protein sequences | UniProt - the Universal Protein Resource
http://www.uniprot.org/ |
| dnadot | Dot plots | Draw nucleic acid dot plots, convenient for DNA/RNA alignment
http://www.vivo.colostate.edu/molkit/dnadot/ |
| dotlet | Dot plots | Nice interface to dot plot, supporting DNA + proteins,
substitution matrices, and displaying a histogram of window
score values. Clear help page and very nice examples (low
complexity, RNA secondary structure, ...).
http://myhits.isb-sib.ch/cgi-bin/dotlet |
| Alignment applet | Dynamical programming algorithm | A didactic tool to reproduce in a step-by-step mode the
dynamical programming procedure
http://lectures.molgen.mpg.de/PracticalSection/AliApplet/index.html |
| PSA | Sequence alignment | EBI Pairwise Sequence Alignment tools (needle, water, ...)
http://www.ebi.ac.uk/Tools/psa/ |
| BLOSUM | Substitution matrices |
Series of BLOSUM matrices in various formats, with all the
detail of computation + the software to build them.
ftp://ftp.ncbi.nih.gov/repository/blocks/unix/blosum/blosum.tar.Z |
| Standard ambiguity codes | http://www.dnabaser.com/articles/IUPAC%20ambiguity%20codes.html |
Le but général de ce TD est d'apprendre à manipuler les programmes permettant d'aligner une paire de séquences (nucléiques ou peptitdiques), et d'interpréter les résultats des alignements.
Les exercices nous amèneront progressivement à explorer les concepts suivants:
Au fil des exercices, nous tenterons progressivement de comprendre les mécanismes de l'alignement, et de nous guider dans le choix des programmes et des paramètres.
[Retour à la table des matières]Le dot plot est une représentation graphique qui permet de repérer les régions similaires entre deux séquences ou au sein d'une même séquence. Il ne fournit pas à proprement parler un alignement, mais permet déjà de détecter des similarités locales.
Ouvrez le second onglet de votre questionnaire (il apparaît au bas de la feuille, sous le titre "Dot plot" et observez la plage de cellules A1:O15.
Dans la première ligne et colonne nous avons écrit la même séquence d'ADN.
Dans chaque cellule i,j de cette plage, indiquez une fonction qui effectuera automatiquement la comparaison des bases i et j de la séquence, en indiquant "o" si les bases i et j sont identiques, et en laissant la cellule vide si ces bases diffèrent.
Utilisez la fonction =SI(test; Valeaur_si_vrai; Valeur_si_faux )
Utilisez les références absolues et relatives pour concevoir une formule que vous pouvez copier dans toutes les cellules de la matrice.
Si vous ne trouvez pas la réponse par vous-mêmes, vous pouvez vous inspirer de la formule de la cellule R2.
Analysez les formules dans les cellules R2:AE15, et observez les diagonales qui s'affichent dans cette plage.
Dans le troisième bloc (AI2:AV15), nous comparons la séquence originale avec la séquence réverse complementaire, qui se trouve dans la colonne AH. Que vous enseigne ce graphique ?
Quelle formule avez-vous utilisée pour les cellules B2:O15 ? (Copiez ici la formule sans le signe "=")
A quoi correspond la diagonale principale ?
Quelle est la différence entre les dot-plots des zones B2:O15 et R2:AE15, du point de vue de la règle d'affichage ?
Quelle est la différence entre les dot-plots des zones B2:O15 et R2:AE15, du point de vue du résultat obtenu ?
A quoi correspondent les éléments diagonaux courts, clairement visibles du deuxième dot-plot?
A quoi correspondent les éléments diagonaux courts de la zone AI2:AV15 ?
En partant de la fiche Uniprot décrivant l'opsine bleue humaine (P03999), identifiez la séquence du gène et celle de son ARNm, et sauvegardez ces deux séquences dans des fichiers séparés, en format fasta.
La base de donnéers Uniprot ne contient pas elle-même les séquences d'ADN ou ARN, mais chaque fiche de protéine contient une liste de références à d'autres bases de données (suivez le lien Cross-refs qui apparaît dans la barre grisée en haut de la fiche).
Uniprot présente généralement des liens multiples pour passer d'une protéine aux séquences génomiques correspondantes. Cependant, certains de ces liens pointent vers des séquences génomiques très longues, comme les chromosomes entiers ou les "scaffolds" (assemblages de fragments chromosomiques). Il faut donc essayer d'identifier la séquence génomique spécifique du gène.
D'après les longueurs des séquences, nous vous proposons d'analyser les deux séquences suivantes:
Comparez les deux séquences à l’aide de l'outil dnadot. Faites varier la longueur de la fenêtre entre 5 et 15. Comparez et interprétez les résultats.
Attention! Dans les boîtes de texte prévues pour les séquences (DNA number 1 et DNA number 2) il ne faut pas copier la ligne d’identification du fichier fasta (la ligne qui commence par ">"), car l'outil dnadot n'accepte que des séquences "brutes". Si vous incluez les en-têtes fasta des deux séquence, le programme tentera de les aligner, ce qui rendra le début du graphique difficile à interpréter !
Activation des plug-ins java dans les salles de TD de Luminy
Pour pouvoir utiliser les outils dnadot et dotlet dans les salles de TD de Luminy, il faut activer les plugin java dans les options du nagivateur Web.
En 2013, même en activant les plugins, dnadot posait
encore un problème technique sur certains ordinateurs de
la salle de cours: la fonction "coller" est inactive.
Solution
temporaire: Voici la capture d'écran du
résultat de dnadot pour cet exercice, avec une fenête
de taille 15.
Quelle est la longueur de la séquence génomique analysée ?
Quelle est la longueur de la séquence d’ARNm analysée ?
En fixant la longueur de la fenêtre à 15 nucléotides, vous obtenez des éléments de lignes diagonales décalées. A quoi ces diagonales correspondent-elles ?
A quoi correspondent les décalages entre les lignes diagonales ?
Un petit fragment à la fin de l’ARNm s’aligne avec une portion au milieu du gène. A quoi ce fragment correspond-il ?
Pour trouver la réponse, nous vous conseillons d'inspecter les résidus présents à l'extrémité 3' de la séquence d'ARNm.
Cette correspondance résulte-t-elle vraisemblablement d'une homologie, ou du hasard?
Quand vous diminuez la taille de la fenêtre, vous constatez que de nouvelles diagonales s'ajoutent à celles qui apparaissaient avec la fenêtre de taille 15. Pourquoi ?
L'outil dotlet fonctionne pour certains binômes et pas
pour d'autres.
Solution temporaire:
Voici les captures d'écran des résultats de dotlet pour
cet exercice.
Cliquez sur les images ci-dessous pour les afficher en meilleure résolution.
Le but de cet exercice est de comprendre les la façon dont une matrice de substitution est utilisée pour calculer le score d'un alignement.
| A | T | C | G | |
| A | 2 | 0 | 0 | 1 |
| T | 0 | 2 | 1 | 0 |
| C | 0 | 1 | 2 | 0 |
| G | 1 | 0 | 0 | 2 |
Pénalités :
Alignment A :
A T G T C A T A C G T
A A G T C A - - - G T
Alignment B :
A T G T C A T A C G T
A A G T C - - A - G T
Dans cet exercice, nous allons aligner les séquences par paires et mesurer les taux d'identité et de similarité entre quelues séquences d'opsines.
Le but est d’apprendre à choisir une matrice de substitution appropriée pour comparer deux séquences protéiques.
Sur base de note connaissance de la fonction des protéines analysées (toutes des opsines), on s'attend a priori à ce que la similarité de séquence couvre l'ensemble des séquences. Nous allons donc utiliser le logiciel needle, qui effectue un alignement global entre deux séquences.
Téléchargez de Swissprot les séquences protéiques des opsines vertes et bleue de la souris et l'opsine bleue humaine.
Alignez l'opsin bleue de la souris avec opsin bleue humaine, et avec l'opsine verte de la souris (vous devrez donc effectuer séparément 2 alignements par paire), en utilisant les paramètres par défaut de needle.
Pour chaque résultat, notez les valeurs des
Observez le pourcentage d’identité entre chaque pair des protéines, et réaligner les si vous jugez qu’une autre matrice de substitution conviendrait mieux.
Comparez les pourcentages d'identités et de similarités entre les alignements par défaut et determinez la matrice de substitution optimale pour chaque alignement (le détail des questions sera fourni dans le questionnaire).
Expliquez les différences entre les alignements des mêmes séquences ontenus avec les matrices de substitutions différents.
Dans cet exercice, nous alignerons la séquence du gène de l’opsine bleue humaine avec son ARNm, en utilisant deux algorithmes d'alignement par paire:
Le but de l'exercice est de comprendre les différences entre ces deux alignements, et d'évaluer l'impact de certains paramètres sur le résultat.
Vous allez utiliser deux programmes de la suite EMBOSS: needle, qui implémente l’algorithme d'alignement global publié par Needleman et Wunsch (1970) et water, l’algorithme d'alignement local publié par Smith et Watermann (1981).
Les paramètres de pénalité de gaps sont accessibles en cliquant sur le lien "More options", dans la section "STEP2 - Set your pairwise alignment options".
Comparez les deux alignements (global versus local) obtenus avec les paramètres par défaut: longueur d'alignement, nombre d'identités, pourcetages d'identités, différences marquantes entre les deux alignements.
Différences les plus marquantes entre alignements global et local (1 ou 2 phrases)
A quels éléments du gène correspondent les gaps?
Pourquoi les scores des deux alignements sont-ils identiques, en dépit des différences soulignées ci-dessus (1 phrase)?
Que se passe-t-il quand vous diminuez le score d'ouverture de gap à 1 et le score d'extension reste à 0.5? Pourquoi (2-3 phrases) ?
Que se passe-t-il quand vous choisissez le score d'ouverture à 1 et le score d'extension à 1?
Parmi les 3 choix de paramètres de l'alignement local que vous avez testés, le(s)quel(s) vous paraît le plus pertinent ? Justifiez en 1 phrase.
Les matrices de substitution associent un score à chaque paire de résidus. Pour ce premier exercice, l'ensemble des étudiants contribuera à construire une matrice de substitution en suivant les étapes suivantes :
Alignement des deux séquences.
Comptage des occurrences pour chaque paire de résidus → création de matrice de comptage.
Transformation de matrice de comptages (= occurrences = fréquences absolues) en matrice de fréquences (relatives)
Transformation de matrice des fréquences en lod-scores (voir définition du lod score).
Notes
ATTENTION! Comptez non seulement les substitutions, mais également les identités, car ce nombre est nécessaire au calcul du nombre total d'occurrences pour chaque acide aminé.
Pour cet exercice, nous allons tricher en alignant les séquences à l’aide de programme needle (de la suite EMBOSS), qui utilise déjà une matrice de substitution pour faire l’alignement.
Nous nous permettrons cette petite entorse afin d'éviter un problème de circularité: les alignements de séquences protéiques reposent sur une matrice de substitutions, mais les matrices de substitution sont construites sur base d'alignements.
On peut dès lors se demander comment les premières matrices ont été constuites. En 1978, Margaret Dayhoff et ses collègues avaient aligné les séquences sur base d'estimations arbitraires des relations entre acides aminés, pour ensuite dériver de ces alignement les premières matrices de substitution basées sur des alignements: les matrices de la série PAM (Dayhoff et al. 1978).
Quand vous aurez rempli le formulaire concernant votre alignement et votre matrice individuelle de substitution, sauvegardez la page Web juste avant de soumettre vos résultats, afin de conserver une trace des données que vous avez encodées.
Juste après avoir votre matrice individuelle, le programme vous proposer d'accéder à la matrice collective, qui résulte de la somme des matrices individuelles soumises par les étudiants. Sauvegardez également cette page, pour conserver une trace de son état au moment de votre soumission. La matrice collective sera ensuite périodiquement actualisée, au fil des soumissions de vos collègues. Pour répondre aux questions du questionnaires, utilisez la version de la matrice collective que vous avez sauvegardée juste après la soumission de votre matrice individuelle.
Connectez-vous au site de Carl Hermann.
Le site Web propose à chacun une paire de protéines tirées au hasard dans une banque de données. Vous allez aligner ces protéines, et d'en dériver un matrice de comptages des alignements par résidus (substitutions, identités, gaps).
Sur base d'un seul alignement, cette matrice sera forcément très fragmentaire. Cependant, vos résultats seront automatiquement cumulés avec ceux des autres étudiants pour construire une matrice collective basée sur un nombre suffisant d'alignements. Vous comparerez ensuite la matrice que vous avez construite avec la matrice classique BLOSUM62. Vous pouvez répondre à des questions du questionnaire au fur et à la mesure.
Exploration de la matrice produite par le groupe d'étudiants.
Note: la matrice de substitutions collective se complètera au fil du TD. Il est donc normal que vous ayiez des résultats différents de vos voisins.
Exploration de la matrice BLOSUM62: analyse de la "remplaçabilité" des résidus.
Attention, les 4 dernières lignes et colonnes de la matrices correspondent à des acides aminés ambigüs ou à des gaps. Pour cet exercice, ne prendez en compte que les substitutions entre acides aminés complètement spécifiés.
Comparaison de la matrice de scores calculés par les étudiants et la matrice de BLOSUM62 :
In this exercise, we will get familiar with the algorithm used to find the optimal alignment between two sequences.
In the exercise above, we evaluated the scores of a variety of possible alignments between two short peptidic fragments. We will now apply the dynamical programming algorithms, which guarantees to return the optimal alignment, i.e. the alignment maximizing the score, for a given substitution matrix and gap penalty.
Dayhoff, M. O., Schwartz,
R. M. & Orcutt, B. (1978).
A model of evolutionary change in proteins.
Atlas of Protein Sequence and Structure 5, 345--352.
Henikoff, S. & Henikoff, J. G. (1992).
Amino acid substitution matrices from protein blocks.
Proc Natl Acad Sci U S A 89, 10915-9.