sur le même site :
Visualisation de molécules
  1. Une brève historique
  2. Calculer des alignements et/ou les afficher
  3. Travailler avec les enzymes de restriction
  4. Le code génétique
  5. Séquences à télécharger
  6. Bibliographie


La première version de cette page datant d'il y a plus de 15 ans ayant considérablement vieilli, vous trouverez ici une tentative de réécriture qui reste encore à retravailler.

Si vous vous contentez des logiciels "officiels" utilisés dans les lycées et collèges de France, les choses sont simples: vous êtes limités à quelques outils (aux limitations et critiques les concernant, le temps a ajouté une difficulté à les mettre en oeuvre sur des ordinateurs récents, tablettes voire même smartphones - néanmoins les instructions officielles de l'ECE semblent de moins en moins imposer un logiciel plutôt qu'un autre"). S'intéresser à ce qui existe ailleurs est une nécessité; mais la tâche devient complexe car il est facile de compter plus d'une centaine de logiciels (cf Wikipedia).

Le chapitre Brève historique me permet de mettre en avant des outils qui ont compté, sont souvent devenus des "dinosaures", mais peuvent parfois être encore utilisables.

Les logiciels ou applications listés ici sont des outils de traitement (ou de visualisation) de données représentées par des séquences: suite des nucléotides d'une molécule d'ADN ou d'ARN, suite d'acides aminés d'une protéine (ou plus précisément d'une chaine protéique). Le thème essentiel de travail est la comparaison de ces séquences qui permet de retracer une histoire, c'est à dire une évolution à travers des espèces vivantes (phylogénie) ou à travers une famille de molécules proches (famille multigénique). Les besoins de l'enseignement ne sont pas ceux de la recherche: le nombre de séquences à comparer est plus limité et l'ergonomie du logiciel devient essentielle pour un élève qui n'aura que peu d'occasions de l'utiliser. Les chercheurs, eux, seront moins rebutés par la ligne de commande, la fréquence de son usage permettant la mémorisation nécessaire.

A partir d"un groupe "brut" de séquences (non alignées), on repère les substitutions, les additions et les délétions (facilitée par une mise en couleur des nucléotides, des condons ou des acides aminés) sur les séquences placées les unes en dessous des autres. L'alignement peut-être réalisé à la main: pour compenser additions et délétions on insère des espaces ou tout autre caractère (tiret, etc.) dans certaines des séquences (c'est ce qu'il faut absolument conseiller pour un apprentissage) ou calculé par le logiciel. Les méthodes de calcul sont en soit un objet de recherche qui ne concerne pas l'enseignement secondaire (donc nous n'en parlerons pas); les chercheurs qui peuvent être amenés à comparer un grand nombre de séquences (plus d'une centaine) ont besoin dans ce cas de logiciels performants et d'une grande puissance de calcul, une nécessité absente en enseignement secondaire.

La simple visualisation de molécules déjà alignées à un intérêt en soi du fait que de longues séquences imprimées en noir et blanc sur papier sont difficiles à lire (le logiciel peut utiliser des couleurs, afficher un histogramme, etc.). Les logiciels peuvent aussi calculer des tableaux d'identité entre séquences et ces identités peuvent être vualisées sous forme d'arbres phylogénétiques.

A noter que la comparaison d'une suite de caractères phénotypiques d'espèces ou de variétés différentes peut aussi donner lieu au calcul d'un tableau d'identité et à la construction d'un arbre phylogénétique. Il faut associer au thème de travail précédent le séquençage ou l'analyse d'électrophorèses; la transposition didactique la plus évidente concerne l'utilisation des enzymes de restriction. Une dernière tâche à citer est la traduction de séquences d'acides nucléiques en séquence de protéines.

Comme souvent les pratiques réellement intéressantes ne sont pas d'utiliser un outil pour lui-même si tant est qu'il y ait plaisir à le manipuler mais d'intégrer son utilisation dans une démarche de résolution de problème. Le détournement d'un outil de ce pourquoi il est fait prioritairement, ou l'utilisation "inversée" d'un autre ne sont pas à négliger. Parmi les exemples spectaculaires que j'aime bien citer se trouve l'utilisation des fonctions "recherche/remplacement" de tout bon traitement de texte pour modéliser l'action des enzymes de restriction. Un autre exemple m'a été communiqué par une collègue qui utilise un outil de traduction (tel celui mis en ligne sur ce site) pour décrypter le code génétique recontituant en quelque sorte la démarche de Marshall Nirenberg et Heinrich Matthaei; les outils informatiques permettent ici de modéliser des manipulations chimiques irréalisables en classe.

Une brève historique ↑

SEQUAID est un logiciel développé par l'université du Kansas (Etats-Unis) et adapté à l'enseignement sous le nom SEQUAID II par l'INRP. L'unique version (françisée) est publiée en 1995 et fonctionne sous MsDOS (et donc sous Windows et émulateurs).

Clustal, décliné en ClustalW puis Clustal X pour sa version fenêtrée (interface graphique) est un des logiciels les plus célèbres. Le logiciel fonctionne toujours sur diverses plateformes.

TreeView affiche les arbres phylogénétiques
Clustal étant centré sur le calcul d'alignements, a suscité le développement de logiciels complémentaires qui ont sans doute davantage vieilli:

Clustal X calcule les données représentant les arbres phylogénétiques sans les afficher. Ces fichiers exportés par Clustal X sont importables dans Treeview. L'arbre produit par défaut étant non enraciné (unrooted), l'enracinement se réalise en définissant un groupe extérieur (outgroup), mais les versions Linux et MacOS X ne permettent pas l'enracinement.

Annhyb est un autre complément
Annhyb affiche les alignements de séquences (fichiers .aln générés par Clustal X) sous une forme imprimable, assure la traduction des séquences d'ADN en séquences protéiques; affiche la carte de restriction (243 enzymes sont présentes dans sa banque); fonctionne uniquement sous Windows.

La difficulté à maintenir le développement d'outils multiplateforme pousse à construire des applications fonctionnant sur Java dont Jalview est le meilleur exemple.

L'évolution la plus récente, à l'égal des applications de visualisation de molécules en 3D se troune vers des interfaces web, c'est à dire vers un navigateur exécutant un programme. Jalview est proposé au départ en deux versions, dont un "applet" s'exécutant dans un navigateur. Historiquement les applets reposent sur un module (plugin) ajouté au navigateur (Adoble Flash est/était un bon exemple) ou sur Java. Posant des problèmes de sécurité, ces solutions tetchniques ont perdu en popularité ou sont carrément abandonnées.

Lorsque l'utilisateur utilise une application à travers un navigateur d'aujourd'hui, même s'il ne s'en aperçoit pas, deux cas sont en réalité mis en œuvre:
- tout se passe sur la machine cliente: l'application est codée en Javascript;
- il y a un dialogue constant entre la machine cliente et un serveur qui exécute tous les calculs grâce à des scripts tournant sur le serveur ou à des exécutables complémentaires. Ce second cas est bien plus gourmand en énergie que le premier; le trafic de données sur le réseau est augmenté, mais surtout le serveur peut avoir à répondre simultanément à une multitude de requêtes des stations clientes et se trouver en difficulté.

Certaines solutions un peu trompeuses sont présentées sous forme de scripts (Javascript) mais font appel à de "bibliothèques de scripts" situées parfois ailleurs que le script principal. Pour des raisons de sécurité le navigateur refusera le plus souvent d'exécuter les commandes.

Il convient donc de privilégier (surtout si on est un tant soit peu programmeur et qu'on envisage de modifier les scripts) les applications légères utilisant le moins de bibliothèques de script possibles ou qui s'en passent complètement. Le terme de Vanilla JS a été connoté pour définir les scripts qui s'affranchissent des bibliothèques.

Andrew C R Martin. 2014. Viewing multiple sequence alignments with the JavaScript Sequence Alignment Viewer (JSAV). F1000Research. DOI: 10.12688/f1000research.5486.1
Cette publication est citée ici pour l'introduction historique dont nous nous sommes inspirés dans ce paragraphe.

SEQUAID II: présentation et téléchargement, documentation.
Dominique Lenne, Jean-François Rodes, Naoum Salamé. 1994. Seqaid II, un logiciel de recherche pour l’enseignement de la génétique moléculaire. Revue de l'EPI (Enseignement Public et Informatique), 1994, 73, pp.147-156. edutice-00001128

Roderic Page. 1996. Treeview : An application to display phylogenetic trees on personal computers. Computer Applications in the Biosciences 12 : 357-358. DOI: 10.1093/bioinformatics/12.4.357 (Researchgate.net)
téléchargement du code source de TreeViewX.

Friard O.. . Annhyb. bioinformatics.org/annhyb/

Calculer des alignements et/ou les afficher ↑

Ne vous attendez pas à découvrir ici une liste exhaustive; selon votre besoin privilégiez les applications les plus polyvalentes ou à l'inverse les plus minimalistes, et dans tous les cas celles qui n'enferment pas les élèves et leurs enseignants dans une démarche préétablie (en mettant en avant par exemple une banque de séquences dont il n'est pas toujours facile de s'échapper). Préférez les applications qui ne sont pas dépendantes d'un système d'exploitation unique même s'il s'agit de celui dont la domination est quasi exclusive dans les établissements scolaires français (Windows). Enfin privilégiez les applications libres (et donc gratuites); là je ne fais que suivre les consignes ministérielles.

Clustal

Le dinosaure
Clustal X Windows
Copie d'écran (Windows)
Clustal X utilise une fenêtre unique et utilise un code de couleur (configurable) distinguant chaque nucléotide ou acide aminé mettant ainsi en évidence les alignements ou les non-alignements. Son principal défaut est de ne pas permetre l'édition manuelle des séquences (donc un alignement manuel). Sinon, le calcul des alignements est très rapide. Outre les séquences alignées, le logiciel produit des données phylogénétiques affichables avec divers logiciels.

Il est facile de modifier les fichiers Séquaid (INRP) ou Anagène (CNDP) dans un éditeur de texte pour permettre leur lecture par Clustal X. Phylogène utilise les mêmes formats que Clustal X. Les alignements sont d'ailleurs réalisés grâce à une version de Clustal X installé en même temps que Phylogène.

Malgré son ancienneté, Clustal X fonctionne encore sur la plupart des platerformes (sur Mac il est très probablement limité aux machines basées sur des processeurs Intel). La version la plus récente de Clustal (Clustal Omega) ne fonctionne qu'en ligne de commande mais d'autres programmes comme Seaview comblent cette lacune et des sites proposent une interface en ligne (lien ci-après vers le site EMBL's European Bioinformatics Institute).

www.clustal.org (en anglais)
Téléchargement: www.clustal.org/download/current/
Thompson J.D. Gibson T.J. Plewniak F. Jeanmougin F. Higgins D.G.. 2003. ClustalX (www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html) page disparue.

Clustal Omega

www.ebi.ac.uk/jdispatcher/msa/clustalo
Une interface en ligne pour Clustal Omega; C'est minimaliste et très sobre, donc facile à utiliser. Le site propose aussi d'autres outils d'alignement.

Anagène

Le logiciel officiel (utilisé en ECE)
Vous échapperez difficilement à la nécessité de familiariser les élèves à son usage si vous enseignez en spécialité SVT; c'est sans doute l'unique argument pour l'utiliser. Les instructions pilotant l'ECE n'imposent cependant aucun logiciel pour peu que celui choisi remplisse les fonctions demandées dans le protocole de l'exercice. Une encyclopédie limitée est incorporée au logiciel et peut être enrichie (de façon malheureusement très malcomode) ainsi qu'une banque de séquences.

L'interface utilisateur d'Anagène est peu intuitive et a considérablement vieilli. Pour autant, la consultation des banques de données (séquences moléculaires et scénarios pédagogiques) accompagnant Anagène est des plus utiles. On ne comprend pas vraiment pourquoi ces données sont incorporées au logiciel au lieu d'être diffusées indépendemment (une trace de son origine commerciale ?).

Anagène fût disponible en ligne (mais ne l'est plus).
Téléchargement pour Windows: Anagène a été commercialisé, mais est désormais gratuit; vous pouvez télécharger une version 2+ et sa mise à jour sur le site ACCES, ici ou (les deux pages sont identiques).
La documentation complète.
La fiche technique synthétique. Académie de Toulouse.
guide

Phylogène

Un logiciel original
Phylogène est plus qu'une base de données sur les caractères phénotypiques, c'est aussi un logiciel d'alignement de séquences; il peut calculer et afficher des matrices de différences et des arbres phylogénétiques. C'est un logiciel gratuit, mais non libre, édité par l'INRP et comme le précédent, l'outil est dépendant de Windows. Les alignements sont d'ailleurs réalisés grâce à une version (malheureusement ancienne)1 de Clustal X installé en même temps que Phylogène. Remplacer cette version par une plus récente comme la 1.83 ne semble pas poser problème.

Pour pouvoir réaliser des alignements, autorisez en écriture le dossier Molecules (situé lui même dans le dossier de base de l'application); mieux, surtout sur un réseau, modifier le fichier programmes\phylini.ini pour qu'il contienne une redirection vers un dossier local contenant les fichiers temporaires, par exemple :
alignement=c:\temp
(créez cette ligne si elle n'existe pas).

Seaview

Mon coup de cœur
Seaview est une interface graphique pour Clustal Omega, Muscle, Phylip. C'est léger et efficace. L'interface est intuitive, mais qu'on ne s'y trompe pas Seaview est d'une puissance redoutable, vous pouvez utiliser le glisser-déposer pour charger les séquences à étudier, ouvrir plusieurs fenêtres, éditer manuellement les séquences, convertir les séquences d'ADN en protéines puis revenir en arrière, calculer des arbres phylogénétiques et les éditer. Les modules servant pour les calculs de base (Clustalo, Muscle, Phyml) sont des références. Un logiciel utilisable par les élèves comme par les chercheurs... Seaview est un logiciel produit par le pôle bioinformatique de l'université de Lyon. Pourtant, le seul reproche qu'on puisse lui faire sont ses menus en langue anglaise.

Téléchargement: doua.prabi.fr/software/seaview
Gouy M., Guindon S. & Gascuel O. (2010) SeaView version 4 : a multiplatform graphical user interface for sequence alignment and phylogenetic tree building. Molecular Biology and Evolution 27(2):221-224.
Une documentation minimaliste en français. Académie de Lyon.

Jalview ↑

Le plus poyvalent
Un logiciel libre en Java (donc multiplateforme); son point fort: il fait tout; son point faible: il fait tout. Jalview permet de comparer les séquences, de calculer les alignements, de calculer et d'afficher des arbres phylogénétiques, et même en incorporant Jmol de visualiser des molécules .

Par contre sa version Javascript (JalviewJS) n'est qu'au début de son développement et n'est sans doute pas adaptée pour les calculs complexes. En l'état l'installation par défaut comprend un grand nombre de fichiers et pèse près de 100 Mo. Le programme serait capable de se reconstruire pour s'adapter à son utilisateur et de générer une version allégée dédiée, mais cette installation semble complexe. De plus seule la version s'affichant dans de multiples fenêtres flottantes semble fonctionner correctement.

Si votre besoin est uniquement de de réaliser des tutoriels basés sur des pages web, vous aurez intérêt à vous contenter d'applications plus légères qui se contentent d'afficher des groupes de séquences déjà alignées ou des arbres phylogénétiques déjà calculés (lire ci-dessous).

www.jalview.org Le site officiel.
Principales fonctions du logiciel Jalview Académie de Nice.

JalviewJS, sur le site officiel, sur Didac-TIC (expérimental).

Des programmes en Javascript ↑

(à venir)

Comparatif ↑

De part le format du tableau, ce comparatif ne s'affichera pas sur un petit écran. A noter qu'il est possible de faire "tourner" les logiciels dépendants de Windows sur Linux ou Mac OS (machines Intel de préférence) en utilisant Wine ou un système de virtualisation comme Virtual Box.


Clustal W, Clustal X Anagène Phylogène Seaview Jalview
plateforme Windows, Linux, MacOS Windows 
Windows Windows, Linux, MacOS Tout système Java
statut du logiciel libre Anagène n'est plus commercialisé; vous pouvez télécharger une version 2+ gratuite et sa mise à jour sur le site ACCES. gratuit libre libre
traduction ADN → protéines non oui non oui non
alignement manuel (edition d'une séquence) non oui ? oui oui
alignement des séquences oui pas de coloration des séquences oui, basé sur Clustal ouyi, basé sur ClustalO ou Muscle oui
calcul, affichage et édition d'arbres phylogénétiques calcul non calcul (basé sur Clustal) et affichage oui, basé sur Phyml oui
remarques   Une encyclopédie limitée et une banque de séquences sont incorporées au logiciel . Gère aussi la construction manuelle d'arbres phylogénétiques à partir de caractères discrets (morphologiques, etc.); dispose d'une banque de données illustrée sur ces caractères et aide à élaborer une matrice.    

Travailler avec les enzymes de restriction ↑

Tout est dans la modélisation
Tout traitement de texte permet une modélisation de l'action des enzymes de restriction. Il suffit de charger la séquence à couper dans une fenêtre de traitement de texte, puis d'utiliser la fonction recherche/remplacement avec la séquence d'ADN reconnue par l'enzyme de restriction qu'on remplace par une suite d'espaces ou idéalement d'un retour à la ligne. Cette activité est beaucoup plus "modélisante" que ce qu'offrent Annhyb ou Anagène sur le sujet. Je recommande fortement ce type de "détournement".

Le code génétique ↑

Traduire ou décrypter ?
Convertisseur en ligne nucléotides > acides aminés Il est possible de traiter en ligne (ou même sans serveur pour Javascript) une séquence entrée dans un formulaire. Le programme qui suit est un exemple qui fonctionne en ligne ou hors ligne après enregistrement en local : convertisseur ADN → protéine.

Exemple d'activité: utiliser l'outil pour décrypter le code génétique, en recontituant en quelque sorte la démarche de Marshall Nirenberg et Heinrich Matthaei.



Séquences à télécharger ↑

Les formats de fichiers représentant les séquences sont généralement simples et facilement convertibles d'un standard à un autre (ce sont des fichiers texte dont les formats ne diffèrent souvent que par leurs en-têtes).

Ce sont des fichiers ASCII décrivant la séquence du brin non transcrit de l'ADN pour la partie codante de l'allèle considéré. Les séquences d'ADN sont représentées par la suite des lettres A, T, C ou G. Les séquences protéiques sont représentées par une suite de lettres qui désignent les acides aminés (une lettre par acide aminé) selon le codage présenté sur la page web Tableau du code génétique. L'en-tête varie d'un logiciel à l'autre : ouvrez les exemples dans un éditeur texte comme le Bloc note de Windows ou TextWrangler (ou TextEdit) sur Mac OS. Les fichiers qui suivent sont au format de Clustal X :

D-Loop : Hominidés ADN mitochondrial: pour Clustal X, format .pir pour Phylogène

Groupe sanguin principal humain ADN, protéines

NAD déshydrogénase : Hominidés ADN, protéines
Phénylalanine hydroxylase (PAH) ADN, protéines
Tyrosinase humaine ADN, protéines

Famille des globines humaines ADN, protéines
Globine β : humaine (normale, drépanocytaire, microcytaire) ADN, protéines, Hominidés protéines, Primates protéines, Vertébrés protéines
Globine α : Hominidés protéines, Vertébrés protéines
Myoglobine : Vertébrés protéines

Famille des hormones anté-hypophysaires humaines ADN, protéines, Vertébrés protéines

Famille des opsines protéines

Remarque : comme les fichiers .pdb sont des fichiers textes et comportent généralement, lorsqu'ils décrivent des chaînes protéiques, la séquence des acides aminés constitutifs, il est possible d'en extraire un fichier de séquence qui, moyennant quelques traitements simples, sera exploitable dans un logiciel de comparaison de séquences.

Pellerin M.-J.. Conversion d'une séquence protéique d'un fichier PDB en un fichier Anagène. www.snv.jussieu.fr/vie/outils/documents/pdb_to_pro.htm
Blast

Bibliographie ↑

List of Sequence alignement software Wikipedia.
Phylogeny programs. evolution.genetics.washington.edu/phylip/software.html Plus de 208 logicels.
Les dossiers thématiques de l'ifé en génétique moléculaire et évolution. Institut français de l'éducation plateforme ACCES.

Les fiches techniques de l'académie de Toulouse.
Attention, ce n'est pas limité aux logiciels de génétique.
Bioinformatique : opportunités pour l'enseignement.
Un questionnement pédagogique (indispensable).

Adresse de cette page: http://www.didac-tic.fr/seq/index.php