Miscellaneous - Plate-forme de Pasteur Genopole® Île de France
Les activités de la plate-forme "Intégration et Analyse Génomiques" de l’institut Pasteur se décomposent en trois volets principaux :
l’assemblage, l’annotation et la ré-annotation de génomes microbiens,
le développement logiciel de bases de données spécialisées pour la génomique,
et l’analyse de génomes et la phylogénie moléculaire.
L’objectif global sous-jacent est la création d’un environnement intégré pour l’exploration de la fonction et de l’évolution des génomes microbiens.
Ainsi, nos bases de données doivent être vues comme un point de rencontre entre données de qualité organisées selon des schémas adéquats, et outils d’interrogation et d’analyse pertinents, accessibles depuis des interfaces utilisateur conçues en premier lieu pour répondre aux besoins des biologistes. Cela doit permettre à l’ensemble de tenir un rôle d’aide à la découverte de connaissances, au travers d’interactions homme-machine et de représentations visuelles judicieusement élaborées.
Assemblage, annotation et ré-annotation (L. Frangeul,
C. Boursaux-Eude et al.)
Nous avons développé le logiciel CAAT-Box (« Contig-Assembly and Annotation Tool-Box »), qui contient un ensemble de méthodes permettant de suivre les assemblages successifs d’un projet de séquençage génomique, et de débuter la phase d’annotation dès l’étape de finition de la séquence. Ce programme a été utilisé dans le cadre de nombreux projets de séquençage et/ou d’annotation de génomes (Listeria monocytogenes, Photorhabdus luminescens, Streptococcus agalactiae, Candida glabrata), et le logiciel est disponible pour la communauté internationale.
Nous menons une activité de d’annotation et de ré-annotation de génomes d’espèces bactériennes, sélectionnées en fonction de leur intérêt scientifique et des collaborations entretenues avec des laboratoires spécialistes de ces organismes. Ces annotations sont ensuite intégrées à la base de données GenoList correspondant à l’organisme étudié (voir plus bas). Dans le cadre de cette activité, nous avons participé aux bêta-tests de l’environnement de génomique exploratoire Genostar, et plus particulièrement du module GenoAnnot. Plusieurs travaux de ré-annotation ont été menés dont les plus significatifs sont : Bacillus subtilis, Mycobacterium tuberculosis (et apparentées), Helicobacter pylori. Ces trois études ont été publiées et rendues disponibles via GenoList.
Bases de données génomiques (S. Moreira, P. Lechat et al.)
Les bases de données génomiques et les serveurs Web associés de type GenoList allient une présentation conviviale des données, une navigation intuitive et la présence d’outils de recherche et d’analyse complètement intégrés dans l’application et étroitement liés aux données. Un nouveau schéma conceptuel de données permet d’accueillir l’ensemble des génomes bactériens complets et publics avec, en particulier, l’ajout de relations pertinentes entre les différents organismes. L’interface utilisateur intégre de nouveaux outils de comparaison multi-génomes. Les bases de données GenoList actuellement en ligne enregistrent un nombre de connexions variable selon l’organisme considéré. Pour les plus représentatifs d’entre eux, environ 4 000 connexions par jour sont comptabilisées. Ainsi, SubtiList est la base de données de référence sur le génome de B. subtilis.
En collaboration avec la plate-forme « Puces à ADN », nous avons créé un environnement intégré pour l’analyse du transcriptome, GenoScript, permettant la saisie, le stockage, et l’analyse des données de micro- ou macro-arrays. Le modèle de données, conforme aux spécifications MGED, intègre les données sur les paramètres expérimentaux et sur la phase d’analyse. Une interface de soumission a été développée avec un souci constant de rigueur et de convivialité. Un module d’analyse statistique propose des stratégies pour la transformation, la normalisation, et l’analyse différentielle des données, accessibles via une interface spécialisée homogène utilisant des fonctions R issues des librairies Bioconductor.
Méthodes phylogénétiques pour l’analyse comparative des génomes
(C. Dauga, P. Dehoux et al.)
L’acquisition de nouveaux gènes par transfert latéral est un mode d’évolution des génomes bactériens permettant une adaptation rapide à de nouveaux environnements. Nous développons une méthodologie de génomique comparative basée sur des techniques phylogénétiques pour identifier les gènes acquis par transferts. Nous avons montré l’égale capacité de quatre tests phylogénétiques à détecter les transferts entre espèces proches ou éloignées. Nous évaluons à présent cette stratégie sur divers exemples de biais de reconstruction ou de situations phylogénétiques choisis dans la littérature, et sur des séquences obtenues par simulation. Ce processus sera automatisé pour être employé à l’échelle des génomes et intégré à l’application GenoList.
Par ailleurs, nous menons une recherche systématique de protéines d’intérêt chez le vecteur du paludisme Anopheles gambiae, comme des transporteurs semblables à ceux responsables de la résistance à certains insecticides, et nous étudions in silico le sécrétome du moustique. Nous avons également débuté une étude phylogénétique sur les Sérine Protéases de ce génome, une superfamille de gènes impliqués dans la réponse anti-infectieuse.
Enfin, nous développons une nouvelle approche pour la reconstruction de voies métaboliques ab initio, à partir de données génomiques annotées. Il s’agit de déterminer les enchaînements possibles de réactions, puis de combiner et filtrer ces derniers en fonction de critères variés afin de définir des chemins métaboliques réalistes. En faisant abstraction des voies métaboliques génériques définies pour certains organismes seulement, nous pouvons ainsi espérer mettre en évidence de nouvelles voies alternatives. Développée dans le cadre d’un projet européen sur la génomique fonctionnelle de Mycobacterium tuberculosis, l’approche ainsi définie sera généralisée à d’autres bactéries d’intérêt.