Extraire les longues séquences dupliquées des génomes: ASGART, un outil simple, flexible, rapide, et open-source

Résultats scientifiques Interaction Homme-Milieux

Les variations de structures entre génomes sont générées par des échanges de matériel génétique entre longues séquences dupliquées. Elles sont largement sous-estimées, alors qu'elles affectent des gènes impliqués dans des fonctions fondamentales pour l’évolution de notre espèce, telles que la fertilité, la cognition, ou les sens (olfaction, audition, etc.). ASGART est un nouvel algorithme qui permet d’extraire, d’analyser et de visualiser ces duplications pour des génomes complets. Comparé aux outils existants, il est économe tant en utilisation CPU (Central Processing Unit) qu’en mémoire, ouvrant la voie à des études de génomique comparative ambitieuses et plus ‘vertes’. Cette étude comparative menée par des chercheur.e.s du laboratoire Anthropologie moléculaire et imagerie de synthèse (AMIS –  CNRS/Université Toulouse III – Paul Sabatier) et de l’Institut de recherche en informatique de Toulouse (IRIT – CNRS/Toulouse INP/Université Toulouse Capitole/Université Toulouse Jean Jaurès/Université Toulouse III – Paul Sabatier) a été publiée dans la revue Bioinformatics.

Les duplications segmentaires, longues séquences dupliquées, représentent une source majeure de variabilité structurale, de fluidité et de plasticité pour les génomes. Les échanges de matériel génétique qui surviennent entre ces séquences dupliquées aux forts taux d’homologie (>1kb, >90%), sont responsables de la majorité des gènes perdus ou gagnés au cours de l’histoire évolutive humaine ; parmi eux se trouvent, entre autres, les gènes impliqués dans la cognition, la fertilité masculine, les fonctions sensorielles ou le syndrome autistique. Malgré une dynamique exceptionnelle et un fort potentiel adaptatif, l’étude des duplications segmentaires reste difficile de par leur nature intrinsèque : la longueur des fragments et leur fort pourcentage d’homologie empêchant le séquençage simple de ces régions. Ces dernières années, le séquençage de génomes complets s’est essentiellement focalisé sur le développement de techniques favorisant les courts-fragments (50 et 150bp), limitant fortement l’accès aux régions complexes, longues et répétées, que sont les duplications segmentaires. Mais depuis 2012, l’évolution du séquençage basé sur de long-fragments (10 à 15 000 bases) ouvre de nouvelles perspectives. Alors que leur séquençage devrait encore se simplifier dans un futur proche, le seul obstacle à l’étude comparative de ces séquences devrait résider dans la disponibilité d’outils d’analyse in silico puissants pour analyser ces nouvelles données.

Image retirée.
(a) Diagramme présentant le contenu en duplications segmentaires du génome humain:  à l’intérieur du cercle, les duplications inter-chromosomiques, et à l’extérieur les duplications intra-chromosomiques; (b) Représentation linéaire des duplications segmentaires intra-chromosomiques pour le chromosome Y uniquement: partie haute de la figure b, sont représentés en vert les répétitions palindromiques, et en orange les répétitions directes trouvées par ASGART, et en partie base l’ensemble de ces duplications segmentaires confondues sur un seul graphique. Les palindromes identifiés par Skaletsky et al. sont notés P3 à P8 sur la figure. 
Crédits : Delehelle et al.

C’est dans cette optique que le programme ASGART “A Segmental duplications Gathering And Refining Tool” a été développé ; il permet d’extraire et d’analyser les duplications segmentaires de n’importe quel génome assemblé. ASGART réalise un partitionnement des zones identiques des brins d’ADN considérés, pour ensuite reconstruire des séquences dupliquées, hautement similaires mais non identiques ; les contraintes sur ce processus étant paramétrables par l’utilisateur. Une étude comparative a été réalisée afin de confronter les performances d’ASGART à celles des outils existants tels que YASS, MUMMER ou LAST : les génomes de cinq organismes modèles (homme, drosophile, souris, poisson zèbre, arabette de Thalius) ont été comparés et les performances évaluées. ASGART se montre supérieur aux outils existants tant en consommation CPU qu’en mémoire. Ces résultats combinés à la montée des performances quasi-linéaires en terme de parallélisation ou de distribution, ouvre la voie à des études de génomiques comparatives ambitieuses mais également plus ‘vertes’, économes en temps et en matériel. Par son excellente capacité à extraire les duplications segmentaires, quel que soient la taille du génome et sa complexité, ASGART devient un outil phare pour l’étude des duplications segmentaires http://asgart.irit.fr.

 

Références :

Delehelle Franklin, Cussat-Blanc Sylvain, Alliot Jean-Marc, Luga Hervé and Balaresque Patricia (2018). ASGART: fast and parallel genome scale segmental duplications mapping. Bioinformatics, 1-7. DOI: 10.1093/bioinformatics/bty172.

Contact chercheur

Patricia BALARESQUE
Anthropologie moléculaire et imagerie de synthèse - AMIS (CNRS, Université Toulouse III - Paul Sabatier)
patricia.balaresque@univ-tlse3.fr

Contacts communication

Morgane GIBERT
Anthropologie moléculaire et imagerie de synthèse - AMIS (CNRS, Université Toulouse III - Paul Sabatier)
morgane.gibert@univ-tlse3.fr

 

Véronique DEBATS
Institut de recherche en informatique de Toulouse - IRIT (CNRS, Toulouse INP, Université Toulouse Capitole, Université Toulouse Jean-Jaurès, Université Toulouse III Paul Sabatier)
veronique.debats@irit.fr