Apprentissage profond pour l’épidémiologie moléculaire
Des chercheurs ont publié dans Nature Communications un article portant sur l’utilisation de l’apprentissage profond (deep learning) pour quantifier la dynamique des flambées épidémiques, à partir de phylogénies de souches pathogènes prélevées dans la population hôte. La difficulté des modèles imposait jusqu’alors des calculs complexes et des données limitées. Ici, un réseau de neurones est utilisé pour apprendre à prédire en quelques secondes les paramètres épidémiologiques, à partir de simulations.
L’épidémiologie moléculaire se base sur la phylogénie de souches de pathogènes (par exemple souches du VIH) prélevées dans la population hôte (par exemple un pays ou un groupe de risque donné). Cette phylogénie est construite par des méthodes maintenant classiques, à partir des séquences génétiques du virus ou de la bactérie étudiés. Chaque feuille de la phylogénie correspond à une souche prélevée chez un patient donné, et chaque nœud de l’arbre correspond à la transmission du pathogène d’un patient à un autre patient. A l’aide des dates de prélèvement des souches, on peut dater l’ensemble des nœuds (ou transmissions) de l’arbre. Ces données d’acquisition facile grâce aux méthodes modernes de séquençage, sont plus riches que les classiques données de prévalence, puisqu’elles nous renseignent sur les transmissions entre patients (Figure 1). Elles sont très utilisées pour étudier la diffusion des épidémies, par exemple d’Ebola ou du SARS-CoV-2, ou encore de la tuberculose. Elles permettent notamment d’étudier la diffusion des épidémies d’une région à l’autre, à quelle vitesse les patients sont échantillonnés et traités, ou si la transmission est plus rapide dans certaines sous-populations. Ces résultats aident à étudier les flambées épidémiques, à comparer l'impact des politiques de santé et à en concevoir de nouvelles. Ces approches ont été très utilisées pendant l’épidémie du SARS-CoV-2, avec de nombreuses phylogénies publiées dans la presse grand public et montrant l’apparition des nouveaux variants à la surface du globe.
Plus récemment s’est développé la « phylodynamique », dont l’objectif est d’intégrer les modèles épidémiologiques classiques, basés sur les données de prévalence, dans un contexte phylogénétique plus riche où l’on dispose d’arbres de transmission. La difficulté de ces approches est d’ordre mathématique. A l’exception des modèles les plus simples, on ne dispose pas d’expressions mathématiques simples pour calculer la vraisemblance des données et estimer les paramètres du modèle. Les auteurs de la publication se sont basés sur une approche radicalement différente, qui repose sur l’utilisation conjointe de simulations et d’apprentissages à l’aide de réseaux de neurones profonds. Ce type d’approche se retrouve dans des domaines bien différents, comme la prévision météorologique par exemple. Le modèle n’est pas disséqué mathématiquement, mais simplement utilisé pour simuler un grand nombre de jeux de données correspondant à différentes valeurs des paramètres. Dans un deuxième temps, une architecture neuronale est employée pour apprendre à partir des données simulées (pour lesquelles on connaît la valeur des paramètres) à prédire les valeurs des paramètres de données réelles. Ces architectures réalisent ainsi une forme d’interpolation non-linéaire entre des situations simulées connues. La phase d’apprentissage est lourde en temps de calcul, car il faut simuler de nombreuses données. Mais la phase de prédiction est extrêmement rapide, ce qui est clef ici car l’objectif majeur est la surveillance épidémique.
La difficulté de cette approche dans le cadre de l’épidémiologie moléculaire est que la donnée est une phylogénie ou un arbre. Or les architectures neuronales usuelles proposent en entrée un vecteur (ou suite) de nombres réels, il fallait donc coder les arbres phylogéniques sous forme de vecteurs, ce codage se prêtantau mieux à l’apprentissage. Ce travail, au coeur de la thèse de Jakub Voznica, a consisté à tester plusieurs codages classiques, sans succès, pour finalement proposer un nouveau codage très performant avec une architecture neuronale convolutive, d’un type proche des architectures qui ont fait le succès de l’apprentissage profond en analyse d’images. Avec ce codage et cette architecture, les résultats sont plus précis que ceux obtenus avec les méthodes Bayésiennes classiques, qui constituent la référence dans le domaine mais qui sont très lourdes en temps calcul (plusieurs jours), même avec des données limitées (quelques centaines de séquences de pathogènes). Avec l’approche publiée et implémentée dans le logiciel « PhyloDeep », il est possible d’analyser en quelques minutes des phylogénies portant sur des milliers de séquences. Ce logiciel a été appliqué avec succès à des données prélevées parmi les MSM (Men having Sex with Men, ou hommes ayant des rapports sexuels avec les hommes) de la ville de Zürich. PhyloDeep a permis de démontrer l’existence d’une sous-population (les super-spreaders), de taille limitée, mais ayant un rôle majeur dans la diffusion de l’épidémie, du fait de la fréquence et du nombre de ses partenaires.
Laboratoire CNRS impliqué
-
Institut de Systématique, Evolution, Biodiversité (ISYEB - CNRS/MNHN/SU/EPHE/UA)
Objectif de Développement durable
- Objectif 3 - Bonne santé et bien-être
Référence
Voznica J, Zhukova A, Boskova V, Saulnier E, Lemoine F, Moslonka-Lefebvre M, Gascuel O. Deep learning from phylogenies to uncover the epidemiological dynamics of outbreaks. Nat Commun. 2022 Jul 6;13(1):3896. doi: 10.1038/s41467-022-31511-0. PMID: 35794110; PMCID: PMC9258765.