Compréhension en profondeur des mécanismes biologiques à un niveau moléculaire, identification des biomarqueurs associés à des maladies, personnalisation des traitements médicaux en fonction des profils génétiques, et découverte de nouvelles cibles thérapeutiques : « l’analyse des données « omiques » (génomique, transcriptomique, protéomique, métabolomiques…) révolutionne la recherche en biologie et en médecine. »Dans le cadre d’un entretien accordé en exclusivité à Health & Tech Intelligence en amont du SophIA Summit (22-24 novembre 2023, Sophia Antipolis) – dont H&TI est partenaire -, Arnaud Droit, professeur au département de médecine moléculaire de la faculté de médecine de l’université Laval (Québec), revient sur l’un de ses projets phares : la plateforme « ADlab » (« Arnaud Droit laboratory »), qui utilise des outils bio-informatiques afin de traiter et de « faire parler » les données « omiques ».Au sein de cette plateforme, son équipe développe « de nouvelles méthodes adaptées au besoin de la recherche, spécifiques à chaque « omique » et permettant également de combiner les différents « omiques » entre eux (analyses multi-omiques) afin d’avoir une vision plus complète des processus biologiques ».Interrogé sur son usage de l’intelligence artificielle (IA) dans le cadre de ses travaux, Arnaud Droit relève que l’IA est devenue « un outil essentiel dans un grand nombre de [ses] projets de recherche ». Il utilise notamment des techniques d’apprentissage machine (machine learning) et d’apprentissage profond (deep learning) pour extraire des informations significatives à partir de très grandes quantités de données « omiques ».
Un centre de recherche en données massives (1,5 pétaoctet)
Arnaud Droit est aussi membre du bureau de direction du Centre de recherche en données massives (CRDM) de l’université Laval, créé en 2016. Il s’agit d’un environnement « de recherche, de création et d’innovation impliqué dans la formation et la mobilisation des connaissances », explique-t-il. Précisant que sa programmation scientifique s’articule autour « du cycle de vie de la donnée, de sa génération à son analyse et à sa valorisation ».Le CRDM traite un grand volume de données (1,5 pétaoctet) issues de projets de recherche et de vastes répertoires de banques de données « omiques » publiques.
Les LLMs pour mieux exploiter la connaissance biologique
De manière plus générale, Arnaud Droit relève que les principaux freins à surmonter dans le champ de la bio-informatique et de la génomique computationnelle – et en particulier dans l’utilisation de l’IA appliquée à ce domaine – sont « le manque de données fiables », « le manque d’interopérabilité entre les différents outils » et « la difficulté d’interprétation des résultats ». Concernant les prochaines grandes avancées qu’il perçoit en la matière, il cite l’avènement des modèles de langage volumineux (Large Language Models : LLMs) en IA, qui ont selon lui le potentiel de « révolutionner » le secteur : « les LLMs sont capables d’apprendre à partir de grandes quantités de texte et de données, et d’en générer de nouveaux, permettant ainsi de mettre en lien la connaissance biologique et de mieux l’exploiter ». 👉 À (re)lire : SophIA Summit 2023 : des IA encore peu généralisables en raison du manque d’accès aux données (entretien avec Olivier Humbert, université Côté d’Azur – 3IA Côte d’Azur).📌 Pour en savoir plus sur l’édition 2023 du SophIA Summit : [Partenariat H&TI] SophIA Summit 2023 : une journée dédiée à l’IA en recherche médicale (22-24/11).