L’intelligence artificielle booste les recherches en toxicité

Des chercheurs de l’Inserm viennent de présenter un outil informatique permettant d’identifier des effets toxiques de substances chimiques à partir d’études déjà publiées. S’appuyant sur des méthodes d’intelligence artificielle, il vient illustrer les avancées que l’IA a permises dans ce domaine ces dernières années.

L’outil développé par l’unité « Toxicité Environnementale, Cibles Thérapeutiques, Signalisation Cellulaire et Biomarqueurs » de l’Inserm dirigé par Karine Audouze a fait l’objet d’une description complète dans Environmental Health Perspectives . Testé avec le bisphénol S, cet outil baptisé AOP-helpFinder réalise un scan d’articles scientifiques (lecture automatisée intelligente) à partir de termes clés recouvrant des données biologiques et chimiques. Ces données ont été extraites de la base AOP-wiki, une base qui comporte « des descriptions précises de toutes les étapes biologiques (molécules, voies de signalisation) menant d’une perturbation moléculaire à un effet pathologique comme l’obésité, la stéatose, le cancer, etc. Elle s’enrichit régulièrement avec de nouveaux processus de toxicité » précise Karine Audouze dans le communiqué de presse de l’Inserm. L’objectif de l’outil est de mettre en relation une substance et des processus pathologiques. Pour améliorer les performances de l’outil, de nombreux paramètres enrichissent la recherche de l’intelligence artificielle : quantification des mots repérés, place des mots dans l’article (résumé, hypothèse, conclusion etc.), éloignement des mots entre eux etc.

Un gain de temps, pas un remplacement

L’analyse a révélé une corrélation entre le bisphénol S et le risque d’obésité. Le résultat a ensuite été vérifié manuellement par les auteurs. Pour enrichir les capacités d’analyse de leur outil, les chercheurs ont aussi intégré les données biologiques de la base américaine ToxCast qui référence les effets d’agents chimiques et physique sur différents types cellulaires. Cet ajout a permis de préciser que le bisphénol S favoriserait la formation d’adipocytes (cellules stockant les graisses), entraînant par là un risque augmenté d’obésité. Si cet outil ne peut remplacer de manière formelle les études biologiques et épidémiologique poussées, il permet de cibler rapidement les effets néfastes probables à étudier. L’outil est en outre en libre d’accès sur la plateforme GitHub afin qu’il s’améliore au fur et à mesure de ses utilisations. Il a déjà été testé sur d’autres molécules par les chercheurs de l’Inserm qui travaillent désormais à une version 2.

Diminuer les expérimentations animales

Ce type de recherches entrent dans la grande classe des prédictions mathématiques de la nocivité ou de l’activité en général des substances chimiques. En matière de toxicité, ces méthodes se sont fortement développées avec l’arrivée du règlement Reach. Eviter les expérimentations animales inutiles pour la classification et l’enregistrement des substances constitue encore un de leurs principaux objectifs. Les modèles les plus simples se fondent sur des relations structure-activité et des relations quantitative structure activité (QSAR). Il s’agit d’outils logiciels s’appuyant sur des bases de données qui permettent de prédire certaines propriétés physico-chimiques, biologiques ou environnementales de composés chimiques par rapport aux connaissances déjà acquises sur des structures similaires dans d’autres composés. Avec la gestion du Big Data et les méthodes de machines learning qui se sont développées ces dernières années, on voit désormais apparaître des outils et méthodes dites RASAR (Regroupement de substances et références croisées). L’agence européenne des produits chimiques (ECHA) a d’ailleurs, en 2018, créé un cadre d’évaluation des références croisées (RAAF) pour structurer l’évaluation scientifiques des différentes méthodes utilisées. L’utilisation du regroupement de substances et des références croisées figure parmi les approches alternatives les plus couramment employées pour compléter des données manquantes en vue des enregistrements présentés au titre de Reach. Plus les données de base sont nombreuses et plus la pertinence des références croisées est forte, aussi des chercheurs de la John Hopkins University ont testé des outils tout d’abord sur des dossiers en langage naturel et plus récemment via des outils de lecture automatique intelligente. Ils ont pu tester des milliers de substances à partir de centaines de milliers de données issues de différentes bases de données de produits chimiques. Selon la méthode appliquée, ils ont ainsi pu obtenir des résultats pertinents entre 80 et 95 % pour neuf risques pour la santé.