Quand l’intelligence artificielle vient au secours de la découverte scientifique

Le savoir scientifique est en grande majorité publié sous forme de texte dont le contenu est incroyablement difficile à analyser par des méthodes statistiques. Une équipe de scientifiques américains a utilisé un algorithme de text-mining capable de faire des découvertes scientifiques en analysant des millions de publications.

Selon Gerbrand Ceder, du Berkeley Lab’s Energy Storage & Distributed Resources Division, l’utilisation de méthodes de text-mining permettrait “d’approfondir les connaissances scientifiques fondamentales” en exploitant simplement l’existant. En effet, alors que des dizaines de publications paraissent chaque semaine pour un thème de recherche donné, certains domaines d’étude ont près de 100 ans de publication derrière eux. Il n’est donc pas étonnant qu’aucun scientifique ne soit capable d’avoir une vue d’ensemble de son domaine, aussi intelligent soit-il. Par conséquent, qu’il soit possible, grâce au Machine Learning, d’exploiter ce savoir collectif sans aucune intervention de chercheurs humains apparaît comme une petite révolution.

L’application du text-mining à la thermoélectricité

Afin de démontrer l’intérêt du text-mining pour la recherche fondamentale, l’équipe de chercheurs de Berkeley a choisi d’analyser le domaine particulièrement ancien de la thermoélectricité. Plus de 3 millions : c’est le nombre d’abstracts analysés par l’algorithme mat2vec, dont le code est en plus disponible librement et basé sur Word2vec. Dans le monde de l’intelligence artificielle, Word2vec est connu comme un réseau de neurones artificiels à deux couches entraînés pour reconstruire le contexte linguistique des mots. Ainsi, en analysant les relations entre les mots, cet algorithme a été capable de détecter les abstracts associant le concept de thermoélectricité à certains matériaux.

Une IA intégrant des concepts scientifiques fondamentaux

Mais il y a plus étonnant encore. L’équipe dirigée par Anubhav Jain a découvert que l’algorithme était capable de reconnaitre les structures cristallographiques, les relations entre les éléments de la classification périodique et même de comprendre certaines équations, simplement en analysant les positions des mots dans les abstracts et leur co-occurrence avec les autres mots.

La preuve par l’analyse du passé

Pour vérifier la capacité de l’algorithme à faire des prédictions, l’équipe de chercheurs a ensuite limité le champ de recherche aux papiers publiés entre 1922 et l’année 2000. Ils ont ainsi constaté que les matériaux annoncés comme thermoélectriques potentiels ont été découverts par la suite avant 2008, dans trois prédictions sur cinq. Par conséquent, si cet algorithme avait été utilisé par le passé, il aurait permis de découvrir des matériaux thermoélectriques récents, plusieurs années en avance.

Quelques prédictions en science des matériaux

Les résultats de leurs travaux, publiés dans le n° 571 du journal Nature, présentent un intérêt certain pour les chercheurs du monde entier : en indiquant le Top 50 des prédictions de matériaux thermoélectriques, ils pourraient influencer les travaux de recherche future. Ainsi, Li2CuSb, Cu3Nb2O8 et CsAgGa2Se4 sont annoncés comme les prochaines découvertes dans ce domaine.23