L’Intelligence artificielle n’est pas objective !

Aux États-Unis, les entreprises et les établissements de santé sont de plus en plus nombreux à recourir à l’IA pour les ressources humaines ou la gestion des soins. Si les algorithmes d’apprentissage sont encore peu répandus en France, il est indispensable de comprendre leur fonctionnement pour limiter les « biais discriminatoires ». Une réglementation européenne à venir pour renforcer la transparence des outils IA est également indispensable pour Philippe Besse, professeur à l'INSA (Institut national des sciences appliquées), au Département de Génie Mathématique et Modélisation.

L’effet buzz word autour de l’IA a tendance à énerver ce spécialiste de statistique et de modélisation. Contrairement à une idée trop souvent répandue, l’IA n’est pas une solution miracle. Elle ne peut pas résoudre tous les problèmes ni être… objective. Les risques engendrés par le recours à de mauvais algorithmes sont nombreux et peuvent avoir des impacts importants sur la vie des personnes. C’est la raison pour laquelle ce chercheur régulier à l’Observatoire International sur les Impacts Sociétaux de l’IA et du Numérique (OBVIA), Université Laval (Québec), participe à un groupe de travail de la Haute autorité de santé (HAS) sur le protocole du questionnaire qui sera mis en place en France pour l’autorisation de remboursement des dispositifs de santé connectés, comme les pompes à insuline.

Pour cet expert, la qualité de la base de données, leur représentativité et donc des compétences en statistique sont fondamentales. Des critères encore trop peu répandus dans les entreprises, même chez les startups spécialisées dans l’IA…

Techniques de l’Ingénieur : Selon un article du New England Journal of medicine décrypté par The New York Times, la race de patients est incorporée à leur insu dans de nombreux outils et algorithmes IA de prise de décision médicale pour déterminer quel traitement appliquer. Et certains patients noirs ne bénéficient pas des mêmes traitements que les malades blancs. Que vous inspire cet article ?

Philippe Besse : Mon souci est que ces références décrivent systématiquement des cas aux États-Unis où l’origine ethnique fait partie des données. La culture et la réglementation ne sont pas les mêmes en France où l’origine ethnique ne peut légalement être utilisée dans un modèle. Par ailleurs, nous faisons (pour l’instant) moins appel à des algorithmes pour ce type d’aide à la décision. La situation aux États-Unis ne va donc pas nécessairement être transposée dans l’hexagone. Outre-Atlantique, des hôpitaux s’appuient sur un algorithme pour gérer la répartition des patients. En France, les urgences sont encore gérées par des régulateurs du SAMU. Par ailleurs, il est souvent abusif de parler d’intelligence artificielle. Dans l’article cité, il s’agit plutôt de modèles anciens et classiques de statistique (régression logistique).

L’Intelligence artificielle envahit nos quotidiens et le domaine de la santé notamment pour aider au diagnostic. Mais il y a des risques de « biais discriminatoires ».

Aux États-Unis, des algorithmes d’apprentissage sont développés pour de très nombreux usages avec des risques évidents de biais discriminatoires comme c’est régulièrement relevé dans les rapports de ainow. Ces biais sont connus depuis longtemps, mais ils ne sont mis en exergue que depuis quelques années. Il y a de nombreuses façons de biaiser un algorithme, mais les précautions élémentaires ne sont pas prises. Elles sont moins d’ordre informatique ou algorithmique, que statistique. Disposer d’un échantillon représentatif d’une population que l’on veut adresser par un dispositif est très compliqué. Or beaucoup d’entreprises se sont jetées tête baissée dans l’IA sans prendre en compte ces précautions. Soigner une base d’apprentissage est fondamental pour la qualité des décisions d’une IA qui en découle.

Quels sont justement les principaux risques liés à ces biais discriminatoires ?

Il y a, premièrement, la reproduction de décisions humaines discriminatoires. Lorsqu’on s’appuie sans précaution sur des bases de données biaisées, on reproduit ces biais. C’est le cas notamment pour l’embauche des femmes avec un salaire moindre. Le second risque est la sous-représentation de groupes dans une base d’apprentissage. C’est ce qui se passe avec la reconnaissance faciale pour les femmes d’origine africaine et qui peut se produire dans les applications en santé.

Renforcer la réglementation concernant les usages de l’IA permettrait-il de réduire ces risques ?

L’IA est déjà soumise à la législation européenne sur les droits fondamentaux. Il est donc essentiel de commencer par respecter les obligations du RGPD à propos de la confidentialité des données. Mais il faut aller plus loin. C’est l’objectif de la Commission européenne qui a publié le 19 février 2020 son livre blanc (voir encadré) sur la régulation de l’Intelligence artificielle. Une nouvelle réglementation, complémentaire au RGPD, devrait encadrer les usages afin de traquer les biais discriminatoires.

Concernant les discriminations, vous estimez que les risques principaux concernent l’embauche ?

Oui, car il y a de plus en plus de logiciels IA censés analyser les CV et des vidéos de façon automatique afin de faire des présélections avant les entretiens avec des RH. C’est une pratique très développée aux États-Unis, mais les discours de certains éditeurs sont inquiétants. En France, un cabinet de recrutement affirme que les algorithmes ne sont pas discriminatoires parce qu’ils ne s’intéressent pas à la couleur de peau et au sexe des candidats. C’est vrai… sauf que la couleur de la peau et le sexe sont présents dans les autres informations (notion de proxy) et à partir du moment où un algorithme s’appuie sur une base de données discriminatoire, il va reproduire cette discrimination. C’est ce qui s’est passé avec Amazon aux États-Unis. Le logiciel d’IA utilisé pour des présélections ne recrutait pas de femmes sur les postes techniques.

D’autres entreprises proposent de faire des analyses des cursus des salariés afin de faire des recommandations automatiques de postes comme le font certains sites de e-commerce pour nous recommander tel ou tel produit. Ces solutions reposent sur le traitement automatique du langage (Naturaling langage processing). Or, ces techniques de vectorisation des mots sont construites sur des corpus de textes biaisés qui vont donc, là aussi, reproduire des biais : une femme avec des compétences médicales est infirmière, un homme médecin.

Propos recueillis par Philippe Richard

Pour une IA de confiance

Dans son livre blanc, la Commission européenne envisage un cadre pour une intelligence artificielle s’appuyant sur l’excellence et la confiance.

Dans les domaines « haut risque », comme la santé, la police ou les transports, les systèmes d’IA devraient être transparents, traçables et garantir un contrôle humain. Les autorités devraient être en mesure de tester et de certifier les données utilisées par les algorithmes, tout comme elles procèdent à des vérifications sur les cosmétiques, les voitures ou les jouets. « Au-delà des questions prioritaires de protection des données au cœur des missions de la CNIL, ce livre blanc soulève avec insistance d’autres questions relatives aux risques des impacts des algorithmes d’apprentissage automatique sur notre société : qualité, reproductibilité de décisions algorithmiques, opacité des algorithmes et explicabilité des décisions, biais et risques de discrimination », indique Philippe Besse.