Racistes, sexistes, classistes : comment les biais algorithmiques creusent les inégalités ?

Souvent considérés comme neutres et impartiaux, les algorithmes reproduisent en réalité les inégalités de notre société, voire les aggravent. Mathilde Saliou, autrice de Technoféminisme : Comment le numérique aggrave les inégalités, invite à une réflexion poussée sur notre manière de créer des algorithmes. Entretien.

L’algorithme de recrutement d’Amazon qui privilégie les CV d’hommes ; l’assistant virtuel Siri qui indique où trouver du Viagra mais pas les centres d’avortement ; des hommes noirs accusés à tort par les algorithmes de reconnaissance faciale de la police américaine… Tous ces exemples sont les conséquences de biais algorithmiques. Un algorithme est biaisé lorsque ses résultats ne sont pas neutres, équitables, voire sont discriminants.

Dans son livre Technoféminisme : Comment le numérique aggrave les inégalités, publié en février 2023 aux éditions Grasset, la journaliste Mathilde Saliou démontre -entre autres- que les algorithmes ne sont pas neutres, et dépendent de qui les crée, comment, dans quel but et via quels financements. Spécialisée dans les questions numériques et d’égalité depuis 10 ans, elle a réalisé cette enquête auprès de multiples intervenants du secteur afin de soulever de nouveaux questionnements sur l’IA et potentiellement trouver de nouvelles pistes de solutions. Pour Techniques de l’Ingénieur, elle revient sur les résultats de son enquête.

Techniques de l’Ingénieur : Comment apparaissent les biais algorithmiques ?

Mathilde Saliou, journaliste spécialisée dans les questions numériques / Crédit : JF PAGA

Mathilde Saliou : Lorsque nous entraînons un algorithme, nous lui donnons un jeu de données. Or ces données peuvent être biaisées d’un point de vue statistique si un type de données est surreprésenté par rapport à un autre. Par exemple, si nous demandons à un algorithme de reconnaître des chiens et des chats, et qu’il y avait davantage de photos de chiens dans le jeu d’entrainement, l’algorithme reconnaîtra bien plus facilement les chiens que les chats. Ce qui pourrait être anodin ne l’est plus quand les algorithmes sont utilisés dans la société, avec des données sociales.

Le problème est que notre société est encore inégalitaire aujourd’hui, et ces inégalités se reproduisent dans nos algorithmes. Si la machine fonctionne mal, et reconnaît par exemple mieux les hommes blancs que les femmes noires, ces dernières subiront des inégalités liées à ces erreurs. Or quand il s’agit d’IA, nous avons tendance à penser que les résultats sont neutres et forcément corrects, donc nous questionnons peu les résultats.

Dans votre livre, vous citez de nombreux exemples d’inégalités causées par les algorithmes. Pouvez-vous nous donner quelques exemples concrets ?

Dans son étude Gender Shades publiée en 2018, Joy Buolamwini, chercheuse au MIT, a analysé l’efficacité des algorithmes de reconnaissance faciale des trois modèles les plus utilisés sur le marché à l’époque : IBM, Microsoft et Face++. Elle a constaté que les algorithmes reconnaissaient mieux les hommes que les femmes, et mieux les personnes blanches que noires. Ainsi, face à une femme noire, l’algorithme avait de grandes chances de se tromper. Le problème est que ces technologies dysfonctionnelles étaient déjà utilisées dans certains pays et servaient à traiter le flux vidéo des caméras de surveillance utilisées par les postes de polices. Aux Etats-Unis, j’ai connaissance d’au moins 6 cas de personnes noires qui ont été arrêtées à cause d’un résultat algorithmique erroné.

Autre exemple, en 2021, le gouvernement néerlandais a démissionné après un gros scandale administratif dans lequel des milliers de familles ont été accusées à tort de fraude aux allocations familiales. Le gouvernement avait déployé un algorithme de catégorisation du risque de fraude qui utilisait des données sensibles en termes de RGPD comme l’âge, le genre, les capacités linguistiques donc, par extension, les origines sociales et ethniques. Ainsi les femmes, les jeunes ou les personnes qui parlaient mal néerlandais se retrouvaient davantage suspectés de fraude et subissaient de nombreux contrôles, parfois plusieurs fois de suite dans l’année. Les aides pouvaient être suspendues durant ces contrôles, ce qui mettait les gens dans des situations très complexes. Ce type d’affaires a aussi eu lieu en Australie et dans différents Etats des Etats-Unis.

Enfin, un exemple plus récent et en France, La Fondation des Femmes, l’association Femmes Ingénieures et l’ONG Global Witness ont attaqué META en justice en juin 2023 pour discrimination sexiste de ses algorithmes. Elles ont constaté que les annonces d’emploi diffusées sur le réseau ciblaient les populations de manière stéréotypée. Ainsi, les offres pour des postes de pilotes n’étaient montrées quasiment qu’à des hommes, et celles d’auxiliaires de puériculture, quasiment qu’à des femmes. Ce mécanisme met les femmes face à des postes moins bien rémunérés, et participe à perpétuer les inégalités de salaire dans la société.

Quelles sont les causes de ces biais ?

Une des premières causes vient des données. Parfois, les jeux de données pour entraîner les algorithmes ont été mal construits, et utilisent par exemple des données d’il y a 40 ans alors que notre société a beaucoup évolué depuis. Parfois, ces jeux de données ont été bien construits mais reproduisent les inégalités présentes dans la société.

Une autre cause vient des personnes qui créent les algorithmes. Dans l’industrie numérique, 3 personnes sur 4 sont des hommes, et les femmes travaillent souvent à des postes de support type RH, juridique ou communication. Ainsi, en Europe, seulement 16% de femmes participent à la construction des outils numériques. Or ces hommes, souvent blancs et aisés, vont construire des outils selon leur point de vue et cette vision sera très homogène dans l’équipe, ce qui induit des oublis, des angles morts, des biais.

Enfin, cela dépend de quelle entité construit l’outil et pourquoi. S’il s’agit d’une entreprise privée, son but sera majoritairement de gagner de l’argent. Ainsi, l’algorithme de hiérarchisation de l’information chez Facebook, dont le modèle économique repose sur la publicité, ne sera pas construit de la même manière que le serait une entité comme Wikipédia qui promeut un modèle basé sur le libre accès à la connaissance. Nous savons notamment que les algorithmes des réseaux sociaux ont tendance à pousser les contenus violents plutôt que les contenus pertinents car ce type de contenus crée plus d’engagement. Et c’est ce dont ils ont besoin pour montrer plus de publicités, et ainsi gagner plus d’argent.

Est-ce que davantage de diversité dans le monde du numérique permettrait d’avoir des algorithmes plus justes ?

Le manque de diversité, volontaire ou non, empêche une conscience de la diversité des expériences de vie. C’est un problème que je pointe dans le numérique mais qui est récurrent partout dans la société. Cependant, la tech se présente souvent comme neutre, impartiale, et dit qu’elle produit des outils universels, pensés pour tout le monde. Mais ces hommes blancs qui la créent ne connaissent pas la vie des femmes, des personnes d’autres milieux sociaux etc. En pensant créer des outils universels, ils reproduisent en fait leur point de vue et peuvent créer des outils dysfonctionnels voire carrément discriminants. Ainsi, favoriser la diversité dans le milieu de la tech permettrait de multiplier les points de vue, dès la conception des outils.

En quoi les pratiques d’utilisation de données pour entraîner les algorithmes peuvent être problématiques ?

Toutes les pratiques ne sont pas problématiques mais je peux citer deux exemples qui interrogent. Depuis le lancement de ChatGPT et Midjourney, de nombreux artistes ont porté plainte pour violation du droit d’auteur. En effet, les algorithmes utilisés captent toutes les données qu’ils trouvent en ligne, sans aucun cadre, et ont pu s’entraîner sur des milliers d’œuvres d’art, sans le consentement de leurs auteurs. Autre affaire aux Etats-Unis, plusieurs universités américaines qui travaillaient sur la reconnaissance faciale ont utilisé le flux vidéo des caméras de surveillance du campus, sans le consentement de qui que ce soit.

Ces exemples posent de nombreuses questions éthiques, par exemple : les entreprises ont-elles le droit de se servir de toutes les données que les internautes mettent en ligne ? Elles sont tentées de le faire, car en l’état, les meilleures modèles algorithmiques ont besoin d’un nombre très élevé de données pour fonctionner correctement. En parallèle, beaucoup de personnes travaillent sur des alternatives plus éthiques, avec la création de jeux de données open source ou la mise en place de modèles qui requièrent moins de données pour des résultats équivalents.

Comment faire pour créer des algorithmes moins, voire pas, biaisés ?

Outre la nécessité d’une plus grande diversité dans le milieu du numérique, il faudrait aussi que les professionnels du secteur soient formés en sciences sociales, afin de mieux connaître les mécanismes de reproduction des inégalités. Du côté des utilisateurs, il est nécessaire de diffuser plus largement la culture numérique, pour permettre à tous de mieux manipuler les outils et de développer un esprit critique, sans penser que le résultat d’une machine est forcément meilleur que le jugement humain l’aurait été.

Enfin, nous pourrions agir d’un point de vue politique et mettre plus de cadres aux constructeurs d’algorithmes. A l’échelle européenne, le Digital Services Act passé récemment est un début de réflexion sur le sujet.

L’IA n’est pas encore assez encadrée selon vous ?

Certaines problématiques comme la protection de la vie privée existent depuis longtemps, ce qui a donné lieu en Europe au RGPD et qui met déjà quelques limites. Mais maintenant, il faut s’assurer que les lois soient appliquées, ce qui demande une véritable volonté politique et donc de l’argent injecté dans la vérification de conformité.

Plein de lois et de directives existent et composent déjà un premier socle, mais elles n’ont pas vraiment été pensées pour l’IA car son utilisation est trop récente. Il existe aussi beaucoup de chartes, de directives, mais elles sont non contraignantes donc pas nécessairement efficaces. J’attends aussi de voir ce que donnera le règlement sur l’intelligence artificielle (AI Act), sur lequel travaillent les législateurs européens.

Vous parlez dans votre livre de toute une réflexion et une concertation qui n’a pas eu lieu dans la société. Devrions-nous avoir davantage notre mot à dire sur l’utilisation de l’IA ?

La technologie est un enjeu de pouvoir. Ceux qui la construisent et la financent font ce qu’ils veulent et peuvent modeler à leur guise la manière dont les utilisateurs évoluent dans leur création numérique. Il s’agit aujourd’hui de se demander si ce pouvoir sert l’intérêt commun, ou si les technologies ne font qu’accaparer le pouvoir, les fonds et les opportunités aux mains de quelques-uns.

En parallèle, de nombreuses questions se posent. Souhaitons-nous réellement que les algorithmes régissent tous les pans de nos vies ? Devons-nous créer des outils universels ou ne vaudrait-il pas mieux chercher une meilleure efficacité en fabriquant des outils spécialisés ? Toutes ces questions sont très politiques et nous concernent tous à l’échelle de la société.

Propos recueillis par Alexandra Vépierre

Réagissez à cet article

Commentaire sans connexion

Pour déposer un commentaire en mode invité (sans créer de compte ou sans vous connecter), c’est ici.

Connectez-vous

Vous avez déjà un compte ? Connectez-vous et retrouvez plus tard tous vos commentaires dans votre espace personnel.

Inscrivez-vous !

Vous n'avez pas encore de compte ?

CRÉER UN COMPTE