Partie 1: L’équité en intelligence artificielle
L’intelligence artificielle apporte son lot de bénéfices dans bien des domaines, que ce soit en vision par ordinateur, en traitement du langage naturel, en production industrielle ou encore en médecine. Toutefois, ces bénéfices ne viennent pas sans leur dose de risques. En effet, il est parfois complexe d’éviter tous les biais dans les données, qui est l’élément central à tout modèle d’apprentissage machine. Ces biais peuvent provenir de plusieurs sources : un débalancement des variables ou des observations, des biais humains introduits dans la collecte et l’étiquetage des données, ou simplement un manque de données. Ceux-ci peuvent ensuite aussi bien être atténués que renforcés par les modèles.
La présence de biais, si ignorée, peut devenir problématique, particulièrement si ceux-ci affectent des données sensibles telles que le genre, l’origine ethnique, l’âge ou la religion. C’est alors que le concept d’équité en IA (appelée AI fairness en anglais) devient essentiel dans plusieurs domaines. Effectivement, l’équité consiste à minimiser les biais envers les groupes concernés pour prévenir toute forme de discrimination. Une chose importante à mentionner, cette discrimination n’est pas nécessairement volontaire. Elle est bien souvent due à de l’inattention voire de la négligence tout au long du processus de création de modèles d’apprentissages machine, allant de la collecte des données à la modélisation. C’est pourquoi il est nécessaire d’être bien sensibilisé quant à ces risques, que l’on soit un ingénieur de données, un scientifique de données ou bien un gestionnaire.
Pour bien comprendre l’importance de l’équité, il suffit d’examiner avec des exemples réels l’effet que peuvent apporter ces biais.
Cas #1 : L’évaluation des risques
Le premier cas s’est déroulé dans le domaine bancaire, plus précisément au niveau des prêts. Des modèles d’évaluation des risques ont été développés pour prédire les clients à qui autoriser une hypothèque serait rentable. Toutefois, des inquiétudes ont été soulevées quant à ces évaluations et leur impact sur les minorités. En effet, les modèles se trouvent souvent à discriminer selon l’ethnie ou le genre et ce, malgré le fait que les prêteurs affirment tenir compte de ces facteurs. Ainsi, en prenant deux couples semblables en termes de revenus et de cotes de crédit, un issu d’une minorité visible et l’autre non, le premier présente un risque plus élevé d’être injustement pénalisé.
Cette situation provient en partie des données elles-mêmes qui peuvent s’avérer biaisées, mais également en raison du choix du modèle utilisé. Effectivement, si la métrique principale lors de la modélisation est simplement d’avoir le résultat le plus exact, le modèle sélectionné sera probablement celui qui aura une plus grande performance sur la majorité, au risque de pénaliser la minorité. La solution serait alors d’ajouter une seconde métrique qui pénaliserait plus le biais de la prédiction envers les groupes cibles comme l’origine ethnique ou le genre serait élevé. Le choix de modèle final serait alors celui qui représenterait le meilleur compromis entre l’exactitude et cette nouvelle métrique.
Cas #2 : La reconnaissance faciale
Pour le deuxième cas, on entre dans le domaine de la vision par ordinateur, plus spécifiquement dans la reconnaissance faciale. Bien des modèles ont présenté des difficultés à reconnaitre les expressions faciales de minorités visibles ou même simplement à les identifier correctement. En 2010, les caméras Nikon ont été critiquées pour leurs algorithmes de reconnaissance d’images qui demandaient constamment aux utilisateurs asiatiques s’ils clignaient des yeux . En 2015, Google a dû présenter des excuses lorsque des images de personnes noires ont été incorrectement identifiées comme étant des gorilles. La « solution » » initiale avancée par Google a donc été d’empêcher les algorithmes d’identifier les gorilles!
La source de ce problème provient des données d’entrainement des modèles. Ainsi, ces données contiennent souvent un nombre d’images de minorités visibles plus limité, ce qui amène à un débalancement selon l’appartenance ethnique. Par exemple, en prenant un jeu de données d’images ayant des proportions similaires à la population américaines, 59 % de ces images seraient des personnes blanches, mais seulement 6 % seraient asiatiques. Les modèles sont alors bien entrainés pour identifier correctement les premiers, mais se trouvent à être inadéquats pour les seconds. Pour corriger le problème, il faut alors augmenter la taille de l’échantillon des groupes cibles dans les données, mais il s’agit souvent d’une tâche considérable. Des solutions alternatives, moins efficaces mais bien plus abordables, sont également envisageables comme l’augmentation des données qui consiste à dupliquer les images en apportant des transformations aux copies comme des rotations, des manipulations de couleurs, du découpage, etc. Un jeu de données mieux balancé serait alors moins à risque d’amener à un modèle discriminatoire.
Cas #3 : Outils de recrutement
Dans le dernier cas, on se déplace dans le domaine du traitement du langage naturel ou NLP (de l’anglais pour Natural Language Processing). Plus spécifiquement, il s’agit d’un système d’Amazon qui déterminait automatiquement, à partir des CV, les candidats à engager. Toutefois, en 2015, il dut être désactivé en raison de la discrimination dont il faisait preuve envers les femmes. Toute mention du mot « femme » était pénalisé par le modèle tout comme les candidates provenant de collèges exclusivement féminins. Amazon a tenté de corriger le problème en ajustant les algorithmes de sorte à rendre ces termes neutres pour ceux-ci, mais le projet a été abandonné en 2017.
Encore une fois, la cause du problème se situe dans les données. Effectivement, le jeu de données utilisé pour l’entrainement comprenait les CV reçus au cours des 10 années précédentes par la compagnie, en majorité envoyés par des hommes. Le modèle a alors associé différents termes peu ou non présents dans les CV acceptés dans le passé comme étant négatifs. Les fausses associations sont d’ailleurs un problème fréquent dans le domaine du NLP. Idéalement, la solution serait de nouveau d’augmenter la taille des données, plus spécifiquement en y ajoutant davantage de CV de femmes. Une autre option serait une meilleure préparation des données et de l’étiquetage. Ce n’est toutefois pas toujours une tâche facile, surtout quand même une entreprise aussi grande qu’Amazon a préféré abandonner le tout. Comme quoi, les projets ne sont pas tous réalistes. Cependant, cet exemple illustre bien les défis que peut présenter le NLP.
Finalement, l’équité en intelligence artificielle est une idée qui ne peut être négligée dans bien des domaines. Pour les groupes cibles, il s’agit de respect et d’égalité; personne ne veut être discriminé injustement par une IA mal guidée. Pour les compagnies, on parle d’une question d’image et parfois même d’éviter des problèmes légaux causés par des discriminations engendrées par une IA. Même si cette discrimination peut être involontaire, elle n’évite pas aux entreprises des poursuites potentielles si elle est ignorée. Du côté des scientifiques de données, au-delà de la situation éthique, il s’agit également de préserver la qualité des modèles. En effet, la présence de biais, que ce soit sur des groupes sensibles ou non, vient affecter cette qualité même si la performance semble adéquate selon les métriques habituelles comme l’exactitude ou l’erreur moyenne. En bref, l’IA apporte bien des avantages, mais il faut tout de même rester vigilant face à ses risques.