Les défis de l'IA générative - SYNTELL

L’intelligence artificielle et l’éthique. Partie 2 : Les défis de l’IA générative

Par Francis Tremblay, 28 mars 2024

Au cours des dernières années, l’intelligence artificielle a rapidement évolué avec notamment le développement de l’IA dite générative. ChatGPT, LLaMa, Bard, DALL-E, Midjourney et de nombreux autres occupent désormais une part importante de l’actualité. En effet, cette nouvelle technologie, avec sa capacité à produire des données, que ce soient des textes, des images ou des sons, pourrait bouleverser bien des domaines. Toutefois, ces bouleversements apportent aussi de nouveaux défis d’ordre éthique, aussi bien sur la collecte des données que sur les résultats générés par l’utilisation de la technologie. Il est donc essentiel d’être bien informé par rapport à tous ses risques; non seulement si on est scientifique de données ou gestionnaires, mais également pour les utilisateurs pouvant interagir avec l’IA générative.
Entrainement des modèles
            Les données d’entrainement sont un point central de tout modèle d’intelligence artificielle. Pour l’IA générative, cela prend une autre ampleur par la quantité phénoménale de données nécessaires à l’entrainement. La source de ces données provient de tout l’internet. Malheureusement, cela amène son lot de conflits. En effet, beaucoup de textes, images sont protégés par des droits d’auteur. Bien sûr, on pourrait dire que ces données sont accessibles gratuitement sur internet, alors les IA devraient pouvoir y accéder. Toutefois, ces données sont non seulement accessibles, mais également utilisées sans le consentement des propriétaires. Ainsi, d’un côté, des auteurs ou des artistes pourraient voir leurs œuvres copiées par ces IA et, d’une autre, les plateformes d’hébergement de données pourraient voir leurs dépenses augmenter par l’utilisation excessive d’outils d’extraction de données. Des médias sociaux comme Reddit ou X (anciennement Twitter) ont d’ailleurs mis des mesures en place pour limiter cette pratique [1].
Une autre conséquence d’une utilisation indifférente des données provenant de l’internet est ce qu’on appelle la boucle de rétroaction. Cette dernière signifie qu’un modèle d’IA s’entraine sur des données générées par lui-même ou une autre IA. Ainsi, avec une quantité de plus en plus importante de contenu généré par IA sur internet, le risque de voir cette boucle se produire augmente. Celle-ci aurait pour conséquence de rendre plus solides certains biais du modèle ou même, selon certains chercheurs, le diriger vers son effondrement [2,3].
Génération de contenus
            Le résultat d’un modèle d’intelligence artificielle n’est pas infaillible. Il s’agit d’ailleurs d’un point central du premier article, « L’équité en intelligence artificielle ». Évidemment, l’IA générative n’échappe pas à ce problème sachant que le contenu généré est bien souvent subjectif. Ainsi, selon la source des données d’entrainement, les textes ou images produites pourraient s’avérer stéréotypés ou discriminatoires envers certains groupes. Pour l’IA générative, avec des données provenant d’un peu partout sur l’internet, il est impossible d’écarter complètement ce risque.
Un autre point important de la génération de contenus par IA est la question des droits d’auteur sur ce contenu. À qui appartiennent-ils? À la personne ayant donné les instructions à l’IA? Mais, si celle-ci n’a pas créé le modèle, alors le droit appartient-il aux créateurs? Après tout, certaines compagnies en IA comme OpenAI se réservent le droit d’accéder aux données qui leur sont envoyées. Peut-être les droits appartiennent en partie aux créateurs des données utilisées pour l’entrainement? Il s’agit d’une question complexe, surtout par l’ambiguïté de l’implication humaine dans le processus, pouvant aujourd’hui se retrouver dans un certain flou juridique jusqu’à une clarification. Et rien ne garantit que les différentes juridictions aient au final la même réponse.
Utilisation de l’IA générative
            Finalement, l’utilisation elle-même de l’IA générative peut amener ses propres problèmes éthiques. Il y a notamment un risque de désinformation où l’IA serait utilisée pour propager à grande échelle des idéologies plus dangereuses. Les risques peuvent aussi être à plus petite échelle où certains groupes et individus pourraient être visés. Un exemple est l’utilisation d’hypertrucage, ou deepfake, pour créer du contenu trompeur, diffamatoire voire à caractère sexuel. Ce mois-ci, cinq jeunes d’une école secondaire de Sainte-Thérèse sur la Rive-Nord de Montréal ont été arrêtés par la police pour avoir partagé du contenu pornographique généré par IA à une dizaine de leurs camarades de classe [4]. Des cas comme celui-ci ne sont pas nécessairement nouveaux, mais risquent d’augmenter avec l’utilisation de l’IA générative.
Une autre utilisation de l’IA générative est la possibilité d’automatiser plusieurs tâches. Ainsi, on ne peut exclure la possibilité que bien des emplois puissent se retrouver à risque. Bien sûr, ce ne serait pas la première fois dans l’histoire que des emplois sont perdus par l’évolution des technologies. Il convient toutefois de bien comprendre l’impact que ce changement pourrait avoir sur notre société d’un point de vue économique ou encore social. Si l’IA remplace plusieurs emplois, celle-ci pourra-t-elle effectuer un travail de qualité équivalente ou verra-t-on une baisse généralisée de cette qualité, par exemple, dans des domaines comme les arts ou les technologies de l’information? Les employés licenciés pourront-ils se retrouver des emplois avec un salaire équivalent? Les inégalités sociales seront-elles accentuées?
Que faut-il faire pour éviter tout dérapage de cette technologie? Évidemment, il ne s’agit pas d’une question aisée puisque différents groupes peuvent avoir des visions divergentes de la solution. De plus, il est impossible de savoir l’évolution que va prendre cette technologie et les nouveaux défis qui se présenteront. Il convient toutefois d’aborder plusieurs points essentiels.
Transparence des modèles: Il est crucial que les utilisateurs et les régulateurs puissent avoir une idée générale du fonctionnement des IA, et surtout de leurs limites et biais potentiels afin de favoriser une utilisation responsable. Pour ce faire, de la transparence au niveau de la création et de l’entrainement des modèles est nécessaire.
Transparence sur l’utilisation: Au-delà des modèles, l’utilisation elle-même des IA doit faire preuve de transparence. Ainsi, il est important que les utilisateurs sachent quand ils ont affaire à une IA ou quand ils peuvent être affectés par une. De plus, il devrait leur être possible de se soustraire à celles-ci sans conséquence.
Équité: L’équité demeure un point primordial du domaine de l’intelligence artificielle. La montée en popularité des IA génératives ne fait que renforcir ce fait. Des mesures appropriées doivent être mises en place pour évaluer les risques, minimiser toute forme de discrimination et garantir un accès équitable. Au final, l’intelligence artificielle ne doit pas un outil qui accentue les inégalités sociales.
Contrôle de qualité: La qualité des résultats d’une IA générative reste un défi constant tout comme n’importe quel modèle. Ainsi, il est important de vérifier la qualité des sources de données servant à l’entrainement des modèles ou encore de s’assurer que ces données soient suffisamment diversifiées. Le tout pouvant avoir une incidence, non seulement sur la performance des modèles comme les boucles de rétroaction, mais également sur les impacts dans la société.
            Finalement, l’IA générative présente un potentiel considérable, mais cette technologie n’est pas sans risque. C’est d’ailleurs pour cette raison que bien des lois sont en cours de création partout dans le monde pour s’ajuster à cette nouvelle réalité. Il y a notamment la loi sur l’IA de l’Union Européenne qui pourrait devenir source d’inspiration pour bien d’autres ailleurs dans le monde. Cette loi sera formellement adoptée en avril et sera applicable 24 mois après son entrée en vigueur [5]. Au Canada, la loi sur l’intelligence artificielle et les données (LIAD) est en développement depuis 2022 [6,7].
Sources
[1] https://www.lefigaro.fr/secteur/high-tech/twitter-restreint-la-lecture-de-tweets-pour-contenir-l-utilisation-des-donnees-par-l-ia-20230701
[2] https://venturebeat.com/ai/the-ai-feedback-loop-researchers-warn-of-model-collapse-as-ai-trains-on-ai-generated-content/
[3] https://arxiv.org/abs/2305.17493v2
[4] https://ici.radio-canada.ca/ohdio/premiere/emissions/Le-15-18/segments/entrevue/484696/intelligence-artificielle-photos-ados-ecole
[5] https://www.europarl.europa.eu/topics/fr/article/20230601STO93804/loi-sur-l-ia-de-l-ue-premiere-reglementation-de-l-intelligence-artificielle
[6] https://ised-isde.canada.ca/site/innover-meilleur-canada/fr/loi-lintelligence-artificielle-donnees
[7] https://www.parl.ca/legisinfo/en/bill/44-1/c-27
Retourner sur la page blogue