
Mes enfants ne sont pas des IA – #6 Il est difficile de maitriser tout ce qu’ils apprennent.
J’ai récemment surpris mon fils en train de jurer… mais certaines IA génératives le font aussi ! Dans ce 6èmearticle, nous explorerons les difficultés à maitriser la source des apprentissages de mes enfants et de l’IA, quelles en sont les conséquences et comment atténuer les impacts négatifs.
Un soir, au cours d'une conversation plutôt banale, mon fils a prononcé le mot p***. J'ai été choquée d'entendre un mot aussi grossier sortir de cette bouche si mignonne et innocente, sans même qu'il sache ce que cela signifiait. Mais la tête que j’ai fait devait être particulièrement drôle, car il s’est mis à rire et a commencé à le répéter encore et encore. Je lui ai demandé où il avait appris ce mot et il m’a tout simplement répondu « personne, je l’ai appris tout seul ». Nous ne saurons jamais où il l’a entendu – Était-ce à l’école ? Avec son oncle parfois un peu grossier ? Ou cela m’a-t-il échappé dans un moment de désarroi? Peut-être les 3 et bien d’autres encore, mais cette fois-ci, le mot s’est imprimé pour de bon dans sa mémoire, et il a bien compris que c’était un mot très intéressant qui faisait réagir les adultes. Nos enfants apprennent en permanence, et à mesure qu’ils grandissent et interagissent de plus en plus avec la société, il devient plus difficile en tant que parent de maitriser toutes les sources d’information.
Des situations similaires se sont produites avec des chatbots d’IA. Le plus célèbre d’entre eux, Tay, un bot IA de Microsoft, a comparé le féminisme au cancer et a suggéré que l’Holocauste n’avait jamais eu lieu après avoir été « entrainé » par des utilisateurs de Twitter pendant 16 heures en 2016. Plus récemment, le chatbot d’une entreprise de livraison de colis, DPD, a insulté un client et a critiqué l'entreprise. L'IA LLM (Large Language Model) est entrainé à partir d’une immense quantité de données, généralement extraites d'Internet, qui inclut nécessairement des jurons et du contenu indécent. L'IA est entraînée à donner la réponse la plus probable et, si un utilisateur le guide dans cette direction par ses demandes, elle peut devenir grossière et offensante. Pour éviter cela, une bonne alternative pour les entreprises utilisant un chatbot serait d'utiliser plutôt des Small Language Models (SLM). Ces modèles sont entrainés à partir de bases de données beaucoup plus petits, sont plus contextuels et donc moins chers. Maitriser la source des données et réajuster le code sera moins fastidieux que pour un modèle LLM.
Mais il y a plus inquiétant que d’apprendre des grossièretés aux IAs. Dans une étude de 2023, l’Observatoire Internet de Stanford a découvert que LAION-5B, une base de données publique utilisée par Stable Diffusion, contenait des centaines de contenus à caractère pédophile, extraits de publications sur les réseaux sociaux et de sites Web pour adultes populaires. Ils ont utilisé Microsoft PhotoDNA, un outil de hachage qui compare les empreintes numériques des images à des bases de données gérées par des organismes à but non lucratif qui analysent les rapports d'exploitation et d'abus sexuels sur enfants en ligne. Ces images ont depuis été supprimées des bases de données, mais elles avait déjà été largement propagées et utilisées à des fins d’entrainement de modèles d’IA. Ces modèles ont été utilisées pour créer du contenu à caractère pédophile et, de plus, nous ne savons pas exactement ce que les IA ont pu apprendre de ces images et de leurs victimes. Stable Diffusion a pris des mesures pour introduire des filtres et intercepter les demandes ou les résultats de requêtes douteuses, mais cela ne suffira pas. En outre, de nombreuses entreprises d’IA ne sont pas transparentes sur l’origine de leurs données et pourraient toujours entraîner leur IA sur cette base de données.
Mais ces modèles sont-ils ne serait-ce que licites s’ils ont été entrainés sur des données illégales ? Cette question met bon nombre d’entreprises et de gouvernements très mal à l’aise. Vérifier l’intégrité de toutes ces images serait une tâche dantesque et très coûteuse, ce qui entraverait l’innovation et la compétitivité de ces entreprises. Nous commençons tout juste à entrevoir la pointe de l’iceberg des dommages qu’on développement incontrôlé de l’IA pourrait causer à la société, et de nouveaux exemples sont révélés presque chaque jour. Il apparait de plus en plus nécessaire d’injecter de l’éthique dans la gouvernance de l’IA, et la réglementation devrait suivre pour imposer des garanties minimales, même si elle ne résoudra pas tous les problèmes.
Mon enfant n’a (espérons-le !) jamais été exposé à des contenus illégaux, et en tant que parent, il est de mon devoir de veiller à ce qu’il ne puisse accéder qu’à des contenus adaptés à son âge, en particulier à la télévision et sur Internet. Mais à mesure qu’il grandit et devient plus indépendant, il entendra et verra de plus en plus de contenus indécent et je ne pourrai pas tout maitriser. De plus, il ne pourra pas rester éternellement ignorant. Il devra être capable d’identifier ce qui est indécent et de comprendre pourquoi c’est mal, pour ne pas propager davantage ce type de contenu, en créer ou même le reproduire dans la vie réelle. L’IA pourrait-elle un jour également grandir et être suffisamment intelligente pour filtrer elle-même les contenus indécents et ne produire que des résultats convenables ? L’avenir nous le dira.