Data & Model Poisoning [Exploring Threats to AI Systems]

Table des matières
Ce blog a été rédigé par Damya Kecili, analyste chez CybelAngel.
Pourquoi les risques liés à la sécurité de l'IA sont-ils ignorés ?
Alors que nous dépendons de plus en plus de l'intelligence artificielle générative, en particulier des grands modèles de langage (LLM) de type GPT, il est essentiel d'être conscient des risques liés à l'évolution de ces nouveaux outils.
Le développement de LLM non censurés, que nous avons couvert iciLes cyber-professionnels sont concernés.
Dans ce blog, nous nous intéressons à l'empoisonnement des données et des modèles d'IA apparemment inoffensifs.
Qu'est-ce que l'empoisonnement des données ?
L'empoisonnement de données est une technique d'intelligence artificielle antagoniste, sens une cyberattaque conçue pour empêcher les systèmes d'IA de fonctionner, les amener à faire des prédictions ou à prendre des décisions incorrectes ou involontaires. Il cible spécifiquement l'ensemble de données sur lequel le LLM est formé. Elle consiste à inclure des informations telles que des données malveillantes - des données liées à des logiciels malveillants par exemple - de fausses informations, ou à omettre des informations pertinentes qui enrichiraient positivement l'ensemble de données du LLM.
Bien qu'apparemment similaire au premier, l'empoisonnement de modèle diffère légèrement. Au lieu de se concentrer sur la corruption de l'ensemble d'apprentissage, l'empoisonnement de modèle vise à altérer directement les paramètres internes ou les mises à jour du modèle. L'apprentissage fédéré est une cible privilégiée à ce type d'empoisonnement, sur lequel nous reviendrons un peu plus loin dans l'article.
Les outils d'IA générative dépendent fortement de l'ensemble de données sur lequel ils sont formés afin d'être ancrés dans des informations exactes et de pouvoir se développer en LLM fiables. De plus, des acteurs malveillants peuvent également altérer un LLM précédemment solide en modifiant ou en intégrant des données.
L'utilisation d'une IA générative qui a été formée sur des données empoisonnées peut avoir des conséquences néfastes pour un large éventail d'utilisateurs dans tous les secteurs d'activité.
Quels sont les éléments clés des attaques par empoisonnement de données ??
Les acteurs malveillants emploient diverses stratégies pour empoisonner les données, et ces stratégies tendent à différer en fonction de l'objectif des attaquants. En général, un acteur menaçant souhaite soit réduire la précision du modèle dans son ensemble, soit n'affecter le modèle que pour des tâches spécifiques et ciblées.
Attaques par empoisonnement de données ciblées
Cette technique consiste à cibler un aspect spécifique du modèle, sans altérer la performance globale du LLM en question. L'objectif de ces attaques est de modifier une partie déterminée de l'ensemble de données de manière à ce que le modèle d'IA classe ou interprète mal certaines données sans dégrader ses capacités générales. L'attaquant peut ainsi altérer les performances du modèle sur une tâche spécifique, ce qui le rend difficile à détecter.
A quoi ressemble un cas d'utilisation typique d'une attaque
Une entreprise utilise un modèle d'apprentissage automatique afin de filtrer automatiquement les courriels indésirables des courriels légitimes. Le modèle est entraîné en continu à l'aide de données de courrier électronique étiquetées recueillies auprès des utilisateurs. Un acteur malveillant pourrait vouloir que son hameçonnage afin de contourner systématiquement le filtre susmentionné.
Pour ce faire, ils peuvent essayer de compromettre quelques comptes d'utilisateurs qui contribuent à l'ensemble de données d'entraînement du modèle. À partir de ces comptes, ils soumettront des courriels élaborés contenant des contenus de spam courants - tels que des liens de phishing ou de fausses factures - mais étiquetés comme "non spam".
Ils répètent ensuite l'opération plusieurs fois, en modifiant légèrement la formulation, mais en conservant les caractéristiques essentielles du spam. Comme l'apprentissage profond et l'apprentissage automatique sont formés pour évaluer ces courriels comme n'étant pas du spam, ils finiront par les étiqueter comme étant légitimes. Nous pouvons voir ici que l'objectif n'est pas de modifier le comportement du modèle dans son ensemble, mais plutôt de cibler un comportement spécifique à empoisonner. Il est intéressant de noter que que cet exemple est ancré dans un certain nombre de cas réels et qu'il est en fait assez couramment utilisé. Retour en 2018, Google avait déjà révélé que Gmail était confronté à de multiples tentatives d'empoisonnement de son filtre anti-spam. Des acteurs malveillants envoyaient des millions d'e-mails dans le but d'embrouiller l'algorithme de classification et de modifier sa classification des spams.
Le motif derrière attaques non ciblées
Contrairement aux attaques ciblées, l'objectif est ici de détériorer la performance du modèle au niveau globalet le rendre peu fiable. Ces attaques peuvent entraîner des risques considérables pour les institutions, les organisations et les entreprises, tels que la défaillance systémique de systèmes critiques, l'obscurcissement de portes dérobées non détectées, voire le sabotage à grande échelle. La technique la plus couramment utilisée par les acteurs malveillants pour ce type d'attaques consiste généralement à injecter du bruit sans rapport et des données malveillantes dans l'ensemble de données du modèle entraîné. Cela réduit en effet considérablement sa capacité à généraliser à partir de l'ensemble de données en question. Toutefois, en raison de leur plus grande ampleur, il est important de noter que les attaques par empoisonnement de données non ciblées sont donc plus faciles à détecter et plus difficiles à mettre en place de manière efficace.
Un exemple auquel nous pourrions penser, lié au domaine des soins de santé : à la suite de l'étude de cas de la article Les modèles de langage médicaux à grande échelle sont vulnérables aux attaques par empoisonnement des donnéesDans le cadre d'un projet de recherche publié dans Nature Medicine en janvier 2025, une structure de soins entraîne un système d'apprentissage automatique pour détecter les maladies pulmonaires, en utilisant des ensembles de données médicales disponibles sur le site Web de l'OMS. La pileun ensemble de données de textes en anglais, créé comme un ensemble de données d'entraînement pour les LLM.
Réduction de la précision globale
Ici, l'objectif de l'acteur malveillant ne serait pas de cibler des patients spécifiques, mais plutôt de réduire la précision globale du modèle. Les attaquants introduisent des informations médicales erronées dans la pile, ce qui nuit à la précision des informations sur lesquelles le modèle est formé.
Le modèle finira par apprendre des associations incorrectes entre les caractéristiques de l'image et les diagnostics. Ils ont constaté qu'un remplacement de seulement 0,001% des jetons d'entraînement par des informations médicales erronées aboutissait à des modèles nuisibles. Cela peut, par exemple, conduire à un mauvais diagnostic des patients. De telles attaques par empoisonnement des données entraînent des erreurs systématiques, mais sont très difficiles à détecter, car elles sont invisibles pour les critères de référence actuels.
Empoisonnement du modèle
Comme indiqué précédemment, l'empoisonnement de modèles diffère de l'empoisonnement de données dans la mesure où il cible les paramètres du modèle plutôt que l'ensemble d'apprentissage. Cette distinction rend l'empoisonnement de modèle particulièrement pertinent dans le contexte de l'apprentissage fédéré.
Mais qu'est-ce que l'apprentissage fédéré ?
Traditionnellement, les LLM sont formés en collectant des données sur un serveur central. Toutefois, cette approche centralisée soulève d'importantes questions en matière de protection de la vie privée. Afin de résoudre ce problème, le concept d'apprentissage fédéré a été développé. Ce cadre permet aux clients d'utiliser conjointement former un modèle sans avoir à partager les données. L'apprentissage fédéré diffère des autres cadres distribués d'apprentissage automatique en ce sens que les données de chaque client restent privées et inaccessibles aux autres. Dans une configuration typique, un serveur central distribue d'abord un modèle global à des clients sélectionnés.
- Un serveur central distribue un modèle global aux clients, qui l'entraînent localement et renvoient des mises à jour ; le serveur agrège ensuite ces mises à jour pour améliorer le modèle.
- Seul le propriétaire des données contrôle ses données localesL'apprentissage fédéré est donc prometteur pour la protection de la vie privée des utilisateurs et largement adopté par les entreprises.
- Cependant, l'apprentissage fédéré est vulnérable attaques par empoisonnement de modèlesoù des participants malveillants téléchargent des mises à jour de modèles manipulées pour corrompre le modèle global.
- Le un grand nombre de clients il est difficile de s'assurer que tous les participants sont dignes de confiance, ce qui accroît le risque d'attaques par empoisonnement au cours du processus d'agrégation.
Dans leur document de recherche intitulé MPAF : Attaques d'empoisonnement de modèles contre l'apprentissage fédéré basées sur de faux clientsDans le cadre de l'étude de faisabilité de l'apprentissage fédéré, des chercheurs de l'université de Duke ont présenté MPAF, la première attaque par empoisonnement de modèle de l'apprentissage fédéré basée sur de faux clients. Leur objectif était d'illustrer le risque concret d'attaques par empoisonnement de modèle auquel est confronté l'apprentissage fédéré.
Dans leur étude, ils ont simulé une configuration d'attaque par empoisonnement de modèle, où 1000 clients réels ont été initialement utilisés et entraînés à l'aide de trois ensembles de données d'entraînement disponibles dans le monde réel (chaque ensemble de données a été utilisé individuellement pour des expériences distinctes et a ensuite été comparé). Ensuite, 100 faux clients ont été ajoutés, dans le but de perturber le modèle général d'IA. Ils représentaient 10% des clients réels. Les 1100 clients ont ensuite été utilisés pour former un modèle d'apprentissage fédéré. Au cours de chaque phase de formation, tous les clients ont été utilisés par défaut.
Les clients se sont entraînés avec différentes tailles de lots et différents taux d'apprentissage en fonction de l'ensemble de données, afin de s'assurer que les modèles apprennent bien. Le nombre de cycles de formation a été ajusté en fonction du nombre de clients utilisés dans chaque cycle. Chaque test a été répété 20 fois pour garantir la fiabilité des résultats. Les résultats ont montré que l'attaque par empoisonnement du modèle MPAF a permis de réduire la précision des résultats du modèle global de 32%. Ce chiffre a atteint 49% lorsque le nombre de faux clients a été porté à 25%.
Attaque d'empoisonnement des données de ConfusedPilot sur les systèmes d'IA de RAG
En octobre 2024, des chercheurs de l'université du Texas ont découvert une nouvelle méthode d'attaque en matière de cybersécurité, qu'ils ont baptisée Pilote confus. Cette méthode vise principalement les systèmes d'IA basés sur la génération augmentée par récupération (RAG). Pour simplifier, un système d'IA basé sur la RAG extrait des informations d'une vaste collection de documents, de bases de données ou de sources de connaissances et les associe à l'ensemble de données sur lequel il a été formé afin de générer une réponse complète et actualisée. Il s'agit d'un système qui utilise à la fois des sources externes et internes. Microsoft Copilot est un bon exemple de système d'IA basé sur le RAG : Il tire des informations de diverses sources externes, comme des documents, des courriels ou des données dans les applications Microsoft 365 (Word, Excel, etc.), et utilise les informations saisies pour générer des réponses.
Par conséquent, en théorie, un système d'intelligence artificielle basé sur les RAG utilisera les mots-clés pertinents d'une demande pour rechercher les ressources applicables stockées dans une base de données vectorielle. Il s'agit d'un type de base de données conçu pour stocker, gérer et rechercher des vecteurs à haute dimension, qui sont des représentations numériques de données telles que du texte, des images ou du son qui génèrent une réponse.
Toutefois, selon les chercheurs susmentionnés, les acteurs malveillants seraient en mesure d'utiliser l'architecture des systèmes d'IA basés sur le RAG à leur avantage et de manipuler leurs résultats en ajoutant un contenu non pertinent aux documents à partir desquels le système d'IA récupère ses informations. Ce type de cyberattaque pourrait potentiellement entraîner une désinformation généralisée et saper la prise de décision au sein de l'organisation.
ConfusedPilot : UT Austin et Symmetry Systems découvrent une nouvelle attaque contre les systèmes d'IA basés sur RAG. Source.
Quatre stratégies d'atténuation clairement définies
Lors de la planification de stratégies de défense contre l'empoisonnement de modèles et de données, il est essentiel d'envisager une approche holistique de la question. Il est important d'analyser l'origine et l'historique des données, ainsi que de veiller à mettre en œuvre des algorithmes très robustes, capables de détecter les anomalies de données liées à de telles attaques de cybersécurité, et de garantir la sécurité des données.
- Procédures strictes de validation des données, y compris le suivi de la provenance des données et l'utilisation de sources fiables en temps réel, peuvent contribuer à prévenir l'introduction de données entachées.
- Techniques de validation croiséeLa validation du modèle sur plusieurs sous-ensembles de données, par exemple, permet de découvrir des incohérences et de minimiser le risque d'ajustement excessif à des données corrompues.
- Algorithmes de détection des anomaliesLes systèmes de gestion des données, tels que les méthodes statistiques et les modèles ml, peuvent identifier des schémas de données suspects qui indiquent des tentatives potentielles d'empoisonnement.
- Audits réguliers du systèmequi impliquent un contrôle continu des mesures de performance et une analyse comportementale, permettent de détecter les premiers signes d'empoisonnement en révélant des baisses inattendues de précision ou des vulnérabilités liées à des sources de données non sollicitées.
En outre, les techniques d'entraînement contradictoire, y compris l'utilisation d'exemples contradictoires et la distillation défensive, peuvent renforcer la capacité du modèle à reconnaître et à résister à la manipulation des données. Le maintien de l'intégrité des données est essentiel pour garantir la fiabilité et la sécurité des décisions fondées sur les données, ainsi que pour conserver un avantage concurrentiel dans le domaine de l'IA et dans d'autres secteurs d'activité.
Vous souhaitez en savoir plus sur le travail de CybelAngel ?