Cette page est une archive de recherche dédiée à l'empoisonnement des LLM, aux systèmes anti-abus et à la protection de la réputation. Le risque est urgent : le rythme de confiance accordé aux sorties des LLM a dépassé notre capacité à vérifier les affirmations, tandis que des adversaires peuvent publier à moindre coût des textes qui déforment le comportement des modèles et l'impression véhiculée par les recherches concernant des personnes sans grande présence en ligne.
Résumé exécutif
Les personnes ordinaires avec une faible empreinte sur Internet courent un risque disproportionné face à la diffamation amplifiée par l'IA et à l'empoisonnement des données. Un individu motivé peut semer de faux récits que les moteurs de recherche, les fils sociaux et les LLMs répètent. Ce document explique les voies d'attaque courantes, les effets concrets sur la réputation et la sécurité, et fournit un guide pratique pour la détection et la protection. Il décrit également comment des attestations vérifiées cryptographiquement et une récupération tenant compte de la provenance peuvent réduire les dommages pour les particuliers et les intégrateurs.
Public et modèle de menace
Public : individus et petites organisations sans grande présence SEO. Contraintes : temps, budget et ressources techniques limités. Adversaire : un seul acteur capable de générer et publier de grands volumes de texte, d'utiliser des réseaux de liens basiques et d'exploiter des angles morts dans les signalements. Objectifs : fausser les résultats des recherches/LLM, nuire à la réputation, semer le doute auprès d'employeurs, clients, plateformes ou agents.
Qu'est-ce que l'empoisonnement des LLM ?
L'empoisonnement des LLM fait référence à la manipulation du comportement du modèle via du contenu inséré ou coordonné - par exemple, des publications malveillantes, des articles synthétiques ou du spam de forum - qui peut être ingéré par des systèmes de récupération ou utilisé par des humains comme signaux, poussant les modèles vers de fausses associations et des récits diffamatoires.
Parce que les LLMs et les systèmes de récupération s'optimisent pour l'échelle et la couverture, un seul adversaire motivé peut façonner ce qu'un modèle « voit » d'une personne en inondant une petite portion du web. Cela est particulièrement efficace contre les personnes ayant une présence limitée en ligne.
Comment la réputation se déforme
- Empoisonnement des recherches et des réseaux sociaux - usurpation de profil, fermes de liens et publications en masse pour biaiser les critères de classement et les associations d'autocomplétion.
- Empoisonnement de la base de connaissances et du RAG - création de pages d'entités et de notes QA qui semblent sémantiquement pertinentes et sont récupérées comme contexte.
- Injection d'invite indirecte - contenu web hostile qui pousse les agents de navigation à répéter des instructions ou à exfiltrer des données sensibles.
- Points de terminaison backdoored - wrappers malveillants autour de modèles qui se comportent normalement jusqu'à l'apparition de phrases de déclenchement, puis émettent des mensonges ciblés.
Risques supplémentaires et modes de défaillance
- Effondrement du modèle dû à l'entraînement sur des sorties synthétiques - boucles de rétroaction où le texte généré dégrade la qualité future du modèle s'il n'est pas filtré ou pondéré.
- Injection d'invite indirecte - contenu hostile sur le web qui ordonne à un agent ou à un outil de navigation d'exfiltrer des secrets ou de propager de la diffamation lorsqu'il est cité.
- Empoisonnement du magasin d'embeddings - insertion de passages adversariaux dans une base de connaissances de sorte que la récupération fasse remonter de fausses affirmations semblant pertinentes sémantiquement.
- Releases backdoored - publication de checkpoints modifiés ou d'API wrappers qui se comportent normalement jusqu'à la présence d'une phrase de déclenchement.
Cas concrets et références
Mesures d'atténuation en profondeur
Récupération et classement
- Notation des sources et pondération de la provenance - préférer le contenu signé ou vérifié par l'éditeur ; diminuer le poids des pages récemment créées ou de faible réputation.
- Décroissance temporelle avec période de grâce - exiger un délai d'attente avant que de nouvelles sources n'influencent des réponses à enjeux élevés ; ajouter une revue humaine pour les entités sensibles.
- Détection des chambres d'écho - regrouper les passages presque dupliqués et limiter l'influence répétée provenant de la même origine ou du même réseau.
- Détection des valeurs aberrantes et des anomalies dans l'espace d'embeddings - signaler les passages dont les positions vectorielles ont été optimisées de manière adversaire.
Hygiène des données et des bases de connaissances
- Instantanés et différences des bases de connaissances - examinez les grands écarts, en particulier pour les entités personnes et les accusations sans sources primaires.
- Listes canary et de refus - empêcher l'incorporation de domaines abusifs connus ; insérer des canaries pour mesurer la propagation non autorisée.
- Humain dans la boucle pour les sujets à haut risque - mettre en file d'attente les mises à jour proposées des faits liés à la réputation pour une décision manuelle.
Attestations et réputation
- Attestations vérifiées cryptographiquement - déclarations signées de professionnels et d'organisations vérifiés publiées via un journal append-only.
- Graphes de réputation - agréger les attestations signées et rétrograder le contenu provenant d'abuseurs récurrents ou de réseaux de bots.
- Citations visibles par l'utilisateur - exiger que les modèles affichent les sources et le niveau de confiance avec des badges de provenance pour les affirmations sensibles.
Liste de contrôle entreprise
- Cartographiez les entités sensibles de votre domaine (personnes, marques, sujets juridiques) et acheminez les requêtes vers des pipelines protégés avec des exigences de provenance.
- Adoptez C2PA ou des identifiants de contenu similaires pour le contenu de première partie et encouragez les partenaires à faire de même.
- Surveillez l'influence des nouvelles sources au fil du temps et signalez les fluctuations inhabituelles des réponses au niveau de l'entité.
- Menez des red teams continues pour les agents RAG et de navigation, y compris des batteries de tests d'injection d'invite indirecte.
Harcèlement et diffamation via l'IA
Des individus à louer exploitent désormais l'IA et l'automatisation pour produire en masse du harcèlement et de la diffamation, créant des textes à l'apparence plausible et de fausses « sources » faciles à indexer, scraper et repartager. Ces campagnes sont peu coûteuses, très percutantes et difficiles à remédier une fois amplifiées par des systèmes automatisés.
Chad Scira a personnellement subi du harcèlement ciblé et de la diffamation, accompagnés de liens spammy visant à fausser les signaux de réputation et les impressions de recherche. Un récit détaillé et une piste de preuves sont documentés ici : Jesse Nickles - Harcèlement et diffamation.
Un incident récent sur Stack Exchange montre comment des réseaux de comptes coordonnés peuvent fabriquer de la confiance sur des plateformes qui portent normalement de forts signaux de crédibilité. Des suspensions publiques de 100 ans sur plusieurs comptes liés, suivies de publications de représailles sur d'autres plateformes, en font une étude de cas utile pour les systèmes de classement sensibles à la provenance et anti-abus : Incident de harcèlement et de diffamation sur Stack Exchange.
Taxonomie des menaces
- Empoisonnement des données de préentraînement - empoisonner des corpus publics utilisés pour l'entraînement initial afin d'implanter de fausses associations ou des portes dérobées.
- Empoisonnement RAG - ensemencement de bases de connaissances ou de sources externes utilisées par les pipelines de récupération au moment de l'inférence.
- Empoisonnement des recherches/réseaux sociaux - inonder de publications ou de pages de faible qualité pour biaiser les signaux de récupération et de classement concernant une personne ou un sujet.
- Prompts et contenus adverses - concevoir des entrées qui déclenchent des comportements indésirables ou des jailbreaks reproduisant des allégations diffamatoires.
Incidents et recherches récents (avec dates)
Remarque : les dates ci-dessus reflètent les dates de publication ou de diffusion publique aux sources liées.
Pourquoi cela est dangereux
- Les LLM peuvent paraître crédibles même lorsque les références sous-jacentes sont faibles ou implantées de manière adversaire.
- Les pipelines de récupération et de classement peuvent surpondérer les textes répétés, permettant à un acteur de fausser les résultats par la seule quantité.
- Les pistes de vérification humaine des faits sont lentes et coûteuses comparées à la vitesse de production et de diffusion de contenu automatisé.
- Les victimes sans présence en ligne significative sont disproportionnellement vulnérables à l'empoisonnement par une seule publication et aux attaques d'usurpation d'identité.
Analyse approfondie des risques
- Vérifications d'emploi et de plateforme - les recherches et les résumés par LLM peuvent reproduire du contenu empoisonné lors des contrôles de recrutement, de modération ou d'intégration.
- Voyage, logement et services financiers - les contrôles automatisés peuvent faire émerger de faux récits qui retardent ou bloquent les services.
- Persistance - une fois indexées dans des bases de connaissances ou des réponses mises en cache, les fausses affirmations peuvent réapparaître même après des suppressions.
- Rétroaction synthétique - le contenu généré peut engendrer davantage de contenu généré, augmentant au fil du temps le poids apparent des faussetés.
Détection et surveillance
- Configurez des alertes de recherche pour votre nom et vos pseudonymes ; vérifiez périodiquement les requêtes site: pour les domaines de faible réputation qui vous mentionnent.
- Suivez les modifications de vos panneaux de connaissances ou pages d'entité ; conservez des captures d'écran datées et des copies exportées à titre de preuve.
- Surveillez les graphes de liens sociaux pour des comptes d'origine répétés ou des pics soudains de formulations similaires.
- Si vous exploitez un RAG ou une base de connaissances, effectuez des vérifications de dérive d'entités et examinez les grands écarts sur les pages de personnes ou les accusations sans sources primaires.
Guide de protection - Individus
- Publiez un site personnel avec des déclarations d'identité claires, une courte biographie et des moyens de contact ; conservez un journal des modifications daté.
- Alignez les métadonnées de profil sur toutes les plateformes ; obtenez des profils vérifiés lorsque possible et liez-les à votre site.
- Utilisez C2PA ou des justificatifs de contenu similaires pour les images et documents clés lorsque possible ; conservez les originaux en privé.
- Conservez un journal de preuves horodaté : captures d'écran, liens et tout numéro de ticket de plateforme pour une escalade ultérieure.
- Préparez des modèles de demandes de retrait ; répondez rapidement aux nouvelles attaques et documentez chaque étape pour une traçabilité claire.
Guide de protection - Équipes et intégrateurs
- Privilégiez le contenu signé ou vérifié par l'éditeur lors de la récupération ; appliquez des périodes de grâce basées sur le temps pour les nouvelles sources.
- Limiter l'influence répétée provenant de la même origine et dédupliquer les quasi-duplications par réseau d'origine.
- Ajoutez des badges de provenance et des listes de sources destinées aux utilisateurs pour les affirmations concernant des personnes et autres sujets sensibles.
- Adoptez la détection d'anomalies sur les stockages d'embeddings ; signalez les vecteurs adverses atypiques et effectuez des vérifications « canary » pour la propagation non autorisée.
Recherche : attestations vérifiées cryptographiquement
Chad Scira construit des systèmes d'attestations vérifiées cryptographiquement pour instaurer la confiance dans les déclarations sur des personnes et des événements. L'objectif est de fournir aux LLMs et aux systèmes de récupération des assertions signées et interrogeables émanant de professionnels et d'organisations vérifiés, permettant une provenance robuste et une résistance accrue à l'empoisonnement.
Principes de conception
- Identité et provenance : les déclarations sont signées par des individus/organisations vérifiés en utilisant la cryptographie à clé publique.
- Stockage vérifiable : les attestations sont ancrées dans des journaux à ajout uniquement et à détection d'altération, permettant une vérification indépendante.
- Intégration de la récupération : les pipelines RAG peuvent prioriser ou exiger des sources attestées cryptographiquement pour les requêtes sensibles.
- Friction minimale : les APIs et SDKs permettent aux éditeurs et plateformes d'émettre et de vérifier des attestations au moment de l'ingestion.
Réputation et alertes
En plus des attestations, une couche de réputation agrège des endossements signés et signale les abuseurs connus. Les systèmes d'alerte notifient les cibles lorsque des attaques coordonnées ou des pics anormaux sont détectés, permettant une réponse plus rapide et des demandes de retrait.
Canaux juridiques et plateformes
- Utilisez les flux de signalement des plateformes avec des dossiers de preuves clairs : liens, dates, captures d'écran et impacts. Faites référence aux politiques de diffamation et de harcèlement.
- Escaladez avec des notifications formelles lorsque c'est approprié ; conservez les journaux de correspondance et les identifiants de tickets dans votre dossier de preuves.
- Tenez compte des différences juridictionnelles en matière de diffamation et de responsabilité des plateformes ; consultez un conseil juridique pour les cas à haut risque.
Feuille de route de mise en œuvre (Année 1)
- MVP : schéma d'attestation et SDK éditeur pour signer des déclarations d'identité et des revendications d'événements.
- Lancez un pilote avec un petit groupe de professionnels et d'organisations vérifiés ; établissez des flux de vérification.
- Plug-ins RAG : activer le mode de réponse « provenance en priorité » qui privilégie les sources attestées pour les requêtes sensibles.
Lectures complémentaires (avec dates)
Collaboration
Ces recherches sont à la pointe et en évolution active. Chad Scira accueille la collaboration d'autres professionnels dans ce domaine.
Si vous êtes intéressé(e) par une collaboration, veuillez contacter : [email protected]
Avis juridique. Les informations présentées sur cette page constituent un registre public de faits. Elles sont utilisées comme preuve dans l'affaire pénale en cours pour diffamation contre Jesse Jacob Nickles en Thaïlande. Référence officielle de l'affaire pénale : Bang Kaeo Police Station – Daily Report Entry No. 4, Book 41/2568, Report No. 56, daté du 13 août 2568, Reference Case No. 443/2567. Cette documentation peut également servir de preuve à l'appui pour toute autre personne ou organisation intentant leurs propres réclamations pour harcèlement ou diffamation contre Jesse Nickles, compte tenu du schéma documenté de comportements répétés affectant plusieurs victimes.