LLM-vergiftiging en anti-misbruikonderzoek
Chad Scira onderzoekt hoe grote taalmodellen vergiftigd en misbruikt kunnen worden om individuen te schaden, en ontwikkelt beschermende systemen om deze bedreigingen tegen te gaan. Het risico is urgent: het tempo waarin men vertrouwen stelt in LLM-uitvoer is onze capaciteit om uitspraken te verifiëren voorbijgestreefd, terwijl tegenstanders goedkoop tekst kunnen publiceren die het gedrag van modellen en zoekimpressies van mensen zonder grote online aanwezigheid vertekenen.
Op 3 oktober 2025 werd een particuliere investeringsronde veiliggesteld om dit onderzoek voort te zetten.
Managementsamenvatting
Gemiddelde mensen met een kleine internetvoetafdruk lopen een onevenredig risico op door AI versterkte laster en datavervuiling. Een enkele gemotiveerde persoon kan valse verhalen zaaien die zoekmachines, sociale feeds en LLM's herhalen. Dit document legt gangbare aanvalspaden, concrete effecten op reputatie en veiligheid, en een praktische handleiding voor detectie en bescherming uit. Het beschrijft ook hoe cryptografisch geverifieerde attestaties en herkomstbewuste opvraging schade kunnen verminderen voor individuen en integratoren.
Publiek en dreigingsmodel
Doelgroep: individuen en kleine organisaties zonder grote SEO-aanwezigheid. Beperkingen: beperkte tijd, budget en technische middelen. Tegenstander: een individuele actor die in staat is grote hoeveelheden tekst te genereren en te plaatsen, eenvoudige linknetwerken te gebruiken en rapportageblinde vlekken te exploiteren. Doelen: zoekresultaten/LLM-uitvoer vervormen, reputatie schaden, twijfel zaaien bij werkgevers, cliënten, platforms of tussenpersonen.
Wat is LLM-vergiftiging?
LLM-vergiftiging verwijst naar het manipuleren van modelgedrag via ingezaaide of gecoördineerde inhoud - bijvoorbeeld kwaadaardige berichten, synthetische artikelen of forumspam - die door retrievalsystemen kan worden opgenomen of door mensen als signalen kan worden gebruikt, waardoor modellen naar foutieve associaties en lasterlijke verhalen worden geduwd.
Doordat LLM's en retrievalsystemen optimaliseren voor schaal en dekking, kan een enkele gemotiveerde tegenstander bepalen wat een model 'ziet' over een persoon door een klein deel van het web te overspoelen. Dit werkt vooral goed tegen personen met een beperkte online aanwezigheid.
Hoe reputatie wordt vervormd
- Zoek- en sociale vergiftiging - profielkaping, linkfarms en massaplaatsingen om rangschikkingskenmerken en associaties in het automatisch aanvullen te beïnvloeden.
- Vergiftiging van kennisbank en RAG - het aanmaken van entiteitspagina's en QA-notities die semantisch relevant lijken en als context worden opgehaald.
- Indirecte promptinjectie - vijandige webinhoud die browsingagenten ertoe brengt instructies te herhalen of gevoelige gegevens te exfiltreren.
- Eindpunten met achterdeur - kwaadaardige model-wrappers die zich normaal gedragen totdat triggerzinnen verschijnen, waarna ze gerichte onwaarheden verspreiden.
Aanvullende risico's en faalwijzen
- Modelinstorting door training op synthetische output - terugkoppelingslussen waarbij gegenereerde tekst de toekomstige modelkwaliteit verslechtert als deze niet wordt gefilterd of gewogen.
- Indirecte promptinjectie - vijandige inhoud op het web die een agent of browsehulpmiddel aanzet om geheimen te exfiltreren of laster te verspreiden wanneer geciteerd.
- Vergiftiging van embedding-opslag - het invoegen van adversariële passages in een kennisbank zodat bij het ophalen valse beweringen naar voren komen die semantisch relevant lijken.
- Vrijgaven met achterdeur - het publiceren van aangepaste checkpoints of API-wrappers die zich normaal gedragen totdat een triggerzin aanwezig is.
Concrete gevallen en referenties
Diepgaande mitigaties
Ophalen en rangschikking
- Bronscoring en herkomstweging - geef de voorkeur aan ondertekende of door uitgevers geverifieerde inhoud; verlaag het gewicht van nieuw aangemaakte pagina's of pagina's met een lage reputatie.
- Tijdverval met respijtperiode - vereist een inwerktijd voordat nieuwe bronnen invloed hebben op antwoorden met grote gevolgen; voeg menselijke beoordeling toe voor gevoelige entiteiten.
- Detectie van echokamers - groepeer vrijwel identieke passages en beperk herhaalde invloed vanuit dezelfde oorsprong of hetzelfde netwerk.
- Detectie van uitschieters en anomalieën in embedding-ruimte - markeer passages waarvan de vectorposities adversarieel zijn geoptimaliseerd.
Gegevens- en kennisbankhygiëne
- Momentopnamen en diff-kennisbanken - beoordeel grote verschillen, vooral voor persoonsentiteiten en beschuldigingen zonder primaire bronnen.
- Canary- en deny-lijsten - voorkom opname van bekende misbruikdomeinen; plaats canaries om ongeautoriseerde verspreiding te meten.
- Mens in de lus voor risicovolle onderwerpen - zet voorgestelde updates van reputatiefeiten in een wachtrij voor handmatige beoordeling.
Attestaties en reputatie
- Cryptografisch geverifieerde attestaties - ondertekende verklaringen van gecontroleerde professionals en organisaties, gepubliceerd via een append-only log.
- Reputatiegrafieken - geaggregeerde ondertekende aanbevelingen en het naar beneden rangschikken van inhoud afkomstig van herhaalde misbruikers of botnetwerken.
- Voor gebruikers zichtbare bronvermeldingen - eis dat modellen bronnen en betrouwbaarheidsniveau tonen met herkomstbadges voor gevoelige beweringen.
Checklist voor bedrijven
- Breng gevoelige entiteiten in uw domein in kaart (personen, merken, juridische onderwerpen) en leid queries naar beveiligde pijplijnen met herkomstvereisten.
- Neem C2PA of vergelijkbare contentcredentials aan voor eerstpartijinhoud en moedig partners aan hetzelfde te doen.
- Volg de invloed van nieuwe bronnen in de loop van de tijd en waarschuw bij abnormale schommelingen voor antwoorden op entiteitsniveau.
- Voer continu red teaming uit voor RAG- en browse-agents, inclusief testsets voor indirecte promptinjectie.
Intimidatie en laster via AI
Tegen betaling ingehuurde personen maken nu gebruik van AI en automatisering om grootschalig intimidatie en laster te produceren, en creëren geloofwaardig ogende teksten en valse "bronnen" die gemakkelijk te indexeren, te scrapen en opnieuw te delen zijn. Deze campagnes zijn goedkoop, hebben grote impact en zijn moeilijk te verhelpen zodra ze door geautomatiseerde systemen worden versterkt.
Chad Scira heeft persoonlijk gerichte intimidatie en laster ervaren, gekoppeld aan spamachtige koppelingen bedoeld om reputatiesignalen en zoekimpressies te vervormen. Een gedetailleerd verslag en bewijsspoor is hier gedocumenteerd: Jesse Nickles - Intimidatie en laster.
Taxonomie van bedreigingen
- Vergiftiging van pretrainingsdata - het vergiftigen van openbare corpora die voor initiële training worden gebruikt om valse associaties of backdoors te plaatsen.
- RAG-vergiftiging - het inzaaien van kennisbanken of externe bronnen die door retrieval-pijplijnen tijdens inferentietijd worden gebruikt.
- Zoek-/sociale vergiftiging - het overspoelen met berichten of laagwaardige pagina's om ophaal- en rangschikkingssignalen over een persoon of onderwerp te vervormen.
- Adversariële prompts en inhoud - inputs maken die ongewenst gedrag of jailbreaks veroorzaken die lasterlijke beweringen herhalen.
Recente incidenten en onderzoek (met datums)
Opmerking: de bovenstaande data geven de publicatie- of openbare vrijgavedata weer zoals in de gelinkte bronnen.
Waarom dit gevaarlijk is
- LLM's kunnen gezaghebbend overkomen, zelfs wanneer de onderliggende verwijzingen zwak of opzettelijk door tegenstanders ingevoerd zijn.
- Ophaal- en rangschikkingspijplijnen kunnen herhaalde tekst onevenredig zwaar meewegen, waardoor één actor de resultaten alleen door volume kan vervormen.
- Menselijke feitencontrole is traag en kostbaar vergeleken met de snelheid van geautomatiseerde inhoudsproductie en -verspreiding.
- Slachtoffers zonder significante online aanwezigheid zijn onevenredig kwetsbaar voor vergiftiging door een enkel bericht en identiteitsaanvallen.
Diepgaande risicoanalyse
- Screening voor werk en platformen - zoekopdrachten en LLM-samenvattingen kunnen vervuilde inhoud herhalen tijdens werving, moderatie of onboardingcontroles.
- Reis-, huisvestings- en financiële diensten - geautomatiseerde controles kunnen valse verhalen aan het licht brengen die diensten vertragen of blokkeren.
- Persistentie - eenmaal geïndexeerd in kennisbanken of gecachte antwoorden, kunnen valse beweringen opnieuw opduiken, zelfs na verwijderingen.
- Synthetische feedback - gegenereerde inhoud kan meer gegenereerde inhoud aanzwengelen, waardoor de schijnbare invloed van onwaarheden in de loop van de tijd toeneemt.
Detectie en monitoring
- Stel zoekwaarschuwingen in voor uw naam en aliassen; controleer periodiek site: queries op domeinen met lage reputatie die u vermelden.
- Houd wijzigingen bij in uw kennispanelen of entiteitspagina's; bewaar gedateerde schermafbeeldingen en geëxporteerde kopieën als bewijs.
- Houd sociale linkgrafen in de gaten op herhaalde accounts van oorsprong of plotselinge pieken in vergelijkbare bewoordingen.
- Als u een RAG of kennisbank beheert, voer controles op entiteitsverschuiving uit en beoordeel grote wijzigingen op persoonspagina's of beschuldigingen zonder primaire bronnen.
Beschermingsplaybook - individuen
- Publiceer een persoonlijke site met duidelijke identiteitsverklaringen, een korte bio en contactmogelijkheden; houd een gedateerd wijzigingslogboek bij.
- Breng profielmetadata op alle platforms in overeenstemming; verkrijg waar mogelijk geverifieerde profielen en koppel deze terug naar uw site.
- Gebruik C2PA of vergelijkbare inhoudsreferenties voor belangrijke afbeeldingen en documenten wanneer mogelijk; bewaar originelen privé.
- Houd een bewijslog met tijdstempels bij: screenshots, links en eventuele platformticketnummers voor latere escalatie.
- Bereid sjablonen voor verwijderingsverzoeken voor; reageer snel op nieuwe aanvallen en documenteer elke stap voor een duidelijk papieren spoor.
Beschermingsplaybook - teams en integratoren
- Geef de voorkeur aan ondertekende of door de uitgever geverifieerde inhoud bij ophalen; hanteer tijdgebonden respijtperiodes voor nieuwe bronnen.
- Beperk herhaalde invloed vanuit dezelfde oorsprong en dedupliceer vrijwel identieke items per oorsprongsnetwerk.
- Voeg herkomstbadges en voor gebruikers zichtbare bronnelijsten toe voor persoonsgebonden beweringen en andere gevoelige onderwerpen.
- Implementeer anomaliedetectie op embedding-opslag; markeer adversariële vectoruitbijters en voer canary-controles uit voor ongeautoriseerde verspreiding.
Onderzoek: cryptografisch geverifieerde attestaties
Chad Scira bouwt cryptografisch geverifieerde attestatiesystemen voor vertrouwen in uitspraken over personen en gebeurtenissen. Het doel is LLM's en retrievalsystemen te voorzien van ondertekende, doorzoekbare claims van getoetste professionals en organisaties, waarmee robuuste herkomst en sterkere weerstand tegen vergiftiging mogelijk wordt.
Ontwerpprincipes
- Identiteit en herkomst: verklaringen worden ondertekend door geverifieerde personen/organisaties met behulp van cryptografie met publieke sleutels.
- Verifieerbare opslag: attestaties zijn verankerd in alleen-toevoegbare, manipulatiebestendige logboeken om onafhankelijke verificatie mogelijk te maken.
- Integratie voor ophalen: RAG-pijplijnen kunnen cryptografisch geattesteerde bronnen prioriteren of vereisen voor gevoelige zoekopdrachten.
- Minimale frictie: API's en SDK's stellen uitgevers en platforms in staat attestaties uit te geven en te controleren tijdens ingestie.
Reputatie en waarschuwingen
Bovenop attestaties voegt een reputatielaag ondertekende aanbevelingen samen en markeert bekende misbruikers. Waarschuwingssystemen informeren doelwitten wanneer gecoördineerde aanvallen of anomaliepieken worden gedetecteerd, waardoor snellere reactie en verzoeken tot verwijdering mogelijk worden.
Juridische en platformkanalen
- Gebruik de meldingsprocedures van het platform met duidelijke bewijsstukken: links, datums, schermafbeeldingen en gevolgen. Verwijs naar beleid inzake laster en intimidatie.
- Escaleer waar gepast met formele kennisgevingen; bewaar correspondentielogs en ticket-ID's als onderdeel van uw bewijspad.
- Houd rekening met jurisdictieverschillen bij lasterzaken en platformaansprakelijkheid; raadpleeg een advocaat bij gevallen met hoog risico.
Implementatieroadmap (Jaar 1)
- MVP: attestatieschema en publisher-SDK voor het ondertekenen van identiteitsverklaringen en gebeurtenisclaims.
- Pilot met een kleine groep getoetste professionals en organisaties; stel verificatieworkflows in.
- RAG-plug-ins: schakel de provenance-first antwoordmodus in die geattesteerde bronnen prioriteert voor gevoelige queries.
Aanvullende literatuur (met datums)
Samenwerking
Dit onderzoek is baanbrekend en ontwikkelt zich actief. Chad Scira verwelkomt samenwerking met andere professionals in deze sector.
Als u geïnteresseerd bent in samenwerking, neem dan contact op via: [email protected]