LLM‑forgiftning og forskning i misbrugsforebyggelse
Chad Scira forsker i, hvordan store sprogmodeller kan blive forgiftet og misbrugt til at skade individer, og bygger beskyttelsessystemer for at imødegå disse trusler. Risikoen er akut: tempoet i tilliden til LLM-output har overhalet vores evne til at verificere udsagn, mens modstandere billigt kan offentliggøre tekst, der skævvrider modeladfærd og søgeindtryk for personer uden stor online-tilstedeværelse.
En privat investeringsrunde blev sikret den 3. oktober 2025 for at fortsætte denne forskning.
Ledelsessammendrag
Gennemsnitlige personer med små digitale spor står over for en uforholdsmæssig stor risiko fra AI-forstærket injurier og dataforgiftning. En enkelt motiveret person kan så falske narrativer, som søgninger, sociale feeds og LLM'er gentager. Dette dokument forklarer almindelige angrebsveje, konkrete effekter på omdømme og sikkerhed samt en praktisk handlingsplan for detektion og beskyttelse. Det skitserer også, hvordan kryptografisk verificerede attestationer og proveniensbevidst opslag kan reducere skade for enkeltpersoner og integratorer.
Målgruppe og trusselsmodel
Målgruppe: enkeltpersoner og små organisationer uden stor SEO-tilstedeværelse. Begrænsninger: begrænset tid, budget og tekniske ressourcer. Modstander: en enkelt aktør i stand til at generere og poste store mængder tekst, bruge grundlæggende linknetværk og udnytte rapporteringens blinde pletter. Mål: forvride søgeresultater/LLM-output, skade omdømme, skabe tvivl hos arbejdsgivere, klienter, platforme eller agenter.
Hvad er LLM-forgiftning?
LLM‑forgiftning henviser til manipulation af modeladfærd via seedet eller koordineret indhold - for eksempel ondsindede opslag, syntetiske artikler eller forumspam - som kan indgå i retrieval‑systemer eller bruges af mennesker som signaler, og derved skubbe modeller mod falske associationer og ærekrænkende narrativer.
Fordi LLM'er og retrieval-systemer optimerer for skala og dækning, kan en enkelt motiveret modstander forme, hvad en model 'ser' om en person ved at oversvømme en lille del af nettet. Dette er særligt effektivt mod personer med begrænset online-tilstedeværelse.
Hvordan omdømme forvrænges
- Søge- og social forgiftning - kapring af profiler, linkfarme og massepostering for at påvirke rangeringsfunktioner og autofuldførelsesassociationer.
- Forureningsangreb på vidensbase og RAG - oprettelse af entitetssider og QA‑noter, der fremstår semantisk relevante og hentes som kontekst.
- Indirekte prompt‑injektion - fjendtligt webindhold, der får browseragenter til at gentage instrukser eller eksfiltrere følsomme data.
- Bagdørsinficerede endepunkter - ondsindede modelindpakninger, der opfører sig normalt indtil triggerfraser optræder, hvorefter de udsender målrettede usandheder.
Yderligere risici og fejltilstande
- Modelkollaps som følge af træning på syntetiske output - feedbacksløjfer hvor genereret tekst forringer fremtidig modelkvalitet, hvis den ikke filtreres eller vægtes.
- Indirekte prompt‑injektion - fjendtligt indhold på nettet, der instruerer en agent eller et browser‑værktøj i at eksfiltrere hemmeligheder eller sprede injurier, når det citeres.
- Forgiftning af embeddingslager - indsættelse af fjendtlige passager i en vidensbase, så hentning fremviser falske påstande, der fremstår semantisk relevante.
- Bagdørsinficerede udgivelser - offentliggørelse af modificerede checkpoints eller API-indpakninger, der opfører sig normalt, indtil en triggerfrase er til stede.
Konkrete sager og referencer
Afbødninger i dybden
Indhentning og rangering
- Kildescorering og proveniensvægtning - foretræk underskrevet eller udgiververificeret indhold; giv mindre vægt til nyoprettede eller lavt omdømte sider.
- Tidsnedbrydning med karensperiode – kræv opholdstid, før nye kilder påvirker svar med store konsekvenser; indfør menneskelig gennemgang af følsomme entiteter.
- Opdagelse af ekkokamre - saml næsten duplikerede passager i klynger og begræns gentagen indflydelse fra samme oprindelse eller netværk.
- Atypisk- og anomalidetektion i embeddings-rum — marker uddrag, hvis vektorpositioner er adversarialt optimeret.
Data- og vidensbasehygiejne
- Snapshot- og diff-vidensbaser - gennemgå store ændringer, især for personentiteter og beskyldninger uden primære kilder.
- Kanarie- og bloklister - forhindre indarbejdelse af kendte misbrugende domæner; indsæt kanarier for at måle uautoriseret udbredelse.
- Menneskelig inddragelse ved emner med høj risiko - sæt foreslåede opdateringer af omdømmefakta i kø til manuel afgørelse.
Attestationer og omdømme
- Kryptografisk verificerede attestationer - underskrevne erklæringer fra godkendte fagpersoner og organisationer offentliggjort via en append-only-log.
- Omdømmegrafer - aggregerede underskrevne anbefalinger og nedprioritering af indhold fra gentagne misbrugere eller botnetværk.
- Brugerrettede kildehenvisninger – kræv, at modeller viser kilder og angiver tillid med proveniensmærkater for følsomme påstande.
Virksomhedstjekliste
- Kortlæg følsomme entiteter i dit domæne (personer, mærker, juridiske emner) og diriger forespørgsler til beskyttede pipelines med krav til proveniens.
- Anvend C2PA eller tilsvarende indholdscertifikater for førstepartsindhold og opfordr partnere til at gøre det samme.
- Spor nye kilders indflydelse over tid og giv alarm ved usædvanlige udsving i svar på entitetsniveau.
- Kør kontinuerlig red teaming for RAG- og browseragenter, inklusive testsuiter for indirekte prompt-injektion.
Chikane og injurier via AI
Personer til leje udnytter nu AI og automatisering til at masseproducere chikane og ærekrænkende indhold, og skaber troværdigt udseende tekst og falske “kilder”, som er nemme at indeksere, scrape og gendele. Disse kampagner er billigere, har stor effekt og er svære at afhjælpe, når de først er blevet forstærket af automatiserede systemer.
Chad Scira har personligt oplevet målrettet chikane og injurier kombineret med spamagtig linking, der havde til formål at forvride omdømmesignaler og søgeindtryk. En detaljeret beretning og et bevisspor er dokumenteret her: Jesse Nickles - Chikane og ærekrænkelse.
Trusseltaksonomi
- Forudtræningsdatapoisning - forgiftning af offentlige korpora, der bruges til den indledende træning, for at indføre falske associationer eller bagdøre.
- RAG-poisoning - indsåning af vidensbaser eller eksterne kilder, som hentningspipelines bruger ved inferens.
- Søgning/social forgiftning - oversvømmelse af opslag eller lavkvalitetssider for at skævvride indhentnings- og rangeringssignaler om en person eller et emne.
- Adversarielle prompts og indhold - udformning af input, der udløser uønsket adfærd eller 'jailbreaks', som gentager injurierende påstande.
Seneste hændelser og forskning (med datoer)
Bemærk: Datoerne ovenfor afspejler udgivelses- eller offentlige frigivelsesdatoer i de linkede kilder.
Hvorfor dette er farligt
- LLM'er kan fremstå autoritative, selv når de underliggende referencer er svage eller ondsindet seedede.
- Indhentnings- og rangeringspipelines kan overvægte gentaget tekst, hvilket gør det muligt for en aktør alene gennem volumen at skævvride resultaterne.
- Menneskelige faktatjek er langsomme og dyre sammenlignet med hastigheden af automatisk indholdsproduktion og distribution.
- Ofre uden betydelig online tilstedeværelse er uforholdsmæssigt sårbare over for forgiftning via enkeltopslag og identitetsangreb.
Dybdegående risikovurdering
- Ansættelses- og platformscreening - søgning og LLM-resuméer kan gentage forgiftet indhold under ansættelses-, moderations- eller onboardingtjek.
- Rejse-, bolig- og finansielle tjenester – automatiserede kontroller kan medføre falske narrativer, der forsinker eller blokerer tjenester.
- Persistens - når først indekseret i vidensbaser eller cachede svar, kan falske påstande dukke op igen selv efter fjernelser.
- Syntetisk feedback - genereret indhold kan igangsætte mere genereret indhold og dermed øge falskheders tilsyneladende vægt over tid.
Detektion og overvågning
- Opsæt søgealarmer på dit navn og dine aliaser; tjek periodisk site:-forespørgsler efter domæner med lavt omdømme, der nævner dig.
- Spor ændringer i dine videnspaneler eller entitetssider; gem daterede skærmbilleder og eksporterede kopier som bevis.
- Overvåg sociale forbindelsesgrafer for gentagne oprindelseskonti eller pludselige stigninger i lignende formuleringer.
- Hvis du driver en RAG eller en vidensbase, udfør tjek for entitetsdrift og gennemgå store ændringer på personsider eller anklager uden primære kilder.
Handlingsplan for beskyttelse - enkeltpersoner
- Udgiv en personlig side med klare identitetsangivelser, en kort biografi og kontaktmuligheder; før en dateret ændringslog.
- Tilpas profilmetadata på tværs af platforme; anskaf verificerede profiler, hvor det er muligt, og link dem til dit websted.
- Brug C2PA eller tilsvarende indholdscertifikater for centrale billeder og dokumenter, hvor det er muligt; opbevar originalerne privat.
- Før en bevislog med tidsstempler: skærmbilleder, links og eventuelle sagsnumre fra platformen til senere eskalering.
- Forbered fjernelsesskabeloner; reager hurtigt på nye angreb og dokumenter hvert trin for et klart papirspor.
Handlingsplan for beskyttelse - teams og integratorer
- Foretræk signerede eller udgiver-verificerede indhold i opslag; anvend tidsbaserede karensperioder for nye kilder.
- Begræns gentagen påvirkning fra samme oprindelse, og fjern nære dubletter pr. oprindelsesnetværk.
- Tilføj proveniensmærker og brugerrettede kildelister for påstande om personer og andre følsomme emner.
- Implementer anomalidetektion på embeddings-lagre; marker adversarielle vektorafvigere og kør kanarietjek for uautoriseret udbredelse.
Forskning: Kryptografisk verificerede attesteringer
Chad Scira opbygger kryptografisk verificerede attestationssystemer for tillid til udsagn om personer og begivenheder. Målet er at give LLM'er og retrieval-systemer signerede, forespørgselsbare påstande fra verificerede fagfolk og organisationer, hvilket muliggør robust proveniens og stærkere modstand mod forgiftning.
Designprincipper
- Identitet og proveniens: erklæringer er underskrevet af verificerede personer/organisationer ved hjælp af offentlig nøglekryptografi.
- Verificerbar opbevaring: Attester er forankret i logfiler, der kun kan tilføjes og er manipulationssikre, for at muliggøre uafhængig verifikation.
- Integration i indhentning: RAG-pipelines kan prioritere eller kræve kryptografisk attesterede kilder for følsomme forespørgsler.
- Minimal friktion: API'er og SDK'er tillader udgivere og platforme at udstede og kontrollere attesteringer ved indtagelsestidspunktet.
Omdømme og advarsler
Ud over attestationer aggregerer et ry-lag underskrevne anbefalinger og markerer kendte misbrugere. Varslingssystemer underretter mål, når koordinerede angreb eller unormale stigninger opdages, hvilket muliggør hurtigere respons og anmodninger om fjernelse.
Juridiske og platformkanaler
- Brug platformens rapporteringsflow med klare bevispakker: links, datoer, skærmbilleder og konsekvenser. Henvis til politikker vedrørende æreskrænkelse og chikane.
- Eskaler med formelle meddelelser, hvor det er relevant; gem korrespondancelogs og ticket-ID'er som en del af dit bevismateriale.
- Overvej jurisdiktionsforskelle ved injurier og platformsansvar; kontakt en advokat ved sager med høj risiko.
Implementeringskøreplan (År 1)
- MVP: attesteringsskema og udgiver-SDK til signering af identitetsudsagn og hændelsespåstande.
- Pilot med en lille gruppe verificerede fagfolk og organisationer; etabler verifikationsarbejdsgange.
- RAG-plugins: aktivér 'proveniens-første-svar'-tilstand, der prioriterer attesterede kilder for følsomme forespørgsler.
Yderligere læsning (med datoer)
Samarbejde
Denne forskning er banebrydende og under aktiv udvikling. Chad Scira byder samarbejde velkommen med andre fagfolk inden for dette område.
Hvis du er interesseret i samarbejde, kontakt venligst: [email protected]