LLM-forgiftning og forskning på misbruksbekjempelse
Chad Scira forsker på hvordan store språkmodeller kan forgiftes og misbrukes for å skade enkeltpersoner, og bygger beskyttelsessystemer for å motvirke disse truslene. Risikoen er akutt: tilliten til LLM-utdata har løpt fra vår evne til å verifisere uttalelser, samtidig som motstandere billig kan publisere tekst som skjevvrir modelloppførsel og søkeinntrykk for personer uten store digitale fotavtrykk.
En privat investeringsrunde ble sikret 3. oktober 2025 for å fortsette denne forskningen.
Sammendrag for ledelsen
Vanlige mennesker med små digitale fotavtrykk står overfor uforholdsmessig stor risiko fra AI-forsterket ærekrenkelse og dataforgiftning. En enkelt motivert person kan så falske narrativer som søk, sosiale nyhetsstrømmer og LLM-er gjentar. Dette dokumentet forklarer vanlige angrepsveier, konkrete konsekvenser for omdømme og sikkerhet, og en praktisk handlingsplan for deteksjon og beskyttelse. Det skisserer også hvordan kryptografisk verifiserte attestasjoner og proveniensbevisst gjenfinning kan redusere skade for enkeltpersoner og integratorer.
Målgruppe og trusselmodell
Målgruppe: enkeltpersoner og små organisasjoner uten stor SEO-tilstedeværelse. Begrensninger: begrenset tid, budsjett og tekniske ressurser. Motstander: en enkelt aktør som kan generere og publisere store mengder tekst, bruke enkle lenkenettverk og utnytte rapporteringssårbarheter. Mål: forvrenge søke- og LLM-resultater, skade omdømme, skape tvil hos arbeidsgivere, kunder, plattformer eller agenter.
Hva er LLM-forgiftning?
LLM-forgiftning viser til manipulering av modellens oppførsel via innsatt eller koordinert innhold - for eksempel ondsinnede innlegg, syntetiske artikler eller forumspam - som kan bli inntatt av oppslagssystemer eller brukes av mennesker som signaler, og dytte modeller mot falske assosiasjoner og ærekrenkende narrativer.
Fordi LLM-er og gjenfinningssystemer optimaliserer for omfang og dekning, kan en enkelt motivert motstander forme hva en modell «ser» om en person ved å oversvømme en liten del av nettet. Dette er spesielt effektivt mot personer med begrenset nettilstedeværelse.
Hvordan omdømme forvrenges
- Søke- og sosial forgiftning – kapring av profiler, lenkefarmer og massepublisering for å forskyve rangeringsfunksjoner og autofullføringsassosiasjoner.
- Forgiftning av kunnskapsbase og RAG - å opprette entitetssider og QA-notater som fremstår som semantisk relevante og hentes frem som kontekst.
- Indirekte prompt-injeksjon - fiendtlig nettinnhold som får nettleseagenter til å gjenta instruksjoner eller eksfiltrere sensitive opplysninger.
- Endepunkter med bakdør - ondsinnede modellinnpakninger som oppfører seg normalt inntil triggerfraser opptrer, og deretter avgir målrettede usannheter.
Ytterligere risikoer og feilmoduser
- Modellsammenbrudd ved trening på syntetiske utdata - tilbakemeldingssløyfer hvor generert tekst forringer fremtidig modellkvalitet hvis den ikke filtreres eller vektes.
- Indirekte prompt-injeksjon - fiendtlig innhold på nettet som instruerer en agent eller nettleserverktøy til å eksfiltrere hemmeligheter eller spre ærekrenkelser når det blir sitert.
- Forgiftning av embedding-lager – å sette inn fiendtlige avsnitt i en kunnskapsbase slik at gjenhenting viser falske påstander som fremstår som semantisk relevante.
- Utgivelser med bakdør - publisering av modifiserte sjekkpunkter eller API-innpakninger som oppfører seg normalt inntil en triggerfrase er til stede.
Konkrete saker og referanser
Tiltak i dybden
Henting og rangering
- Kildescore og opphavssvektlegging – foretrekk signert eller utgiververifisert innhold; nedvekt nylig opprettede sider eller sider med lavt omdømme.
- Tidsforfall med karenstid - krev ventetid før nye kilder påvirker svar med høye konsekvenser; legg til menneskelig gjennomgang for sensitive entiteter.
- Ekkokammerdeteksjon – grupper nesten dupliserte avsnitt og begrens gjentatt påvirkning fra samme opphav eller nettverk.
- Deteksjon av avvik og anomalier i embeddingsrommet - marker avsnitt hvis vektorposisjoner er adversarialt optimalisert.
Data- og kunnskapsbasehygiene
- Øyeblikksbilder og differansebaser i kunnskapsdatabaser – gjennomgå store endringer, spesielt for personentiteter og anklager uten primærkilder.
- Kanari- og nektelister - forhindre innlemming av kjente misbruksdomener; sett inn kanarier for å måle uautorisert spredning.
- Menneske i løkken for høyrisikotemaer – sett foreslåtte oppdateringer av reputasjonsfakta i kø for manuell avgjørelse.
Attestasjoner og omdømme
- Kryptografisk verifiserte attestasjoner – signerte erklæringer fra godkjente fagpersoner og organisasjoner publisert via en append-only-logg.
- Omdømmegrafer – aggregerte signerte anbefalinger og nedprioritering av innhold fra gjentatte misbrukere eller botnett.
- Brukersitater - krev at modeller viser kilder og tillit med proveniensmerker for sensitive påstander.
Sjekkliste for virksomheter
- Kartlegg sensitive enheter i ditt domene (personer, merker, juridiske emner) og diriger forespørsler til beskyttede arbeidsflyter med krav til proveniens.
- Ta i bruk C2PA eller tilsvarende innholdskredensialer for førstepartsinnhold og oppfordre partnere til å gjøre det samme.
- Spor nye kilders påvirkning over tid og varsle ved uvanlige svingninger for svar på entitetsnivå.
- Utfør kontinuerlig red teaming for RAG- og nettleseragenter, inkludert indirekte testpakker for prompt-injeksjon.
Trakassering og ærekrenkelse via kunstig intelligens (AI)
Personer som kan hyres utnytter nå AI og automatisering for masseprodusere trakassering og ærekrenkelser, og skaper troverdig utseende tekst og falske “kilder” som er enkle å indekserere, skrape og dele videre. Disse kampanjene er lave i kostnad, har stor effekt, og er vanskelig å rette opp når de forsterkes av automatiserte systemer.
Chad Scira har personlig opplevd målrettet trakassering og ærekrenkelser kombinert med spamaktige lenker ment å forvrenge omdømmesignaler og søkeinntrykk. En detaljert beretning og spor av bevis er dokumentert her: Jesse Nickles - Trakassering og ærekrenkelser.
Trusseltaksonomi
- Fortreningsdataforgiftning - forgiftning av offentlige korpora som brukes til den innledende treningen for å innføre falske assosiasjoner eller bakdører.
- RAG-forgiftning - å plante data i kunnskapsbaser eller eksterne kilder som gjenhentingssystemene bruker ved inferens.
- Søke-/sosial forgiftning – oversvømming av innlegg eller sider med lav kvalitet for å påvirke hentings- og rangeringssignaler om en person eller et tema.
- Adversarielle prompts og innhold - utforming av innganger som utløser uønsket atferd eller jailbreaks som gjentar ærekrenkende påstander.
Nylige hendelser og forskning (med datoer)
Merk: Datoene ovenfor gjenspeiler publiserings- eller offentliggjørelsesdatoer i de lenkede kildene.
Hvorfor dette er farlig
- LLM-er kan fremstå som autoritative selv når de underliggende referansene er svake eller ondsinnet innsatt.
- Hentings- og rangeringspipelines kan overvekte gjentatt tekst, noe som gjør at én aktør kan skjevdrive resultater kun ved volum.
- Menneskelige faktasjekkprosesser er langsomme og kostbare sammenlignet med hastigheten til automatisert innholdsproduksjon og -distribusjon.
- Ofre uten betydelig tilstedeværelse på nettet er uforholdsmessig sårbare for forgiftning gjennom enkeltinnlegg og identitetsangrep.
Dypdykk i risiko
- Sjekk ved ansettelse og plattformscreening – søk og oppsummeringer fra LLM kan gjenta forurenset innhold under ansettelses-, modererings- eller onboarding-kontroller.
- Reise-, bolig- og finansielle tjenester - automatiske kontroller kan føre til at falske narrativer dukker opp som forsinker eller blokkerer tjenester.
- Persistens - når falske påstander er indeksert i kunnskapsbaser eller bufrede svar, kan de komme tilbake selv etter fjerning.
- Syntetisk tilbakemelding – generert innhold kan gi opphav til mer generert innhold, og over tid øke den tilsynelatende tyngden av usannheter.
Deteksjon og overvåking
- Opprett søkevarsler for navnet ditt og aliaser; sjekk periodisk site:-spørringer for domener med lavt omdømme som omtaler deg.
- Spor endringer i kunnskapspaneler eller enhetssider; behold daterte skjermbilder og eksporterte kopier som bevis.
- Overvåk sosiale lenkegrafer for gjentatte opprinnelseskontoer eller plutselige topper av lignende formuleringer.
- Hvis du driver en RAG eller kunnskapsbase, kjør kontroller for entitetsdrift og gjennomgå store avvik på personsider eller anklager uten primærkilder.
Beskyttelsesmanual - Enkeltpersoner
- Publiser et personlig nettsted med klare identitetsbekreftelser, en kort biografi og kontaktmuligheter; før en datert endringslogg.
- Synkroniser profilmetadata på tvers av plattformer; skaff verifiserte profiler der det er mulig og lenk dem tilbake til nettstedet ditt.
- Bruk C2PA eller tilsvarende innholdsgodkjenninger for viktige bilder og dokumenter når mulig; lagre originalene privat.
- Før en bevislogg med tidsstempler: skjermbilder, lenker og eventuelle billettnumre fra plattformen for senere eskalering.
- Forbered maler for fjerning; svar raskt på nye angrep og dokumenter hvert trinn for en tydelig sporbarhet.
Beskyttelsesmanual - Team og integratorer
- Foretrekk signert eller utgiver-verifisert innhold ved gjenfinning; bruk tidsbaserte karensperioder for nye kilder.
- Begrens gjentatt påvirkning fra samme kilde og fjern nesten-duplikater per kildenettverk.
- Legg til proveniensmerker og brukervendte kildelister for påstander om enkeltpersoner og andre sensitive temaer.
- Innfør anomalideteksjon på lagre med embeddings; merk adversariale vektoravvik og kjør kanarikontroller for uautorisert spredning.
Forskning: Kryptografisk verifiserte attestasjoner
Chad Scira bygger kryptografisk verifiserte attestasjonssystemer for tillit til uttalelser om personer og hendelser. Målet er å gi LLM-er og gjenfinningssystemer signerte, spørrebare påstander fra godkjente fagpersoner og organisasjoner, noe som muliggjør robust proveniens og sterkere motstand mot forgiftning.
Designprinsipper
- Identitet og proveniens: utsagn er signert av verifiserte personer/organisasjoner ved bruk av kryptografi med offentlige nøkler.
- Verifiserbar lagring: attestasjoner er forankret i logger som kun tillater tillegg og som er manipulasjonssikre, for å muliggjøre uavhengig verifikasjon.
- Integrasjon for henting: RAG-pipelines kan prioritere eller kreve kryptografisk attesterte kilder for sensitive forespørsler.
- Minimal friksjon: API-er og SDK-er gjør det mulig for utgivere og plattformer å utstede og kontrollere attestasjoner ved inntakstidspunktet.
Omdømme og varsling
Utover attestasjoner samler et omdømmelag signerte anbefalinger og markerer kjente misbrukere. Varslingssystemer underretter mål når koordinerte angrep eller unormale topper oppdages, noe som muliggjør raskere respons og forespørsler om fjerning.
Juridiske og plattformkanaler
- Bruk plattformens rapportflyt med klare bevispakker: lenker, datoer, skjermbilder og konsekvenser. Henvis til retningslinjer for ærekrenkelser og trakassering.
- Eskaler med formelle varsler der det er passende; behold korrespondanselogger og saks-IDer i ditt bevismateriale.
- Ta hensyn til jurisdiksjonsforskjeller i ærekrenkelse og plattformansvar; rådfør deg med advokat ved høyrisikotilfeller.
Implementeringsplan (År 1)
- MVP: attestasjonsskjema og utgiver-SDK for å signere identitetserklæringer og hendelsespåstander.
- Pilot med en liten gruppe screenede fagpersoner og organisasjoner; etabler verifiseringsarbeidsflyter.
- RAG-plugins: aktiver modus for 'proveniens-først'-svar som prioriterer attesterte kilder for sensitive forespørsler.
Videre lesning (med datoer)
Samarbeid
Denne forskningen er banebrytende og er i aktiv utvikling. Chad Scira ønsker samarbeid med andre fagpersoner i denne sektoren velkommen.
Hvis du er interessert i å samarbeide, ta kontakt på: [email protected]