LLM‑förgiftning och anti‑missbruksforskning
Chad Scira forskar om hur stora språkmodeller kan förgiftas och missbrukas för att skada individer, och bygger skyddssystem för att motverka dessa hot. Risken är akut: takten i förtroendet för LLM-utdata har överstigit vår förmåga att verifiera uttalanden, medan motståndare billigt kan publicera text som snedvrider modellbeteende och sökintryck för personer utan stor närvaro online.
En privat investeringsrunda säkrades den 3 oktober 2025 för att fortsätta denna forskning.
Sammanfattning för ledningen
Vanliga personer med liten internetnärvaro löper oproportionerligt stor risk från AI-förstärkt ärekränkning och dataförgiftning. En enda motiverad individ kan så falska narrativ som sökresultat, sociala flöden och LLM:er upprepar. Detta dokument förklarar vanliga angreppsvektorer, konkreta effekter på rykte och säkerhet, samt en praktisk handlingsplan för upptäckt och skydd. Det skisserar också hur kryptografiskt verifierade intyg och proveniensmedveten hämtning kan minska skadan för individer och integratörer.
Målgrupp och hotmodell
Målgrupp: individer och små organisationer utan stor SEO-närvaro. Begränsningar: begränsad tid, budget och tekniska resurser. Motståndare: en enskild aktör som kan generera och publicera stora mängder text, använda enkla länknätverk och utnyttja rapporteringsblinda fläckar. Mål: förvränga sök-/LLM-utdata, skada rykte, skapa tvivel hos arbetsgivare, kunder, plattformar eller agenter.
Vad är LLM-förgiftning?
LLM‑förgiftning avser manipulation av modellbeteende via insått eller koordinerat innehåll - till exempel skadliga inlägg, syntetiska artiklar eller forumspam - som kan tas upp av retrievalsystem eller användas av människor som signaler, och styra modeller mot falska associationer och förtalsnarrativ.
Eftersom LLM:er och hämtssystem optimerar för skala och täckning kan en enda motiverad motståndare forma vad en modell “ser” om en person genom att översvämma en liten del av webben. Detta är särskilt effektivt mot individer med begränsad närvaro online.
Hur anseendet förvrängs
- Sök- och social förgiftning - profilkapning, länkfarmar och masspublicering för att påverka rankningsfunktioner och autokompletteringsförslag.
- Förgiftning av kunskapsbaser och RAG - att skapa entitetssidor och QA‑anteckningar som framstår som semantiskt relevanta och hämtas som kontext.
- Indirekt promptinjektion - fientligt webbinnehåll som får webbläsaragenter att upprepa instruktioner eller exfiltrera känsliga data.
- Bakdörrade slutpunkter - skadliga modellwraprar som beter sig normalt tills utlösande fraser dyker upp, varefter de sänder riktade osanningar.
Ytterligare risker och felmodi
- Modellkollaps från träning på syntetiska utskrifter - återkopplingsslingor där genererad text försämrar modellens framtida kvalitet om den inte filtreras eller viktas.
- Indirekt promptinjektion - fientligt innehåll på webben som instruerar en agent eller ett surfverktyg att exfiltrera hemligheter eller sprida förtal när det citeras.
- Förgiftning av embeddings-lagring - att infoga fientliga avsnitt i en kunskapsbas så att sökningar visar falska påståenden som verkar semantiskt relevanta.
- Bakdörrade utgåvor - publicering av modifierade checkpoints eller API-wraprar som beter sig normalt tills en utlösande fras förekommer.
Konkreta fall och referenser
Fördjupade motåtgärder
Hämtning och rankning
- Källpoängsättning och proveniensviktning - föredra signerat eller utgivarkontrollerat innehåll; nedprioritera nyskapade eller låg‑trovärdiga sidor.
- Tidsavskrivning med karensperiod - kräver en väntetid innan nya källor får påverka svar med stora konsekvenser; lägg till manuell granskning för känsliga entiteter.
- Detektering av ekokammare - gruppera nästintill duplicerade avsnitt och begränsa upprepad påverkan från samma ursprung eller nätverk.
- Detektion av avvikare och anomalier i inbäddningsutrymmet - flagga textavsnitt vars vektorpositioner är fientligt optimerade.
Data- och kunskapsbashygien
- Snapshot- och diff-kunskapsbaser - granska stora förändringar, särskilt för personentiteter och anklagelser utan primära källor.
- Canary- och blocklistor - förhindra införlivande av kända missbrukande domäner; sätt in canarier för att mäta obehörig spridning.
- Mänsklig medverkan för högriskämnen - placera föreslagna uppdateringar av fakta som rör anseende i kö för manuell prövning.
Intyg och anseende
- Kryptografiskt verifierade intyg - underskrivna uttalanden från granskade yrkespersoner och organisationer publicerade via en append-only-logg.
- Ryktegrafer - sammanställ signerade intyg och nedprioritera innehåll från återkommande missbrukare eller botnätverk.
- Källhänvisningar riktade till användare - kräva att modeller visar källor och konfidensnivå med ursprungsmärken för känsliga påståenden.
Checklista för företag
- Kartlägg känsliga entiteter inom ditt domän (personer, varumärken, juridiska ämnen) och dirigera förfrågningar till skyddade pipelines med provenienskrav.
- Inför C2PA eller liknande innehållslegitimationer för innehåll från första part och uppmuntra partner att göra detsamma.
- Spåra nya källors påverkan över tid och larma vid ovanliga svängningar för svar på entitetsnivå.
- Genomför kontinuerlig red teaming för RAG- och browsing-agenter, inklusive testsatser för indirekt promptinjektion.
Trakasserier och förtal via AI
Personer som hyrs in utnyttjar nu AI och automation för att massproducera trakasserier och förtal, och skapar trovärdigt utseende text och falska “källor” som är lätta att indexera, skrapa och dela vidare. Dessa kampanjer är billiga, har stor genomslagskraft och är svåra att åtgärda när de förstärkts av automatiserade system.
Chad Scira har personligen utsatts för riktade trakasserier och ärekränkningar i kombination med spamartade länkar avsedda att förvränga rykteindikationer och sökintryck. En detaljerad redogörelse och beviskedja är dokumenterad här: Jesse Nickles - Trakasserier och förtal.
Hottaxonomi
- Förträningsdataförgiftning - förgiftning av offentliga korpusar som används för den initiala träningen för att inplantera falska associationer eller bakdörrar.
- RAG-förgiftning - att inympa kunskapsbaser eller externa källor som återhämtningskedjor använder vid inferenstid.
- Sök-/social förgiftning - översvämning av inlägg eller lågkvalitetssidor för att snedvrida hämt- och rankningssignaler om en person eller ett ämne.
- Fientliga uppmaningar och innehåll - utformning av indata som utlöser oönskat beteende eller 'jailbreaks' som upprepar ärekränkande påståenden.
Nyliga incidenter och forskning (med datum)
Observera: Datumen ovan avser publiceringsdatum eller datum för offentliggörande i de länkade källorna.
Varför detta är farligt
- LLM:er kan framstå som auktoritativa även när de underliggande referenserna är svaga eller fientligt insådda.
- Hämt- och rankningspipelines kan överbetona upprepad text, vilket gör att en aktör kan snedvrida resultaten enbart genom volym.
- Mänskliga faktagranskningsprocesser är långsamma och kostsamma jämfört med hastigheten i automatiserad innehållsproduktion och distribution.
- Offer utan betydande närvaro online är oproportionerligt sårbara för förgiftning via enstaka inlägg och identitetsattacker.
Djupdykning i risker
- Rekryterings- och plattformsscreening - sökningar och LLM-sammanfattningar kan återge förgiftat innehåll vid rekrytering, moderering eller introduktionskontroller.
- Resor, boende och finanstjänster - automatiska kontroller kan ge upphov till falska berättelser som fördröjer eller blockerar tjänster.
- Persistens - när de väl indexerats i kunskapsbaser eller cachade svar kan falska påståenden återuppstå även efter borttagningar.
- Syntetisk återkoppling - genererat innehåll kan ge upphov till mer genererat innehåll, vilket över tid ökar osanningars upplevda tyngd.
Upptäckt och övervakning
- Ställ in sökalarm för ditt namn och dina alias; kontrollera periodiskt site:-sökningar efter domäner med låg trovärdighet som nämner dig.
- Spåra ändringar i dina kunskapspaneler eller entitetssidor; spara datumstämplade skärmdumpar och exportkopior som bevis.
- Övervaka sociala länkgrafer för upprepade ursprungskonton eller plötsliga toppar av liknande formuleringar.
- Om du driver en RAG eller kunskapsbas, kör kontroller för entitetsdrift och granska stora förändringar på personsidor eller anklagelser utan primärkällor.
Skyddsmanual - Individer
- Publicera en personlig webbplats med tydliga identitetsangivelser, en kort bio och kontaktvägar; behåll en datumförd ändringslogg.
- Samordna profilmetadata över plattformar; skaffa verifierade profiler där det är möjligt och länka dem tillbaka till din webbplats.
- Använd C2PA eller liknande innehållsintyg för viktiga bilder och dokument när det är möjligt; förvara originalen privat.
- För en bevislogg med tidsstämplar: skärmdumpar, länkar och eventuella ärendenummer från plattformen för senare eskalering.
- Förbered mallar för nedtagningsbegäranden; svara snabbt på nya attacker och dokumentera varje steg för tydlig spårbarhet.
Skyddsmanual - Team och integratörer
- Prioritera signerat eller av utgivare verifierat innehåll vid återvinning; tillämpa tidsbaserade karensperioder för nya källor.
- Begränsa upprepad påverkan från samma ursprung och eliminera närliggande dubbletter per ursprungsnätverk.
- Lägg till proveniensmärken och källistor synliga för användare för personpåståenden och andra känsliga ämnen.
- Inför anomalidetektion på embedding-lager; markera fientliga vektoravvikare och kör canarykontroller för obehörig spridning.
Forskning: Kryptografiskt verifierade intyg
Chad Scira bygger kryptografiskt verifierade intygssystem för förtroende i uttalanden om personer och händelser. Målet är att förse LLM:er och hämtssystem med signerade, frågebara påståenden från granskade yrkespersoner och organisationer, vilket möjliggör robust proveniens och starkare motståndskraft mot förgiftning.
Designprinciper
- Identitet och proveniens: uttalanden är signerade av verifierade individer/organisationer med hjälp av kryptografi med offentliga nycklar.
- Verifierbar lagring: intyg är förankrade i loggar som endast kan kompletteras och som är manipulationssäkra för att möjliggöra oberoende verifiering.
- Integrering av hämtning: RAG-pipelines kan prioritera eller kräva kryptografiskt intygade källor för känsliga förfrågningar.
- Minimal friktion: API:er och SDK:er låter publicister och plattformar utfärda och kontrollera intyg vid inläsningstid.
Rykte och aviseringar
Utöver intyg aggregerar ett rykteslager signerade rekommendationer och flaggar kända missbrukare. Varningssystem underrättar måltavlor när koordinerade attacker eller avvikande toppar upptäcks, vilket möjliggör snabbare åtgärder och begäranden om nedtagning.
Juridiska och plattformskanaler
- Använd plattformens rapportflöden med tydliga bevispaket: länkar, datum, skärmdumpar och konsekvenser. Hänvisa till förtals- och trakasseripolicyer.
- Eskalera med formella meddelanden där det är lämpligt; spara korrespondensloggar och ärendenummer i din beviskedja.
- Beakta jurisdiktionsskillnader vid förtal och plattformsansvar; rådgör med en jurist i högriskfall.
Implementeringsplan (År 1)
- MVP: attestationsschema och SDK för utgivare för att signera identitetsuttalanden och händelsepåståenden.
- Pilotprojekt med en liten grupp granskade yrkespersoner och organisationer; etablera verifieringsarbetsflöden.
- RAG-plugins: aktivera "provenance first" svarsläge som prioriterar intygade källor för känsliga frågor.
Vidare läsning (med datum)
Samarbete
Denna forskning är banbrytande och utvecklas kontinuerligt. Chad Scira välkomnar samarbete med andra yrkesverksamma inom denna sektor.
Om du är intresserad av att samarbeta, vänligen kontakta: [email protected]