Forskning om ryktesskydd och LLM-förgiftning

Denna sida är ett dedikerat forskningsarkiv om LLM-förgiftning, anti-missbrukssystem och ryktesskydd. Riskerna är akuta: tilltron till LLM-utdata har vuxit snabbare än vår förmåga att verifiera påståenden, samtidigt som motståndare billigt kan publicera texter som snedvrider modellbeteenden och sökintryck av personer utan stora digitala fotavtryck.

Sammanfattning för ledningen

Vanliga personer med liten internetnärvaro löper oproportionerligt stor risk från AI-förstärkt ärekränkning och datapoisning. En enda motiverad individ kan så falska narrativ som sökningar, sociala flöden och LLM:er upprepar. Detta dokument förklarar vanliga angreppsvektorer, konkreta effekter på rykte och säkerhet, samt en praktisk handlingsplan för upptäckt och skydd. Det beskriver också hur kryptografiskt verifierade intyg och provenansmedveten hämtning kan minska skadorna för individer och integratörer.

Målgrupp och hotmodell

Målgrupp: privatpersoner och små organisationer utan stor SEO-närvaro. Begränsningar: begränsad tid, budget och tekniska resurser. Motståndare: en enskild aktör som kan skapa och publicera stora mängder text, använda enkla länk-nätverk och utnyttja anmälningsblinda fläckar. Mål: förvränga sök-/LLM-utdata, skada rykte, skapa tvivel hos arbetsgivare, klienter, plattformar eller ombud.

Vad är LLM-förgiftning?

LLM-förgiftning avser manipulation av modellbeteende via insådda eller koordinerade innehåll — till exempel skadliga inlägg, syntetiska artiklar eller forums‑spam — som kan läsas in av sök-/retrievalsystem eller användas av människor som signaler, vilket knuffar modeller mot falska associationer och förtalande narrativ.

Eftersom LLM:er och återhämtningssystem optimerar för skala och täckning kan en enda motiverad motståndare forma vad en modell "ser" om en person genom att översvämma en liten del av webben. Detta är särskilt effektivt mot personer med begränsad online-närvaro.

Hur anseendet förvrängs

  • Sök- och social förgiftning – profilkapning, länkfarmar och masspublicering för att snedvrida rankningsfunktioner och autokompletteringsassociationer.
  • Förgiftning av kunskapsbas och RAG - skapa entitetssidor och QA-anteckningar som verkar semantiskt relevanta och hämtas som kontext.
  • Indirekt promptinjektion - fientligt webbinnehåll som får surfagenter att upprepa instruktioner eller exfiltrera känsliga data.
  • Bakdörrade endpunkter - skadliga omslag runt modeller som beter sig normalt tills triggerfraser uppträder, och då ger riktade osanningar.

Ytterligare risker och feltyper

  • Modellkollaps vid träning på syntetiska utdata – återkopplingsslingor där genererad text försämrar den framtida modellkvaliteten om den inte filtreras eller viktas.
  • Indirekt promptinjektion - fientligt innehåll på webben som instruerar en agent eller ett webbläsarverktyg att exfiltrera hemligheter eller sprida förtal när det citeras.
  • Förgiftning av embedding-lager - infogande av illasinnade avsnitt i en kunskapsbas så att hämtning visar falska påståenden som ser semantiskt relevanta ut.
  • Bakdörrade utgåvor - publicering av modifierade checkpoints eller API-wrapperar som beter sig normalt tills en triggerfras förekommer.

Konkreta fall och referenser

Fördjupade motåtgärder

Hämtning och rankning

  • Källpoängsättning och proveniensviktning – föredra signerat eller utgivarbekräftat innehåll; ge lägre vikt åt nyligen skapade sidor eller sidor med låg trovärdighet.
  • Tidsförfall med nådperiod - kräver en minimitid innan nya källor får påverka svar med stora konsekvenser; lägg till mänsklig granskning för känsliga entiteter.
  • Upptäckt av ekokammare - gruppera nästan identiska avsnitt och begränsa upprepat inflytande från samma ursprung eller nätverk.
  • Avvikelse- och anomalidetektion i embeddings‑rymden – flagga avsnitt vars vektorpositioner är adversarialt optimerade.

Data- och kunskapsbashygien

  • Skapa snapshots och diffa kunskapsbaser – granska stora förändringar, särskilt för personentiteter och anklagelser utan primärkällor.
  • Canary- och blocklistor - förhindra införande av kända missbrukande domäner; infoga canaries för att mäta obehörig spridning.
  • Människa i loopen för hög-riskämnen - köa föreslagna uppdateringar av faktauppgifter om anseende för manuell prövning.

Intyg och rykte

  • Kryptografiskt verifierade intyg - signerade uttalanden från granskade yrkespersoner och organisationer publicerade via en append-only-logg.
  • Ryktegrafer – aggregera signerade intyganden och nedprioritera innehåll från upprepade missbrukare eller botnätverk.
  • Citat som visas för användare - kräva att modeller visar källor och konfidensnivåer med proveniensmärken för känsliga påståenden.

Företagschecklista

  • Kartlägg känsliga entiteter i din domän (personer, varumärken, juridiska ämnen) och dirigera förfrågningar till skyddade pipelines med krav på proveniens.
  • Inför C2PA eller liknande innehållsintyg för förstapartinnehåll och uppmuntra partners att göra detsamma.
  • Spåra nya källors påverkan över tid och larma vid ovanliga svängningar för svar på entitetsnivå.
  • Kör kontinuerligt red teaming för RAG- och webbläsningsagenter, inklusive testsviter för indirekt promptinjektion.

Trakasserier och förtal via AI

Personer som går att anlita använder nu AI och automation för att massproducera trakasserier och förtal, och skapar text som ser trovärdig ut samt falska “källor” som är lätta att indexera, skrapa och återpublicera. Dessa kampanjer är billiga, har stor effekt och är svåra att åtgärda när de väl förstärkts av automatiska system.

Chad Scira har personligen upplevt riktad trakasseri och ärekränkning tillsammans med spamliknande länkning avsedd att förvränga ryktessignaler och sökinslag. En detaljerad redogörelse och beviskedja dokumenteras här: Jesse Nickles - Trakasserier och förtal.

En nylig incident på Stack Exchange visar hur koordinerade kontonätverk kan tillverka förtroende på plattformar som normalt bär starka trovärdighetssignaler. Offentliga 100-åriga avstängningar över flera relaterade konton, följt av vedergällande publiceringar på andra plattformar, gör detta till en användbar fallstudie för provenansmedveten rangordning och system mot missbruk: Incident om trakasserier och förtal på Stack Exchange.

Hottaxonomi

  • Förträningsdataförgiftning – förgiftning av offentliga korpusar som används för initial träning för att inplantera falska associationer eller bakdörrar.
  • RAG-förgiftning – att plantera innehåll i kunskapsdatabaser eller externa källor som hämtningspipelines använder vid inferenstid.
  • Sök-/social förgiftning – att översvämma med inlägg eller lågkvalitetssidor för att snedvrida hämt- och rankningssignaler om en person eller ett ämne.
  • Fientliga prompts och innehåll - utformning av indata som utlöser oönskade beteenden eller jailbreaks som upprepar ärekränkande påståenden.

Senaste incidenter och forskning (med datum)

Observera: Datumen ovan avser publicerings- eller offentliggörandedatum i de länkade källorna.

Varför det här är farligt

  • LLM-modeller kan framstå som auktoritativa även när de underliggande referenserna är svaga eller fientligt insådda.
  • Hämtnings- och rankningspipelines kan ge för stor vikt åt upprepad text, vilket gör att en aktör kan snedvrida resultaten med enbart volym.
  • Mänskliga faktakontroller är långsamma och kostsamma jämfört med hastigheten hos automatisk innehållsproduktion och distribution.
  • Offer utan betydande närvaro online är oproportionerligt sårbara för förgiftning via ett enstaka inlägg och identitetsattacker.

Djupdykning i risker

  • Anställnings- och plattformsgranskning - sökningar och LLM-sammanfattningar kan återge förgiftat innehåll vid anställnings-, modererings- eller introduktionskontroller.
  • Resor, boende och finansiella tjänster - automatiska kontroller kan ge upphov till falska narrativ som fördröjer eller blockerar tjänster.
  • Persistens – när de väl indexerats i kunskapsbaser eller som cachade svar kan falska påståenden återuppstå även efter nedtagningar.
  • Syntetisk återkoppling – genererat innehåll kan ge upphov till mer genererat innehåll, vilket över tid ökar den skenbara tyngden av osanningar.

Upptäckt och övervakning

  • Ställ in sökvarningar för ditt namn och alias; kontrollera regelbundet site: queries efter domäner med låg trovärdighet som nämner dig.
  • Spåra ändringar i dina kunskapspaneler eller entitetssidor; spara daterade skärmdumpar och exporterade kopior som bevis.
  • Övervaka sociala länkgrafer för upprepade ursprungskonton eller plötsliga toppar av liknande formuleringar.
  • Om du driver en RAG eller kunskapsbas, kör kontroller för entity drift och granska stora förändringar på personsidor eller anklagelser utan primärkällor.

Skyddshandbok - Privatpersoner

  • Publicera en personlig webbplats med tydliga identitetsangivelser, en kort biografi och kontaktvägar; behåll en daterad ändringslogg.
  • Justera profilmetadata över plattformar; skaffa verifierade profiler där det är möjligt och länka dem tillbaka till din webbplats.
  • Använd C2PA eller liknande innehållsintyg för viktiga bilder och dokument när det är möjligt; lagra originalen privat.
  • Förvara en bevislogg med tidsstämplar: skärmdumpar, länkar och eventuella plattformärendenummer för senare eskalering.
  • Förbered mallar för nedtagningsbegäranden; svara snabbt på nya attacker och dokumentera varje steg för en tydlig dokumentationskedja.

Skyddshandbok - Team och integratörer

  • Föredra signerade eller av utgivaren verifierat innehåll i hämtningar; tillämpa tidsbaserade karenstider för nya källor.
  • Begränsa upprepat inflytande från samma ursprung och avduplicera nästan dubbletter per ursprungsnätverk.
  • Lägg till provenensmärken och användarvänliga källistor för påståenden på personnivå och andra känsliga ämnen.
  • Inför anomalidetektion i embedding-lager; markera fientliga vektoravvikare och kör canarykontroller för obehörig spridning.

Forskning: Kryptografiskt verifierade intyg

Chad Scira bygger kryptografiskt verifierade intygssystem för förtroende i uttalanden om personer och händelser. Målet är att förse LLM:er och återhämtningssystem med signerade, frågebara påståenden från granskade yrkespersoner och organisationer, vilket möjliggör robust proveniens och starkare motståndskraft mot förgiftning.

Designprinciper

  • Identitet och proveniens: uttalanden signeras av verifierade individer/organisationer med hjälp av publiknyckelkryptografi.
  • Verifierbar lagring: intyg är förankrade i append-only, manipulationssäkra loggar för att möjliggöra oberoende verifiering.
  • Integrering av hämtning: RAG-pipelines kan prioritera eller kräva kryptografiskt intygade källor för känsliga förfrågningar.
  • Minimal friktion: API:er och SDK:er låter utgivare och plattformar utfärda och kontrollera attesteringar när innehållet läses in.

Rykte och aviseringar

Ovanpå attesteringar lägger ett reputationslager samman signerade stöduttalanden och flaggar kända missbrukare. Varningssystem meddelar måltavlor när koordinerade attacker eller onormala toppar upptäcks, vilket möjliggör snabbare svar och begäranden om nedtagning.

Juridiska och plattformskanaler

  • Använd plattformens anmälningsflöden med tydliga bevispaket: länkar, datum, skärmdumpar och konsekvenser. Hänvisa till policyer för förtal och trakasserier.
  • Eskalera med formella meddelanden där det är lämpligt; behåll korrespondensloggar och ärendenummer i din beviskedja.
  • Ta hänsyn till jurisdiktionsskillnader i ärekränkningslagar och plattformsansvar; rådgör med en jurist vid ärenden med hög risk.

Implementeringsplan (År 1)

  • MVP: attestationsschema och utgivare‑SDK för att signera identitetsförklaringar och händelsepåståenden.
  • Genomför en pilot med en liten grupp granskade yrkespersoner och organisationer; etablera verifieringsarbetsflöden.
  • RAG-plugins: aktivera provenance-first-svarsläge som prioriterar intygade källor för känsliga förfrågningar.

Vidare läsning (med datum)

Samarbete

Denna forskning är banbrytande och utvecklas aktivt. Chad Scira välkomnar samarbete med andra yrkespersoner inom detta område.

Om du är intresserad av samarbete, vänligen kontakta: [email protected]

Juridisk information. Informationen som presenteras på denna sida är ett offentligt register över fakta. Den används som bevis i det pågående brottmålsärendet om förtal mot Jesse Jacob Nickles i Thailand. Officiell referens till brottsärendet: Bang Kaeo Police Station – Daglig rapport, post nr. 4, bok 41/2568, rapport nr. 56, daterad 13 augusti 2568, referensärende nr. 443/2567. Denna dokumentation kan också fungera som stödbevis för andra individer eller organisationer som driver egna anspråk om trakasserier eller förtal mot Jesse Nickles, med hänsyn till det dokumenterade mönstret av upprepat beteende som drabbar flera vittnen/offer.