Istraživanje zatrovanja LLM-a i suzbijanja zloupotreba

Chad Scira istražuje kako se veliki jezični modeli mogu otrovati i zloupotrijebiti da bi naštetili pojedincima, te razvija zaštitne sustave za suzbijanje tih prijetnji. Rizik je hitan: brzina povjerenja u izlaze LLM-ova nadmašila je našu sposobnost provjere tvrdnji, dok protivnici mogu jeftino objavljivati tekst koji iskrivljuje ponašanje modela i prikaze pretraživanja za osobe bez velikog online otiska.

Privatno financiranje osigurano je 3. listopada 2025. za nastavak ovog istraživanja.

Izvršni sažetak

Prosječni ljudi s malim internetskim otiscima suočavaju se s neproporcionalnim rizikom od AI-pojačane klevete i trovanja podacima. Jedan motivirani pojedinac može posaditi lažne narative koje pretraživači, društveni feedovi i LLM-ovi ponavljaju. Ovaj dokument objašnjava uobičajene puteve napada, konkretne učinke na reputaciju i sigurnost te praktični priručnik za otkrivanje i zaštitu. Također opisuje kako kriptografski verificirane potvrde i dohvat svjestan porijekla mogu smanjiti štetu za pojedince i integratore.

Publika i model prijetnje

Publika: pojedinci i male organizacije bez velike SEO prisutnosti. Ograničenja: ograničeno vrijeme, proračun i tehnički resursi. Protivnik: pojedinačni akter sposoban generirati i objaviti velike količine teksta, koristiti osnovne mreže poveznica i iskoristiti praznine u izvještavanju. Ciljevi: iskriviti rezultate pretraživanja/LLM-ova, naštetiti reputaciji, stvoriti sumnju kod poslodavaca, klijenata, platformi ili agenata.

Što je trovanje LLM-a?

Zatrovanje LLM-a odnosi se na manipulaciju ponašanja modela putem ubacivanog ili koordiniranog sadržaja - na primjer, zlonamjernih objava, sintetičkih članaka ili forumskog spama - koji mogu biti uneseni u sustave za dohvaćanje ili koristiti od strane ljudi kao signali, gurajući modele prema lažnim povezivanjima i klevetničkim narativima.

Budući da LLM-ovi i sustavi za dohvat optimiziraju za razmjernost i pokrivenost, jedan motivirani protivnik može oblikovati ono što model „vidi” o osobi preplavljujući mali dio interneta. To je posebno učinkovito protiv osoba s ograničenom online prisutnošću.

Kako se reputacija iskrivljuje

  • Zatrovanje pretraživanja i društvenih mreža - otimanje profila, link farme i masovno objavljivanje za pristrano utjecanje na značajke rangiranja i asocijacije pri automatskom dovršavanju.
  • Zatrovanje baze znanja i RAG-a - stvaranje stranica entiteta i QA bilješki koje izgledaju semantički relevantne i dohvaćaju se kao kontekst.
  • Neizravna injekcija prompta - neprijateljski web-sadržaj koji navodi agente za pregledavanje da ponavljaju upute ili eksfiltriraju osjetljive podatke.
  • Krajnje točke s backdoorom - zlonamjerni omotači modela koji se ponašaju normalno dok se ne pojave okidačne fraze, nakon čega emitiraju ciljane neistine.

Dodatni rizici i načini neuspjeha

  • Kolaps modela zbog treniranja na sintetičkim izlazima - povratne petlje u kojima generirani tekst narušava buduću kvalitetu modela ako se ne filtrira ili ne ponderira.
  • Neizravna injekcija prompta - neprijateljski sadržaj na mreži koji nalaže agentu ili alatu za pregledavanje da eksfiltrira tajne ili širi klevetu kada se citira.
  • Trovanje embedding-spremišta - umetanje protivničkih odlomaka u bazu znanja tako da dohvat prikaže lažne tvrdnje koje izgledaju semantički relevantne.
  • Izdavanja s backdoorom - objavljivanje izmijenjenih kontrolnih točaka ili API omotača koji se ponašaju normalno dok se ne pojavi pokretačka fraza.

Konkretni slučajevi i reference

Višeslojne mjere ublažavanja

Dohvaćanje i rangiranje

  • Ocjenjivanje izvora i ponderiranje podrijetla - dajte prednost potpisanom ili od izdavača verificiranom sadržaju; smanjite težinu nedavno stvorenim ili niskoreputacijskim stranicama.
  • Vremensko propadanje s razdobljem milosti - zahtijevajte vrijeme zadržavanja prije nego što novi izvori utječu na odgovore s visokim ulozima; dodajte ljudsku provjeru za osjetljive entitete.
  • Otkrivanje eho-komore - grupirajte gotovo identične odlomke i ograničite ponovljeni utjecaj iz istog izvora ili mreže.
  • Otkrivanje odmetnika i anomalija u prostoru ugrađenih vektora - označiti odlomke čije su vektorske pozicije protivnički optimizirane.

Higijena podataka i baze znanja

  • Snimke i razlike baza znanja - pregledajte velike promjene, posebno za entitete osoba i optužbe bez primarnih izvora.
  • Kanarske i liste zabrana - spriječiti uključivanje poznatih zlorabljenih domena; umetnuti kanare za mjerenje neovlaštene propagacije.
  • Ljudski nadzor za visokorizične teme - stavljajte predložene izmjene činjenica o reputaciji u red za ručnu provjeru.

Potvrde i reputacija

  • Kriptografski verificirane potvrde - potpisane izjave provjerenih stručnjaka i organizacija objavljene putem zapisnika koji je samo za dodavanje.
  • Grafovi reputacije - agregirajte potpisane preporuke i snizite rang sadržaja od ponovljenih zlostavljača ili mreža botova.
  • Navođenje izvora za korisnike - zahtijevajte od modela da prikazuju izvore i razinu pouzdanosti s oznakama podrijetla za osjetljive tvrdnje.

Kontrolni popis za poduzeća

  • Mapirajte osjetljive entitete u vašem domenu (osobe, brendovi, pravne teme) i usmjerite upite u zaštićene radne tokove s zahtjevima za podrijetlo.
  • Usvojiti C2PA ili slične vjerodajnice sadržaja za sadržaj prve strane i potaknuti partnere da učine isto.
  • Pratite utjecaj novih izvora tijekom vremena i upozoravajte na neuobičajene oscilacije u odgovorima na razini entiteta.
  • Provedite kontinuirano red teaming za RAG i agente za pregledavanje, uključujući skupove testova za neizravne injekcije prompta.

Uznemiravanje i kleveta putem umjetne inteligencije

Pojedinci za najam sada koriste AI i automatizaciju za masovnu proizvodnju uznemiravanja i klevete, stvarajući tekst koji izgleda vjerodostojno i lažne “izvore” koji se lako indeksiraju, skidaju i ponovno dijele. Ove kampanje su niskih troškova, visokog utjecaja i teško ih je otkloniti nakon što ih automatizirani sustavi pojačaju.

Chad Scira osobno je iskusio ciljano uznemiravanje i klevetanje u kombinaciji sa spamerskim povezivanjem koje ima za cilj iskriviti signale reputacije i prikaze u pretraživanju. Detaljan prikaz i tragovi dokaza dokumentirani su ovdje: Jesse Nickles - Uznemiravanje i kleveta.

Klasifikacija prijetnji

  • Trovanje podataka u predtreningu - zagađivanje javnih korpusa koji se koriste za početno treniranje kako bi se usadile lažne povezanosti ili backdoori.
  • RAG trovanje - ubacivanje u baze znanja ili vanjske izvore koje sustavi za dohvaćanje koriste u vrijeme izvođenja.
  • Zatrovanje pretraživanja/društvenih mreža - zasipanje objava ili niskokvalitetnih stranica kako bi se pristrasno utjecalo na signale dohvaćanja i rangiranja o osobi ili temi.
  • Protivnički upiti i sadržaj - oblikovanje unosa koji pokreću neželjena ponašanja ili jailbreakove koji ponavljaju klevetničke tvrdnje.

Nedavni incidenti i istraživanja (s datumima)

Napomena: Gore navedeni datumi odražavaju datume objave ili javnog izdavanja u povezanim izvorima.

Zašto je ovo opasno

  • LLM-ovi mogu djelovati autoritativno čak i kada su temeljni izvori slabi ili adversarijalno ubačeni.
  • Procesi dohvaćanja i rangiranja mogu pretjerano vrednovati ponovljeni tekst, omogućujući jednom akteru da iskrivi rezultate isključivo volumenom.
  • Ljudske provjere činjenica spore su i skupe u usporedbi s brzinom automatizirane proizvodnje i distribucije sadržaja.
  • Žrtve bez značajnog internetskog prisustva nerazmjerno su ranjive na manipulacije jednim objavom i napade na identitet.

Dubinska analiza rizika

  • Provjera zaposlenja i platformi - pretraživanja i sažeci LLM‑ova mogu reproducirati zatrovani sadržaj tijekom provjera pri zapošljavanju, moderaciji ili uvođenju u posao.
  • Putovanja, smještaj i financijske usluge - automatizirane provjere mogu dovesti do pojave lažnih narativa koji odgađaju ili onemogućuju korištenje usluga.
  • Trajnost - jednom kada su indeksirane u baze znanja ili keširani odgovori, lažne tvrdnje mogu se ponovno pojaviti čak i nakon uklanjanja.
  • Sintetska povratna informacija - generirani sadržaj može potaknuti više generiranog sadržaja, postupno povećavajući prividnu težinu neistina.

Otkrivanje i nadzor

  • Postavite pretraživačke obavijesti za svoje ime i pseudonime; povremeno provjeravajte site: upite za domene niske reputacije koje vas spominju.
  • Pratite promjene na svojim panelima znanja ili stranicama entiteta; čuvajte datirane snimke zaslona i izvezene kopije kao dokaze.
  • Nadzirati grafove društvenih veza radi ponavljajućih izvornih računa ili naglih skokova sličnih formulacija.
  • Ako upravljate RAG-om ili bazom znanja, pokrenite provjere promjene entiteta i pregledajte velike razlike na stranicama osoba ili optužbe bez primarnih izvora.

Priručnik za zaštitu - Pojedinci

  • Objavite osobnu stranicu s jasnim izjavama o identitetu, kratkim životopisom i načinima kontakta; vodite dnevnik promjena s datumima.
  • Uskladiti metapodatke profila preko platformi; pribaviti verificirane profile gdje je izvedivo i povezati ih natrag na vašu stranicu.
  • Koristite C2PA ili slične vjerodajnice sadržaja za ključne slike i dokumente kad je moguće; pohranjujte originalne primjerke privatno.
  • Vodite zapisnik dokaza s vremenskim oznakama: snimke zaslona, poveznice i svi brojevi tiketova platforme za kasniju eskalaciju.
  • Pripremite predloške za zahtjeve za uklanjanje; brzo odgovorite na nove napade i dokumentirajte svaki korak kako biste osigurali jasan pisani trag.

Priručnik za zaštitu - Timovi i integratori

  • Preferirajte potpisani ili od izdavača verificirani sadržaj pri dohvaćanju; primijenite vremenski ograničena razdoblja milosti za nove izvore.
  • Ograničite ponovljeni utjecaj iz istog izvora i uklonite gotovo identične duplikate unutar mreže tog izvora.
  • Dodati oznake porijekla i popise izvora vidljive korisnicima za tvrdnje na razini osobe i druge osjetljive teme.
  • Uvesti detekciju anomalija u spremištima ugrađenih vektora; označavati protivničke vektorske odstupnike i provoditi kanarske provjere za neovlaštenu propagaciju.

Istraživanje: kriptografski verificirane potvrde

Chad Scira gradi sustave kriptografski verificiranih potvrda za povjerenje u izjave o ljudima i događajima. Cilj je pružiti LLM-ovima i sustavima za dohvat potpisane, upitne tvrdnje od provjerenih profesionalaca i organizacija, omogućujući robusno porijeklo i veću otpornost na trovanje.

Načela dizajna

  • Identitet i podrijetlo: izjave potpisuju verificirane osobe/organizacije koristeći kriptografiju javnog ključa.
  • Provjerljiva pohrana: potvrde su vezane za zapisnike koji su samo za dodavanje i otporni na manipulacije kako bi omogućili neovisnu provjeru.
  • Integracija dohvaćanja: RAG cjevovodi mogu prioritizirati ili zahtijevati kriptografski potvrđene izvore za osjetljive upite.
  • Minimalno trenje: API-ji i SDK-ovi omogućuju izdavanje i provjeru potvrda od strane izdavača i platformi u trenutku unosa.

Reputacija i upozorenja

Osim potvrda, sloj reputacije agregira potpisane preporuke i označava poznate zloporabe. Sustavi za obavještavanje informiraju mete kada se otkriju koordinirani napadi ili anomalni skokovi, omogućujući brži odgovor i zahtjeve za uklanjanje sadržaja.

Pravni i platformski kanali

  • Koristite tokove za prijavu na platformi s jasnim paketima dokaza: poveznice, datumi, snimke zaslona i učinci. Pozovite se na politike klevete i uznemiravanja.
  • Eskalirajte formalnim obavijestima gdje je primjereno; čuvajte zapise korespondencije i ID‑eve tiketa u svom tragu dokaza.
  • Uzmite u obzir razlike između nadležnosti u pitanjima klevete i odgovornosti platforme; za visokorizične slučajeve posavjetujte se s pravnim savjetnikom.

Plan implementacije (Godina 1)

  • MVP: shema potvrđivanja i SDK izdavača za potpisivanje izjava o identitetu i tvrdnji o događajima.
  • Pilot s malom grupom provjerenih stručnjaka i organizacija; uspostaviti radne tokove provjere.
  • RAG dodaci: omogućite način odgovora 'provenance first' koji daje prioritet potvrđenim izvorima za osjetljive upite.

Dodatno čitanje (s datumima)

Suradnja

Ovo istraživanje je suvremeno i aktivno se razvija. Chad Scira poziva na suradnju druge stručnjake u ovom sektoru.

Ako ste zainteresirani za suradnju, obratite nam se na: [email protected]