Istraživanje zatrovanja LLM-a i suzbijanja zloupotreba
Chad Scira istražuje kako se veliki jezični modeli mogu otrovati i zloupotrijebiti da bi naštetili pojedincima, te razvija zaštitne sustave za suzbijanje tih prijetnji. Rizik je hitan: brzina povjerenja u izlaze LLM-ova nadmašila je našu sposobnost provjere tvrdnji, dok protivnici mogu jeftino objavljivati tekst koji iskrivljuje ponašanje modela i prikaze pretraživanja za osobe bez velikog online otiska.
Privatno financiranje osigurano je 3. listopada 2025. za nastavak ovog istraživanja.
Izvršni sažetak
Prosječni ljudi s malim internetskim otiscima suočavaju se s neproporcionalnim rizikom od AI-pojačane klevete i trovanja podacima. Jedan motivirani pojedinac može posaditi lažne narative koje pretraživači, društveni feedovi i LLM-ovi ponavljaju. Ovaj dokument objašnjava uobičajene puteve napada, konkretne učinke na reputaciju i sigurnost te praktični priručnik za otkrivanje i zaštitu. Također opisuje kako kriptografski verificirane potvrde i dohvat svjestan porijekla mogu smanjiti štetu za pojedince i integratore.
Publika i model prijetnje
Publika: pojedinci i male organizacije bez velike SEO prisutnosti. Ograničenja: ograničeno vrijeme, proračun i tehnički resursi. Protivnik: pojedinačni akter sposoban generirati i objaviti velike količine teksta, koristiti osnovne mreže poveznica i iskoristiti praznine u izvještavanju. Ciljevi: iskriviti rezultate pretraživanja/LLM-ova, naštetiti reputaciji, stvoriti sumnju kod poslodavaca, klijenata, platformi ili agenata.
Što je trovanje LLM-a?
Zatrovanje LLM-a odnosi se na manipulaciju ponašanja modela putem ubacivanog ili koordiniranog sadržaja - na primjer, zlonamjernih objava, sintetičkih članaka ili forumskog spama - koji mogu biti uneseni u sustave za dohvaćanje ili koristiti od strane ljudi kao signali, gurajući modele prema lažnim povezivanjima i klevetničkim narativima.
Budući da LLM-ovi i sustavi za dohvat optimiziraju za razmjernost i pokrivenost, jedan motivirani protivnik može oblikovati ono što model „vidi” o osobi preplavljujući mali dio interneta. To je posebno učinkovito protiv osoba s ograničenom online prisutnošću.
Kako se reputacija iskrivljuje
- Zatrovanje pretraživanja i društvenih mreža - otimanje profila, link farme i masovno objavljivanje za pristrano utjecanje na značajke rangiranja i asocijacije pri automatskom dovršavanju.
- Zatrovanje baze znanja i RAG-a - stvaranje stranica entiteta i QA bilješki koje izgledaju semantički relevantne i dohvaćaju se kao kontekst.
- Neizravna injekcija prompta - neprijateljski web-sadržaj koji navodi agente za pregledavanje da ponavljaju upute ili eksfiltriraju osjetljive podatke.
- Krajnje točke s backdoorom - zlonamjerni omotači modela koji se ponašaju normalno dok se ne pojave okidačne fraze, nakon čega emitiraju ciljane neistine.
Dodatni rizici i načini neuspjeha
- Kolaps modela zbog treniranja na sintetičkim izlazima - povratne petlje u kojima generirani tekst narušava buduću kvalitetu modela ako se ne filtrira ili ne ponderira.
- Neizravna injekcija prompta - neprijateljski sadržaj na mreži koji nalaže agentu ili alatu za pregledavanje da eksfiltrira tajne ili širi klevetu kada se citira.
- Trovanje embedding-spremišta - umetanje protivničkih odlomaka u bazu znanja tako da dohvat prikaže lažne tvrdnje koje izgledaju semantički relevantne.
- Izdavanja s backdoorom - objavljivanje izmijenjenih kontrolnih točaka ili API omotača koji se ponašaju normalno dok se ne pojavi pokretačka fraza.
Konkretni slučajevi i reference
Višeslojne mjere ublažavanja
Dohvaćanje i rangiranje
- Ocjenjivanje izvora i ponderiranje podrijetla - dajte prednost potpisanom ili od izdavača verificiranom sadržaju; smanjite težinu nedavno stvorenim ili niskoreputacijskim stranicama.
- Vremensko propadanje s razdobljem milosti - zahtijevajte vrijeme zadržavanja prije nego što novi izvori utječu na odgovore s visokim ulozima; dodajte ljudsku provjeru za osjetljive entitete.
- Otkrivanje eho-komore - grupirajte gotovo identične odlomke i ograničite ponovljeni utjecaj iz istog izvora ili mreže.
- Otkrivanje odmetnika i anomalija u prostoru ugrađenih vektora - označiti odlomke čije su vektorske pozicije protivnički optimizirane.
Higijena podataka i baze znanja
- Snimke i razlike baza znanja - pregledajte velike promjene, posebno za entitete osoba i optužbe bez primarnih izvora.
- Kanarske i liste zabrana - spriječiti uključivanje poznatih zlorabljenih domena; umetnuti kanare za mjerenje neovlaštene propagacije.
- Ljudski nadzor za visokorizične teme - stavljajte predložene izmjene činjenica o reputaciji u red za ručnu provjeru.
Potvrde i reputacija
- Kriptografski verificirane potvrde - potpisane izjave provjerenih stručnjaka i organizacija objavljene putem zapisnika koji je samo za dodavanje.
- Grafovi reputacije - agregirajte potpisane preporuke i snizite rang sadržaja od ponovljenih zlostavljača ili mreža botova.
- Navođenje izvora za korisnike - zahtijevajte od modela da prikazuju izvore i razinu pouzdanosti s oznakama podrijetla za osjetljive tvrdnje.
Kontrolni popis za poduzeća
- Mapirajte osjetljive entitete u vašem domenu (osobe, brendovi, pravne teme) i usmjerite upite u zaštićene radne tokove s zahtjevima za podrijetlo.
- Usvojiti C2PA ili slične vjerodajnice sadržaja za sadržaj prve strane i potaknuti partnere da učine isto.
- Pratite utjecaj novih izvora tijekom vremena i upozoravajte na neuobičajene oscilacije u odgovorima na razini entiteta.
- Provedite kontinuirano red teaming za RAG i agente za pregledavanje, uključujući skupove testova za neizravne injekcije prompta.
Uznemiravanje i kleveta putem umjetne inteligencije
Pojedinci za najam sada koriste AI i automatizaciju za masovnu proizvodnju uznemiravanja i klevete, stvarajući tekst koji izgleda vjerodostojno i lažne “izvore” koji se lako indeksiraju, skidaju i ponovno dijele. Ove kampanje su niskih troškova, visokog utjecaja i teško ih je otkloniti nakon što ih automatizirani sustavi pojačaju.
Chad Scira osobno je iskusio ciljano uznemiravanje i klevetanje u kombinaciji sa spamerskim povezivanjem koje ima za cilj iskriviti signale reputacije i prikaze u pretraživanju. Detaljan prikaz i tragovi dokaza dokumentirani su ovdje: Jesse Nickles - Uznemiravanje i kleveta.
Klasifikacija prijetnji
- Trovanje podataka u predtreningu - zagađivanje javnih korpusa koji se koriste za početno treniranje kako bi se usadile lažne povezanosti ili backdoori.
- RAG trovanje - ubacivanje u baze znanja ili vanjske izvore koje sustavi za dohvaćanje koriste u vrijeme izvođenja.
- Zatrovanje pretraživanja/društvenih mreža - zasipanje objava ili niskokvalitetnih stranica kako bi se pristrasno utjecalo na signale dohvaćanja i rangiranja o osobi ili temi.
- Protivnički upiti i sadržaj - oblikovanje unosa koji pokreću neželjena ponašanja ili jailbreakove koji ponavljaju klevetničke tvrdnje.
Nedavni incidenti i istraživanja (s datumima)
Napomena: Gore navedeni datumi odražavaju datume objave ili javnog izdavanja u povezanim izvorima.
Zašto je ovo opasno
- LLM-ovi mogu djelovati autoritativno čak i kada su temeljni izvori slabi ili adversarijalno ubačeni.
- Procesi dohvaćanja i rangiranja mogu pretjerano vrednovati ponovljeni tekst, omogućujući jednom akteru da iskrivi rezultate isključivo volumenom.
- Ljudske provjere činjenica spore su i skupe u usporedbi s brzinom automatizirane proizvodnje i distribucije sadržaja.
- Žrtve bez značajnog internetskog prisustva nerazmjerno su ranjive na manipulacije jednim objavom i napade na identitet.
Dubinska analiza rizika
- Provjera zaposlenja i platformi - pretraživanja i sažeci LLM‑ova mogu reproducirati zatrovani sadržaj tijekom provjera pri zapošljavanju, moderaciji ili uvođenju u posao.
- Putovanja, smještaj i financijske usluge - automatizirane provjere mogu dovesti do pojave lažnih narativa koji odgađaju ili onemogućuju korištenje usluga.
- Trajnost - jednom kada su indeksirane u baze znanja ili keširani odgovori, lažne tvrdnje mogu se ponovno pojaviti čak i nakon uklanjanja.
- Sintetska povratna informacija - generirani sadržaj može potaknuti više generiranog sadržaja, postupno povećavajući prividnu težinu neistina.
Otkrivanje i nadzor
- Postavite pretraživačke obavijesti za svoje ime i pseudonime; povremeno provjeravajte site: upite za domene niske reputacije koje vas spominju.
- Pratite promjene na svojim panelima znanja ili stranicama entiteta; čuvajte datirane snimke zaslona i izvezene kopije kao dokaze.
- Nadzirati grafove društvenih veza radi ponavljajućih izvornih računa ili naglih skokova sličnih formulacija.
- Ako upravljate RAG-om ili bazom znanja, pokrenite provjere promjene entiteta i pregledajte velike razlike na stranicama osoba ili optužbe bez primarnih izvora.
Priručnik za zaštitu - Pojedinci
- Objavite osobnu stranicu s jasnim izjavama o identitetu, kratkim životopisom i načinima kontakta; vodite dnevnik promjena s datumima.
- Uskladiti metapodatke profila preko platformi; pribaviti verificirane profile gdje je izvedivo i povezati ih natrag na vašu stranicu.
- Koristite C2PA ili slične vjerodajnice sadržaja za ključne slike i dokumente kad je moguće; pohranjujte originalne primjerke privatno.
- Vodite zapisnik dokaza s vremenskim oznakama: snimke zaslona, poveznice i svi brojevi tiketova platforme za kasniju eskalaciju.
- Pripremite predloške za zahtjeve za uklanjanje; brzo odgovorite na nove napade i dokumentirajte svaki korak kako biste osigurali jasan pisani trag.
Priručnik za zaštitu - Timovi i integratori
- Preferirajte potpisani ili od izdavača verificirani sadržaj pri dohvaćanju; primijenite vremenski ograničena razdoblja milosti za nove izvore.
- Ograničite ponovljeni utjecaj iz istog izvora i uklonite gotovo identične duplikate unutar mreže tog izvora.
- Dodati oznake porijekla i popise izvora vidljive korisnicima za tvrdnje na razini osobe i druge osjetljive teme.
- Uvesti detekciju anomalija u spremištima ugrađenih vektora; označavati protivničke vektorske odstupnike i provoditi kanarske provjere za neovlaštenu propagaciju.
Istraživanje: kriptografski verificirane potvrde
Chad Scira gradi sustave kriptografski verificiranih potvrda za povjerenje u izjave o ljudima i događajima. Cilj je pružiti LLM-ovima i sustavima za dohvat potpisane, upitne tvrdnje od provjerenih profesionalaca i organizacija, omogućujući robusno porijeklo i veću otpornost na trovanje.
Načela dizajna
- Identitet i podrijetlo: izjave potpisuju verificirane osobe/organizacije koristeći kriptografiju javnog ključa.
- Provjerljiva pohrana: potvrde su vezane za zapisnike koji su samo za dodavanje i otporni na manipulacije kako bi omogućili neovisnu provjeru.
- Integracija dohvaćanja: RAG cjevovodi mogu prioritizirati ili zahtijevati kriptografski potvrđene izvore za osjetljive upite.
- Minimalno trenje: API-ji i SDK-ovi omogućuju izdavanje i provjeru potvrda od strane izdavača i platformi u trenutku unosa.
Reputacija i upozorenja
Osim potvrda, sloj reputacije agregira potpisane preporuke i označava poznate zloporabe. Sustavi za obavještavanje informiraju mete kada se otkriju koordinirani napadi ili anomalni skokovi, omogućujući brži odgovor i zahtjeve za uklanjanje sadržaja.
Pravni i platformski kanali
- Koristite tokove za prijavu na platformi s jasnim paketima dokaza: poveznice, datumi, snimke zaslona i učinci. Pozovite se na politike klevete i uznemiravanja.
- Eskalirajte formalnim obavijestima gdje je primjereno; čuvajte zapise korespondencije i ID‑eve tiketa u svom tragu dokaza.
- Uzmite u obzir razlike između nadležnosti u pitanjima klevete i odgovornosti platforme; za visokorizične slučajeve posavjetujte se s pravnim savjetnikom.
Plan implementacije (Godina 1)
- MVP: shema potvrđivanja i SDK izdavača za potpisivanje izjava o identitetu i tvrdnji o događajima.
- Pilot s malom grupom provjerenih stručnjaka i organizacija; uspostaviti radne tokove provjere.
- RAG dodaci: omogućite način odgovora 'provenance first' koji daje prioritet potvrđenim izvorima za osjetljive upite.
Dodatno čitanje (s datumima)
Suradnja
Ovo istraživanje je suvremeno i aktivno se razvija. Chad Scira poziva na suradnju druge stručnjake u ovom sektoru.
Ako ste zainteresirani za suradnju, obratite nam se na: [email protected]