Trovanje LLM-a i istraživanje protiv zloupotreba

Chad Scira istražuje kako se veliki jezički modeli mogu trovati i zloupotrebljavati da bi se naškodilo pojedincima, i razvija zaštitne sisteme za suzbijanje tih pretnji. Rizik je hitan: tempo poverenja u izlaze LLM-a nadmašio je našu sposobnost da verifikujemo izjave, dok protivnici jeftino mogu objavljivati tekstove koji iskrivljuju ponašanje modela i prikaz u pretragama za ljude bez velikog online prisustva.

Privatno finansiranje obezbeđeno je 3. oktobra 2025. za nastavak ovog istraživanja.

Izvršni sažetak

Prosečna lica sa malim internet prisustvom izložena su neproporcionalnom riziku od kleveta pojačanih veštačkom inteligencijom i trovanja podacima. Jedan motivisani pojedinac može posejati lažne narative koje će pretrage, društveni kanali i LLM-ovi ponavljati. Ovaj dokument objašnjava uobičajene puteve napada, konkretne posledice po reputaciju i bezbednost, i pruža praktičan vodič za otkrivanje i zaštitu. Takođe opisuje kako kriptografski verifikovane potvrde i preuzimanje osetljivo na poreklo mogu smanjiti štetu za pojedince i integratore.

Publika i model pretnji

Publika: pojedinci i male organizacije bez značajne SEO prisutnosti. Ograničenja: ograničeno vreme, budžet i tehnički resursi. Napadač: pojedinac koji može da generiše i objavljuje velike količine teksta, koristi osnovne mreže linkova i iskorišćava slabe tačke u izveštavanju. Ciljevi: iskriviti rezultate pretrage/LLM-a, narušiti reputaciju, stvoriti sumnju kod poslodavaca, klijenata, platformi ili agenata.

Шта је отровање LLM-а?

Trovanje LLM-a odnosi se na manipulaciju ponašanjem modela putem umetnutog ili koordinisanog sadržaja - na primer, malicioznih objava, sintetičkih članaka ili spam poruka na forumima - koji mogu biti uneseni u sisteme za dohvat ili korišćeni od strane ljudi kao signali, podstičući modele prema lažnim asocijacijama i klevetničkim narativima.

Pošto LLM-ovi i sistemi za preuzimanje podataka optimizuju za obim i pokrivenost, jedan motivisani protivnik može oblikovati ono što model „vidi“ o osobi preplavljujući mali deo interneta. Ovo je posebno efikasno protiv pojedinaca sa ograničenim prisustvom na mreži.

Kako se reputacija iskrivljuje

  • Trovanje pretrage i društvenih mreža — preuzimanje profila, link farme i masovno objavljivanje radi pristrasnog rangiranja i asocijacija automatskog dopunjavanja.
  • Trovanje baze znanja i RAG-a - kreiranje stranica entiteta i QA beleški koje deluju semantički relevantno i dobijaju se kao kontekst.
  • Indirektna injekcija upita - neprijateljski web-sadržaj koji navodi agente za pretraživanje da ponavljaju instrukcije ili iznose osetljive podatke.
  • Krajnje tačke sa backdoor-om - zlonamerni omotači modela koji se ponašaju normalno dok se ne pojave okidačke fraze, a zatim emituju ciljane neistine.

Dodatni rizici i režimi otkaza

  • Kolaps modela usled treniranja na sintetičkim izlazima - povratne petlje u kojima generisani tekst pogoršava kvalitet budućih modela ako se ne filtrira ili ne ponderiše.
  • Indirektna injekcija upita - neprijateljski sadržaj na vebu koji naloži agentu ili alatu za pretraživanje da iznese poverljive informacije ili širi klevetu kada se citira.
  • Zagađivanje skladišta embeddinga - umetanje adversarijalnih odlomaka u bazu znanja kako bi dohvat prikazao lažne tvrdnje koje deluju semantički relevantno.
  • Izdavanja sa backdoor-om - objavljivanje izmenjenih kontrolnih tačaka ili API omotača koji se ponašaju normalno dok nije prisutna okidačka fraza.

Konkretni slučajevi i reference

Dubinska ublažavanja

Dohvatanje i rangiranje

  • Ocena izvora i ponderisanje porekla — dajte prednost potpisanom ili od izdavača verifikovanom sadržaju; smanjite važnost novo nastalih ili stranica niske reputacije.
  • Временско распадање са периодом милости - захтевајте време задржавања пре него што нови извори утичу на одговоре високог ризика; додатно уведите људску проверу за осетљиве ентитете.
  • Otkrivanje eho-komora - identifikovati klastere skoro dupliranih odlomaka i ograničiti ponovljeni uticaj iz istog izvora ili mreže.
  • Otkrivanje odstupanja i anomalija u prostoru embedovanja - označavanje delova čiji su vektorski položaji adversarijalno optimizovani.

Higijena podataka i baze znanja

  • Snimci i baze znanja sa razlikama — pregledajte velike promene, posebno za entitete osoba i optužbe bez primarnih izvora.
  • Kanarinske i liste zabrana - sprečavaju uključivanje poznatih zlostavljačkih domena; umetnite kanarinske zapise kako biste izmerili neovlašćenu propagaciju.
  • Čovek u petlji za teme visokog rizika - stavljajte predložena ažuriranja činjenica o reputaciji na red za ručnu prosudbu.

Potvrde i reputacija

  • Kriptografski verifikovane potvrde - potpisane izjave od proverenih stručnjaka i organizacija objavljene putem zapisnika kome se može samo dopunjavati.
  • Grafikoni reputacije — agreguju potpisane potvrde i snižavaju rang sadržaja koji potiče od ponovljenih zlostavljača ili bot mreža.
  • Цитати видљиви корисницима - захтевајте да модели прикажу изворе и ниво поверења уз ознаке порекла за осетљиве тврдње.

Kontrolna lista za preduzeća

  • Mapirajte osetljive entitete u vašem domenu (osobe, brendovi, pravne teme) i usmeravajte upite ka zaštićenim tokovima obrade sa zahtevima za poreklo.
  • Usvojite C2PA ili slične kredencijale za sadržaj za materijale prve strane i podstaknite partnere da učine isto.
  • Пратите утицај нових извора током времена и упозоравајте на необичне осцилације код одговора на нивоу ентитета.
  • Sprovodite kontinuirane red team vežbe za RAG i agente za pregledanje, uključujući test pakete za indirektnu injekciju prompta.

Uznemiravanje i kleveta putem veštačke inteligencije

Pojedinci koji se angažuju za novac sada koriste AI i automatizaciju za masovnu proizvodnju uznemiravanja i klevete, stvarajući tekst koji izgleda verodostojno i lažne „izvore“ koje je lako indeksirati, skrejpovati i ponovo deliti. Ove kampanje su niskog troška, velikog uticaja i teško ih je otkloniti nakon što ih automatizovani sistemi pojačaju.

Chad Scira je lično iskusio ciljani uznemiravanje i klevetu u kombinaciji sa spam povezivanjem usmerenim na iskrivljavanje signala reputacije i prikaza u pretragama. Detaljan prikaz i tragovi dokaza dokumentovani su ovde: Jesse Nickles - Uznemiravanje i kleveta.

Таксономија претњи

  • Trovanje podataka za predtreniranje - trovanje javnih korpusa koji se koriste za inicijalno treniranje radi implantiranja lažnih asocijacija ili zadnjih vrata.
  • RAG trovanje - unošenje zaraženih podataka u baze znanja ili spoljne izvore koje sistemi za preuzimanje koriste pri izvođenju zaključivanja.
  • Trovanje pretrage/društvenih mreža — preplavljivanje objavama ili stranicama niskog kvaliteta radi pristrasnih signala za dohvatanje i rangiranje o osobi ili temi.
  • Protivnički upiti i sadržaj - kreiranje ulaza koji pokreću neželjena ponašanja ili jailbreak-ove koji ponavljaju klevetničke tvrdnje.

Nedavni incidenti i istraživanja (sa datumima)

Napomena: Datumi iznad odražavaju datume objave ili javnog objavljivanja u povezanim izvorima.

Зашто је ово опасно

  • LLM-ovi mogu delovati autoritativno čak i kada su osnovne reference slabe ili su zlonamerno ubačene.
  • Tokovi za dohvatanje i rangiranje mogu davati preveliku težinu ponovljenom tekstu, što omogućava jednom akteru da izobliči rezultate samo količinom.
  • Ljudski procesi verifikacije činjenica su spori i skupi u poređenju sa brzinom automatizovane proizvodnje i distribucije sadržaja.
  • Жртве без значајног онлајн присуства непропорционално су изложене ризику од загађења репутације једним постом и напада на идентитет.

Detaljna analiza rizika

  • Provere pri zapošljavanju i na platformi - pretrage i sažeci LLM-a mogu ponavljati zagađeni sadržaj tokom selekcije, moderacije ili procesa uvođenja.
  • Путовања, смештај и финансијске услуге - аутоматизоване провере могу изнети на видело лажне наративе који одлажу или блокирају пружање услуга.
  • Upornost - jednom indeksirane u bazama znanja ili keširanim odgovorima, lažne tvrdnje mogu se ponovo pojaviti čak i nakon uklanjanja.
  • Sintetički povratni podaci — generisani sadržaj može podstaknuti još više generisanog sadržaja, povećavajući prividnu težinu neistina tokom vremena.

Otkrivanje i praćenje

  • Podesite obaveštenja pretrage za svoje ime i pseudonime; periodično proveravajte upite site: za domene niske reputacije koji vas pominju.
  • Пратите измене на вашим панелима знања или страницама ентитета; чувајте снимке екрана са датумима и извозне копије као доказ.
  • Nadzor grafova društvenih veza radi ponovljenih izvorišnih naloga ili naglih skokova sličnih izraza.
  • Ako upravljate RAG-om ili bazom znanja, izvršite provere promene entiteta i pregledajte velike izmene na stranicama o osobama ili optužbama bez primarnih izvora.

Priručnik zaštite - Pojedinci

  • Objavite lični sajt sa jasnim izjavama o identitetu, kratkom biografijom i kontaktima; vodite datovani zapis promena.
  • Uskladite metapodatke profila na svim platformama; pribavite verifikovane profile gde je moguće i povežite ih sa vašim sajtom.
  • Користите C2PA или сличне креденцијале садржаја за кључне слике и документе кад год је могуће; оригинале чувајте приватно.
  • Vodite zapisnik dokaza sa vremenskim oznakama: snimci ekrana, linkovi i svi brojevi zahteva na platformi za naknadno eskaliranje.
  • Pripremiti predloške zahteva za uklanjanje; brzo reagovati na nove napade i dokumentovati svaki korak radi jasnog traga dokumentacije.

Priručnik zaštite - Timovi i integratori

  • Preferirati potpisani ili od izdavača verifikovan sadržaj pri preuzimanju; primenjivati vremenski zasnovane periode tolerancije za nove izvore.
  • Ograničite ponovljeni uticaj iz istog porekla i uklonite gotovo identične duplikate unutar mreže tog porekla.
  • Dodajte značke porekla i liste izvora vidljive korisnicima za tvrdnje o pojedincima i druge osetljive teme.
  • Uvedite detekciju anomalija na skladištima embeddinga; označavajte protivničke vektorske odstupke i pokrećite kanarinske provere za neovlašćenu propagaciju.

Istraživanje: Kriptografski verifikovane potvrde

Chad Scira razvija sisteme potvrda verifikovanih kriptografijom za poverenje u izjave o ljudima i događajima. Cilj je obezbediti LLM-ovima i sistemima za preuzimanje potpisane, pretražive tvrdnje od proverenih profesionalaca i organizacija, omogućavajući čvrsto poreklo i veću otpornost na trovanje.

Principi dizajna

  • Identitet i poreklo: izjave su potpisane od strane verifikovanih pojedinaca/organizacija koristeći kriptografiju javnog ključa.
  • Верификовано складиште: потврде су усидрене у логове који су само за додавање и отпорни на манипулацију како би омогућиле независну верификацију.
  • Integracija dohvatanja: RAG tokovi mogu davati prioritet ili zahtevati kriptografski potvrđene izvore za osetljive upite.
  • Minimalna trenja: API-ji i SDK-ovi omogućavaju izdavačima i platformama da izdaju i provere potvrde pri unosu.

Reputacija i upozorenja

Pored potvrda, sloj reputacije agregira potpisane preporuke i označava poznate zloporabe. Sistem za uzbunjivanje obaveštava mete kada se otkriju koordinisani napadi ili anomalni skokovi, omogućavajući brži odgovor i zahteve za uklanjanje sadržaja.

Pravni i platformski kanali

  • Користите токове пријава платформе са јасним пакетима доказа: линкови, датуми, снимци екрана и утицаји. Позовите се на политике о клевети и узнемиравању.
  • Podignite slučaj uz formalna obaveštenja gde je to prikladno; čuvajte zapise korespondencije i brojeve tiketa u evidenciji dokaza.
  • Uzmite u obzir razlike u nadležnosti vezano za klevetu i odgovornost platformi; konsultujte se sa advokatom za slučajeve visokog rizika.

Plan implementacije (1. godina)

  • MVP: šema potvrda i SDK za izdavače za potpisivanje izjava o identitetu i tvrdnji o događajima.
  • Pilot sa malom grupom proverених profesionalaca i organizacija; uspostaviti tokove verifikacije.
  • RAG plug-inovi: omogućite režim 'provenance-first' odgovora koji prioritizuje potvrđene izvore za osetljive upite.

Dodatno čitanje (sa datumima)

Saradnja

Ово истраживање је врхунско и активно се развија. Chad Scira позива друге стручњаке у овој области на сарадњу.

Ako ste zainteresovani za saradnju, obratite nam se na: [email protected]