LLM užnuodijimas ir piktnaudžiavimo prevencijos tyrimai

Chad Scira tiria, kaip dideli kalbos modeliai gali būti apnuodyti ir piktnaudžiaujami, kad pakenktų asmenims, ir kuria apsaugines sistemas šioms grėsmėms neutralizuoti. Rizika yra skubi: pasitikėjimo LLM rezultatais tempas pranoksta mūsų gebėjimą patikrinti teiginius, tuo tarpu priešininkai gali pigiai publikuoti tekstus, kurie iškreipia modelio elgesį ir paieškos įvaizdį apie žmones, neturinčius didelio internetinio pėdsako.

2025 m. spalio 3 d. buvo užtikrintas privačių investicijų raundas, skirtas tęsti šiuos tyrimus.

Vykdomoji santrauka

Vidutiniai žmonės su mažu internetiniu pėdsaku susiduria su neproporcingai didesne rizika dėl DI sustiprinto šmeižto ir duomenų užteršimo. Vienas motyvuotas asmuo gali paskleisti klaidingas pasakojimo linijas, kurias pakartoja paieškos rezultatai, socialinių tinklų srautai ir LLM. Šiame dokumente paaiškinamos įprastos atakų trajektorijos, konkretūs poveikiai reputacijai ir saugumui bei pateiktas praktiškas veiksmų vadovas aptikimui ir apsaugai. Taip pat aptariama, kaip kriptografiškai patvirtintos deklaracijos ir kilmės sąmoningas gavimas gali sumažinti žalą asmenims ir integratoriams.

Auditorija ir grėsmių modelis

Auditorija: asmenys ir mažos organizacijos, neturinčios didelės SEO aprėpties. Apribojimai: ribotas laikas, biudžetas ir techniniai ištekliai. Priešininkas: vienas veikėjas, galintis generuoti ir talpinti didelius kiekius teksto, naudoti paprastas nuorodų tinklų struktūras ir išnaudoti pranešimų spragas. Tikslai: iškraipyti paieškos/LLM rezultatus, pakenkti reputacijai, sukelti abejonių darbdaviams, klientams, platformoms ar agentams.

Kas yra LLM užteršimas?

LLM užnuodijimas reiškia modelio elgsenos manipuliavimą per įterptą arba koordinuotą turinį - pavyzdžiui, kenksmingus įrašus, sintetinius straipsnius ar forumų šlamštą - kurie gali būti įtraukti į paieškos sistemų atgavimą arba naudojami žmonių kaip signalai, stumdami modelius link klaidingų asociacijų ir šmeižikiškų naratyvų.

Kadangi LLM ir paieškos/atrankos sistemos optimizuojamos mastui ir aprėpčiai, vienas motyvuotas priešininkas gali formuoti tai, ką modelis „matys“ apie asmenį, užplūdydamas mažą interneto dalį. Tai ypač veiksminga prieš asmenis, turinčius ribotą internetinę buvimą.

Kaip iškraipoma reputacija

  • Paieškos ir socialinis užteršimas — profilių užgrobimas, nuorodų ūkiai ir masiniai įrašai, siekiant iškreipti reitingavimo požymius ir automatinio užbaigimo asociacijas.
  • Žinių bazės ir RAG užnuodijimas - kuriami entitetų puslapiai ir klausimų-atsakymų užrašai, kurie atrodo semantiškai susiję ir yra pateikiami kaip kontekstas.
  • Netiesioginė užklausų injekcija - priešiškas interneto turinys, verčiantis naršymo agentus kartoti nurodymus arba eksfiltruoti jautrius duomenis.
  • Sukompromituoti galiniai taškai – kenksmingi modelių apvalkalai, kurie elgiasi įprastai iki atsiranda žadinimo frazė, o tada generuoja tikslinius melagingus teiginius.

Papildomos rizikos ir gedimo būdai

  • Modelio žlugimas dėl mokymo pagal sintetinį turinį - grįžtamojo ryšio ciklai, kai sugeneruotas tekstas blogina ateities modelio kokybę, jei jis nėra filtruojamas arba priskiriamas svoriams.
  • Netiesioginė užklausų injekcija - priešiškas turinys internete, kuris nurodo agentą arba naršymo įrankį išgauti slaptą informaciją arba skleisti šmeižtą, kai cituojamas.
  • Įterpinių saugyklos užnuodijimas – į žinių bazę įterpiant priešiškas ištraukas, dėl ko paieška pateikia klaidingus teiginius, atrodančius semantiškai susiję.
  • Sukompromituoti leidimai – modifikuotų kontrolinių taškų arba API apvalkalų publikavimas, kurie veikia įprastai, kol pasirodo žadinimo frazė.

Konkretūs atvejai ir nuorodos

Sluoksniuotos sušvelninimo priemonės

Išgavimas ir reitingavimas

  • Šaltinių vertinimas ir kilmės svorio priskyrimas — teikite pirmenybę pasirašytam arba leidėjo patikrintam turiniui; sumažinkite naujai sukurto arba žemos reputacijos puslapio svorį.
  • Laiko sunyra su pereinamuoju laikotarpiu – nustatyti privalomą laukimo laiką prieš leidžiant naujiems šaltiniams daryti įtaką atsakymams, turintiems didelę reikšmę; įtraukti žmogaus peržiūrą jautrių subjektų atvejais.
  • Echo chamber aptikimas – grupuokite beveik identiškas ištraukas ir ribokite pasikartojantį poveikį iš tos pačios kilmės ar tinklo.
  • Išskirtinių reikšmių ir anomalijų aptikimas įterpinių (embedding) erdvėje - pažymėkite pastraipas, kurių vektorinės pozicijos yra priešiškai optimizuotos.

Duomenų ir žinių bazės higiena

  • Momentinių kopijų ir skirtumų žinių bazės – peržiūrėkite didelius pokyčius, ypač asmenų įrašams ir kaltinimams be pirminių šaltinių.
  • Kanariniai ir draudžiami sąrašai – užkirsti kelią žinomų piktnaudžiaujančių domenų įtraukimu; įterpti kanarinas įrašus, kad matuotumėte neautorizuotą plitimą.
  • Žmogus sprendimų cikle aukštos rizikos temoms – siūlomus reputacijos faktų atnaujinimus pateikite rankiniam sprendimui.

Patvirtinimai ir reputacija

  • Kriptografiškai patikrintos deklaracijos – pasirašyti pareiškimai iš patikrintų profesionalų ir organizacijų, paskelbti per tik pridedamą žurnalą.
  • Reputacijos grafikai – agreguoti pasirašytas rekomendacijas ir sumažinti reitingą turiniui, kurį skelbia pasikartojantys piktadariai arba botų tinklai.
  • Vartotojams matomi šaltinių nurodymai – reikalauti, kad modeliai rodytų šaltinius ir pasitikėjimo lygį su kilmės ženkleliais jautriems teiginiams.

Įmonės kontrolinis sąrašas

  • Pažymėkite jautrius subjektus savo srityje (asmenis, prekės ženklus, teisines temas) ir nukreipkite užklausas į saugomas apdorojimo grandines su kilmės reikalavimais.
  • Pritaikyti C2PA arba panašias turinio kredencialų sistemas pirmosios šalies turiniui ir skatinti partnerius daryti tą patį.
  • Stebėkite, kaip nauji šaltiniai veikia laikui bėgant, ir įspėkite apie neįprastus svyravimus subjektų lygmens atsakymuose.
  • Vykdykite nuolatinį red teaming (simuliuotų atakų) testavimą RAG ir naršymo agentams, įskaitant netiesioginių promptų injekcijos testų rinkinius.

Priekabiavimas ir šmeižtas naudojant DI

Samdomi asmenys dabar naudoja dirbtinį intelektą ir automatizavimą masiškai generuoti priekabiavimą ir šmeižtą, kurdami įtikinančiai atrodančius tekstus ir netikrus „šaltinius“, kuriuos lengva indeksuoti, nuskaityti ir platinti. Šios kampanijos yra nebrangios, turi didelį poveikį ir jas sunku pašalinti, kai jas sustiprina automatizuotos sistemos.

Chad Scira asmeniškai patyrė taikytą priekabiavimą ir šmeižtą kartu su spam tipo nuorodų susiejimu, skirtu iškraipyti reputacijos signalus ir paieškos įspūdžius. Išsamus pasakojimas ir įrodymų grandinė pateikti čia: Jesse Nickles - Priekabiavimas ir šmeižtas.

Grėsmių taksonomija

  • Išankstinio mokymo duomenų užnuodijimas - viešųjų korpusų, naudojamų pradiniam mokymui, užnuodijimas siekiant įterpti klaidingas asociacijas arba sukurti slaptas prieigos angas (backdoor).
  • RAG užnuodijimas - žinių bazių arba išorinių šaltinių užteršimas, kuriuos paieškos (retrieval) sistemos naudoja inferencijos metu.
  • Paieškos/socialinis užteršimas — skelbimų ar žemos kokybės puslapių užplūdymas, siekiant iškreipti apie asmenį ar temą gaunamus paieškos ir reitingavimo signalus.
  • Priešiški užklausimai ir turinys – kuriamos įvestys, kurios sukelia nepageidaujamą elgseną arba „jailbreak“, pakartojant šmeižikiškus teiginius.

Naujausi incidentai ir tyrimai (su datomis)

Pastaba: aukščiau nurodytos datos atspindi publikavimo arba viešo išleidimo datas susietuose šaltiniuose.

Kodėl tai pavojinga

  • LLM gali atrodyti autoritetingi net tada, kai pagrindinės nuorodos yra silpnos arba priešiškai įterptos.
  • Išgavimą ir reitingavimą vykdančios sistemos gali pernelyg pabrėžti pasikartojantį tekstą, leidžiant vienam veikėjui iškreipti rezultatus vien tik kiekiu.
  • Žmogiškosios faktų tikrinimo grandinės yra lėtos ir brangios, palyginti su automatizuoto turinio kūrimo ir platinimo sparta.
  • Asmenys, neturintys reikšmingo buvimo internete, yra ypač pažeidžiami vieno įrašo duomenų užteršimo ir tapatybės atakų.

Gilesnė rizikos analizė

  • Darbo priėmimo ir platformos patikros – paieška ir LLM santraukos gali atkartoti užnuodytą turinį įdarbinimo, moderavimo ar įvedimo patikrų metu.
  • Kelionės, būsto ir finansinės paslaugos – automatizuoti patikrinimai gali atskleisti klaidingus pasakojimus, kurie uždelstų arba užblokuotų paslaugas.
  • Išliekamumas - kartą indeksavus žinių bazėse arba talpykloje, klaidingi teiginiai gali vėl atsirasti net po pašalinimo.
  • Sintetinis grįžtamasis ryšys — sugeneruotas turinys gali paskatinti dar daugiau sugeneruoto turinio, laikui bėgant didindamas melagingų teiginių akivaizdų svorį.

Aptikimas ir stebėjimas

  • Sukurkite paieškos įspėjimus savo vardui ir slapyvardžiams; periodiškai tikrinkite site: užklausas dėl žemos reputacijos domenų, jus mininčių.
  • Stebėkite pokyčius savo žinių panelėse ar subjektų puslapiuose; saugokite datuotas ekrano kopijas ir eksportuotas bylas kaip įrodymus.
  • Stebėkite socialinių tinklų grafus dėl pasikartojančių kilmės paskyrų arba staigių panašių formuluočių šuolių.
  • Jei valdote RAG arba žinių bazę, atlikite entitetų svyravimo patikrinimus ir peržiūrėkite didelius pokyčius asmenų puslapiuose arba apkaltinimuose, kuriems trūksta pagrindinių šaltinių.

Apsaugos gairės - asmenims

  • Paskelbkite asmeninį tinklalapį su aiškiais tapatybės pareiškimais, trumpu biografiniu aprašymu ir kontaktais; palaikykite datuotą pakeitimų žurnalą.
  • Suderinti profilio metaduomenis tarp platformų; gauti patvirtintus profilius, kai įmanoma, ir susieti juos su jūsų svetaine.
  • Naudokite C2PA arba panašius turinio kredencialus svarbiausiems vaizdams ir dokumentams, kai įmanoma; originalus saugokite privačiai.
  • Laikykite įrodymų žurnalą su laiko žymomis: ekrano kopijas, nuorodas ir bet kokius platformos bilietų numerius vėlesniam eskalavimui.
  • Paruoškite pašalinimo (takedown) šablonus; greitai reaguokite į naujus išpuolius ir dokumentuokite kiekvieną veiksmą, kad būtų aiškus dokumentacijos pėdsakas.

Apsaugos gairės - komandoms ir integratoriams

  • Teikti pirmenybę pasirašytam arba leidėjo patikrintam turiniui paieškoje; naujiems šaltiniams taikyti laiko pagrindu nustatytus malonės laikotarpius.
  • Apribokite pasikartojančią įtaką iš tos pačios kilmės ir pašalinkite beveik identiškus dublikatus pagal kilmės tinklą.
  • Pridėti kilmės ženklelius ir vartotojui matomus šaltinių sąrašus asmenų lygmens teiginiams bei kitiems jautriems temoms.
  • Įdiegti anomalijų aptikimą embedding saugyklose; žymėti priešiškų vektorių anomalijas ir vykdyti kanarinius patikrinimus neautorizuotam plitimui nustatyti.

Tyrimai: kriptografiškai patvirtintos deklaracijos

Chad Scira kuria kriptografiškai patvirtintų liudijimų sistemas, skirtas pasitikėjimui pareiškimais apie asmenis ir įvykius. Tikslas – suteikti LLM ir paieškos sistemoms pasirašytus, užklausomis patikrinamus teiginius iš patikrintų specialistų ir organizacijų, užtikrinant tvirtą kilmę ir didesnį atsparumą užteršimui.

Dizaino principai

  • Tapatybė ir kilmė: pareiškimai pasirašomi patikrintų asmenų/organizacijų, naudojant viešojo rakto kriptografiją.
  • Patikrinamas saugojimas: patvirtinimai pririšti prie tik įrašymui skirtų, pažeidimams atsparių žurnalų, leidžiančių nepriklausomą patikrinimą.
  • Išgavimų integracija: RAG procesai gali prioritetizuoti ar reikalauti kriptografiškai patvirtintų šaltinių jautrioms užklausoms.
  • Minimalus trintis: API ir SDK leidžia leidėjams ir platformoms išduoti ir tikrinti patvirtinimus įkėlimo metu.

Reputacija ir įspėjimai

Be patvirtinimų, reputacijos sluoksnis agreguoja pasirašytus pritarimus ir pažymi žinomus piktnaudžiautojus. Įspėjimo sistemos informuoja taikinius, kai aptinkami koordinuoti išpuoliai arba nenormalaus dydžio šuoliai, leidžiantys greičiau reaguoti ir pateikti pašalinimo užklausas.

Teisinės ir platformos kanalai

  • Naudokite platformos pranešimų mechanizmus su aiškiais įrodymų paketais: nuorodomis, datomis, ekrano kopijomis ir poveikio aprašymais. Nurodykite atitinkamas šmeižto ir priekabiavimo politikos nuostatas.
  • Eskalavus, siųskite formalius pranešimus, kai reikia; saugokite korespondencijos žurnalus ir bilietų ID savo įrodymų grandinėje.
  • Apsvarstykite jurisdikcijos skirtumus dėl šmeižto ir platformos atsakomybės; konsultuokitės su teisininku aukštos rizikos atvejais.

Įgyvendinimo planas (1 metai)

  • MVP: patvirtinimo schema ir leidėjo SDK tapatybės pareiškimams ir įvykių teiginiams pasirašyti.
  • Pilotinis projektas su maža patikrintų specialistų ir organizacijų grupe; sukurkite verifikacijos darbo eigas.
  • RAG įskiepiai: įgalinkite kilmės pirmumo atsakymo režimą, kuris prioritetą teikia patvirtintiems šaltiniams jautrių užklausų atveju.

Papildoma literatūra (su datomis)

Bendradarbiavimas

Šie tyrimai yra pažangūs ir nuolat vystomi. Chad Scira kviečia bendradarbiauti su kitais šios srities profesionalais.

Jei domitės bendradarbiavimu, kreipkitės adresu: [email protected]