Čads Skira pēta, kā lielos valodas modeļus var saindēt un ļaunprātīgi izmantot, lai kaitētu indivīdiem, un izstrādā aizsargsistēmas, lai pret šiem draudiem vērstos. Risks ir steidzams: uzticēšanās LLM rezultātiem pieaug ātrāk nekā mūsu spēja pārbaudīt apgalvojumus, kamēr pretinieki var lēti publicēt tekstu, kas izkropļo modeļu uzvedību un meklēšanas iespaidu par cilvēkiem bez lielas klātbūtnes tiešsaistē.
2025. gada 3. oktobrī tika nodrošināts privāts investīciju raunds, lai turpinātu šos pētījumus.
Izpildkopsavilkums
Parasti cilvēkiem ar nelielu digitālo nospiedumu ir nesamērīgi liels risks kļūt par mākslīgā intelekta pastiprinātu apmelojumu un datu saindēšanas upuriem. Viens motivēts indivīds var iesēt nepatiesus stāstus, kurus pēc tam atkārto meklētāji, sociālo tīklu plūsmas un LLM modeļi. Šis dokuments izskaidro izplatītākos uzbrukuma virzienus, konkrētu ietekmi uz reputāciju un drošību, kā arī piedāvā praktisku rīcības plānu atklāšanai un aizsardzībai. Tajā arī skaidrots, kā kriptogrāfiski pārbaudāmi apliecinājumi un izcelsmi apzinoša informācijas izgūšana var mazināt kaitējumu privātpersonām un integratoriem.
Mērķauditorija un apdraudējuma modelis
Mērķauditorija: privātpersonas un mazas organizācijas bez plašas SEO klātbūtnes. Ierobežojumi: ierobežots laiks, budžets un tehniskie resursi. Pretinieks: viens dalībnieks, kas spēj ģenerēt un publicēt lielu teksta apjomu, izmantot pamata saišu tīklus un izmantot ziņošanas aklās zonas. Mērķi: sagrozīt meklēšanas/LLM rezultātus, kaitēt reputācijai, radīt šaubas darba devējiem, klientiem, platformām vai aģentiem.
Kas ir LLM saindēšana?
LLM saindēšana attiecas uz modeļa uzvedības manipulāciju, izmantojot iesētu vai koordinētu saturu – piemēram, ļaunprātīgus ierakstus, sintētiskus rakstus vai foruma surogātpastu –, ko var iegūt informācijas izgūšanas sistēmas vai izmantot cilvēki kā signālus, pakāpeniski virzot modeļus uz nepatiesām asociācijām un apmelojošiem naratīviem.
Tā kā LLM modeļi un informācijas izgūšanas sistēmas ir optimizētas mērogam un pārklājumam, viens motivēts pretinieks var ietekmēt, ko modelis “redz” par konkrētu personu, appludinot nelielu tīmekļa daļu ar saturu. Tas ir īpaši efektīvi pret privātpersonām ar ierobežotu klātbūtni tiešsaistē.
Kā tiek izkropļota reputācija
- Meklēšanas un sociālo tīklu saindēšana – profilu nolaupīšana, saišu fermas un masveida publicēšana, lai ietekmētu rangu noteikšanas pazīmes un automātisko pabeigšanu.
- Zināšanu bāzes un RAG indēšana – entītiju lapu un J&A (jautājumu–atbilžu) piezīmju veidošana, kas semantiski šķiet atbilstošas un tiek izgūtas kā konteksts.
- Netieša pamudinājuma injekcija – naidīgs tīmekļa saturs, kas liek pārlūkošanas aģentiem atkārtot norādījumus vai eksfiltrēt sensitīvus datus.
- “Aizmugures durvju” galapunkti – ļaunprātīgi modeļa ietvari, kas uzvedas normāli, līdz parādās noteikti trigerfrāžu, pēc tam sniedz mērķēti nepatiesu informāciju.
Papildu riski un atteices režīmi
- Modeļa sabrukums, trenējot uz sintētiskiem rezultātiem – atgriezeniskās saites cilpas, kur ģenerēts teksts, ja tas netiek filtrēts vai atbilstoši svērts, pasliktina nākotnes modeļu kvalitāti.
- Netieša pamudinājuma injekcija – naidīgs saturs tīmeklī, kas norāda aģentam vai pārlūkošanas rīkam eksfiltrēt slepenu informāciju vai izplatīt neslavu, kad tas tiek citēts.
- Iegulējumu krātuves saindēšana – naidīgu fragmentu ievietošana zināšanu bāzē, lai izgūstot tiktu parādīti nepatiesi apgalvojumi, kas semantiski šķiet atbilstoši.
- “Aizmugures durvju” laidieni – publicēti modificēti kontrolpunkti vai API ietvari, kas darbojas ierasti, līdz tiek izmantota trigerfrāze.
Konkrēti gadījumi un atsauces
Daudzslāņu mazināšanas pasākumi
Iegūšana un rangu noteikšana
- Avotu novērtēšana un izcelsmes (provenances) svēršana – priekšroku dot parakstītam vai izdevēja verificētam saturam; samazināt jaunu vai zemas reputācijas lapu svaru.
- Laika samazinājums ar pārejas periodu – prasīt uzturēšanās laiku, pirms jauni avoti ietekmē augsta riska atbildes; sensitīvām entitātēm pievienot cilvēka pārbaudi.
- Atbalsu kameras noteikšana – grupēt gandrīz identiskus fragmentus un ierobežot atkārtotu ietekmi no tā paša avota vai tīkla.
- Izlēcēju un anomāliju noteikšana iegulējumu telpā – atzīmēt fragmentus, kuru vektoru pozīcijas ir pretinieciskā veidā optimizētas.
Datu un zināšanu bāzes higiēna
- Momentuzņēmumu un atšķirību zināšanu bāzes – pārskatīt lielas izmaiņas, īpaši attiecībā uz personām un apsūdzībām bez primārajiem avotiem.
- “Canary” un lieguma saraksti – neļauj iekļaut zināmi ļaunprātīgas izmantošanas domēnus; ievieto “canary” ierakstus, lai izmērītu neatļautu izplatību.
- Cilvēka iesaiste augsta riska tēmās – novirzīt piedāvātos reputācijas faktu atjauninājumus rindā manuālai izvērtēšanai.
Apliecinājumi un reputācija
- Kriptogrāfiski pārbaudāmi apliecinājumi – parakstīti paziņojumi no pārbaudītiem profesionāļiem un organizācijām, kas publicēti tikai papildināmā žurnālā.
- Reputācijas grafiki – apkopot parakstītus ieteikumus un pazemināt satura rangu no atkārtotiem pārkāpējiem vai botu tīkliem.
- Lietotājiem redzamas atsauces – prasīt, lai modeļi uzrāda avotus un pārliecības līmeni ar izcelsmes (provenances) nozīmītēm sensitīviem apgalvojumiem.
Uzņēmuma kontrolsaraksts
- Kartējiet jutīgās vienības savā jomā (personas, zīmolus, juridiskās tēmas) un novirziet vaicājumus uz aizsargātām datu apstrādes līnijām ar izcelsmes (provenances) prasībām.
- Ieviest C2PA vai līdzvērtīgas satura akreditācijas pirmās puses saturam un mudināt partnerus rīkoties līdzīgi.
- Izsekojiet jaunu avotu ietekmi laika gaitā un izveidojiet brīdinājumus par neparastām svārstībām entītiju līmeņa atbildēs.
- Nepārtraukti veikt sarkano komandu pārbaudes RAG un pārlūkošanas aģentiem, tostarp netiešas pamudināšanas injekciju testu komplektus.
Vajāšana un apmelošana ar mākslīgā intelekta starpniecību
Nolīgti indivīdi tagad izmanto MI un automatizāciju, lai masveidā ražotu uzmākšanos un neslavas celšanu, veidojot ticami izskatošos tekstus un viltotus “avotus”, kurus ir viegli indeksēt, nokasīt un atkārtoti izplatīt. Šīs kampaņas ir ar zemām izmaksām, augstu ietekmi un sarežģīti novēršamas, tiklīdz tās pastiprina automatizētas sistēmas.
Čads Skira ir personīgi piedzīvojis mērķtiecīgu vajāšanu un neslavas celšanu, kas apvienota ar surogātpiesaitēm, kuru mērķis ir izkropļot reputācijas signālus un meklēšanas rezultātu iespaidu. Detalizēts apraksts un pierādījumu ķēde ir dokumentēta šeit: Džesijs Niklsss – uzmākšanās un neslavas celšana.
Draudu taksonomija
- Iepriekšapmācības datu saindēšana – publisko korpusu saindēšana, kurus izmanto sākotnējai apmācībai, lai ieviestu nepatiesas asociācijas vai aizmugures durvis.
- RAG saindēšana – zināšanu bāzu vai ārējo avotu apzināta ietekmēšana, kurus iegūšanas cauruļvadi izmanto inferenču veikšanas laikā.
- Meklēšanas/sociālo tīklu saindēšana – masveidā publicējot ierakstus vai zemas kvalitātes lapas, lai sagrozītu iegūšanas un rangu noteikšanas signālus par personu vai tēmu.
- Pretinieciski norādījumi un saturs – pieprasījumu veidošana tā, lai tie izraisītu nevēlamu rīcību vai “jailbreak” situācijas, kas atkārto apmelojošus apgalvojumus.
Nesenie incidenti un pētījumi (ar datumiem)
Piezīme: iepriekš minētie datumi atspoguļo publiskošanas vai publiskas izlaišanas datumus norādītajos avotos.
Kāpēc tas ir bīstami
- LLM modeļi var šķist autoritatīvi pat tad, ja pamatavoti ir vāji vai ļaunprātīgi iesēti.
- Iegūšanas un rangu noteikšanas cauruļvadi var pārvērtēt atkārtotu tekstu, ļaujot vienam dalībniekam ar lielu apjomu vienatnē sagrozīt rezultātus.
- Cilvēku veiktas faktu pārbaudes ir lēnas un dārgas salīdzinājumā ar automatizētas satura veidošanas un izplatīšanas ātrumu.
- Upuriem bez būtiskas klātbūtnes tiešsaistē ir nesamērīgi augsts risks kļūt par vienas publikācijas dezinformācijas un identitātes uzbrukumu mērķi.
Riska padziļināta analīze
- Nodarbinātības un platformu pārbaude – meklēšana un LLM kopsavilkumi var atskaņot saindētu saturu personāla atlasē, moderācijā vai ievadpārbaudēs.
- Ceļošana, mājoklis un finanšu pakalpojumi – automatizētas pārbaudes var atklāt nepatiesus stāstījumus, kas aizkavē vai bloķē pakalpojumus.
- Noturība – tiklīdz nepatiesi apgalvojumi ir indeksēti zināšanu bāzēs vai kešatmiņas atbildēs, tie var atkal parādīties pat pēc to izņemšanas.
- Sintētiskā atgriezeniskā saite – ģenerēts saturs var kalpot kā pamats turpmākam ģenerētam saturam, laika gaitā palielinot acīmredzamo nepatiesību svaru.
Atklāšana un uzraudzība
- Iestatiet meklēšanas brīdinājumus par savu vārdu un pseidonīmiem; periodiski pārbaudiet site: vaicājumus, lai atrastu zemas reputācijas domēnus, kuros jūs tiekat pieminēts.
- Izsekojiet izmaiņas savos zināšanu paneļos vai entītiju lapās; saglabājiet datētus ekrānuzņēmumus un eksportētās kopijas kā pierādījumus.
- Uzraugiet sociālo saišu grafus, lai atklātu atkārtotus sākotnējos kontus vai pēkšņus līdzīgi formulētu frāžu uzliesmojumus.
- Ja izmantojat RAG vai zināšanu bāzi, veiciet entītiju dreifa pārbaudes un pārskatiet būtiskas izmaiņas personu lapās vai apsūdzībās bez primārajiem avotiem.
Aizsardzības rokasgrāmata – Individuāļi
- Publicējiet personīgo vietni ar skaidriem identitātes apgalvojumiem, īsu biogrāfiju un saziņas kanāliem; uzturiet datētu izmaiņu žurnālu.
- Saskaņojiet profila metadatus dažādās platformās; iespēju robežās iegūstiet verificētus profilus un sasaistiet tos ar savu vietni.
- Iespēju robežās izmantojiet C2PA vai līdzīgas satura akreditācijas galvenajiem attēliem un dokumentiem; oriģinālus glabājiet privāti.
- Uzturiet pierādījumu žurnālu ar laika zīmogiem: ekrānuzņēmumi, saites un jebkuri platformas pieteikumu numuri turpmākai eskalācijai.
- Sagatavojiet izņemšanas pieprasījumu veidnes; ātri reaģējiet uz jauniem uzbrukumiem un dokumentējiet katru soli skaidras izsekojamības nodrošināšanai.
Aizsardzības rokasgrāmata – Komandas un integratori
- Atgūšanas procesā dodiet priekšroku parakstītam vai izdevēja verificētam saturam; piemērojiet laika balstītus pārejas periodus jauniem avotiem.
- Ierobežojiet atkārtotu ietekmi no viena un tā paša avota un likvidējiet tuvus dublikātus katrā avotu tīklā.
- Pievienot izcelsmes emblēmas un lietotājiem redzamus avotu sarakstus personu līmeņa apgalvojumiem un citiem jutīgiem tematiem.
- Ieviest anomāliju noteikšanu iegulumu krātuvēs; atzīmēt naidīgus vektoru atšķirīgos punktus un veikt kontroles pārbaudes, lai novērstu neatļautu izplatīšanos.
Pētījumi: kriptogrāfiski verificēti apliecinājumi
Čads Skira izstrādā kriptogrāfiski pārbaudāmas apliecinājumu sistēmas uzticamībai apgalvojumiem par cilvēkiem un notikumiem. Mērķis ir nodrošināt LLM un informācijas izgūšanas sistēmas ar parakstītiem, vaicājamiem apgalvojumiem no pārbaudītiem profesionāļiem un organizācijām, tādējādi nodrošinot stabilu izcelsmes pārbaudāmību un spēcīgāku aizsardzību pret bojāšanu.
Dizaina principi
- Identitāte un izcelsme: paziņojumus paraksta pārbaudītas personas/organizācijas, izmantojot publiskās atslēgas kriptogrāfiju.
- Pārbaudāma glabāšana: apliecinājumi ir piesaistīti tikai papildināmiem, manipulācijām izturīgiem žurnāliem, lai nodrošinātu neatkarīgu pārbaudi.
- Iegūšanas integrācija: RAG cauruļvadi jutīgos vaicājumos var prioritizēt vai pieprasīt kriptogrāfiski apliecinātus avotus.
- Minimāla berze: API un SDK ļauj izdevējiem un platformām iesniegšanas brīdī izsniegt un pārbaudīt apliecinājumus.
Reputācija un brīdinājumi
Papildus apliecinājumiem reputācijas slānis apkopo parakstītus ieteikumus un atzīmē zināmus ļaunprātīgus lietotājus. Brīdināšanas sistēmas informē mērķus, kad tiek konstatēti koordinēti uzbrukumi vai anomāls pieaugums, tādējādi nodrošinot ātrāku reakciju un izņemšanas pieprasījumus.
Juridiskie un platformu kanāli
- Izmantojiet platformu ziņošanas plūsmas ar skaidriem pierādījumu komplektiem: saites, datumus, ekrānuzņēmumus un ietekmes aprakstus. Atsaucieties uz apmelošanas un uzmākšanās politiku.
- Ja nepieciešams, eskalējiet ar oficiāliem paziņojumiem; glabājiet sarakstes žurnālus un pieteikumu ID savā pierādījumu ķēdē.
- Ņemiet vērā jurisdikciju atšķirības neslavas celšanas un platformu atbildības jautājumos; augsta riska gadījumos konsultējieties ar juristu.
Ieviešanas ceļvedis (1. gads)
- MVP: apliecinājumu shēma un izdevēju SDK identitātes paziņojumu un notikumu prasību parakstīšanai.
- Sākt pilotprojektu ar nelielu, pārbaudītu profesionāļu un organizāciju grupu; izveidot verifikācijas darba plūsmas.
- RAG spraudņi: aktivizēt pirmās atbildes režīmu ar izcelsmes pārbaudi, kas jutīgos vaicājumos prioritizē apliecinātus avotus.
Papildu literatūra (ar datumiem)
Sadarbība
Šie pētījumi ir inovatīvi un strauji attīstās. Čads Skira ir atvērts sadarbībai ar citiem šīs nozares profesionāļiem.
Ja jūs interesē sadarbība, lūdzu, sazinieties: [email protected]