Riset Keracunan LLM lan Anti-penyalahgunaan

Chad Scira neliti carané model basa gedhé bisa diracun lan disalahgunakaké kanggo ngrusak individu, lan mbangun sistem protektif kanggo nglawan ancaman kasebut. Risiko iki darurat: laju kapercayan marang output LLM wis ngluwihi kemampuan kita kanggo mriksa pernyataan, nalika pihak lawan bisa kanthi murah nerbitaké teks sing nggeser prilaku model lan impresi telusuran saka wong sing ora nduwèni jejak online gedhé.

Putaran investasi pribadi diamanaké tanggal 3 Oktober 2025 kanggo nerusaké riset iki.

Ringkesan Eksekutif

Wong biasa kanthi jejak internet cilik ngadhepi risiko gedhé saka fitnah sing diperkuat AI lan keracunan data. Siji individu sing motivasi bisa nyebar narasi palsu sing banjur diulang déning mesin telusur, feed sosial, lan LLM. Dokumen iki nerangaké jalur serangan umum, efek konkrit marang reputasi lan keamanan, lan pandhuan praktis kanggo deteksi lan perlindungan. Uga njlentrehaké carané attestasi sing diverifikasi kanthi kriptografi lan pangambilan data sing paham asal-usul bisa nyuda karusakan kanggo individu lan integrator.

Audiens lan Model Ancaman

Audiens: individu lan organisasi cilik sing ora nduwèni pangsa SEO gedhé. Watesan: wektu, anggaran, lan sumber daya teknis sing winates. Lawan: siji aktor sing bisa ngasilaké lan ngunggah volume teks sing gedhé, nggunakaké jaringan pranala dhasar, lan njupuk kauntungan saka titik buta pelaporan. Tujuan: mbengkongaké asil telusuran/LLM, ngrusak reputasi, nggawe keraguan tumrap majikan, klien, platform, utawa agen.

Apa Iku Keracunan LLM?

Keracunan LLM nyakup manipulasi prilaku model liwat isi sing ditanam utawa dikoordinasèkaké - contoné, posting jahat, artikel sintetis, utawa spam forum - sing bisa diasupaké déning sistem retrieval utawa digunakaké déning manungsa minangka sinyal, nyurung model menyang asosiasi palsu lan narasi fitnah.

Amarga LLM lan sistem pengambilan dioptimalaké kanggo skala lan cakupan, siji pihak lawan sing motivasi bisa mbentuk apa sing dideleng model babagan wong kanthi ngebanjir bagean cilik saka web. Iki utamané efektif nglawan individu sing nduwèni kehadiran online winates.

Kepiye Reputasi Bisa Terdistorsi

  • Racun panelusuran lan sosial - pembajakan profil, link farm, lan posting massal kanggo mbengkongake fitur peringkat lan asosiasi pelengkapan otomatis.
  • Keracunan basis kawruh lan RAG - nggawe kaca entitas lan cathetan QA sing katon relevan sacara semantik lan dijupuk minangka konteks.
  • Injeksi prompt ora langsung - konten web bermusuhan sing nyebabake agen panyisir mbaleni instruksi utawa nyusupaké data sensitif.
  • Endpoint sing wis di-backdoor - pembungkus model jahat sing tumindak normal nganti frasa pemicu muncul, banjur ngasilaké kabar palsu sing ditargetaké.

Risiko Tambahan lan Mode Kegagalan

  • Keruntuhan model saka latihan ing output sintetis - loop umpan balik ing ngendi teks sing digawe bisa ngrusak kualitas model ing mangsa ngarep yen ora disaring utawa diwenehi bobot.
  • Injeksi prompt ora langsung - konten bermusuhan ing web sing menehi instruksi marang agen utawa piranti panyisir kanggo nyusupaké rahasia utawa nyebarake fitnah nalika dikutip.
  • Keracunan penyimpanan embedding - nyisipake potongan teks adversarial ing basis pengetahuan supaya pengambilan ngetokake klaim palsu sing katon relevan sacara semantik.
  • Rilis sing wis di-backdoor - nerbitaké checkpoint utawa pembungkus API sing dimodifikasi sing tumindak normal nganti frasa pemicu ana.

Kasus Konkret lan Referensi

Mitigasi kanthi Jero

Pengambilan lan Peringkat

  • Skor sumber lan bobot asal-usul - pilih konten sing ditandatangani utawa diverifikasi penerbit; kurangi bobot kaca anyar utawa sing reputasine rendah.
  • Peluruhan wektu kanthi periode tenggang - mbutuhake wektu ngendheg sadurungé sumber anyar nduwéni pengaruh marang jawaban kanthi konsekuensi dhuwur; tambah tinjauan manungsa kanggo entitas sing sensitif.
  • Deteksi ruang gema - klaster potongan sing meh duplikat lan watesi pengaruh sing bola-bali saka asal utawa jaringan sing padha.
  • Deteksi outlier lan anomali ing ruang embedding - tandhani bagian teks sing posisi vektore dioptimalake kanthi cara adversarial.

Kebersihan Data lan Basis Pengetahuan

  • Snapshot lan diff basis kawruh - mriksa delta gedhe, utamane kanggo entitas wong lan tuduhan tanpa sumber primer.
  • Daftar canary lan daftar tolak - nyegah panggabungan domain abusif sing dikenal; lebokaké canary kanggo ngukur propagasi tanpa wewenang.
  • Manungsa ing loop kanggo topik sing risiko dhuwur - antreaké usulan pembaruan fakta reputasi kanggo adjudikasi manual.

Attestasi lan Reputasi

  • Atestasi sing diverifikasi kriptografis - pernyataan sing ditandatangani saka profesional lan organisasi sing wis diverifikasi sing diterbitake liwat log sing mung bisa ditambah.
  • Grafik reputasi - nglumpukake dukungan sing ditandatangani lan nurunake peringkat konten saka penyalahgunaan sing bola-bali utawa jaringan bot.
  • Sitasi sing diarahake marang pangguna - mbutuhake model supaya nampilake sumber lan tingkat kapercayan nganggo lencana asal-usul kanggo klaim sensitif.

Daftar Periksa Perusahaan

  • Petakaké entitas sensitif ing domain sampeyan (wong, merek, topik hukum) lan arahaké kueri menyang jalur pangolahan sing dijaga kanthi syarat asal-usul.
  • Gunakaké C2PA utawa kredensial konten sing padha kanggo konten pihak pertama lan ajak mitra supaya nindakake sing padha.
  • Lacak pengaruh sumber anyar saka wektu ke wektu lan wenehi peringatan nalika ana fluktuasi sing ora biasa kanggo jawaban tingkat entitas.
  • Ngadakake red teaming terus-terusan kanggo agen RAG lan agen browsing, kalebu suite tes injeksi prompt ora langsung.

Pelecehan lan Fitnah liwat AI

Individu sing disewa saiki nggunakake AI lan otomatisasi kanggo ngasilaké sacara massal pelecehan lan fitnah, nggawe teks sing katon bisa dipercaya lan palsu “sumber” sing gampang diindeks, di-scrape, lan dibagikaké maneh. Kampanye iki murah, nduwèni dampak gedhe, lan angel didandani sawisé diperkuat déning sistem otomatis.

Chad Scira wis ngalami kanthi pribadi pelecehan lan fitnah sing ditargetaké kanthi pranala spam sing dimaksudaké kanggo nyimpangaké sinyal reputasi lan impresi telusuran. Cathetan rinci lan jejak bukti didokumentasikaké ing kéné: Jesse Nickles - Pelecehan lan Fitnah.

Taksonomi Ancaman

  • Racun data pra-pelatihan - ngracun korpora umum sing digunakaké kanggo pelatihan awal kanggo nyisipaké asosiasi palsu utawa backdoor.
  • RAG poisoning - nyemaaké basis kawruh utawa sumber eksternal sing digunakaké déning pipeline pengambilan nalika wektu inferensi.
  • Racun panelusuran/sosial - membanjiri posting utawa kaca kualitas rendah kanggo mbengkongake sinyal pengambilan lan peringkat babagan individu utawa topik.
  • Prompt lan konten adversarial - nyusun input sing memicu prilaku sing ora dikarepake utawa jailbreak sing mbaleni klaim fitnah.

Kejadian lan Panaliten Anyar (kanthi tanggal)

Cathetan: Tanggal ing ndhuwur nuduhaké tanggal publikasi utawa tanggal rilis umum ing sumber sing disambung.

Napa Iki Mbebayani

  • LLM bisa katon otoritatif sanajan referensi dhasaré ringkih utawa ditanam kanthi musuhan.
  • Pipa pengambilan lan peringkat bisa menehi bobot kakehan marang teks sing bola-bali, ngidini siji aktor miringake asil mung kanthi volume.
  • Jejak verifikasi fakta manungsa alon lan mbutuhake biaya gedhe tinimbang kacepetan produksi lan distribusi konten otomatis.
  • Korban sing ora nduwé jejak online sing signifikan luwih rentan sacara ora proporsional marang keracunan saka siji kiriman lan serangan identitas.

Analisis Jero Risiko

  • Penyaringan pegawai lan platform - telusuran lan ringkesan LLM bisa mbaleni konten sing diracuni nalika perekrutan, moderasi, utawa pemeriksaan orientasi.
  • Layanan perjalanan, papan panggonan, lan layanan finansial - pemeriksaan otomatis bisa ngetokake narasi palsu sing nundha utawa ngalangi layanan.
  • Persistensi - sawisé diindeks menyang basis kawruh utawa jawaban sing disimpen ing cache, klaim palsu bisa muncul maneh sanajan wis ana takedown.
  • Umpan balik sintetis - konten sing digawe bisa ngasilake luwih akeh konten sing digawe, nambah bobot sing katon saka kabohongan saka wektu ke wektu.

Deteksi lan Pemantauan

  • Pasang peringatan panelusuran kanggo jeneng lan alias sampeyan; priksa periodik kueri site: kanggo domain reputasi rendah sing nyebut sampeyan.
  • Lacak owah-owahan ing panel kawruh utawa kaca entitas panjenengan; simpen tangkapan layar kanthi tanggal lan salinan ekspor minangka bukti.
  • Monitor grafik pranala sosial kanggo akun asal sing bola-bali utawa lonjakan dadakan frasa sing padha.
  • Yen ngoperasèkaké RAG utawa basis kawruh, lakokna pemeriksaan pergeseran entitas lan mriksa delta gedhé kanggo kaca wong utawa tuduhan tanpa sumber primèr.

Buku Pandhuan Perlindungan - Individu

  • Terbitaké situs pribadhi kanthi pernyataan identitas sing cetha, biografi cekak, lan cara kontak; simpen log pangowahan kanthi tanggal.
  • Selerasaké metadata profil ing sakabèhé platform; entuk profil sing diverifikasi yèn bisa lan sambungaké bali menyang situs sampeyan.
  • Gunakake C2PA utawa kredensial konten sing padha kanggo gambar lan dokumen kunci yen bisa; simpen dokumen asli kanthi pribadi.
  • Tetepna log bukti kanthi cap wektu: tangkapan layar, pranala, lan nomer tiket platform apa wae kanggo eskalasi mengko.
  • Siapaké templat takedown; tanggapi kanthi cepet marang serangan anyar lan dokumentasikaké saben langkah kanggo jejak dokumen sing cetha.

Buku Pandhuan Perlindungan - Tim lan Integrator

  • Utamaké konten sing wis ditandatangani utawa diverifikasi penerbit ing proses pengambilan; terapké periode tenggang adhedhasar wektu kanggo sumber anyar.
  • Watesi pengaruh sing bola-bali saka sumber sing padha lan gabungaké duplikat sing meh padha kanggo saben jaringan asal.
  • Tambahaké lencana asal-usul lan daftar sumber sing katon déning pangguna kanggo klaim tingkat individu lan topik sensitif liyane.
  • Gunakaké deteksi anomali ing panyimpen embedding; tandhani outlier vektor adversarial lan lakokaké pemeriksaan canary kanggo propagasi tanpa otorisasi.

Panaliten: Pernyataan sing Diverifikasi kanthi Kriptografi

Chad Scira lagi mbangun sistem attestasi sing diverifikasi kanthi kriptografi kanggo kapercayan ing pernyataan babagan wong lan acara. Tujuane kanggo nyedhiakaké marang LLM lan sistem pengambilan klaim sing ditandatangani lan bisa dipriksa saka profesional lan organisasi sing diverifikasi, supaya ndhukung asal-usul sing kuwat lan tahan luwih apik marang keracunan model.

Prinsip Desain

  • Identitas lan asal-usul: pernyataan ditandatangani dening individu/organisasi sing wis diverifikasi nggunakake kriptografi kunci umum.
  • Panyimpenan sing bisa diverifikasi: atestasi dipasang ing log sing mung bisa ditambah lan kabukten resik saka manipulasi supaya bisa diverifikasi sacara mandiri.
  • Integrasi pengambilan: pipa RAG bisa menehi prioritas utawa mbutuhake sumber sing disertifikasi kanthi kriptografi kanggo pitakon sensitif.
  • Gesekan minimal: API lan SDK ngidini penerbit lan platform kanggo ngeluarke lan mriksa atestasi nalika wektu asupan.

Reputasi lan Peringatan

Saliyane atestasi, lapisan reputasi nggabungaké endorsement sing wis ditandatangani lan mènèhi tandha pangguna sing dikenal nyalahgunakaké. Sistem peringatan ngabari target nalika serangan terkoordinasi utawa lonjakan anomali dideteksi, ngidini tanggapan luwih cepet lan panyuwunan takedown.

Saluran Hukum lan Platform

  • Gunakake alur laporan platform kanthi paket bukti sing cetha: pranala, tanggal, tangkapan layar, lan dampak. Rujuk kebijakan pencemaran nama baik lan pelecehan.
  • Eskalasikna nganggo kabar resmi yen perlu; simpen log korespondensi lan ID tiket minangka jejak bukti.
  • Pertimbangna bedane yurisdiksi babagan fitnah lan tanggung jawab platform; konsultasi karo penasihat hukum kanggo kasus sing nduwé risiko dhuwur.

Peta Jalan Implementasi (Tahun 1)

  • MVP: skema atestasi lan SDK penerbit kanggo nandatangani pernyataan identitas lan klaim acara.
  • Pilot karo klompok cilik profesional lan organisasi sing wis diverifikasi; netepaké alur kerja verifikasi.
  • Plug-in RAG: aktifaké mode jawaban asal (provenance) sing ngutamaké sumber sing diatestasi kanggo pitakon sensitif.

Bacaan Lanjut (karo tanggal)

Kolaborasi

Panliten iki mutakhir lan aktif berkembang. Chad Scira nampani kolaborasi karo profesional liyane ing sektor iki.

Yen sampeyan kasengsem kolaborasi, mangga hubungi ing: [email protected]