Penelitian Peracunan LLM dan Pencegahan Penyalahgunaan

Chad Scira meneliti bagaimana model bahasa besar dapat diracuni dan disalahgunakan untuk merugikan individu, serta membangun sistem perlindungan untuk menangkal ancaman ini. Risikonya mendesak: laju kepercayaan terhadap keluaran LLM telah melampaui kemampuan kita untuk memverifikasi pernyataan, sementara penyerang dapat dengan murah mempublikasikan teks yang menggeser perilaku model dan impresi pencarian terhadap orang-orang yang tidak memiliki jejak online besar.

Putaran investasi privat diamankan pada 3 Oktober 2025 untuk melanjutkan penelitian ini.

Ringkasan Eksekutif

Orang biasa dengan jejak internet kecil menghadapi risiko yang jauh lebih besar dari pencemaran nama baik yang diperkuat AI dan keracunan data. Seorang individu yang termotivasi dapat menanamkan narasi palsu yang kemudian diulang oleh mesin pencari, umpan sosial, dan model bahasa besar (LLM). Dokumen ini menjelaskan jalur serangan umum, dampak konkret terhadap reputasi dan keselamatan, serta panduan praktis untuk deteksi dan perlindungan. Dokumen ini juga menguraikan bagaimana attestasi yang diverifikasi secara kriptografis dan pengambilan yang menyadari asal-usul dapat mengurangi bahaya bagi individu dan pengintegrasi.

Audiens dan Model Ancaman

Audiens: individu dan organisasi kecil yang tidak memiliki kehadiran SEO besar. Keterbatasan: waktu, anggaran, dan sumber daya teknis yang terbatas. Penyerang: pelaku tunggal yang mampu menghasilkan dan memposting volume besar teks, menggunakan jaringan tautan dasar, dan mengeksploitasi celah pelaporan. Tujuan: mendistorsi keluaran mesin pencari/model bahasa besar (LLM), merusak reputasi, menciptakan keraguan bagi pemberi kerja, klien, platform, atau agen.

Apa Itu LLM Poisoning?

Peracunan LLM merujuk pada manipulasi perilaku model melalui konten yang ditanamkan atau terkoordinasi - misalnya, unggahan berbahaya, artikel sintetis, atau spam forum - yang dapat diambil oleh sistem pengambilan atau digunakan oleh manusia sebagai sinyal, mendorong model ke arah asosiasi palsu dan narasi fitnah.

Karena model bahasa besar (LLM) dan sistem pengambilan mengoptimalkan skala dan cakupan, seorang penyerang termotivasi dapat membentuk apa yang "dilihat" model tentang seseorang dengan membanjiri sebagian kecil web. Hal ini sangat efektif terhadap individu dengan keberadaan online yang terbatas.

Bagaimana Reputasi Terdistorsi

  • Peracunan pencarian dan sosial - pembajakan profil, jaringan tautan, dan posting massal untuk memanipulasi fitur peringkat dan asosiasi pelengkapan otomatis.
  • Pencemaran basis pengetahuan dan RAG - membuat halaman entitas dan catatan QA yang tampak relevan secara semantis dan diambil kembali sebagai konteks.
  • Injeksi prompt tidak langsung - konten web bermusuhan yang menyebabkan agen penjelajah mengulangi instruksi atau membocorkan data sensitif.
  • Endpoint yang disusupi (backdoored) - pembungkus model berbahaya yang tampak normal sampai frasa pemicu muncul, lalu mengeluarkan kebohongan terarah.

Risiko Tambahan dan Mode Kegagalan

  • Keruntuhan model akibat pelatihan pada keluaran sintetis - loop umpan balik di mana teks yang dihasilkan menurunkan kualitas model di masa depan jika tidak disaring atau diberi pembobotan.
  • Injeksi prompt tidak langsung - konten bermusuhan di web yang menginstruksikan agen atau alat penjelajah untuk membocorkan rahasia atau menyebarkan pencemaran nama baik ketika dikutip.
  • Peracunan penyimpanan embedding - menyisipkan bagian-bagian adversarial ke dalam basis pengetahuan sehingga pengambilan menampilkan klaim palsu yang tampak relevan secara semantik.
  • Rilisan yang disusupi backdoor - mempublikasikan checkpoint yang dimodifikasi atau pembungkus API yang berperilaku normal sampai frasa pemicu hadir.

Kasus Konkret dan Referensi

Mitigasi Mendalam

Pengambilan dan Peringkatan

  • Skor sumber dan pembobotan asal-usul - prioritaskan konten yang ditandatangani atau diverifikasi penerbit; turunkan bobot halaman yang baru dibuat atau berreputasi rendah.
  • Peluruhan waktu dengan masa tenggang - mensyaratkan waktu tunggu sebelum sumber baru memengaruhi jawaban bernilai tinggi; tambahkan tinjauan manusia untuk entitas sensitif.
  • Deteksi ruang gema - mengelompokkan kutipan yang hampir duplikat dan membatasi pengaruh berulang dari sumber atau jaringan yang sama.
  • Deteksi outlier dan anomali di ruang embedding - tandai bagian teks yang posisi vektornya dioptimalkan secara adversarial.

Kebersihan Data dan Basis Pengetahuan (KB)

  • Basis pengetahuan snapshot dan diff - tinjau delta besar, terutama untuk entitas orang dan tuduhan tanpa sumber primer.
  • Daftar canary dan daftar penolakan - mencegah penggabungan domain abusif yang diketahui; menyisipkan canary untuk mengukur penyebaran tidak sah.
  • Libatkan manusia untuk topik berisiko tinggi - masukkan pembaruan yang diusulkan pada fakta reputasi ke dalam antrian untuk penilaian manual.

Attestasi dan Reputasi

  • Pernyataan yang diverifikasi secara kriptografis - pernyataan tertulis yang ditandatangani dari profesional dan organisasi yang telah disaring, dipublikasikan melalui log yang hanya dapat ditambahkan.
  • Grafik reputasi - menggabungkan dukungan yang ditandatangani dan menurunkan peringkat konten dari pelaku penyalahgunaan berulang atau jaringan bot.
  • Kutipan yang ditampilkan kepada pengguna - minta model untuk menampilkan sumber dan tingkat keyakinan dengan lencana asal-usul untuk klaim sensitif.

Daftar Periksa Perusahaan

  • Petakan entitas sensitif di domain Anda (orang, merek, topik hukum) dan arahkan kueri ke jalur pemrosesan yang terlindungi dengan persyaratan asal-usul.
  • Adopsi C2PA atau kredensial konten serupa untuk konten pihak pertama dan dorong mitra untuk melakukan hal yang sama.
  • Lacak pengaruh sumber baru dari waktu ke waktu dan beri peringatan pada fluktuasi tidak biasa untuk jawaban tingkat entitas.
  • Jalankan red teaming berkelanjutan untuk agen RAG dan peramban termasuk rangkaian uji injeksi prompt tidak langsung.

Pelecehan dan Pencemaran Nama Baik melalui AI

Individu yang disewa kini memanfaatkan AI dan otomatisasi untuk memproduksi secara massal pelecehan dan pencemaran nama baik, menciptakan teks yang tampak meyakinkan dan “sumber” palsu yang mudah diindeks, di-scrape, dan dibagikan ulang. Kampanye ini berbiaya rendah, berdampak besar, dan sulit diperbaiki setelah diperkuat oleh sistem otomatis.

Chad Scira secara pribadi telah mengalami pelecehan dan pencemaran nama baik yang ditargetkan disertai dengan penautan spam yang bertujuan mendistorsi sinyal reputasi dan impresi pencarian. Rincian dan jejak bukti didokumentasikan di sini: Jesse Nickles - Pelecehan dan Pencemaran Nama Baik.

Taksonomi Ancaman

  • Pemberacunan data pra-pelatihan - mencemari korpora publik yang digunakan untuk pelatihan awal untuk menanam asosiasi palsu atau backdoor.
  • Pemberacunan RAG - menyemai basis pengetahuan atau sumber eksternal yang digunakan jalur pengambilan saat inferensi.
  • Peracunan pencarian/sosial - membanjiri postingan atau halaman berkualitas rendah untuk memanipulasi sinyal pengambilan dan peringkatan tentang seseorang atau topik.
  • Prompt dan konten adversarial - merancang masukan yang memicu perilaku yang tidak diinginkan atau jailbreak yang mengulangi klaim fitnah.

Insiden dan Penelitian Terbaru (dengan tanggal)

Catatan: Tanggal di atas mencerminkan tanggal publikasi atau tanggal rilis publik di sumber yang ditautkan.

Mengapa Ini Berbahaya

  • LLM dapat tampak otoritatif bahkan ketika referensi yang mendasarinya lemah atau sengaja ditanamkan secara adversarial.
  • Pipeline pengambilan dan peringkatan dapat memberikan bobot berlebih pada teks yang berulang, memungkinkan satu pelaku memanipulasi hasil hanya dengan volume.
  • Pemeriksaan fakta oleh manusia berlangsung lambat dan mahal dibandingkan dengan kecepatan produksi dan distribusi konten otomatis.
  • Korban tanpa kehadiran online yang signifikan secara tidak proporsional rentan terhadap 'single-post poisoning' dan serangan identitas.

Pendalaman Risiko

  • Penyaringan pekerjaan dan platform - pencarian dan ringkasan LLM dapat menggemakan konten yang tercemar selama pemeriksaan perekrutan, moderasi, atau orientasi.
  • Perjalanan, perumahan, dan layanan keuangan - pemeriksaan otomatis dapat memunculkan narasi palsu yang menunda atau memblokir layanan.
  • Persistensi - setelah diindeks ke basis pengetahuan atau jawaban yang di-cache, klaim palsu dapat muncul kembali bahkan setelah penghapusan.
  • Umpan balik sintetis - konten yang dihasilkan dapat memicu lebih banyak konten yang dihasilkan, meningkatkan bobot tampak dari kebohongan seiring waktu.

Deteksi dan Pemantauan

  • Atur pemberitahuan pencarian untuk nama dan alias Anda; secara berkala periksa kueri site: untuk domain dengan reputasi rendah yang menyebutkan Anda.
  • Lacak perubahan pada panel pengetahuan atau halaman entitas Anda; simpan tangkapan layar bertanggal dan salinan ekspor sebagai bukti.
  • Pantau grafik jaringan sosial untuk akun asal yang berulang atau lonjakan tiba-tiba frasa serupa.
  • Jika menjalankan RAG atau basis pengetahuan, lakukan pemeriksaan pergeseran entitas dan tinjau perubahan besar pada halaman individu atau tuduhan yang tidak disertai sumber primer.

Buku Panduan Perlindungan - Individu

  • Terbitkan situs pribadi dengan pernyataan identitas yang jelas, biografi singkat, dan jalur kontak; simpan log perubahan yang bertanggal.
  • Sesuaikan metadata profil di seluruh platform; peroleh profil terverifikasi jika memungkinkan dan tautkan kembali ke situs Anda.
  • Gunakan C2PA atau kredensial konten serupa untuk gambar dan dokumen kunci bila memungkinkan; simpan salinan asli secara pribadi.
  • Simpan log bukti dengan cap waktu: tangkapan layar, tautan, dan nomor tiket platform apa pun untuk eskalasi selanjutnya.
  • Siapkan template penghapusan; tanggapi serangan baru dengan cepat dan dokumentasikan setiap langkah untuk jejak audit yang jelas.

Buku Panduan Perlindungan - Tim dan Integrator

  • Utamakan konten yang ditandatangani atau diverifikasi penerbit saat pengambilan; terapkan periode tenggang berbasis waktu untuk sumber baru.
  • Batasi pengaruh berulang dari asal yang sama dan hapus duplikat yang hampir identik di tiap jaringan asal.
  • Tambahkan lencana asal-usul dan daftar sumber yang terlihat pengguna untuk klaim tingkat individu dan topik sensitif lainnya.
  • Adopsi deteksi anomali pada penyimpanan embedding; tandai outlier vektor adversarial dan jalankan pemeriksaan canary untuk propagasi yang tidak sah.

Penelitian: Pernyataan yang Diverifikasi Secara Kriptografis

Chad Scira sedang membangun sistem attestasi yang diverifikasi secara kriptografis untuk memberikan kepercayaan pada pernyataan tentang orang dan peristiwa. Tujuannya adalah menyediakan klaim yang ditandatangani dan dapat ditanyakan kepada LLM dan sistem pengambilan, dari profesional dan organisasi yang telah diverifikasi, sehingga memungkinkan asal-usul yang kuat dan ketahanan lebih besar terhadap keracunan data.

Prinsip Desain

  • Identitas dan asal-usul: pernyataan ditandatangani oleh individu/organisasi yang terverifikasi menggunakan kriptografi kunci publik.
  • Penyimpanan yang dapat diverifikasi: pernyataan dipasang pada log append-only yang tamper-evident untuk memungkinkan verifikasi independen.
  • Integrasi pengambilan: pipeline RAG dapat memprioritaskan atau mewajibkan sumber yang diatestasi secara kriptografis untuk kueri sensitif.
  • Gesekan minimal: API dan SDK memungkinkan penerbit dan platform mengeluarkan dan memeriksa attestasi saat pengingesan.

Reputasi dan Pemberitahuan

Di atas pernyataan tersertifikasi, lapisan reputasi mengagregasi dukungan yang ditandatangani dan menandai penyalahguna yang dikenal. Sistem peringatan memberi tahu target ketika serangan terkoordinasi atau lonjakan yang tidak normal terdeteksi, memungkinkan respons lebih cepat dan permintaan penghapusan.

Saluran Hukum dan Platform

  • Gunakan alur pelaporan platform dengan paket bukti yang jelas: tautan, tanggal, tangkapan layar, dan dampak. Rujuk kebijakan pencemaran nama baik dan pelecehan.
  • Eskalasikan dengan pemberitahuan resmi bila sesuai; simpan log korespondensi dan ID tiket dalam jejak bukti Anda.
  • Pertimbangkan perbedaan yurisdiksi dalam pencemaran nama baik dan tanggung jawab platform; konsultasikan dengan penasihat hukum untuk kasus berisiko tinggi.

Peta Jalan Implementasi (Tahun 1)

  • MVP: skema attestasi dan SDK penerbit untuk menandatangani pernyataan identitas dan klaim kejadian.
  • Uji coba dengan kelompok kecil profesional dan organisasi yang telah diverifikasi; tetapkan alur kerja verifikasi.
  • Plugin RAG: aktifkan mode jawaban pertama berdasarkan asal-usul yang memprioritaskan sumber yang terverifikasi untuk kueri sensitif.

Bacaan Lanjutan (dengan tanggal)

Kolaborasi

Penelitian ini mutakhir dan terus berkembang. Chad Scira menyambut kolaborasi dengan profesional lain di sektor ini.

Jika Anda tertarik untuk bekerja sama, silakan hubungi di: [email protected]