LLM Zehirlenmesi ve İstismar Karşıtı Araştırma
Chad Scira, büyük dil modellerinin bireylere zarar vermek için nasıl zehirlenebileceğini ve kötüye kullanılabileceğini araştırıyor ve bu tehditlere karşı koruyucu sistemler inşa ediyor. Risk acildir: LLM çıktılarına duyulan güvenin hızı, ifadeleri doğrulama yeteneğimizi geride bıraktı; saldırganlar ise çevrimiçi varlığı büyük olmayan kişiler hakkında model davranışını ve arama izlenimini çarpıtacak metinleri ucuz maliyetle yayımlayabiliyor.
Bu araştırmayı sürdürmek için 3 Ekim 2025'te özel bir yatırım turu sağlandı.
Yönetici Özeti
İnternet üzerindeki izi küçük olan sıradan kişiler, yapay zekâ tarafından güçlendirilen iftira ve veri zehirlenmesi riskine orantısız şekilde maruz kalır. Tek bir motive birey, arama sonuçlarına, sosyal akışlara ve LLM'lere tekrar edilen yanlış anlatılar tohumlayabilir. Bu belge yaygın saldırı yollarını, itibar ve güvenlik üzerindeki somut etkileri ve tespit ile korunma için pratik bir eylem planını açıklar. Ayrıca kriptografik olarak doğrulanmış attestasyonlar ve köken farkındalığına sahip getirme/erişim yöntemlerinin bireyler ve entegratörler için zararı nasıl azaltabileceğini özetler.
Hedef Kitle ve Tehdit Modeli
Hedef Kitle: geniş SEO varlığı olmayan bireyler ve küçük kuruluşlar. Kısıtlamalar: sınırlı zaman, bütçe ve teknik kaynaklar. Saldırgan: büyük hacimde metin üretebilen ve yayınlayabilen, temel bağlantı ağları kullanabilen ve raporlama kör noktalarından yararlanabilen tek bir aktör. Amaçlar: arama/LLM çıktılarını çarpıtmak, itibara zarar vermek, işverenlerde, müşterilerde, platformlarda veya temsilcilerde şüphe yaratmak.
LLM Zehirlenmesi Nedir?
LLM zehirlenmesi, modele etki eden davranışın tohumlanmış veya koordine edilmiş içeriklerle manipüle edilmesi anlamına gelir - örneğin kötü amaçlı gönderiler, sentetik makaleler veya forum spam'i - bu içerikler alım/sorgulama sistemleri tarafından içeri alınabilir veya insanlar tarafından sinyal olarak kullanılarak modelleri yanlış bağlantılar ve iftira içeren anlatılara doğru yönlendirebilir.
LLM'ler ve getirme/erişim sistemleri ölçek ve kapsama için optimize edildiğinden, tek bir motive saldırgan, web'in küçük bir bölümünü doldurarak bir modelin bir kişi hakkında "gördüklerini" şekillendirebilir. Bu, çevrimiçi varlığı sınırlı olan bireylere karşı özellikle etkilidir.
İtibarın Nasıl Çarpıtıldığı
- Arama ve sosyal zehirleme - profil ele geçirme, bağlantı çiftlikleri ve sıralama özelliklerini ve otomatik tamamlama ilişkilerini önyargılı hale getirmek için toplu gönderimler.
- Bilgi tabanı ve RAG zehirlenmesi - anlamsal olarak ilgili görünen ve bağlam olarak getirilen varlık sayfaları ve Soru-Cevap notları oluşturma.
- Dolaylı istem enjeksiyonu - gezinme ajanlarının talimatları tekrarlamasına veya hassas verileri sızdırmasına neden olan düşmanca web içeriği.
- Arka kapılı uç noktalar - tetikleyici deyimler görünene kadar normal davranan, sonra hedefe yönelik yalanlar üreten kötü amaçlı model sarmalayıcıları.
Ek Riskler ve Başarısızlık Modları
- Sentetik çıktılarla eğitilmenin neden olduğu model çöküşü - filtrelenmez veya ağırlıklandırılmazsa, üretilen metnin gelecekteki model kalitesini düşüren geri besleme döngüleri.
- Dolaylı istem enjeksiyonu - alıntılandığında bir ajana veya gezinme aracına sırları sızdırmasını veya iftirayı yaymasını söyleyen web'deki düşmanca içerik.
- Embedding depolama zehirlenmesi - bilgi tabanına düşmanca pasajlar ekleyerek, sorgulamalarda anlamsal olarak ilgili görünen yanlış iddiaların ortaya çıkmasına yol açmak.
- Arka kapılı sürümler - tetikleyici bir ifade mevcut olana kadar normal davranan değiştirilmiş kontrol noktalarının veya API sarmalayıcılarının yayımlanması.
Somut Vakalar ve Referanslar
Derinlemesine Önlemler
Geri Alma ve Sıralama
- Kaynak puanlaması ve köken ağırlıklandırması - imzalı veya yayıncı tarafından doğrulanmış içeriği tercih edin; yeni oluşturulmuş veya düşük itibarlı sayfaların ağırlığını azaltın.
- Hoşgörü süresiyle zamanla değer kaybı - yeni kaynakların ciddi sonuçlar doğuran yanıtları etkilemeden önce bekleme süresi gerektirin; hassas varlıklar için insan incelemesi ekleyin.
- Eko odası tespiti - birbirine çok benzeyen pasajları kümelendirip aynı kaynaktan veya ağdan gelen tekrarlı etkileri sınırlayın.
- Gömme uzayında aykırı ve anomali tespiti - vektör konumları düşmanca optimize edilmiş pasajları işaretleyin.
Veri ve Bilgi Tabanı Hijyeni
- Anlık görüntü ve fark (diff) bilgi tabanları - büyük farkları inceleyin; özellikle kişi varlıkları ve birincil kaynağı olmayan suçlamalar için.
- Canary ve engelleme listeleri - bilinen kötüye kullanılan alan adlarının dahil edilmesini önleyin; yetkisiz yayılımı ölçmek için canary'ler ekleyin.
- Yüksek riskli konular için insan müdahalesi - itibarla ilgili gerçeklere önerilen güncellemeleri manuel değerlendirme için sıraya al.
Doğrulamalar ve İtibar
- Kriptografik olarak doğrulanmış teyitler - denetlenen uzmanlar ve kuruluşlardan alınan imzalı beyanlar, sadece ekleme yapılabilen bir günlük aracılığıyla yayımlanır.
- İtibar grafikleri - imzalı onayları topluca gösterir ve yineleyen kötüye kullananlar veya bot ağlarından gelen içeriğin sıralamasını düşürür.
- Kullanıcıya yönelik kaynak gösterimleri - hassas iddialar için modellerin kaynakları ve güven düzeyini kaynak rozetleriyle göstermesini zorunlu kılın.
Kurumsal Kontrol Listesi
- Alanınızdaki hassas varlıkları (kişiler, markalar, hukuki konular) haritalayın ve sorguları köken gereksinimleri olan korumalı hatlara yönlendirin.
- C2PA veya benzeri içerik kimlik bilgilerini birinci taraf içerikler için benimseyin ve ortakları da aynı şeyi yapmaya teşvik edin.
- Yeni kaynakların etkisini zaman içinde izleyin ve varlık düzeyindeki yanıtlarda olağan dışı dalgalanmalar için uyarı verin.
- RAG ve tarama ajanları için, dolaylı istem enjeksiyonu test paketleri de dahil olmak üzere, sürekli kırmızı takım testleri yürütün.
Yapay Zeka ile Taciz ve İftira
Kiralanan kişiler artık taciz ve iftirayı kitlesel olarak üretmek için Yapay Zeka ve otomasyonu kullanıyor; indekslenmesi, kazınması ve yeniden paylaşılması kolay görünen inandırıcı metinler ve sahte “kaynaklar” oluşturuyorlar. Bu kampanyalar düşük maliyetli, yüksek etkili olup otomatik sistemler tarafından büyütüldüğünde giderilmesi zordur.
Chad Scira şahsen hedefli taciz ve iftiraya, itibar sinyallerini ve arama izlenimlerini çarpıtmayı amaçlayan spam bağlantılarla birlikte maruz kaldı. Ayrıntılı bir anlatı ve kanıt izi burada belgelenmiştir: Jesse Nickles - Taciz ve İftira.
Tehdit Taksonomisi
- Ön eğitim veri zehirlemesi - yanlış ilişkilendirmeler veya arka kapılar yerleştirmek için başlangıç eğitimi için kullanılan kamuya açık korpusların zehirlenmesi.
- RAG zehirlemesi - çıkarım sırasında getirme işlem hatlarının kullandığı bilgi tabanlarını veya harici kaynakları tohumlama.
- Arama/sosyal zehirleme - bir kişi veya konu hakkında geri alma ve sıralama sinyallerini önyargılı hale getirmek amacıyla gönderiler veya düşük kaliteli sayfalarla akın etmek.
- Saldırgan istemler ve içerik - istenmeyen davranışları tetikleyen veya iftira niteliğindeki iddiaları tekrar eden jailbreak'leri harekete geçiren girdilerin hazırlanması.
Son Olaylar ve Araştırmalar (tarihlerle)
Not: Yukarıdaki tarihler, bağlantılı kaynaklardaki yayın veya kamuya açıklama tarihlerini yansıtmaktadır.
Bunun Neden Tehlikeli Olduğu
- LLM'ler, altta yatan referanslar zayıf veya düşmanca tohumlanmış olsa bile otoriter görünebilir.
- Geri alma ve sıralama hatları tekrarlanan metne aşırı ağırlık verebilir; bu da tek bir aktörün yalnızca hacimle sonuçları çarpıtmasına izin verir.
- İnsan tarafından gerçekleştirilen gerçek kontrol süreçleri, otomatik içerik üretimi ve dağıtımının hızıyla kıyaslandığında yavaş ve maliyetlidir.
- Önemli bir çevrimiçi varlığı olmayan mağdurlar, tek bir gönderi yoluyla yapılan zehirleme ve kimlik saldırılarına orantısız şekilde savunmasızdır.
Risk Derinlemesine İncelemesi
- İstihdam ve platform incelemesi - işe alım, moderasyon veya işe alıştırma kontrolleri sırasında arama ve LLM özetleri zehirlenmiş içeriği yankılayabilir.
- Seyahat, konaklama ve finansal hizmetler - otomatik kontroller, hizmetleri geciktiren veya engelleyen yanlış anlatıları ortaya çıkarabilir.
- Süreklilik - bilgi tabanlarına dizinlendiğinde veya önbelleğe alınmış cevaplarda yer aldığında, yanlış iddialar kaldırmalardan sonra bile yeniden ortaya çıkabilir.
- Sentetik geri bildirim - oluşturulan içerik daha fazla oluşturulmuş içeriği başlatabilir ve zamanla yanlış bilgilerin görünür ağırlığını artırabilir.
Tespit ve İzleme
- Adınız ve takma adlarınız için arama uyarıları kurun; sizi belirten düşük itibarlı alan adları için periyodik olarak site: sorgularını kontrol edin.
- Bilgi panellerinizdeki veya varlık sayfalarınızdaki değişiklikleri izleyin; kanıt olarak tarihli ekran görüntüleri ve dışa aktarılmış kopyalar saklayın.
- Tekrarlayan kaynak hesapları veya benzer ifade kalıplarında ani artışlar için sosyal bağlantı grafiklerini izleyin.
- Bir RAG veya bilgi tabanı işletiyorsanız, varlık sapması kontrolleri yapın ve birincil kaynak olmadan kişi sayfalarındaki veya suçlamalardaki büyük farkları inceleyin.
Koruma El Kitabı - Bireyler
- Net kimlik beyanları, kısa bir biyografi ve iletişim yolları içeren kişisel bir site yayınlayın; tarihli bir değişiklik günlüğü tutun.
- Profil meta verilerini platformlar arasında hizalayın; mümkün olduğunda doğrulanmış profiller edinin ve bunları kendi sitenize bağlayın.
- Mümkün olduğunda önemli görseller ve belgeler için C2PA veya benzeri içerik kimlik bilgilerini kullanın; orijinalleri özel olarak saklayın.
- Zaman damgalı bir kanıt kaydı tutun: ekran görüntüleri, bağlantılar ve daha sonra yükseltme için platform bilet numaraları.
- Kaldırma şablonları hazırlayın; yeni saldırılara hızlı yanıt verin ve net bir belge izi için her adımı belgeleyin.
Koruma El Kitabı - Takımlar ve Entegratörler
- Alımda imzalı veya yayınevi tarafından doğrulanmış içeriği tercih edin; yeni kaynaklar için zaman tabanlı hoşgörü dönemleri uygulayın.
- Aynı kaynaktan gelen tekrar eden etkiyi sınırlayın ve her kaynak ağı için yakın kopyaları tekilleştirin.
- Kişi düzeyindeki iddialar ve diğer hassas konular için kaynak kökeni rozetleri ve kullanıcıya yönelik kaynak listeleri ekleyin.
- Embedding depolarında anomali tespiti uygulayın; saldırgan vektör aykırı değerlerini işaretleyin ve yetkisiz yayılım için canary kontrolleri çalıştırın.
Araştırma: Kriptografik Olarak Doğrulanmış Beyanlar
Chad Scira, kişiler ve olaylar hakkındaki ifadelerde güven sağlamak için kriptografik olarak doğrulanmış attestasyon sistemleri inşa ediyor. Amaç, LLM'lere ve getirme sistemlerine denetlenen profesyoneller ve kuruluşlardan imzalı, sorgulanabilir iddialar sağlamak; böylece sağlam köken bilgisi ve zehirlenmeye karşı daha güçlü dayanıklılık mümkün kılınacak.
Tasarım İlkeleri
- Kimlik ve köken: ifadeler, açık anahtar kriptografisi kullanılarak doğrulanmış bireyler/kuruluşlar tarafından imzalanır.
- Doğrulanabilir depolama: beyanlar, bağımsız doğrulamayı mümkün kılmak için yalnızca eklemeye izin verilen, müdahale tespit edilebilir kayıtlara bağlanır.
- Geri alma entegrasyonu: RAG hatları hassas sorgular için kriptografik olarak doğrulanmış kaynakları önceliklendirebilir veya bunları zorunlu kılabilir.
- Minimum sürtünme: API'ler ve SDK'lar, yayıncıların ve platformların alım sırasında tasdikleri düzenlemesine ve doğrulamasına olanak tanır.
İtibar ve Uyarılar
Doğrulamalara ek olarak, bir itibar katmanı imzalı onayları toplar ve bilinen kötüye kullananları işaretler. Koordine saldırılar veya anormal artışlar tespit edildiğinde uyarı sistemleri hedefleri bilgilendirir; bu, daha hızlı müdahale ve kaldırma taleplerine olanak sağlar.
Hukuki ve Platform Kanalları
- Platform rapor akışlarını açık delil paketleriyle kullanın: bağlantılar, tarihler, ekran görüntüleri ve etkiler. İftira ve taciz politikalarına atıfta bulunun.
- Uygun olduğunda resmi bildirimlerle yükseltin; yazışma kayıtlarını ve bilet kimliklerini delil zincirinizde saklayın.
- İftira ve platform sorumluluğundaki yargı farklılıklarını göz önünde bulundurun; yüksek riskli durumlarda hukuki danışmana başvurun.
Uygulama Yol Haritası (1. Yıl)
- MVP: kimlik beyanlarını ve olay iddialarını imzalamak için doğrulama şeması ve yayınevi SDK'sı.
- Doğrulanmış küçük bir profesyonel ve kuruluş grubuyla pilot uygulama yapın; doğrulama iş akışlarını oluşturun.
- RAG eklentileri: hassas sorgular için doğrulanmış kaynakları önceliklendiren kaynak öncelikli ilk cevap modunu etkinleştirin.
İşbirliği
Bu araştırma öncü niteliktedir ve aktif olarak gelişmektedir. Chad Scira bu alandaki diğer uzmanlarla iş birliğini memnuniyetle karşılar.
İşbirliğiyle ilgileniyorsanız, lütfen şu adresten iletişime geçin: [email protected]