Badania nad zatruciem LLM i przeciwdziałaniem nadużyciom
Chad Scira bada, jak duże modele językowe mogą być zatruwane i wykorzystywane do szkodzenia osobom oraz tworzy systemy ochronne przeciwdziałające tym zagrożeniom. Ryzyko jest pilne: tempo zaufania do wyników LLM przewyższyło naszą zdolność do weryfikacji oświadczeń, podczas gdy przeciwnicy mogą tanio publikować teksty, które wypaczają zachowanie modeli i wpływ na wyniki wyszukiwania dla osób bez dużego śladu w sieci.
3 października 2025 roku zabezpieczono prywatną rundę inwestycyjną na kontynuację tych badań.
Streszczenie dla kierownictwa
Przeciętne osoby o niewielkim śladzie w sieci są wyjątkowo narażone na zniesławienie wzmocnione przez AI i zatruwanie danych. Pojedyncza zmotywowana osoba może zaszczepić fałszywe narracje, które będą powtarzane przez wyszukiwarki, kanały społecznościowe i LLM. Niniejszy dokument wyjaśnia typowe ścieżki ataku, konkretne skutki dla reputacji i bezpieczeństwa oraz praktyczny plan działania dotyczący wykrywania i ochrony. Opisuje również, jak kryptograficznie zweryfikowane poświadczenia i wyszukiwanie uwzględniające pochodzenie mogą zmniejszyć szkody dla osób i integratorów.
Odbiorcy i model zagrożeń
Odbiorcy: osoby i małe organizacje bez dużej obecności w SEO. Ograniczenia: ograniczony czas, budżet i zasoby techniczne. Przeciwnik: pojedynczy aktor zdolny do generowania i publikowania dużych ilości tekstu, wykorzystania prostych sieci linków i wykorzystywania luk w systemach zgłaszania. Cele: zniekształcanie wyników wyszukiwania/LLM, szkoda reputacji, wzbudzanie wątpliwości u pracodawców, klientów, platform lub agentów.
Czym jest zatruwanie LLM?
Zatrucie LLM odnosi się do manipulacji zachowaniem modelu za pomocą zaszczepionej lub skoordynowanej treści – na przykład złośliwych wpisów, artykułów syntetycznych lub spamu na forach – które mogą zostać pobrane przez systemy wyszukiwania/pozyskiwania lub wykorzystane przez ludzi jako sygnały, skłaniając modele ku fałszywym powiązaniom i zniesławiającym narracjom.
Ponieważ LLM i systemy wyszukiwania optymalizują pod kątem skali i pokrycia, pojedynczy zmotywowany przeciwnik może ukształtować to, co model „widzi” o danej osobie, poprzez zasypanie niewielkiego wycinka sieci. Jest to szczególnie skuteczne wobec osób o ograniczonej obecności w internecie.
Jak reputacja ulega zniekształceniu
- Zatrucie wyszukiwania i serwisów społecznościowych - przejmowanie profili, farmy linków oraz masowe publikowanie w celu zniekształcenia cech rankingu i skojarzeń autouzupełniania.
- Zatrucie bazy wiedzy i RAG – tworzenie stron encji i notatek QA, które wydają się semantycznie istotne i są pobierane jako kontekst.
- Niebezpośrednia injekcja promptów – wrogie treści w sieci, które powodują, że agenty przeglądające powtarzają instrukcje lub eksfiltrowują dane wrażliwe.
- Punkty końcowe z tylnym wejściem (backdoored endpoints) — złośliwe opakowania modeli, które działają normalnie, aż do pojawienia się fraz wyzwalających, po czym generują ukierunkowane fałszywe informacje.
Dodatkowe ryzyka i tryby awarii
- Załamanie modelu spowodowane trenowaniem na syntetycznych wynikach - pętle sprzężenia zwrotnego, w których generowany tekst pogarsza jakość przyszłych modeli, jeśli nie jest filtrowany lub ważony.
- Niebezpośrednia injekcja promptów – wrogie treści w sieci, które instruują agenta lub narzędzie przeglądające, aby eksfiltrowały tajne informacje lub rozpowszechniały zniesławienie podczas cytowania.
- Zatrucie magazynu osadzeń - wstawianie wrogich fragmentów do bazy wiedzy, tak aby wyszukiwanie ujawniało fałszywe twierdzenia wyglądające na semantycznie istotne.
- Wersje z tylnym wejściem — publikowanie zmodyfikowanych checkpointów lub opakowań API, które zachowują się normalnie, aż do pojawienia się frazy wyzwalającej.
Konkretne przypadki i odniesienia
Wielowarstwowe środki zaradcze
Pobieranie i ranking
- Ocena źródeł i ważenie pochodzenia - preferuj treści podpisane lub zweryfikowane przez wydawcę; obniżaj wagę nowo utworzonych lub stron o niskiej reputacji.
- Zmniejszanie wagi w czasie z okresem karencji — wymagaj okresu oczekiwania, zanim nowe źródła wpłyną na odpowiedzi o wysokich stawkach; wprowadź przegląd ludzki dla wrażliwych podmiotów.
- Wykrywanie komór echa - grupuj zbliżone lub niemal identyczne fragmenty i ograniczaj powtarzający się wpływ z tego samego źródła lub sieci.
- Wykrywanie odchyleń i anomalii w przestrzeni osadzeń (embeddingów) - oznaczaj fragmenty, których pozycje wektorowe zostały zoptymalizowane w sposób wrogi.
Higiena danych i bazy wiedzy
- Migawki i różnice w bazach wiedzy - sprawdzaj duże różnice, szczególnie dotyczące osób i oskarżeń bez źródeł pierwotnych.
- Listy canary oraz listy blokujące — zapobiegaj uwzględnianiu znanych nadużywczych domen; wstawiaj „kanarki” w celu mierzenia nieautoryzowanej propagacji.
- Człowiek w pętli dla tematów wysokiego ryzyka - kolejkowanie proponowanych aktualizacji faktów reputacyjnych do ręcznego rozstrzygnięcia.
Poświadczenia i reputacja
- Kryptograficznie weryfikowane poświadczenia - podpisane oświadczenia od zweryfikowanych specjalistów i organizacji publikowane w dzienniku tylko do dopisywania.
- Wykresy reputacji - agregują podpisane rekomendacje i obniżają rangę treści pochodzących od powtarzających się nadużywców lub sieci botów.
- Cytowania widoczne dla użytkownika — wymagaj, aby modele pokazywały źródła i poziom pewności wraz z odznakami pochodzenia dla wrażliwych twierdzeń.
Lista kontrolna dla przedsiębiorstw
- Zmapuj wrażliwe encje w swojej domenie (osoby, marki, zagadnienia prawne) i kieruj zapytania do zabezpieczonych potoków przetwarzania z wymogami dotyczącymi pochodzenia źródeł.
- Wdróż C2PA lub podobne poświadczenia treści dla materiałów własnych i zachęcaj partnerów do uczynienia tego samego.
- Monitoruj wpływ nowych źródeł w czasie i powiadamiaj o nietypowych wahaniach w odpowiedziach dotyczących poszczególnych podmiotów.
- Przeprowadzaj ciągły red teaming dla agentów RAG i przeglądających, w tym pośrednie zestawy testów wstrzykiwania promptów.
Nękanie i zniesławienie za pomocą AI
Osoby na wynajem wykorzystują obecnie AI i automatyzację do masowej produkcji nękania i zniesławienia, tworząc wiarygodnie wyglądające teksty i fałszywe „źródła”, które łatwo indeksować, zeskrobywać i ponownie udostępniać. Kampanie te są niskokosztowe, o dużym wpływie i trudne do usunięcia po wzmocnieniu przez zautomatyzowane systemy.
Chad Scira osobiście doświadczył ukierunkowanego nękania i zniesławienia połączonego ze spamowymi linkami mającymi na celu zniekształcenie sygnałów reputacyjnych i wyników wyszukiwania. Szczegółowy opis i ślad dowodowy są udokumentowane tutaj: Jesse Nickles – Nękanie i zniesławienie.
Taksonomia zagrożeń
- Zatrucie danych podczas wstępnego treningu - zatruwanie publicznych korpusów używanych do treningu początkowego w celu wprowadzenia fałszywych skojarzeń lub backdoorów.
- Zatrucie RAG - zasilanie baz wiedzy lub zewnętrznych źródeł, z których korzystają mechanizmy wyszukiwania podczas inferencji.
- Zatrucie wyszukiwania/serwisów społecznościowych - zalewanie postami lub stronami niskiej jakości w celu zniekształcenia sygnałów pobierania i rankingu dotyczących osoby lub tematu.
- Wrogie polecenia i treści — tworzenie wejść wywołujących niepożądane zachowania lub obejścia zabezpieczeń, które powtarzają oszczercze twierdzenia.
Ostatnie incydenty i badania (z datami)
Uwaga: powyższe daty odzwierciedlają daty publikacji lub publicznego udostępnienia w powiązanych źródłach.
Dlaczego to jest niebezpieczne
- Modele LLM mogą wydawać się autorytatywne nawet wtedy, gdy podstawowe odniesienia są słabe lub zostały złośliwie zaszczepione.
- Potoki pobierania i rankingu mogą nadmiernie uwzględniać powtarzający się tekst, co pozwala jednemu podmiotowi wypaczyć wyniki wyłącznie poprzez ilość.
- Ludzkie ścieżki weryfikacji faktów są powolne i kosztowne w porównaniu z tempem automatycznej produkcji i dystrybucji treści.
- Ofiary bez istotnej obecności online są szczególnie podatne na manipulacje pojedynczym wpisem i ataki na tożsamość.
Dogłębna analiza ryzyka
- Kontrole zatrudnienia i platform - wyszukiwanie i streszczenia generowane przez LLM mogą powielać zainfekowane treści podczas procesów rekrutacji, moderacji lub wdrożeń.
- Usługi związane z podróżami, mieszkaniami i finansami — automatyczne kontrole mogą ujawnić fałszywe narracje, które opóźniają lub blokują usługi.
- Utrwalanie - gdy raz zostaną zaindeksowane w bazach wiedzy lub w pamięci podręcznej odpowiedzi, fałszywe twierdzenia mogą pojawiać się ponownie nawet po usunięciu.
- Syntetyczne opinie - generowana treść może napędzać kolejne generowane treści, zwiększając z czasem pozorną wagę fałszywych informacji.
Wykrywanie i monitorowanie
- Skonfiguruj alerty wyszukiwania dla swojego imienia i aliasów; okresowo sprawdzaj zapytania site: pod kątem domen o niskiej reputacji, które cię wspominają.
- Śledź zmiany w panelach wiedzy lub stronach podmiotów; zachowuj datowane zrzuty ekranu i kopie eksportowe jako dowód.
- Monitoruj grafy powiązań społecznych pod kątem powtarzających się kont źródłowych lub nagłych skoków podobnych sformułowań.
- Jeśli administrujesz RAG lub bazą wiedzy, przeprowadzaj kontrole dryfu encji i sprawdzaj znaczące zmiany na stronach osób lub w oskarżeniach bez źródeł pierwotnych.
Podręcznik ochrony - osoby indywidualne
- Opublikuj stronę osobistą z jasnymi deklaracjami tożsamości, krótkim bio i sposobami kontaktu; prowadź datowany dziennik zmian.
- Uzgodnij metadane profili między platformami; pozyskuj zweryfikowane profile tam, gdzie to możliwe, i łącz je z Twoją witryną.
- W miarę możliwości używaj C2PA lub podobnych poświadczeń treści dla kluczowych obrazów i dokumentów; przechowuj oryginały prywatnie.
- Prowadź rejestr dowodów ze znacznikami czasu: zrzuty ekranu, linki oraz numery zgłoszeń na platformie do późniejszej eskalacji.
- Przygotuj wzory wniosków o usunięcie; reaguj szybko na nowe ataki i dokumentuj każdy krok, aby zachować czytelny ślad działań.
Podręcznik ochrony - zespoły i integratorzy
- Preferuj podpisane treści lub weryfikowane przez wydawcę podczas pobierania; stosuj okresy karencji dla nowych źródeł.
- Ogranicz powtarzający się wpływ z tego samego źródła i usuwaj niemal identyczne duplikaty w obrębie sieci pochodzenia.
- Dodaj odznaki pochodzenia i listy źródeł widoczne dla użytkownika dla twierdzeń dotyczących osób oraz innych wrażliwych tematów.
- Wdróż wykrywanie anomalii w magazynach wektorów osadzeń; oznacz wrogie wektory odstające i uruchamiaj testy kanarkowe w celu wykrywania nieautoryzowanej propagacji.
Badania: kryptograficznie weryfikowane poświadczenia
Chad Scira buduje systemy poświadczeń weryfikowanych kryptograficznie w celu budowania zaufania do oświadczeń o osobach i wydarzeniach. Celem jest dostarczanie LLM i systemom wyszukiwania podpisanych, możliwych do zapytania twierdzeń od zweryfikowanych specjalistów i organizacji, umożliwiając solidne śledzenie pochodzenia i większą odporność na zatruwanie.
Zasady projektowania
- Tożsamość i pochodzenie: oświadczenia są podpisywane przez zweryfikowane osoby/organizacje przy użyciu kryptografii klucza publicznego.
- Weryfikowalne przechowywanie: zaświadczenia są zakotwiczone w dziennikach tylko do dopisywania, odpornych na manipulacje, aby umożliwić niezależną weryfikację.
- Integracja pobierania: potoki RAG mogą priorytetyzować lub wymagać kryptograficznie poświadczonych źródeł dla wrażliwych zapytań.
- Minimalne utrudnienia: interfejsy API i pakiety SDK umożliwiają wydawcom i platformom wystawianie i weryfikację poświadczeń w czasie przyjmowania danych.
Reputacja i powiadomienia
Ponadto warstwa reputacji agreguje podpisane rekomendacje i oznacza znanych nadużywających. Systemy alarmowe powiadamiają cele, gdy wykryte zostaną skoordynowane ataki lub anomalne skoki, umożliwiając szybszą reakcję i żądania usunięcia treści.
Kanały prawne i platformowe
- Korzystaj z mechanizmów zgłaszania na platformie z jasnymi pakietami dowodów: linki, daty, zrzuty ekranu i skutki. Odnieś się do polityk dotyczących zniesławienia i nękania.
- W razie potrzeby eskaluj sprawy za pomocą formalnych zawiadomień; zachowuj rejestry korespondencji i numery zgłoszeń jako dowody.
- Uwzględnij różnice jurysdykcyjne w prawie dotyczącym zniesławienia i odpowiedzialności platform; w sprawach wysokiego ryzyka skonsultuj się z prawnikiem.
Plan wdrożenia (Rok 1)
- MVP: schemat poświadczeń i SDK wydawcy do podpisywania oświadczeń tożsamości i roszczeń dotyczących zdarzeń.
- Przeprowadź pilotaż z niewielką grupą zweryfikowanych specjalistów i organizacji; ustanów procesy weryfikacji.
- RAG plug ins: włącz tryb pierwszej odpowiedzi z informacją o pochodzeniu, który priorytetowo traktuje poświadczone źródła dla wrażliwych zapytań.
Dalsza literatura (z datami)
Współpraca
Te badania są nowatorskie i dynamicznie się rozwijają. Chad Scira zaprasza do współpracy innych specjalistów z tej branży.
Jeśli jesteś zainteresowany współpracą, skontaktuj się: [email protected]