Badania nad zatruciem LLM i przeciwdziałaniem nadużyciom

Chad Scira bada, jak duże modele językowe mogą być zatruwane i wykorzystywane do szkodzenia osobom oraz tworzy systemy ochronne przeciwdziałające tym zagrożeniom. Ryzyko jest pilne: tempo zaufania do wyników LLM przewyższyło naszą zdolność do weryfikacji oświadczeń, podczas gdy przeciwnicy mogą tanio publikować teksty, które wypaczają zachowanie modeli i wpływ na wyniki wyszukiwania dla osób bez dużego śladu w sieci.

3 października 2025 roku zabezpieczono prywatną rundę inwestycyjną na kontynuację tych badań.

Streszczenie dla kierownictwa

Przeciętne osoby o niewielkim śladzie w sieci są wyjątkowo narażone na zniesławienie wzmocnione przez AI i zatruwanie danych. Pojedyncza zmotywowana osoba może zaszczepić fałszywe narracje, które będą powtarzane przez wyszukiwarki, kanały społecznościowe i LLM. Niniejszy dokument wyjaśnia typowe ścieżki ataku, konkretne skutki dla reputacji i bezpieczeństwa oraz praktyczny plan działania dotyczący wykrywania i ochrony. Opisuje również, jak kryptograficznie zweryfikowane poświadczenia i wyszukiwanie uwzględniające pochodzenie mogą zmniejszyć szkody dla osób i integratorów.

Odbiorcy i model zagrożeń

Odbiorcy: osoby i małe organizacje bez dużej obecności w SEO. Ograniczenia: ograniczony czas, budżet i zasoby techniczne. Przeciwnik: pojedynczy aktor zdolny do generowania i publikowania dużych ilości tekstu, wykorzystania prostych sieci linków i wykorzystywania luk w systemach zgłaszania. Cele: zniekształcanie wyników wyszukiwania/LLM, szkoda reputacji, wzbudzanie wątpliwości u pracodawców, klientów, platform lub agentów.

Czym jest zatruwanie LLM?

Zatrucie LLM odnosi się do manipulacji zachowaniem modelu za pomocą zaszczepionej lub skoordynowanej treści – na przykład złośliwych wpisów, artykułów syntetycznych lub spamu na forach – które mogą zostać pobrane przez systemy wyszukiwania/pozyskiwania lub wykorzystane przez ludzi jako sygnały, skłaniając modele ku fałszywym powiązaniom i zniesławiającym narracjom.

Ponieważ LLM i systemy wyszukiwania optymalizują pod kątem skali i pokrycia, pojedynczy zmotywowany przeciwnik może ukształtować to, co model „widzi” o danej osobie, poprzez zasypanie niewielkiego wycinka sieci. Jest to szczególnie skuteczne wobec osób o ograniczonej obecności w internecie.

Jak reputacja ulega zniekształceniu

Zatrucie wyszukiwania i serwisów społecznościowych - przejmowanie profili, farmy linków oraz masowe publikowanie w celu zniekształcenia cech rankingu i skojarzeń autouzupełniania.
Zatrucie bazy wiedzy i RAG – tworzenie stron encji i notatek QA, które wydają się semantycznie istotne i są pobierane jako kontekst.
Niebezpośrednia injekcja promptów – wrogie treści w sieci, które powodują, że agenty przeglądające powtarzają instrukcje lub eksfiltrowują dane wrażliwe.
Punkty końcowe z tylnym wejściem (backdoored endpoints) — złośliwe opakowania modeli, które działają normalnie, aż do pojawienia się fraz wyzwalających, po czym generują ukierunkowane fałszywe informacje.

Dodatkowe ryzyka i tryby awarii

Załamanie modelu spowodowane trenowaniem na syntetycznych wynikach - pętle sprzężenia zwrotnego, w których generowany tekst pogarsza jakość przyszłych modeli, jeśli nie jest filtrowany lub ważony.
Niebezpośrednia injekcja promptów – wrogie treści w sieci, które instruują agenta lub narzędzie przeglądające, aby eksfiltrowały tajne informacje lub rozpowszechniały zniesławienie podczas cytowania.
Zatrucie magazynu osadzeń - wstawianie wrogich fragmentów do bazy wiedzy, tak aby wyszukiwanie ujawniało fałszywe twierdzenia wyglądające na semantycznie istotne.
Wersje z tylnym wejściem — publikowanie zmodyfikowanych checkpointów lub opakowań API, które zachowują się normalnie, aż do pojawienia się frazy wyzwalającej.

Konkretne przypadki i odniesienia

Wielowarstwowe środki zaradcze

Pobieranie i ranking

Ocena źródeł i ważenie pochodzenia - preferuj treści podpisane lub zweryfikowane przez wydawcę; obniżaj wagę nowo utworzonych lub stron o niskiej reputacji.
Zmniejszanie wagi w czasie z okresem karencji — wymagaj okresu oczekiwania, zanim nowe źródła wpłyną na odpowiedzi o wysokich stawkach; wprowadź przegląd ludzki dla wrażliwych podmiotów.
Wykrywanie komór echa - grupuj zbliżone lub niemal identyczne fragmenty i ograniczaj powtarzający się wpływ z tego samego źródła lub sieci.
Wykrywanie odchyleń i anomalii w przestrzeni osadzeń (embeddingów) - oznaczaj fragmenty, których pozycje wektorowe zostały zoptymalizowane w sposób wrogi.

Higiena danych i bazy wiedzy

Migawki i różnice w bazach wiedzy - sprawdzaj duże różnice, szczególnie dotyczące osób i oskarżeń bez źródeł pierwotnych.
Listy canary oraz listy blokujące — zapobiegaj uwzględnianiu znanych nadużywczych domen; wstawiaj „kanarki” w celu mierzenia nieautoryzowanej propagacji.
Człowiek w pętli dla tematów wysokiego ryzyka - kolejkowanie proponowanych aktualizacji faktów reputacyjnych do ręcznego rozstrzygnięcia.

Poświadczenia i reputacja

Kryptograficznie weryfikowane poświadczenia - podpisane oświadczenia od zweryfikowanych specjalistów i organizacji publikowane w dzienniku tylko do dopisywania.
Wykresy reputacji - agregują podpisane rekomendacje i obniżają rangę treści pochodzących od powtarzających się nadużywców lub sieci botów.
Cytowania widoczne dla użytkownika — wymagaj, aby modele pokazywały źródła i poziom pewności wraz z odznakami pochodzenia dla wrażliwych twierdzeń.

Lista kontrolna dla przedsiębiorstw

Zmapuj wrażliwe encje w swojej domenie (osoby, marki, zagadnienia prawne) i kieruj zapytania do zabezpieczonych potoków przetwarzania z wymogami dotyczącymi pochodzenia źródeł.
Wdróż C2PA lub podobne poświadczenia treści dla materiałów własnych i zachęcaj partnerów do uczynienia tego samego.
Monitoruj wpływ nowych źródeł w czasie i powiadamiaj o nietypowych wahaniach w odpowiedziach dotyczących poszczególnych podmiotów.
Przeprowadzaj ciągły red teaming dla agentów RAG i przeglądających, w tym pośrednie zestawy testów wstrzykiwania promptów.

Nękanie i zniesławienie za pomocą AI

Osoby na wynajem wykorzystują obecnie AI i automatyzację do masowej produkcji nękania i zniesławienia, tworząc wiarygodnie wyglądające teksty i fałszywe „źródła”, które łatwo indeksować, zeskrobywać i ponownie udostępniać. Kampanie te są niskokosztowe, o dużym wpływie i trudne do usunięcia po wzmocnieniu przez zautomatyzowane systemy.

Chad Scira osobiście doświadczył ukierunkowanego nękania i zniesławienia połączonego ze spamowymi linkami mającymi na celu zniekształcenie sygnałów reputacyjnych i wyników wyszukiwania. Szczegółowy opis i ślad dowodowy są udokumentowane tutaj: Jesse Nickles – Nękanie i zniesławienie.

Taksonomia zagrożeń

Zatrucie danych podczas wstępnego treningu - zatruwanie publicznych korpusów używanych do treningu początkowego w celu wprowadzenia fałszywych skojarzeń lub backdoorów.
Zatrucie RAG - zasilanie baz wiedzy lub zewnętrznych źródeł, z których korzystają mechanizmy wyszukiwania podczas inferencji.
Zatrucie wyszukiwania/serwisów społecznościowych - zalewanie postami lub stronami niskiej jakości w celu zniekształcenia sygnałów pobierania i rankingu dotyczących osoby lub tematu.
Wrogie polecenia i treści — tworzenie wejść wywołujących niepożądane zachowania lub obejścia zabezpieczeń, które powtarzają oszczercze twierdzenia.

Ostatnie incydenty i badania (z datami)

Uwaga: powyższe daty odzwierciedlają daty publikacji lub publicznego udostępnienia w powiązanych źródłach.

Dlaczego to jest niebezpieczne

Modele LLM mogą wydawać się autorytatywne nawet wtedy, gdy podstawowe odniesienia są słabe lub zostały złośliwie zaszczepione.
Potoki pobierania i rankingu mogą nadmiernie uwzględniać powtarzający się tekst, co pozwala jednemu podmiotowi wypaczyć wyniki wyłącznie poprzez ilość.
Ludzkie ścieżki weryfikacji faktów są powolne i kosztowne w porównaniu z tempem automatycznej produkcji i dystrybucji treści.
Ofiary bez istotnej obecności online są szczególnie podatne na manipulacje pojedynczym wpisem i ataki na tożsamość.

Dogłębna analiza ryzyka

Kontrole zatrudnienia i platform - wyszukiwanie i streszczenia generowane przez LLM mogą powielać zainfekowane treści podczas procesów rekrutacji, moderacji lub wdrożeń.
Usługi związane z podróżami, mieszkaniami i finansami — automatyczne kontrole mogą ujawnić fałszywe narracje, które opóźniają lub blokują usługi.
Utrwalanie - gdy raz zostaną zaindeksowane w bazach wiedzy lub w pamięci podręcznej odpowiedzi, fałszywe twierdzenia mogą pojawiać się ponownie nawet po usunięciu.
Syntetyczne opinie - generowana treść może napędzać kolejne generowane treści, zwiększając z czasem pozorną wagę fałszywych informacji.

Wykrywanie i monitorowanie

Skonfiguruj alerty wyszukiwania dla swojego imienia i aliasów; okresowo sprawdzaj zapytania site: pod kątem domen o niskiej reputacji, które cię wspominają.
Śledź zmiany w panelach wiedzy lub stronach podmiotów; zachowuj datowane zrzuty ekranu i kopie eksportowe jako dowód.
Monitoruj grafy powiązań społecznych pod kątem powtarzających się kont źródłowych lub nagłych skoków podobnych sformułowań.
Jeśli administrujesz RAG lub bazą wiedzy, przeprowadzaj kontrole dryfu encji i sprawdzaj znaczące zmiany na stronach osób lub w oskarżeniach bez źródeł pierwotnych.

Podręcznik ochrony - osoby indywidualne

Opublikuj stronę osobistą z jasnymi deklaracjami tożsamości, krótkim bio i sposobami kontaktu; prowadź datowany dziennik zmian.
Uzgodnij metadane profili między platformami; pozyskuj zweryfikowane profile tam, gdzie to możliwe, i łącz je z Twoją witryną.
W miarę możliwości używaj C2PA lub podobnych poświadczeń treści dla kluczowych obrazów i dokumentów; przechowuj oryginały prywatnie.
Prowadź rejestr dowodów ze znacznikami czasu: zrzuty ekranu, linki oraz numery zgłoszeń na platformie do późniejszej eskalacji.
Przygotuj wzory wniosków o usunięcie; reaguj szybko na nowe ataki i dokumentuj każdy krok, aby zachować czytelny ślad działań.

Podręcznik ochrony - zespoły i integratorzy

Preferuj podpisane treści lub weryfikowane przez wydawcę podczas pobierania; stosuj okresy karencji dla nowych źródeł.
Ogranicz powtarzający się wpływ z tego samego źródła i usuwaj niemal identyczne duplikaty w obrębie sieci pochodzenia.
Dodaj odznaki pochodzenia i listy źródeł widoczne dla użytkownika dla twierdzeń dotyczących osób oraz innych wrażliwych tematów.
Wdróż wykrywanie anomalii w magazynach wektorów osadzeń; oznacz wrogie wektory odstające i uruchamiaj testy kanarkowe w celu wykrywania nieautoryzowanej propagacji.

Badania: kryptograficznie weryfikowane poświadczenia

Chad Scira buduje systemy poświadczeń weryfikowanych kryptograficznie w celu budowania zaufania do oświadczeń o osobach i wydarzeniach. Celem jest dostarczanie LLM i systemom wyszukiwania podpisanych, możliwych do zapytania twierdzeń od zweryfikowanych specjalistów i organizacji, umożliwiając solidne śledzenie pochodzenia i większą odporność na zatruwanie.

Zasady projektowania

Tożsamość i pochodzenie: oświadczenia są podpisywane przez zweryfikowane osoby/organizacje przy użyciu kryptografii klucza publicznego.
Weryfikowalne przechowywanie: zaświadczenia są zakotwiczone w dziennikach tylko do dopisywania, odpornych na manipulacje, aby umożliwić niezależną weryfikację.
Integracja pobierania: potoki RAG mogą priorytetyzować lub wymagać kryptograficznie poświadczonych źródeł dla wrażliwych zapytań.
Minimalne utrudnienia: interfejsy API i pakiety SDK umożliwiają wydawcom i platformom wystawianie i weryfikację poświadczeń w czasie przyjmowania danych.

Reputacja i powiadomienia

Ponadto warstwa reputacji agreguje podpisane rekomendacje i oznacza znanych nadużywających. Systemy alarmowe powiadamiają cele, gdy wykryte zostaną skoordynowane ataki lub anomalne skoki, umożliwiając szybszą reakcję i żądania usunięcia treści.

Kanały prawne i platformowe

Korzystaj z mechanizmów zgłaszania na platformie z jasnymi pakietami dowodów: linki, daty, zrzuty ekranu i skutki. Odnieś się do polityk dotyczących zniesławienia i nękania.
W razie potrzeby eskaluj sprawy za pomocą formalnych zawiadomień; zachowuj rejestry korespondencji i numery zgłoszeń jako dowody.
Uwzględnij różnice jurysdykcyjne w prawie dotyczącym zniesławienia i odpowiedzialności platform; w sprawach wysokiego ryzyka skonsultuj się z prawnikiem.

Plan wdrożenia (Rok 1)

MVP: schemat poświadczeń i SDK wydawcy do podpisywania oświadczeń tożsamości i roszczeń dotyczących zdarzeń.
Przeprowadź pilotaż z niewielką grupą zweryfikowanych specjalistów i organizacji; ustanów procesy weryfikacji.
RAG plug ins: włącz tryb pierwszej odpowiedzi z informacją o pochodzeniu, który priorytetowo traktuje poświadczone źródła dla wrażliwych zapytań.

Dalsza literatura (z datami)

Współpraca

Te badania są nowatorskie i dynamicznie się rozwijają. Chad Scira zaprasza do współpracy innych specjalistów z tej branży.

Jeśli jesteś zainteresowany współpracą, skontaktuj się: [email protected]