Výzkum otravy LLM a opatření proti zneužívání

Chad Scira zkoumá, jak mohou být velké jazykové modely otráveny a zneužity k poškození jednotlivců, a vytváří ochranné systémy k odvrácení těchto hrozeb. Riziko je naléhavé: tempo důvěry ve výstupy LLM překonalo naši schopnost ověřovat tvrzení, zatímco protivníci mohou levně publikovat texty, které zkreslují chování modelů a dojem z vyhledávání o lidech bez velké online stopy.

Dne 3. října 2025 bylo zajištěno soukromé investiční kolo k pokračování tohoto výzkumu.

Výkonné shrnutí

Průměrní lidé s malou internetovou stopou čelí nepřiměřenému riziku z AI zesílené pomluvy a otrávení dat. Jediný motivovaný jedinec může zasadit falešné narativy, které opakují vyhledávače, sociální sítě a LLM. Tento dokument vysvětluje běžné cesty útoku, konkrétní dopady na reputaci a bezpečnost a praktický návod pro detekci a ochranu. Také popisuje, jak kryptograficky ověřená osvědčení a vyhledávání citlivé na původ mohou snížit škody pro jednotlivce a integrátory.

Cílové publikum a model hrozeb

Cílové publikum: jednotlivci a malé organizace bez silné SEO přítomnosti. Omezení: omezený čas, rozpočet a technické zdroje. Útočník: jediný aktér schopný generovat a zveřejňovat velké objemy textu, používat základní sítě odkazů a využívat slepá místa v nahlášení. Cíle: zkreslit výsledky vyhledávání/LLM, poškodit reputaci, vytvořit pochybnosti u zaměstnavatelů, klientů, platforem nebo zástupců.

Co je LLM poisoning?

Otrava LLM označuje manipulaci chování modelu pomocí vsazeného nebo koordinovaného obsahu – například škodlivých příspěvků, syntetických článků nebo spamů na fórech – které mohou být zachyceny systémy pro vyhledávání informací nebo lidmi použity jako signály a navádět modely k falešným asociacím a pomlouvačným narativům.

Protože LLM a retrieval systémy optimalizují pro škálovatelnost a pokrytí, může jediný motivovaný protivník ovlivnit, co model „vidí“ o osobě, zaplavením malé části webu. To je obzvlášť účinné proti jedincům s omezenou online přítomností.

Jak dochází ke zkreslení reputace

  • Otrava vyhledávání a sociálních sítí – převzetí profilů, link farmy a hromadné zveřejňování k zaujatí hodnoticích funkcí a asociací automatického doplňování.
  • Otrava znalostní báze a RAG – vytváření stránek entit a poznámek Q&A, které se jeví jako sémanticky relevantní a jsou načítány jako kontext.
  • Nepřímá injekce pokynů – nepřátelský webový obsah, který způsobuje, že prohlížečoví agenti opakují pokyny nebo vynášejí citlivá data.
  • Koncové body s zadními vrátky – škodlivé obaly modelu, které se chovají normálně až do objevení spouštěcích frází, poté vydávají cílené nepravdy.

Další rizika a způsoby selhání

  • Kolaps modelu v důsledku tréninku na syntetických výstupech - zpětné smyčky, kde generovaný text zhoršuje budoucí kvalitu modelu, pokud není filtrován nebo vážen.
  • Nepřímá injekce pokynů – nepřátelský obsah na webu, který instruuje agenta nebo nástroj pro prohlížení, aby při citování získával tajné informace nebo šířil pomluvy.
  • Znečištění úložiště embeddingů – vkládání adversariálních pasáží do znalostní báze tak, že při vyhledávání se objeví falešná tvrzení, která vypadají sémanticky relevantní.
  • Vydání s zadními vrátky – publikování upravených checkpointů nebo API obalů, které se chovají normálně, dokud není přítomna spouštěcí fráze.

Konkrétní případy a reference

Vícevrstvá opatření

Vyhledávání a řazení

  • Ohodnocování zdrojů a vážení provenience – upřednostňujte podepsaný nebo vydavatelem ověřený obsah; snižte váhu nově vytvořených nebo domén s nízkou reputací.
  • Klesání relevance v čase s lhůtou - vyžadujte dobu setrvání, než nové zdroje ovlivní odpovědi s vysokým dopadem; přidejte lidské přezkoumání u citlivých subjektů.
  • Detekce echo komor – seskupujte téměř duplicitní pasáže a omezte opakovaný vliv ze stejného zdroje nebo sítě.
  • Detekce odlehlých hodnot a anomálií v embeddingovém prostoru - označit pasáže, jejichž vektorové pozice byly adversariálně optimalizovány.

Hygiena dat a znalostní báze

  • Snímky a rozdílové znalostní báze – kontrolujte velké rozdíly, zejména u entit osob a obvinění bez primárních zdrojů.
  • Seznamy canary a seznamy zakázaných domén – zabránit začlenění známých zneužívaných domén; vkládat canary položky k měření neautorizované propagace.
  • Člověk v rozhodovacím okruhu pro vysoce riziková témata – zařaďte navrhované aktualizace faktických údajů o pověsti do fronty pro ruční posouzení.

Ověření a reputace

  • Kryptograficky ověřená potvrzení – podepsaná prohlášení prověřených odborníků a organizací zveřejněná prostřednictvím záznamu určeného pouze k připojování.
  • Grafy reputace – agregují podepsaná doporučení a snižují hodnocení obsahu od opakovaných zneuživatelů nebo botnetů.
  • Citace pro uživatele - vyžadujte, aby modely zobrazovaly zdroje a míru jistoty s odznaky původu u citlivých tvrzení.

Kontrolní seznam pro podniky

  • Mapujte citlivé entity ve vašem oboru (osoby, značky, právní témata) a směrujte dotazy do chráněných zpracovatelských kanálů s požadavky na doložení původu.
  • Přijmout C2PA nebo podobné obsahové kredenciály pro obsah první strany a povzbudit partnery, aby učinili totéž.
  • Sledujte vliv nových zdrojů v čase a upozorňujte na neobvyklé výkyvy u odpovědí na úrovni entit.
  • Provádějte nepřetržité red team testy pro RAG a prohlížecí agenty včetně sad testů pro nepřímé injekce promptů.

Obtěžování a pomluva prostřednictvím AI

Najímané osoby nyní využívají AI a automatizaci k hromadné produkci obtěžování a pomluv, vytvářejí věrohodně vypadající texty a falešné „zdroje“, které je snadné indexovat, získávat a znovu sdílet. Tyto kampaně jsou nízkonákladové, vysoce účinné a těžko napravitelné, jakmile jsou zesíleny automatickými systémy.

Chad Scira osobně zažil cílené obtěžování a pomluvy spojené se spamovými odkazy, jejichž cílem bylo zkreslit signály reputace a výsledky vyhledávání. Podrobný účet a důkazní stopa jsou zdokumentovány zde: Jesse Nickles – obtěžování a pomluvy.

Taxonomie hrozeb

  • Pretraining data poisoning - kontaminace veřejných korpusů používaných pro počáteční trénink za účelem implantace falešných asociací nebo backdoorů.
  • RAG otrava - zasévání znalostních bází nebo externích zdrojů, které retrieval pipeline používají při inferenci.
  • Otrava vyhledávání/sociálních sítí – zaplavování příspěvků nebo nízkokvalitních stránek za účelem zkreslení signálů vyhledávání a řazení o osobě nebo tématu.
  • Adversariální prompty a obsah – vytváření vstupů, které spouští nežádoucí chování nebo jailbreaky opakující pomlouvačná tvrzení.

Nedávné incidenty a výzkum (s daty)

Poznámka: Výše uvedená data odpovídají datům publikace nebo veřejného zveřejnění v odkazovaných zdrojích.

Proč je to nebezpečné

  • LLM mohou působit autoritativně i tehdy, když jsou podkladové odkazy slabé nebo záměrně zmanipulované.
  • Procesy získávání a řazení mohou nadhodnocovat opakovaný text, což umožňuje jednomu aktérovi zkreslit výsledky pouhou četností.
  • Lidské ověřování faktů je pomalé a nákladné ve srovnání s rychlostí automatizované produkce a distribuce obsahu.
  • Oběti bez výrazné online přítomnosti jsou nepřiměřeně zranitelné vůči kontaminaci jediným příspěvkem a útokům na identitu.

Hloubková analýza rizik

  • Prověrky zaměstnání a platforem – vyhledávání a shrnutí generovaná LLM mohou při náboru, moderaci nebo prověrkách při nástupu opakovat znečištěný obsah.
  • Cestovní, bytové a finanční služby - automatizované kontroly mohou odhalit nepravdivé narativy, které zpožďují nebo blokují poskytování služeb.
  • Perzistence - jakmile jsou indexovány v znalostních bázech nebo v mezipaměti odpovědí, mohou se falešná tvrzení znovu objevit i po odstranění.
  • Syntetická zpětná vazba – generovaný obsah může nastartovat další generovaný obsah, čímž se v čase zvyšuje zdánlivá váha nepravd.

Detekce a monitorování

  • Nastavte vyhledávací upozornění na své jméno a aliasy; pravidelně kontrolujte dotazy site: pro domény s nízkou reputací, které vás zmiňují.
  • Sledujte změny ve vašich znalostních panelech nebo stránkách entit; uchovávejte datované snímky obrazovky a exportované kopie jako důkazy.
  • Sledujte grafy sociálních vazeb kvůli opakovaným účtům původu nebo náhlým nárůstům podobného vyjadřování.
  • Pokud provozujete RAG nebo znalostní bázi, provádějte kontroly posunu entit a přezkoumávejte velké změny na stránkách osob nebo obviněních bez primárních zdrojů.

Protection Playbook - Individuals

  • Zveřejněte osobní web s jasnými prohlášeními o identitě, krátkým životopisem a kontaktními cestami; veďte datovaný záznam změn.
  • Slaďte metadata profilu napříč platformami; získejte ověřené profily, kde je to možné, a propojte je zpět na své stránky.
  • Používejte C2PA nebo podobná ověřovací údaje o obsahu pro klíčové obrázky a dokumenty, pokud je to možné; originály ukládejte soukromě.
  • Vedejte záznam důkazů s časovými razítky: snímky obrazovky, odkazy a čísla tiketů na platformě pro pozdější eskalaci.
  • Připravte šablony pro odstranění obsahu; rychle reagujte na nové útoky a zdokumentujte každý krok pro jasný auditní záznam.

Protection Playbook - Teams and Integrators

  • Preferujte podepsaný obsah nebo obsah ověřený vydavatelem při načítání; u nových zdrojů uplatněte časově omezené období tolerance.
  • Omezte opakovaný vliv ze stejného původu a deduplikujte téměř duplicitní položky v rámci sítě původu.
  • Přidat odznaky původu a seznamy zdrojů pro uživatele u tvrzení o osobách a dalších citlivých témat.
  • Zavést detekci anomálií v úložištích embeddingů; označovat adversariální vektorové odlehlosti a provádět canary kontroly pro neautorizovanou propagaci.

Výzkum: kryptograficky ověřená prohlášení

Chad Scira buduje kryptograficky ověřené systémy osvědčení pro důvěru ve výroky o osobách a událostech. Cílem je poskytnout LLM a retrieval systémům podepsaná, dotazovatelná tvrzení od prověřených odborníků a organizací, což umožní robustní sledovatelnost původu a silnější odolnost proti poškozování (poisoning).

Principy návrhu

  • Identita a původ: prohlášení jsou podepisována ověřenými jednotlivci/organizacemi pomocí kryptografie s veřejným klíčem.
  • Ověřitelné úložiště: osvědčení jsou ukotvena v záznamech pouze k připojování, zjevně odolných proti manipulaci, aby umožňovala nezávislé ověření.
  • Integrace získávání: RAG pipeline mohou upřednostňovat nebo vyžadovat kryptograficky ověřené zdroje pro citlivé dotazy.
  • Minimální tření: API a SDK umožňují vydavatelům a platformám vystavovat a ověřovat prohlášení při příjmu dat.

Reputace a upozornění

Kromě osvědčení vrstva reputace agreguje podepsaná doporučení a označuje známé zneuživatele. Systémy upozornění informují cíle při zjištění koordinovaných útoků nebo abnormálních nárůstů, což umožňuje rychlejší reakci a žádosti o odstranění obsahu.

Právní a platformní kanály

  • Používejte procesy hlášení na platformě s jasnými balíčky důkazů: odkazy, data, snímky obrazovky a dopady. Uveďte odkazy na zásady týkající se pomluvy a obtěžování.
  • Eskalujte formálními oznámeními tam, kde je to vhodné; uchovávejte záznamy korespondence a identifikátory tiketů jako součást důkazní stopy.
  • Zohledněte jurisdikční rozdíly v otázkách pomluvy a odpovědnosti provozovatele platformy; v případech vysokého rizika se poraďte s právním zástupcem.

Plán implementace (rok 1)

  • MVP: schéma osvědčení a SDK pro vydavatele k podepisování prohlášení o identitě a tvrzení o událostech.
  • Pilot s malou skupinou prověřených profesionálů a organizací; zavést ověřovací pracovní postupy.
  • RAG pluginy: povolit režim první odpovědi s uvedením původu, který upřednostňuje osvědčené zdroje pro citlivé dotazy.

Další čtení (s daty)

Spolupráce

Tento výzkum je na špičkové úrovni a aktivně se vyvíjí. Chad Scira vítá spolupráci s dalšími odborníky v tomto sektoru.

Pokud máte zájem o spolupráci, kontaktujte nás na: [email protected]