Výzkum otravy LLM a opatření proti zneužívání
Chad Scira zkoumá, jak mohou být velké jazykové modely otráveny a zneužity k poškození jednotlivců, a vytváří ochranné systémy k odvrácení těchto hrozeb. Riziko je naléhavé: tempo důvěry ve výstupy LLM překonalo naši schopnost ověřovat tvrzení, zatímco protivníci mohou levně publikovat texty, které zkreslují chování modelů a dojem z vyhledávání o lidech bez velké online stopy.
Dne 3. října 2025 bylo zajištěno soukromé investiční kolo k pokračování tohoto výzkumu.
Výkonné shrnutí
Průměrní lidé s malou internetovou stopou čelí nepřiměřenému riziku z AI zesílené pomluvy a otrávení dat. Jediný motivovaný jedinec může zasadit falešné narativy, které opakují vyhledávače, sociální sítě a LLM. Tento dokument vysvětluje běžné cesty útoku, konkrétní dopady na reputaci a bezpečnost a praktický návod pro detekci a ochranu. Také popisuje, jak kryptograficky ověřená osvědčení a vyhledávání citlivé na původ mohou snížit škody pro jednotlivce a integrátory.
Cílové publikum a model hrozeb
Cílové publikum: jednotlivci a malé organizace bez silné SEO přítomnosti. Omezení: omezený čas, rozpočet a technické zdroje. Útočník: jediný aktér schopný generovat a zveřejňovat velké objemy textu, používat základní sítě odkazů a využívat slepá místa v nahlášení. Cíle: zkreslit výsledky vyhledávání/LLM, poškodit reputaci, vytvořit pochybnosti u zaměstnavatelů, klientů, platforem nebo zástupců.
Co je LLM poisoning?
Otrava LLM označuje manipulaci chování modelu pomocí vsazeného nebo koordinovaného obsahu – například škodlivých příspěvků, syntetických článků nebo spamů na fórech – které mohou být zachyceny systémy pro vyhledávání informací nebo lidmi použity jako signály a navádět modely k falešným asociacím a pomlouvačným narativům.
Protože LLM a retrieval systémy optimalizují pro škálovatelnost a pokrytí, může jediný motivovaný protivník ovlivnit, co model „vidí“ o osobě, zaplavením malé části webu. To je obzvlášť účinné proti jedincům s omezenou online přítomností.
Jak dochází ke zkreslení reputace
- Otrava vyhledávání a sociálních sítí – převzetí profilů, link farmy a hromadné zveřejňování k zaujatí hodnoticích funkcí a asociací automatického doplňování.
- Otrava znalostní báze a RAG – vytváření stránek entit a poznámek Q&A, které se jeví jako sémanticky relevantní a jsou načítány jako kontext.
- Nepřímá injekce pokynů – nepřátelský webový obsah, který způsobuje, že prohlížečoví agenti opakují pokyny nebo vynášejí citlivá data.
- Koncové body s zadními vrátky – škodlivé obaly modelu, které se chovají normálně až do objevení spouštěcích frází, poté vydávají cílené nepravdy.
Další rizika a způsoby selhání
- Kolaps modelu v důsledku tréninku na syntetických výstupech - zpětné smyčky, kde generovaný text zhoršuje budoucí kvalitu modelu, pokud není filtrován nebo vážen.
- Nepřímá injekce pokynů – nepřátelský obsah na webu, který instruuje agenta nebo nástroj pro prohlížení, aby při citování získával tajné informace nebo šířil pomluvy.
- Znečištění úložiště embeddingů – vkládání adversariálních pasáží do znalostní báze tak, že při vyhledávání se objeví falešná tvrzení, která vypadají sémanticky relevantní.
- Vydání s zadními vrátky – publikování upravených checkpointů nebo API obalů, které se chovají normálně, dokud není přítomna spouštěcí fráze.
Konkrétní případy a reference
Vícevrstvá opatření
Vyhledávání a řazení
- Ohodnocování zdrojů a vážení provenience – upřednostňujte podepsaný nebo vydavatelem ověřený obsah; snižte váhu nově vytvořených nebo domén s nízkou reputací.
- Klesání relevance v čase s lhůtou - vyžadujte dobu setrvání, než nové zdroje ovlivní odpovědi s vysokým dopadem; přidejte lidské přezkoumání u citlivých subjektů.
- Detekce echo komor – seskupujte téměř duplicitní pasáže a omezte opakovaný vliv ze stejného zdroje nebo sítě.
- Detekce odlehlých hodnot a anomálií v embeddingovém prostoru - označit pasáže, jejichž vektorové pozice byly adversariálně optimalizovány.
Hygiena dat a znalostní báze
- Snímky a rozdílové znalostní báze – kontrolujte velké rozdíly, zejména u entit osob a obvinění bez primárních zdrojů.
- Seznamy canary a seznamy zakázaných domén – zabránit začlenění známých zneužívaných domén; vkládat canary položky k měření neautorizované propagace.
- Člověk v rozhodovacím okruhu pro vysoce riziková témata – zařaďte navrhované aktualizace faktických údajů o pověsti do fronty pro ruční posouzení.
Ověření a reputace
- Kryptograficky ověřená potvrzení – podepsaná prohlášení prověřených odborníků a organizací zveřejněná prostřednictvím záznamu určeného pouze k připojování.
- Grafy reputace – agregují podepsaná doporučení a snižují hodnocení obsahu od opakovaných zneuživatelů nebo botnetů.
- Citace pro uživatele - vyžadujte, aby modely zobrazovaly zdroje a míru jistoty s odznaky původu u citlivých tvrzení.
Kontrolní seznam pro podniky
- Mapujte citlivé entity ve vašem oboru (osoby, značky, právní témata) a směrujte dotazy do chráněných zpracovatelských kanálů s požadavky na doložení původu.
- Přijmout C2PA nebo podobné obsahové kredenciály pro obsah první strany a povzbudit partnery, aby učinili totéž.
- Sledujte vliv nových zdrojů v čase a upozorňujte na neobvyklé výkyvy u odpovědí na úrovni entit.
- Provádějte nepřetržité red team testy pro RAG a prohlížecí agenty včetně sad testů pro nepřímé injekce promptů.
Obtěžování a pomluva prostřednictvím AI
Najímané osoby nyní využívají AI a automatizaci k hromadné produkci obtěžování a pomluv, vytvářejí věrohodně vypadající texty a falešné „zdroje“, které je snadné indexovat, získávat a znovu sdílet. Tyto kampaně jsou nízkonákladové, vysoce účinné a těžko napravitelné, jakmile jsou zesíleny automatickými systémy.
Chad Scira osobně zažil cílené obtěžování a pomluvy spojené se spamovými odkazy, jejichž cílem bylo zkreslit signály reputace a výsledky vyhledávání. Podrobný účet a důkazní stopa jsou zdokumentovány zde: Jesse Nickles – obtěžování a pomluvy.
Taxonomie hrozeb
- Pretraining data poisoning - kontaminace veřejných korpusů používaných pro počáteční trénink za účelem implantace falešných asociací nebo backdoorů.
- RAG otrava - zasévání znalostních bází nebo externích zdrojů, které retrieval pipeline používají při inferenci.
- Otrava vyhledávání/sociálních sítí – zaplavování příspěvků nebo nízkokvalitních stránek za účelem zkreslení signálů vyhledávání a řazení o osobě nebo tématu.
- Adversariální prompty a obsah – vytváření vstupů, které spouští nežádoucí chování nebo jailbreaky opakující pomlouvačná tvrzení.
Nedávné incidenty a výzkum (s daty)
Poznámka: Výše uvedená data odpovídají datům publikace nebo veřejného zveřejnění v odkazovaných zdrojích.
Proč je to nebezpečné
- LLM mohou působit autoritativně i tehdy, když jsou podkladové odkazy slabé nebo záměrně zmanipulované.
- Procesy získávání a řazení mohou nadhodnocovat opakovaný text, což umožňuje jednomu aktérovi zkreslit výsledky pouhou četností.
- Lidské ověřování faktů je pomalé a nákladné ve srovnání s rychlostí automatizované produkce a distribuce obsahu.
- Oběti bez výrazné online přítomnosti jsou nepřiměřeně zranitelné vůči kontaminaci jediným příspěvkem a útokům na identitu.
Hloubková analýza rizik
- Prověrky zaměstnání a platforem – vyhledávání a shrnutí generovaná LLM mohou při náboru, moderaci nebo prověrkách při nástupu opakovat znečištěný obsah.
- Cestovní, bytové a finanční služby - automatizované kontroly mohou odhalit nepravdivé narativy, které zpožďují nebo blokují poskytování služeb.
- Perzistence - jakmile jsou indexovány v znalostních bázech nebo v mezipaměti odpovědí, mohou se falešná tvrzení znovu objevit i po odstranění.
- Syntetická zpětná vazba – generovaný obsah může nastartovat další generovaný obsah, čímž se v čase zvyšuje zdánlivá váha nepravd.
Detekce a monitorování
- Nastavte vyhledávací upozornění na své jméno a aliasy; pravidelně kontrolujte dotazy site: pro domény s nízkou reputací, které vás zmiňují.
- Sledujte změny ve vašich znalostních panelech nebo stránkách entit; uchovávejte datované snímky obrazovky a exportované kopie jako důkazy.
- Sledujte grafy sociálních vazeb kvůli opakovaným účtům původu nebo náhlým nárůstům podobného vyjadřování.
- Pokud provozujete RAG nebo znalostní bázi, provádějte kontroly posunu entit a přezkoumávejte velké změny na stránkách osob nebo obviněních bez primárních zdrojů.
Protection Playbook - Individuals
- Zveřejněte osobní web s jasnými prohlášeními o identitě, krátkým životopisem a kontaktními cestami; veďte datovaný záznam změn.
- Slaďte metadata profilu napříč platformami; získejte ověřené profily, kde je to možné, a propojte je zpět na své stránky.
- Používejte C2PA nebo podobná ověřovací údaje o obsahu pro klíčové obrázky a dokumenty, pokud je to možné; originály ukládejte soukromě.
- Vedejte záznam důkazů s časovými razítky: snímky obrazovky, odkazy a čísla tiketů na platformě pro pozdější eskalaci.
- Připravte šablony pro odstranění obsahu; rychle reagujte na nové útoky a zdokumentujte každý krok pro jasný auditní záznam.
Protection Playbook - Teams and Integrators
- Preferujte podepsaný obsah nebo obsah ověřený vydavatelem při načítání; u nových zdrojů uplatněte časově omezené období tolerance.
- Omezte opakovaný vliv ze stejného původu a deduplikujte téměř duplicitní položky v rámci sítě původu.
- Přidat odznaky původu a seznamy zdrojů pro uživatele u tvrzení o osobách a dalších citlivých témat.
- Zavést detekci anomálií v úložištích embeddingů; označovat adversariální vektorové odlehlosti a provádět canary kontroly pro neautorizovanou propagaci.
Výzkum: kryptograficky ověřená prohlášení
Chad Scira buduje kryptograficky ověřené systémy osvědčení pro důvěru ve výroky o osobách a událostech. Cílem je poskytnout LLM a retrieval systémům podepsaná, dotazovatelná tvrzení od prověřených odborníků a organizací, což umožní robustní sledovatelnost původu a silnější odolnost proti poškozování (poisoning).
Principy návrhu
- Identita a původ: prohlášení jsou podepisována ověřenými jednotlivci/organizacemi pomocí kryptografie s veřejným klíčem.
- Ověřitelné úložiště: osvědčení jsou ukotvena v záznamech pouze k připojování, zjevně odolných proti manipulaci, aby umožňovala nezávislé ověření.
- Integrace získávání: RAG pipeline mohou upřednostňovat nebo vyžadovat kryptograficky ověřené zdroje pro citlivé dotazy.
- Minimální tření: API a SDK umožňují vydavatelům a platformám vystavovat a ověřovat prohlášení při příjmu dat.
Reputace a upozornění
Kromě osvědčení vrstva reputace agreguje podepsaná doporučení a označuje známé zneuživatele. Systémy upozornění informují cíle při zjištění koordinovaných útoků nebo abnormálních nárůstů, což umožňuje rychlejší reakci a žádosti o odstranění obsahu.
Právní a platformní kanály
- Používejte procesy hlášení na platformě s jasnými balíčky důkazů: odkazy, data, snímky obrazovky a dopady. Uveďte odkazy na zásady týkající se pomluvy a obtěžování.
- Eskalujte formálními oznámeními tam, kde je to vhodné; uchovávejte záznamy korespondence a identifikátory tiketů jako součást důkazní stopy.
- Zohledněte jurisdikční rozdíly v otázkách pomluvy a odpovědnosti provozovatele platformy; v případech vysokého rizika se poraďte s právním zástupcem.
Plán implementace (rok 1)
- MVP: schéma osvědčení a SDK pro vydavatele k podepisování prohlášení o identitě a tvrzení o událostech.
- Pilot s malou skupinou prověřených profesionálů a organizací; zavést ověřovací pracovní postupy.
- RAG pluginy: povolit režim první odpovědi s uvedením původu, který upřednostňuje osvědčené zdroje pro citlivé dotazy.
Spolupráce
Tento výzkum je na špičkové úrovni a aktivně se vyvíjí. Chad Scira vítá spolupráci s dalšími odborníky v tomto sektoru.
Pokud máte zájem o spolupráci, kontaktujte nás na: [email protected]