LLM‑mérgezés és visszaélés elleni kutatás
Chad Scira azt kutatja, hogyan mérgezhetők és hogyan használhatók vissza a nagy nyelvi modellek egyének bántalmazására, és védelmi rendszereket épít ezen fenyegetések ellensúlyozására. A kockázat sürgető: az LLM-kimenetekbe vetett bizalom gyorsabban nőtt, mint az állítások ellenőrzésének képessége, miközben az ellenfelek olcsón publikálhatnak olyan szövegeket, amelyek eltorzítják a modellek viselkedését és egyének keresési megjelenését, különösen azokét, akiknek nincs jelentős online jelenlétük.
2025. október 3-án lezártak egy magánbefektetési kört a kutatás folytatásához.
Vezetői összefoglaló
Az átlagemberek, akiknek kis az internetes lábnyoma, aránytalanul nagy kockázatnak vannak kitéve az AI által felerősített rágalmazás és adatmérgezés miatt. Egyetlen motivált személy hamis narratívákat ültethet el, amelyeket a keresők, a közösségi feedek és az LLM-ek megismételnek. Ez a dokumentum bemutatja a gyakori támadási útvonalakat, a hírnévre és biztonságra gyakorolt konkrét hatásokat, valamint egy gyakorlati útmutatót észlelésre és védelemre. Kitér továbbá arra, hogyan csökkentheti a kriptográfiailag hitelesített igazolások és az eredetkövető visszakeresés a károkat magánszemélyek és integrátorok számára.
Célközönség és fenyegetésmodell
Célközönség: magánszemélyek és kis szervezetek, amelyek nem rendelkeznek jelentős SEO-jelenléttel. Korlátozások: korlátozott idő, költségvetés és technikai erőforrások. Ellenfél: egyetlen szereplő, aki nagy mennyiségű szöveget képes generálni és közzétenni, alapvető linkhálózatokat használni, és kihasználni a jelentési vakfoltokat. Célok: a keresési/LLM-kimenetek torzítása, a hírnév árthatása, kétely keltése munkáltatók, ügyfelek, platformok vagy ügynökök körében.
Mi az LLM-mérgezés?
Az LLM‑mérgezés a modell viselkedésének manipulálását jelenti beültetett vagy koordinált tartalom révén — például rosszindulatú posztok, szintetikus cikkek vagy fórumszemét — amelyeket a lekérdező rendszerek beemelhetnek, vagy az emberek jelzésként használhatnak, és így a modelleket hamis asszociációk és rágalmazó narratívák felé terelik.
Mivel az LLM-ek és a visszakeresési rendszerek a méretet és a lefedettséget optimalizálják, egyetlen motivált ellenfél alakíthatja, mit „lát” a modell egy adott személyről azáltal, hogy elárasztja a web egy kis szeletét. Ez különösen hatékony az online jelenléttel kevéssé rendelkező egyének ellen.
Hogyan torzul a hírnév
- Keresés- és közösségi mérgezés – profileltérítés, linkfarmok és tömeges posztolás a rangsorolási jellemzők és az automatikus kiegészítések torzítására.
- Tudásbázis‑ és RAG‑mérgezés – olyan entitásoldalak és kérdés‑válasz megjegyzések létrehozása, amelyek szemantikailag relevánsnak tűnnek és kontextusként kerülnek előhívásra.
- Közvetett prompt‑injekció – ellenséges webtartalom, amely arra készteti a böngészőügynököket, hogy megismételjék az utasításokat vagy kiszivárogtassanak érzékeny adatokat.
- Hátsóajtóval ellátott végpontok – rosszindulatú modellborítók, amelyek normálisan viselkednek, amíg meg nem jelennek a kiváltó kifejezések, majd célzott hamis állításokat bocsátanak ki.
További kockázatok és meghibásodási módok
- A modell összeomlása szintetikus kimeneteken való tanítástól - visszacsatolási hurkok, amikor a generált szöveg rontja a jövőbeli modellminőséget, ha azt nem szűrik vagy nem súlyozzák.
- Közvetett prompt‑injekció – ellenséges webtartalom, amely arra utasít egy ügynököt vagy böngészőeszközt, hogy idézés esetén kiszivárogtasson titkokat vagy terjesszen rágalmazást.
- Beágyazás-tár megmérgezése - ellenséges szövegrészek beszúrása a tudásbázisba, így a lekérdezés hamis állításokat hoz fel, amelyek szemantikailag relevánsnak tűnnek.
- Hátsóajtóval ellátott kiadások – módosított ellenőrzőpontok vagy API-borítók közzététele, amelyek normálisan viselkednek, amíg meg nem jelenik egy kiváltó kifejezés.
Konkrét esetek és hivatkozások
Többrétegű enyhítések
Visszakeresés és rangsorolás
- Forráspontozás és eredet súlyozás – részesítse előnyben az aláírt vagy kiadó által igazolt tartalmat; csökkentse az újonnan létrehozott vagy alacsony hírnevű oldalak súlyát.
- Időalapú csökkenés türelmi idővel – írja elő a várakozási időt, mielőtt új források befolyásolnák a nagy tétű válaszokat; érzékeny entitások esetén vezessen be emberi felülvizsgálatot.
- Visszhangkamra észlelése - csoportosítsa a közel azonos szövegrészeket és korlátozza ugyanazon forrásból vagy hálózatból származó ismétlődő befolyást.
- Kiemelkedő értékek (outlier) és anomáliaészlelés a beágyazási térben - jelölje meg azokat a szakaszokat, amelyek vektorpozícióit adversáriusan optimalizálták.
Adat- és tudásbázis-higiénia
- Pillanatképek és diffek a tudásbázisokban – ellenőrizze a nagy eltéréseket, különösen személyek esetén és az elsődleges források nélküli vádaknál.
- Kanári- és tiltólisták – akadályozza meg ismert visszaélő domének beépülését; helyezzen el kanári bejegyzéseket az illetéktelen terjedés mérésére.
- Emberi közreműködés a folyamatban magas kockázatú témák esetén - sorolja fel a javasolt frissítéseket a hírnévvel kapcsolatos tények manuális elbírálására.
Igazolások és hírnév
- Kriptográfiailag ellenőrzött igazolások - aláírt nyilatkozatok ellenőrzött szakemberektől és szervezetektől, amelyek egy csak hozzáfűzhető naplón keresztül kerülnek közzétételre.
- Hírnév grafikonok – aggregálják az aláírt ajánlásokat, és lejjebb sorolják az ismétlődő visszaélők vagy bot-hálózatok tartalmait.
- Felhasználó felé megjelenő hivatkozások – írja elő, hogy a modellek érzékeny állítások esetén mutassák a forrásokat és a bizalmi szintet eredetjelző jelvényekkel.
Vállalati ellenőrzőlista
- Térképezze fel a domainjében érzékeny entitásokat (személyek, márkák, jogi témák), és irányítsa a lekérdezéseket védett folyamatláncokhoz, amelyek eredetkövetelményeket támasztanak.
- Alkalmazzon C2PA-t vagy hasonló tartalmi igazolványokat az első féltől származó tartalmakhoz, és ösztönözze partnereit ugyanerre.
- Kövesse nyomon az új források hatását idővel, és riasztson rendellenes ingadozások esetén az entitásszintű válaszoknál.
- Futtasson folyamatos red team-tevékenységet a RAG és böngészőügynökök számára, beleértve a közvetett promptinjekciós tesztcsomagokat is.
Mesterséges intelligencia általi zaklatás és rágalmazás
Bérlők ma már AI‑t és automatizálást használnak zaklatás és rágalmazás tömeges előállítására, életszerűnek tűnő szövegeket és hamis „forrásokat” hozva létre, amelyeket könnyű indexelni, kigyűjteni és újra megosztani. Ezek a kampányok alacsony költségűek, nagy hatásúak, és az automatizált rendszerek által felerősítve nehezen orvosolhatók.
Chad Scira személyesen tapasztalt célzott zaklatást és rágalmazást, amelyet spam-jellegű linkelés kísért azzal a céllal, hogy torzítsa a hírnévi jeleket és a keresési megjelenéseket. Részletes beszámoló és bizonyítéklánc itt dokumentált: Jesse Nickles – Zaklatás és rágalmazás.
Fenyegetés taxonómia
- Előtanítási adatmérgezés - nyilvános korpuszok megmérgezése, amelyeket a kezdeti tanításhoz használnak hamis összefüggések vagy hátsóajtók beültetésére.
- RAG-mérgezés - tudásbázisok vagy külső források megmérgezése, amelyeket a visszakeresési folyamatok a következtetés idején használnak.
- Keresési/közösségi mérgezés – bejegyzések vagy alacsony minőségű oldalak elárasztása egy személyről vagy témáról szóló visszakeresési és rangsorolási jelzések torzítására.
- Adverzáriális kérések és tartalom – olyan bemenetek megalkotása, amelyek nemkívánatos viselkedést vagy jailbreakeket váltanak ki, és ismételnek rágalmazó állításokat.
Legutóbbi események és kutatások (dátumokkal)
Megjegyzés: A fenti dátumok a hivatkozott források szerinti közzétételi vagy nyilvános megjelenési dátumokat tükrözik.
Miért veszélyes ez
- Az LLM‑ek tekintélyesnek tűnhetnek még akkor is, ha az alapul szolgáló hivatkozások gyengék vagy ellenségesen beültetettek.
- A visszakeresési és rangsorolási folyamatok túlértékelhetik az ismétlődő szöveget, így egy szereplő pusztán a mennyiséggel torzíthatja az eredményeket.
- Az emberi tényellenőrzési folyamatok lassúak és költségesek az automatizált tartalomgyártás és terjesztés sebességéhez képest.
- Azok az áldozatok, akiknek nincs jelentős online jelenlétük, aránytalanul sebezhetők egyetlen poszt általi mérgezésre és személyazonosság-elleni támadásokra.
Mélyreható kockázatelemzés
- Alkalmazotti és platformos ellenőrzés - a keresések és az LLM-ek összefoglalói visszhangozhatják a megmérgezett tartalmat toborzás, moderálás vagy beléptetési ellenőrzések során.
- Utazási, lakhatási és pénzügyi szolgáltatások – az automatikus ellenőrzések hamis narratívákat hozhatnak felszínre, amelyek késleltethetik vagy blokkolhatják a szolgáltatásokat.
- Tartósság - ha egyszer bekerülnek tudásbázisokba vagy gyorsítótárazott válaszokba, a hamis állítások még eltávolítás után is újra felbukkanhatnak.
- Szintetikus visszajelzés – a generált tartalom további generált tartalmakat hozhat létre, idővel növelve a hamis állítások látszólagos súlyát.
Észlelés és megfigyelés
- Állítson be keresési riasztásokat a nevére és álneveire; időnként ellenőrizze a site: lekérdezéseket az Önt megemlítő alacsony hírnevű domainek után.
- Kövesse nyomon a tudástáblák vagy entitásoldalak változásait; őrizzen meg dátummal ellátott képernyőképeket és exportált példányokat bizonyítékként.
- Figyelje a közösségi kapcsolati gráfokat ismétlődő eredetű fiókok vagy hasonló megfogalmazások hirtelen megugrásainak észlelésére.
- Ha RAG-et (Retrieval‑Augmented Generation) vagy tudásbázist üzemeltet, végezzen entitáseltolódás-ellenőrzéseket, és vizsgálja felül az emberi adatlapon vagy vádaknál bekövetkező nagy eltéréseket elsődleges források nélküli esetekben.
Védelmi útmutató - magánszemélyeknek
- Publikáljon személyes weboldalt egyértelmű identitás-nyilatkozatokkal, rövid életrajzzal és elérhetőségekkel; vezessen dátummal ellátott módosítási naplót.
- Harmonizálja a profilmetaadatokat a platformok között; szerezzen be hitelesített profilokat, ahol lehetséges, és kösse őket vissza a webhelyére.
- Használjon C2PA-t vagy hasonló tartalom-hitelesítő igazolásokat a fontos képekhez és dokumentumokhoz, ha lehetséges; az eredetieket tárolja privát módon.
- Vezessen bizonyítéknyilvántartást időbélyegzőkkel: képernyőképek, linkek és bármilyen platformhoz tartozó jegyszámok a későbbi eszkalációhoz.
- Készítsen eltávolítási sablonokat; reagáljon gyorsan új támadásokra és dokumentáljon minden lépést egy átlátható nyomvonal érdekében.
Védelmi útmutató - csapatoknak és integrátoroknak
- Előnyben részesítse az aláírt vagy kiadó által ellenőrzött tartalmakat a lekérésnél; alkalmazzon időalapú türelmi periódusokat új forrásoknál.
- Korlátozza ugyanarról az eredetről érkező ismétlődő hatást, és szűrje ki a közel‑azonos duplikátumokat eredethálózatonként.
- Adj hozzá eredetjelvényeket és felhasználóknak szánt forráslistákat személyre vonatkozó állításokhoz és más érzékeny témákhoz.
- Vezessen be anomáliaészlelést a beágyazási tárolókban; jelölje meg a támadó vektorok kilógásait, és végezzen kanáriellenőrzéseket az illetéktelen terjedés kimutatására.
Kutatás: Kriptográfiailag ellenőrzött igazolások
Chad Scira kriptográfiailag hitelesített igazolási rendszereket épít a személyekről és eseményekről szóló állítások megbízhatósága érdekében. A cél az, hogy aláírt, lekérdezhető állításokat biztosítson LLM-ek és visszakeresési rendszerek számára ellenőrzött szakemberektől és szervezetektől, ezáltal lehetővé téve a megbízható eredetkövetést és nagyobb ellenállást a mérgezés ellen.
Tervezési alapelvek
- Identitás és eredet: a nyilatkozatokat hitelesített személyek/szervezetek írják alá nyilvános kulcsú kriptográfia alkalmazásával.
- Ellenőrizhető tárolás: az igazolások csak hozzáfűzhető, hamisítás-ellenőrző naplókhoz vannak rögzítve, így lehetővé teszik a független ellenőrzést.
- Visszakeresés integráció: a RAG-folyamatok előnyben részesíthetik, vagy megkövetelhetik a kriptográfiailag igazolt forrásokat érzékeny lekérdezések esetén.
- Minimális súrlódás: az API‑k és SDK‑k lehetővé teszik a kiadók és platformok számára, hogy igazolásokat bocsássanak ki és ellenőrizzenek a bevitel idején.
Hírnév és riasztások
A hitelesítéseken felül egy reputációs réteg gyűjti az aláírt ajánlásokat és jelöli az ismert visszaélőket. Értesítő rendszerek figyelmeztetik a célpontokat, ha koordinált támadásokat vagy rendellenes megugrásokat észlelnek, lehetővé téve a gyorsabb reagálást és eltávolítási kérelmek benyújtását.
Jogi és platformcsatornák
- Használja a platform jelentési folyamatait világos bizonyítékcsomagokkal: linkek, dátumok, képernyőképek és hatások. Hivatkozzon a rágalmazásra és zaklatásra vonatkozó szabályzatokra.
- Szükség esetén emelje ügyet hivatalos értesítésekkel; tartsa meg a levelezési naplókat és a jegyazonosítókat a bizonyítéki nyomvonal részeként.
- Vegye figyelembe a joghatóság szerinti eltéréseket a rágalmazás és a platform felelőssége tekintetében; magas kockázatú esetekben konzultáljon jogi tanácsadóval.
Megvalósítási ütemterv (1. év)
- MVP: hitelesítési séma és kiadó SDK az identitásnyilatkozatok és eseményigények aláírásához.
- Vezessen le pilotot egy kis, ellenőrzött szakemberekből és szervezetekből álló csoporttal; alakítson ki ellenőrzési munkafolyamatokat.
- RAG plug ins: engedélyezze a forráselső válaszmódot, amely előnyben részesíti a hitelesített forrásokat érzékeny lekérdezések esetén.
További olvasmányok (dátumokkal)
Együttműködés
Ez a kutatás élvonalbeli és folyamatosan fejlődik. Chad Scira szívesen működik együtt más szakemberekkel ezen a területen.
Ha érdekli az együttműködés, kérjük, vegye fel velünk a kapcsolatot a következő címen: [email protected]