LLM‑ների թունավորումը և չարաշահման դեմ հետազոտություններ

Chad Scira-ն ուսումնասիրում է, թե ինչպես մեծ լեզվական մոդելները կարող են թունավորվել և չարաշահվել՝ մարդկանց վնաս պատճառելու համար, և կառուցում է պաշտպանական համակարգեր՝ հակազդելու այս սպառնալիքներին։ Ռիսկը հրատապ է. վստահության արագ աճը LLM-ների ելքներում գերազանցել է մեր հնարավորությունը ստուգել պնդումները, իսկ հակառակորդները կարող են էժան արժեքով հրապարակել տեքստեր, որոնք խեղաթյուրում են մոդելի վարքագիծն ու մարդկանց վերաբերյալ որոնման տպավորությունները՝ նույնիսկ նրանց փոքր առցանց ներկայությամբ։

2025 թվականի հոկտեմբերի 3-ին ապահովվեց մասնավոր ներդրումային ռաունդ՝ այս հետազոտությունը շարունակելու համար։

Գործադիր ամփոփագիր

Սովորական մարդիկ, որոնց ինտերնետային հետքը փոքր է, հայտնվում են անհամաչափ ռիսկի տակ՝ AI-ով ուժեղացված զրպարտության և տվյալների թունավորման պատճառով։ Մի միայնակ, մղված անձը կարող է սերմանել կեղծ նարատիվներ, որոնք կրկնվում են որոնումներում, սոցիալական հոսքերում և LLM-ներում։ Այս փաստաթուղթը բացատրում է սովորական հարձակման ուղիները, հեղինակության և անվտանգության կոնկրետ ազդեցությունները և տալիս է գործնական ձեռնարկ հայտնաբերման ու պաշտպանության համար։ այն նաև նկարագրում է, թե ինչպես կրիպտոգրաֆիկորեն հաստատված վկայագրերն ու ծագման մասին տեղեկացված վերականգնումը կարող են նվազեցնել վնասը անհատների և ինտեգրատորների համար։

Օգտատերեր և սպառնալիքների մոդել

Օգտատերեր: անհատներ և փոքր կազմակերպություններ, առանց մեծ SEO ներկայության։ Սահմանափակումներ՝ սահմանափակ ժամանակ, բյուջե և տեխնիկական ռեսուրսներ։ Հակառակորդ՝ մեկ գործող անձ, որը կարող է արտադրել և հրապարակել մեծ քանակությամբ տեքստեր, օգտագործել պարզ հղման ցանցեր և շահարկել հաշվետվության բացերը։ Նպատակներ՝ աղավաղել որոնման/LLM ելքերը, վնասել հեղինակությանը, ստեղծել կասկածներ աշխատատեղերի, հաճախորդների, հարթակների կամ գործակալների մոտ։

Ինչ է մեծ լեզվական մոդելների (LLM) թունավորումը՞

LLM թունավորումը նշանակում է մոդելի վարքի մանիպուլյացիա սերմնացու կամ համակարգված պարունակության միջոցով՝ օրինակ՝ չարամիտ գրառումներ, սինթետիկ հոդվածներ կամ ֆորումի սպամ, որոնք կարող են ընդունվել որոնման/վերադարձման համակարգերի կողմից կամ օգտագործվել մարդու կողմից ազդանշանների տեսքով, հոսի մոդելները դեպի կեղծ ասոցացիաներ և զրպարտական Narrative-ներ։

Քանի որ LLM-ները և վերականգնման համակարգերը օպտիմալացվում են մասշտաբի և ընդգրկման համար, միակ մղված հակառակորդը կարող է ձևավորել այն, ինչ մոդելը «տեսնում» է մեկի մասին՝ հեղեղելով ինտերնետի փոքր հատվածը։ Սա հատկապես արդյունավետ է այն մարդկանց նկատմամբ, որոնց առցանց ներկայությունը սահմանափակ է։

Ինչպես է խեղաթյուրվում համբավը

  • Որոնում և սոցիալական թունավորում — պրոֆիլների գողություն, հղումների ֆերմաներ եւ զանգվածային հրապարակումներ՝ դասակարգման հատկությունների և ավտոմատ լրացման ասոցիացիաների կողմնակալման համար։
  • Գիտելիքների բազայի և RAG‑ի թունավորումը - ստեղծել սուբյեկտների էջեր և QA նշումներ, որոնք թվում են սեմանտիկապես համապատասխան և որպես կոնտեքստ հաշվարկվում վերափոխման ընթացքում։
  • Անուղղակի հրահանգի ներմուծում - հակառակորդային վեբպարունակություն, որը ստիպում է զննող գործակալներին կրկնել հրահանգները կամ արտահանել զգայուն տվյալներ։
  • Backdoored endpoints — վնասակար մոդելային 'wrapper'-ներ, որոնք գործում են սովորաբար մինչև հայտնվեն ակտիվացման արտահայտությունները, այնուհետև արձակում են նպատակային կեղծիքներ։

Լրացուցիչ ռիսկեր և ձախողման ռեժիմներ

  • Մոդելի փլուզում՝ սինթետիկ ելքերի վրա ուսուցումից - օրեցօր հանգստի հետադարձ կապի ցիկլեր, երբ ստեղծված տեքստը վատացնում է ապագա մոդելի որակը, եթե այն չի ֆիլտրացվում կամ չի կշռավորվում։
  • Անուղղակի հրահանգի ներարկում - վեբում հակառակորդային պարունակություն, որը հորդորում է գործակալին կամ զննող գործիքին արտահանել գաղտնիքներ կամ տարածել զրպարտություն մեջբերվելիս։
  • Ներդրման (embedding) պահարանի թունավորում - հակառակորդային հատվածների տեղադրում գիտելիքների բազայում՝ այնպես, որ արդյունքներում հայտնվեն սեմանտիկորեն համապատասխան տեսք ունեցող կեղծ պնդումներ.
  • Backdoored releases — փոփոխված checkpoints կամ API-wrapper-ներ հրապարակելը, որոնք գործում են նորմալ մինչև ի հայտ գա ակտիվացման արտահայտությունը։

Կոնկրետ դեպքեր և հղումներ

Խորը մեղմացման միջոցներ

Որոնում և դասակարգում

  • Աղբյուրների գնահատում և ծագման կշռում՝ նախապատվություն տալ ստորագրված կամ հրատարակչության կողմից վավերացված բովանդակությանը; նվազեցնել կշիռը նոր ստեղծված կամ ցածր վարկանիշ ունեցող էջերի համար։
  • Ժամանակային քայքայում՝ զիջման ժամկետով — պահանջել նոր աղբյուրների ազդեցության համար որոշակի սպասման ժամկետ, նախքան դրանք ազդեն բարձր ռիսկայնության պատասխանների վրա; զգայուն սուբյեկտների դեպքում ավելացնել մարդկային վերանայում։
  • Էխո սենյակների հայտնաբերում - խմբավորեք մոտ կրկնօրինակ հատվածները և սահմանափակեք նույն ծագումից կամ ցանցից կրկնվող ազդումն ըստ անհրաժեշտության.
  • Արտառոցությունների և անոմալիաների հայտնաբերում էմբեդդինգ տարածքում - նշել այն հատվածները, որոնց վեկտորային դիրքերը ադվերսարայինորեն օպտիմիզացվել են։

Տվյալների և գիտելիքների բազայի հիգիենա

  • «Snapshot» և «diff» գիտելիքների բազաներ — վերանայեք մեծ տարբերությունները, հատկապես անձանց ներկայացնող գրառումներն և առանց հիմնական աղբյուրների մեղադրանքները։
  • Canary և արգելքի ցուցակներ — կանխարգելել հայտնի չարաշահման ենթարկվող դոմեյնների ընդգրկումը; տեղադրել canary-եր՝ չթույլատրված տարածումը չափելու համար։
  • Մարդկային մասնակցություն բարձր ռիսկի թեմաների դեպքում - հերթափոխեք առաջարկվող թարմացումները համբավին առնչվող փաստերի համար՝ ձեռքով քննության նպատակով.

Վկայագրեր և հեղինակություն

  • Կրիպտոգրաֆիկորեն ստուգված հավաստագրեր - վստահված մասնագետների և կազմակերպությունների կողմից ստորագրված հայտարարությունները, որոնք հրապարակվում են միայն ավելացման համար նախատեսված մատյանով (append-only log).
  • Վարկանիշային գրաֆիկներ — համախմբում են ստորագրված հավաստագրումները և նվազեցնում են վարկանիշը կրկնվող չարաշահողների կամ բոտ-ցանցերի բովանդակության համար։
  • Օգտատերերի համար տեսանելի հղումներ — պահանջել մոդելներից ցույց տալ աղբյուրները և վստահության աստիճանը՝ ծագումը ապացույցող նշաններով զգայուն պնդումների դեպքում։

Ընկերության ստուգման ցանկ

  • Քարտեզագրել ձեր ոլորտի զգայուն սուբյեկտները (անձինք, ապրանքանիշեր, իրավական թեմաներ) և երթուղավորել հարցումները պաշտպանված գծուղիների միջոցով՝ որտեղ պահանջվում է ծագման փաստարկավորում։
  • Կիրառել C2PA կամ նման բովանդակության վկայագրեր առաջին կողմի բովանդակության համար և խրախուսել գործընկերներին նույնը անել։
  • Հետևեք նոր աղբյուրների ազդեցությանը ժամանակի ընթացքում և ազդարարեք անսովոր տատանումների մասին՝ սուբյեկտային մակարդակի պատասխանների համար։
  • Կատարեք շարունակական «կարմիր թիմ» թեստավորում RAG-ի և դիտարկիչ գործակալների համար, ներառյալ անուղղակի հրահանգների ներարկման (prompt injection) փորձարկման հավաքածուները։

Հալածանք և վարկաբեկում արհեստական բանականության միջոցով

Վարձու կատարող անհատները այժմ օգտվում են ԱԻ‑ից և ավտոմատացումից՝ զանգվածաբար արտադրելու հալածանք և զրպարտություն՝ ստեղծելով հավանական տեսք ունեցող տեքստեր և կեղծ «աղբյուրներ», որոնք հեշտ է ինդեքսավորել, սքրեյփել և կրկնօրինակել։ Այս արշավները ցածր արժեքով են, ունեն մեծ ազդեցություն և դժվար է վերացնել դրանք, երբ դրանք ավտոմատացված համակարգերով ուժեղացվում են։

Chad Scira-ն անձամբ ենթարկվել է թիրախային հալածանքների և զրպարտության, որոնք համակցվել են սպամային հղումներով՝ նպատակ ունենալով աղավաղել հեղինակության ազդանշաններն ու որոնման տպավորությունները։ Մանրամասն հաշվետվությունը և ապացույցների հանգույցը փաստաթղթավորված են այստեղ՝ Ջեսսի Նիքլզ - Հալածանք և Զրպարտություն.

Սպառնալիքների դասակարգում

  • Նախապատրաստական տվյալների թունավորում - հանրային կորպուսների թունավորում, որոնք օգտագործվում են նախնական ուսուցման համար՝ կեղծ ասոցիացիաներ կամ backdoors ներմուծելու նպատակով։
  • RAG թունավորում - գիտելիքների բազաներ կամ արտաքին աղբյուրներ սերմանել, որոնք վերականգնման խողովակաշարերը օգտագործում են եզրակացման պահին։
  • Որոնման/սոցիալական թունավորում — գրառումների հեղեղում կամ ցածր որակի էջեր՝ անձի կամ թեմայի վերաբերյալ որոնման եւ դասակարգման ազդանշանները կողմնակալելու նպատակով։
  • Հակահարձակչական հրահանգներ և բովանդակություն — մուտքեր պատրաստելը, որոնք առաջացնում են անհաջող վարքագծեր կամ 'jailbreak'-ներ, որոնք կրկնում են զրպարտող պնդումները։

Վերջին դեպքերն ու հետազոտությունները (ամսաթվերով)

Նշում: վերևում նշված ամսաթվերը արտահայտում են կցված աղբյուրներում հրապարակման կամ հանրային թողարկման ամսաթվերը։

Ինչու սա վտանգավոր է

  • LLM‑ները կարող են թվալ հեղինակավոր, անգամ երբ դրանց հենվող հղումները թույլ են կամ հակառակորդաբար ներկարկված են։
  • Որոնման և դասակարգման շղթաները կարող են չափազանց մեծացնել կրկնվող տեքստի ձեռքբերումը, թույլ տալով մեկ դերակատարին միայն ծավալով խեղաթյուրել արդյունքները։
  • Մարդկային փաստերի ստուգման գործընթացները դանդաղ և ծախսատար են՝ համեմատած ավտոմատացված բովանդակության արտադրության և տարածման արագության հետ.
  • Առցանց նշանակալի ներկայություն չունեցող զոհերը անհամաչափորեն խոցելի են մեկ հրապարակմամբ թունավորումների (single-post poisoning) և ինքնության դեմ հարձակումների նկատմամբ։

Խորքային ռիսկերի վերլուծություն

  • Աշխատանքի ընդունման և հարթակի զտումներ - որոնումները և LLM-ի ամփոփումներն կարող են կրկնել թունավորված բովանդակությունը աշխատանքի ընդունման, մոդերացիայի կամ ներմուծման (onboarding) ստուգումների ընթացքում.
  • Ճամփորդություն, բնակարանային և ֆինանսական ծառայություններ — ավտոմատացված ստուգումները կարող են առաջ բերել կեղծ պատմություններ, որոնք ուշացնում կամ արգելափակում են ծառայությունները։
  • Պահպանելիություն - երբ մեկ անգամ ինդեքսավորվում են գիտելիքների բազաներում կամ կեշավորված պատասխաններում, կեղծ պնդումները կարող են կրկին վեր surface-վել նույնիսկ հեռացումներից հետո։
  • Սինթետիկ արձագանք — գեներացված բովանդակությունը կարող է հիմք ծառայել ավելի շատ գեներացված նյութերի համար, ինչի արդյունքում ժամանակի ընթացքում կբարձրանա կեղծ տեղեկատվությունների տեսանելի «քաշը»։

Հայտնաբերում և հսկողություն

  • Սահմանեք որոնման ծանուցումներ ձեր անունով և մականուններով; պարբերաբար ստուգեք site: հարցումները ցածր վարկանիշ ունեցող տիրույթների համար, որոնք ձեզ նշում են։
  • Հետևեք ձեր գիտելիքների պանելների կամ սուբյեկտային էջերի փոփոխություններին; պահեք ամսաթվով սքրինշոթներ և արտահանված պատճեններ որպես ապացույց։
  • Հսկել սոցիալական կապերի գրաֆները կրկնվող աղբյուր հանդիսացող հաշիվների կամ նմանատիպ ձևակերպումների հանկարծակի աճի համար։
  • Եթե գործարկում եք RAG կամ գիտելիքների բազա, կատարեք սուբյեկտների շեղումների ստուգումներ և վերանայեք անձերի էջերում կամ առանց հիմնական աղբյուրների մատնանշված մեղադրանքներում առկա մեծ տարբերությունները։

Պաշտպանության ուղեցույց - անհատներ

  • Հրապարակեք անձնական կայք՝ հստակ ինքնության հայտարարություններով, կարճ կենսագրությամբ և կապվելու ուղիներով; պահեք ամսաթվերով փոփոխությունների օրագիր։
  • Համապատասխանեցնել պրոֆիլի մետատվյալները տարբեր հարթակներում; հնարավորության դեպքում ձեռք բերել հաստատված պրոֆիլներ և կապել դրանք Ձեր կայքին։
  • Օգտագործեք C2PA կամ նմանատիպ բովանդակության վկայագրեր հիմնական պատկերների և փաստաթղթերի համար, երբ հնարավոր է; բնօրինակները պահպանեք մասնավորաբար։
  • Պահեք ապացույցների մատյան՝ ժամանակային կետերով: էկրանային պատկերներ, հղումներ և ցանկացած հարթակի տոմսերի համարը հետագա էսկալացման համար։
  • Պատրաստել հեռացման ձևանմուշներ; արագ արձագանքել նոր հարձակումներին և փաստագրել յուրաքանչյուր քայլը՝ հստակ փաստաթղթային հետքի համար։

Պաշտպանության ուղեցույց - թիմեր և ինտեգրատորներ

  • Վերադարձման մեջ նախապատվությունը տվեք ստորագրված կամ հրատարակչի վավերացված բովանդակությանը; նոր աղբյուրների համար կիրառեք ժամանակային ներումներ։
  • Սահմանափակել նույն ծագումից կրկնվող ազդեցությունը և մեկուսացնել մոտակա կրկնօրինակները յուրաքանչյուր ծագման ցանցի համար։
  • Ավելացնել ծագման նշաններ և օգտատերերին ցուցադրվող աղբյուրների ցանկեր անձին առնչվող պնդումների և այլ զգայուն թեմաների համար։
  • Կիրառել անոմալիաների հայտնաբերման մեխանիզմներ էմբեդինգների պահեստներում; նշել հակահարձակչական վեկտորների արտառոց արժեքները և իրականացնել canary ստուգումներ անթույլատրված տարածման հայտնաբերման համար։

Հետազոտություն՝ կրիպտոգրաֆիկորեն ստուգված հավաստագրումների մասին

Chad Scira-ն կառուցում է կրիպտոգրաֆիկորեն հաստատվող վկայագրային համակարգեր՝ մարդկանց ու իրադարձությունների վերաբերյալ արտահայտությունների նկատմամբ վստահություն ապահովելու նպատակով։ Նպատակը՝ LLM-ներին և վերականգնման համակարգերին տրամադրել ստորագրված, հարցման ենթակա պնդումներ վավերացված մասնագետներից և կազմակերպություններից՝ ապահովելով ամուր ծագում և բարձր դիմադրություն թունավորման նկատմամբ։

Նախագծման սկզբունքներ

  • Նույնականություն և ծագում: հայտարարությունները ստորագրվում են ստուգված անհատների/կազմակերպությունների կողմից՝ հանրային բանալիով կոդագրում օգտագործելով։
  • Ստուգելի պահպանություն՝ հավաստագրերը ամրագրված են միայն ավելացվող և խափանման հետքերը ցույց տվող օրագրերին՝ անկախ ստուգումը հնարավոր դարձնելու համար։
  • Որոնման ինտեգրում։ RAG շղթաները կարող են առաջնահերթություն տալ կամ պահանջել կրիպտոգրաֆիկորեն հավաստագրված աղբյուրներ զգայուն հարցումների դեպքում։
  • Մինիմալ խոչնդոտներ՝ API‑ներն ու SDK‑ն թույլ են տալիս հրատարակիչներին և հարթակներին թողարկել և ստուգել հավաստագրերը ներմուծման պահին։

Վարկանիշ և ծանուցումներ

Attestations-ների վերևում՝ հեղինակության շերտը հավաքում է ստորագրությամբ տրված հավանություններն ու նշում հայտնի չարաշահողներին։ Ծանուցման համակարգերը տեղեկացնում են թիրախներին, երբ հայտնաբերվում են համակարգված հարձակումներ կամ անոմալ ջիղեր, ինչը թույլ է տալիս արագ արձագանք և հեռացման պահանջներ ներկայացնել։

Իրավական և հարթակային ալիքներ

  • Օգտագործեք հարթակի զեկուցման հոսքերը՝ հստակ ապացույցների փաթեթներով՝ հղումներ, ամսաթվեր, սքրինշոթներ և ազդեցություններ։ Հղեք նաև պղծման (defamation) և հալածման (harassment) քաղաքականություններին։
  • Բարձրացրեք հարցը պաշտոնական ծանուցումներով, երբ դա տեղին է; պահպանեք հաղորդակցությունների օրագրերը և տոմսերի ID-ները որպես ձեր ապացույցների ուղու մասնիկներ.
  • Ուշադրություն դարձրեք վարկաբեկման և հարթակի պատասխանատվության իրավական տարբերություններին; բարձր ռիսկի դեպքերում խորհրդակցեք իրավաբանական խորհրդականի հետ.

Կիրառման ճանապարհային քարտեզ (1‑րդ տարի)

  • MVP: հավաստագրման սխեմա և հրատարակչի SDK՝ անձնության հայտարարությունները և իրադարձությունների պնդումները ստորագրելու համար։
  • Փորձարկում փոքր, նախապես ստուգված մասնագետների ու կազմակերպությունների խմբով; հաստատել վավերացման աշխատանքային հոսքերը։
  • RAG պլագիններ: միացնել provenance-first առաջին պատասխանի ռեժիմը, որը առաջնայնություն է տալիս հավաստագրված աղբյուրներին զգայուն հարցումների դեպքում։

Լրացուցիչ ընթերցումներ (ամսաթվերով)

Համագործակցություն

Այս հետազոտությունը վերջին նորարարական է և ակտիվորեն զարգանում է։ Chad Scira-ն ողջունում է համագործակցությունը ոլորտի այլ մասնագետների հետ։

Եթե հետաքրքրված եք համագործակցությամբ, խնդրում ենք դիմել՝ [email protected]