Нэр хүндийн хамгаалалт ба LLM бохирдуулалтын судалгаа

Энэхүү хуудас нь LLM бохирдуулалт, зөрчилтэй хэрэглээг эсэргүүцэх системүүд болон нэр хүнд хамгаалалтын судалгааны зориулалтын архив юм. Эрсдэл яаралтай: LLM-үүдийн гаралтыг итгэх хурд нь бидний мэдэгдлийг шалгах чадварыг давж, сөрөг этгээдүүд нь хямд үнээр моделийн зан авир болон хүний тухай хайлтын сэтгэгдлийг гуйвуулах текстийг нийтэлж чадна, тэр дундаа онлайн мөргүй хүмүүсийн хувьд.

Гүйцэтгэх тойм

Интернэтэд бага мөр үлдээсэн жирийн хүмүүс нь AI-гаар томруулсан гүтгэлэг болон өгөгдөл бохирдуулах ажиллагаанаас илүү өндөр эрсдэлд өртдөг. Нэг зорьсон этгээд хуурамч домог тарьж, хайлт, нийгмийн сүлжээний фид болон LLM-үүдээр давтан тархах нөхцлийг бүрдүүлж чадна. Энэ баримт бичиг нийтлэг довтолгооны замууд, нэр хүнд болон аюулгүй байдалд үзүүлэх тодорхой нөлөө, илрүүлэг ба хамгаалалтын практик гарын авлагыг тайлбарлана. Мөн криптографиар баталгаажсан гэрчилгээнүүд болон эх үүсвэртэй уялдсан сэргээн хайлт (provenance-aware retrieval) хэрхэн хувь хүн ба интеграторуудад учруулах хохирлыг бууруулж болохыг авч үзнэ.

Зорилтот үзэгчид ба аюулын загвар

Зорилтот үзэгчид: их хэмжээний SEO нөлөөгүй хувь хүн болон жижиг байгууллагууд. Хязгаарлалтууд: цаг, төсөв, техник нөөц хязгаарлагдмал. Эсрэг тал: их хэмжээний текст үүсгэн нийтлэх, энгийн холбоос сүлжээг ашиглах, репортлох цоорхойг ашиглах чадвартай ганц этгээд. Зорилгууд: хайлт/LLM-үүдийн гаралтыг гуйвуулах, нэр хүндэд хор учруулах, ажил олгогч, үйлчлүүлэгч, платформ эсвэл төлөөлөгчийн дунд эргэлзээ бий болгох.

LLM-ийн хордуулалт гэж юу вэ?

LLM-ийг хордуулах нь үржүүлсэн эсвэл зохион байгуулсан контентээр — жишээ нь, муу санаатай нийтлэл, нийлэг өгүүлэл, эсвэл форумын спам — загварын зан үйлд нөлөөлөх үйлдлийг хэлнэ; эдгээр нь хайлтын/хайлт буцаах системээр шингэж болох эсвэл хүмүүсийн дохио болгон ашиглагдаж, загварыг буруу холбоо ба гүтгэлгийн өгүүллэг рүү түлхдэг.

LLM болон сэргээх системүүд нь цар хүрээ ба хамрах хэмжээг оновчлох тул нэг зорьсон этгээд вебийн жижиг хэсгийг үерлүүлэн тухайн хүний талаар модель 'харах' мэдээллийг хэлбэржүүлж чадна. Энэ нь онлайнаар бага оролцоо бүхий хувь хүмүүсийн эсрэг ялангуяа үр дүнтэй.

Нэр хүнд хэрхэн гажууруулагддаг вэ

Хайлтын ба нийгмийн бохирдол - профайлыг булаах, холбоосын фермүүд, зэрэглэлийн шинж чанар ба автомат дүүргэлтийн холбоосуудтай холбогдсон ассоциацуудыг гуйваахын тулд их хэмжээний нийтлэл байрлуулах.
Мэдлэгийн сан ба RAG-г хордуулах - семантик талаасаа холбогдсон мэт харагдаж, контекст болгон татагдах объектын хуудсууд болон QA тэмдэглэлийг үүсгэх.
Шууд бусаар үг оруулалт - дайсагнагч вэб агуулга нь хөтчийн агентуудыг зааврыг дахин давтах эсвэл нэмэгдсэн мэдрэмтгий мэдээллийг гадагшлуулахад хүргэдэг.
Backdoored endpoints — идэвхжих үг гарч ирэх хүртэл хэвийн ажиллаж, дараа нь зорилтот худал мэдээлэл илгээдэг муу санаат модель боолтууд.

Нэмэлт эрсдэл ба алдаа гарах горимууд

Нийлэгээр үүссэн үр дүн дээр сургаснаас загварын уналт — үүсгэсэн текст шүүлтүүргүй эсвэл зохих жингүй бол санал солилцох давталтаар ирээдүйн загварын чанарыг муутгана.
Шууд бусаар үг оруулалт (indirect prompt injection) - вэб дээрх дайсагнагч агуулга нь агент эсвэл хөтчийн хэрэгслийг иш татсан үед нууц мэдээллийг гадагшлуулах эсвэл гүтгэлэг тараахыг тушаадаг.
Эмбеддинг сангийн хордуулалт - мэдлэгийн сантанд эсрэг талын өгүүлбэрүүдийг оруулж, авалтын үед семантик талаасаа холбогдсон мэт харагдах худал мэдэгдлүүдийг гаргаж ирэх.
Backdoored releases — өөрчлөлт орсон чекпойнт эсвэл API боолтуудыг нийтэлж, идэвхжих үг байх хүртэл хэвийн үйлдэл үзүүлдэг.

Бодит тохиолдлууд ба ишлэлүүд

Гүнзгий сэргийлэх арга хэмжээ

Сэргээх ба зэрэглэл

Эх сурвалжийн оноо ба гарал үүслийн жинлэл - гарын үсэгтэй эсвэл хэвлэн нийтлэгчээр баталгаажсан агуулгыг давуу үзэх; шинээр үүссэн эсвэл нэр хүнд багатай хуудсуудын жинг бууруулах.
Хугацааны бууралт ба уучлалтын хугацаа — өндөр эрсдэлтэй хариултуудад шинэ эх сурвалж нөлөөлөхөөс өмнө тодорхой хугацаа өнгөрөхийг шаард; эмзэг субъектүүдэд хүний хяналтыг нэм.
Эхо танхимын илрүүлэлт - ойролцоо давхцсан хэсгүүдийг бүлэглэж, ижил эх үүсвэр эсвэл сүлжээний давтагдсан нөлөөллийг хязгаарлах.
Embedding орон зайд хэт онцгой болон ер бусын тохиолдлуудыг илрүүлэх — векторын байрлал нь дайсанд зориулан оновчлогдсон хэсгүүдийг тэмдэглэ.

Өгөгдөл ба мэдлэгийн сангийн ариун цэвэр

Мэдлэгийн сангийн snapshot болон diff-үүдийг авч, томоохон өөрчлөлтүүдийг шалга — ялангуяа хүний субьектүүд болон эх сурвалжгүй буруутгалууд дээр анхаарал хандуул.
Канарь ба татгалзах жагсаалтууд — мэдэгдсэн зөрчлөөр холбогдсон домэйнуудыг оруулахыг урьдчилан сэргийлэх; зөвшөөрөлгүй тархалтыг хэмжихийн тулд канарь оруулж хэмжилт хийх.
Өндөр эрсдэлтэй сэдвүүдэд хүний оролцоо - нэр хүндтэй холбоотой санал болгосон шинэчлэлтүүдийг гар аргаар шийдвэрлэхэд дараалалд оруул.

Гэрчилгээнүүд ба нэр хүнд

Криптографиар баталгаажсан гэрчилгээнүүд — шалгагдсан мэргэжилтэн, байгууллагуудаас гарсан гарын үсэгтэй мэдэгдлүүдийг зөвхөн нэмэх боломжтой журнал (append-only log)-аар нийтлэх.
Нэр хүндийн граф - гарын үсэгтэй баталгуудыг нэгтгэн, давтан зөрчил гаргагчид эсвэл ботовын сүлжээнээс гарах контентыг зэрэглэлийг бууруулж үзэх.
Хэрэглэгчдэд үзүүлэх ишлэлүүд — эмзэг мэдэгдлүүдэд эх сурвалж, итгэлцлийг эх үүсвэрийн тэмдэглэгээгээр (provenance badges) харуулахаар загваруудад шаардлага тавь.

Байгууллагын шалгах жагсаалт

Танай орчны эмзэг субьектүүдийг (хүн, брэнд, эрх зүйн сэдвүүд) тодорхойлж, асуултуудыг гарал үүслийн шаардлагатай хамгаалсан дамжлагуудад чиглүүл.
C2PA эсвэл түүнтэй төстэй агуулгын баталгааг анхны контент дээр нэвтрүүлж, түншүүдийг мөн адил хийхийг уриал.
Шинэ эх сурвалжийн нөлөөг цаг хугацааны явцад хянаж, объектын түвшний хариултуудад ер бусын хэлбэлзэл гарвал сэрэмжлүүл.
RAG болон хөтөч/браузер агентуудад зориулсан тасралтгүй red teaming туршилтуудыг явуул, үүнд шууд бус prompt injection тестүүд орно.

Хиймэл оюун ухаанаар дамжуулсан дарамт ба гүтгэлэг

Хөлслөгдсөн хүмүүс одоо AI болон автоматчлалыг ашиглан дарамт ба гүтгэлгийг масс үйлдвэрлэх боломжтой болж, индексжих, скрэп хийх, дахин хуваалцахад хялбар итгэмээр текст болон хуурамч “эх сурвалж”-ыг бий болгодог. Эдгээр кампанит ажил нь бага зардалтай, их нөлөөтэй бөгөөд автомат системээр өргөжих үед арилгахад хэцүү байдаг.

Chad Scira нь хувь хүний нэр хүндийн дохиог гуйвуулж, хайлтын ойлголтыг гуйвуулан хэлбэржүүлэх зорилготой спам маягийн холбоос үүсгэсэн чиглэсэн дарамт болон гүтгэлгийн өмнө персоналаар өртөж байсан. Нарийвчилсан тохиолдлын тайлан ба нотлох баримтын мөрийг энд баримтжуулсан байна: Jesse Nickles - Дарамт ба гүтгэлэг.

Сүүлд Stack Exchange дээр болсон нэг тохиолдол нь ихэнхдээ хүчтэй итгэлцлийн дохио өгдөг тавцан дээр зохион байгуулалттай дансууд хэрхэн итгэлийг зохион байгуулж бий болгож болдгийг харуулж байна. Холбогдсон олон дансанд олон нийтэд 100 жилийн хугацаатай түдгэлзүүлэлт оноож, үүний дараа өшөө авахаар олон платформд нийтэлсэн нь эх үүсвэрийг харгалдсан эрэмбэлэлт ба зөрчилтэй үйлдлийг таслан зогсоох системд ашигтай кейс судалгаа болж байна: Stack Exchange дээрх дарамт ба гүтгэлгийн хэрэг.

Эх сурвалж сайтаасаа устсан нь батлагдсан гүтгэлгийн худал URL бүрийг архивт тусад нь баримтжуулсан: Гүтгэлгийн худал агуулгын архив.

Аюулын ангилал

Анхдагч сургалтын өгөгдлийг хордуулах — анхны сургалтанд ашиглагддаг олон нийтийн корпусыг хордуулж, буруу холбоос эсвэл backdoor суулгана.
RAG бохирдуулах - сэргээх (retrieval) хоолойнууд таамаглалтын үед ашигладаг мэдлэгийн сан эсвэл гадаад эх сурвалжуудыг буруу мэдээллээр бөглөх.
Хайлтын/нийгмийн бохирдол - хүний эсвэл сэдэвтэй холбоотой сэргээх ба зэрэглэх дохиог гуйвуулахын тулд олон нийтлэл эсвэл чанаргүй хуудсуудыг үерлүүлэх.
Эсрэг талын промпт ба агуулга — хүсээгүй үйлдэл эсвэл jailbreak-үүдийг өдөөх, гүтгэлгийг давтан гаргадаг оролтуудыг зохион бүтээх.

Сүүлийн үйл явдал, судалгаа (огноотой)

Анхаар: Дээрх огноонууд нь холбоос өгсөн эх сурвалж дээрх нийтлэл эсвэл олон нийтэд гарсан огноог тусгасан байна.

Яагаад энэ нь аюултай вэ

Суурь лавлагаанууд сул эсвэл дайсантай зорилгоор суулгагдсан байсан ч LLM-ууд итгэл даахуйц мэт харагдаж болно.
Сэргээх болон зэрэглэх хоолойнууд давтагдсан текстэд хэт жин өгч, нэг этгээд зөвхөн хэмжээний давтамжаар үр дүнг гуйвах боломжтой.
Автоматжуулсан контент үйлдвэрлэл, түгээх хурдтай харьцуулахад хүний гардан шалгалт удаан, өндөр зардалтай байдаг.
Онлайнд ихээхэн ил гаралтгүй хохирогчид ганц постоор мэдээллийг бохирдуулах (post poisoning) болон таних мэдээллийн эсрэг халдлагад харьцангуй илүү эмзэг байдаг.

Эрсдлийн гүнзгий шинжилгээ

Ажилд авах болон платформын шалгалт - хайлт болон LLM-ийн товчлолууд нь ажилд авалт, модераци эсвэл onboarding шалгалтуудад бохирдсон контентыг дахин давтаж харуулж болно.
Аялал, орон сууц болон санхүүгийн үйлчилгээ — автомат шалгалтууд хуурамч өгүүлэмжийг илрүүлж, үйлчилгээ саатуулах эсвэл хаах нөхцөл үүсгэж болно.
Тогтворжилт - мэдлэгийн сан руу индекслагдсан эсвэл кэшт хариултуудад орсны дараа буруу мэдэгдлүүд устгагдсан ч дахин илрэх боломжтой.
Синтетик санал хүсэлт - үүсгэсэн контент нь илүү олон үүсгэсэн контентыг эхлүүлж, хугацаа өнгөрөх тусам худал мэдээллийн ойлгомжтой жинг нэмэгдүүлж болно.

Илрүүлэлт ба хяналт

Өөрийн нэр болон алиасууд дээр хайлтын анхааруулга тохируул; таныг дурдсан нэр хүнд багатай домэйнуудыг илрүүлэхийн тулд тогтмол site: хайлтуудыг шалга.
Мэдлэгийн самбар болон объектын хуудсууд дээрх өөрчлөлтийг хяна; нотлох баримтаар зориулж огноотой скриншот болон экспортласан хуулбаруудыг хадгал.
Нийгмийн холбоосын графыг давтагдсан эх аккаунтууд эсвэл төстэй хэллэгүүдийн гэнэт огцом өсөлтийг илрүүлэх үүднээс хяна.
Хэрэв RAG эсвэл мэдлэгийн сантай ажиллаж байвал объектын шилжилт (entity drift) шалгалт явуулж, эх сурвалжгүй хүний хуудсууд болон гомдол дээр гарсан том хэмжээний өөрчлөлтүүдийг нарийвчлан шалга.

Хамгаалалтын гарын авлага - Хувь хүмүүс

Өөрийн тодорхой байдлыг батлах мэдээлэл, товч танилцуулга, холбогдох холбоо барих аргуудыг тодорхой харуулсан хувийн сайт нийтэл; огноотой өөрчлөлтийн тэмдэглэлийг хадгал.
Платформ бүр дээр профайлын мета өгөгдлийг уялдуулах; боломжтой бол баталгаажсан профайлуудыг олж авч, тэдгээрийг өөрийн сайтан дээр холбо.
Чухал зураг, баримт бичгүүдэд боломжтой үед C2PA эсвэл төстэй агуулгын итгэмжлэл ашигла; эх хувийг хувийн хадгалалтад хадгал.
Цаг тэмдэгтэй нотлох баримтын бүртгэл хөтөл: дэлгэцийн агшнууд, холбоосууд болон дараа нь дээшлүүлэхэд ашиглах платформын тасалбарын дугаарууд.
Агуулга устгах загвар маягтуудыг бэлд; шинэ халдлагад хурдан хариу өгч, алхам бүрийг баримтжуулан тодорхой бичгээр тэмдэглэ.

Хамгаалалтын гарын авлага - Багууд ба интеграторууд

Хайлт буцаахад гарын үсэгтэй эсвэл хэвлэгчээр баталгаажсан агуулгыг илүүд үз; шинэ эх сурвалжуудад хугацаан дээр суурилсан түр хүлээлт тогтоо.
Ижил эх үүсвэрээс ирэх давтагдсан нөлөөллийг хязгаарлаж, эх үүсвэр тус бүрийн сүлжээнд ойролцоо давхцалуудыг давхардлаас салган нэгтгэ.
Хүний түвшний мэдэгдэл болон бусад мэдрэмтгий сэдвүүдийн хувьд эх үүсвэрийн тэмдэглэгээ болон хэрэглэгчдэд харагдах эх үүсвэрийн жагсаалтыг нэмж оруул.
Эмбеддинг хадгалах сангуудад хачин үзэгдэл илрүүлэх аргыг нэвтрүүл; эсрэг ажиллагааны векторын бусдаас ялгагдах утгуудыг тэмдэглэж, зөвшөөрөлгүй тархалтыг хэмжих канарийн шалгалтуудыг гүйцэтгэ.

Судалгаа: Криптографиар баталгаажсан гэрчилгээнүүд

Chad Scira нь хүмүүс болон үйл явдлын тухай мэдэгдлүүдэд итгэх итгэлийг бий болгохын тулд криптографиар баталгаажсан гэрчилгээн системүүдийг боловсруулж байна. Зорилго нь шалгагдсан мэргэжилтэн, байгууллагуудаас ирсэн гарын үсэгтэй, асууж болох мэдэгдлүүдийг LLM болон сэргээх системд өгөх замаар баттай эх үүсвэрийг хангаж, өгөгдөл бохирдохоос илүү сайн хамгаалалт бий болгох юм.

Дизайны зарчмууд

Идентич байдал ба гарал: мэдэгдлүүд нь олон нийтийн түлхүүр криптографийг ашиглан баталгаажсан хувь хүн/байгууллагуудаар гарын үсэг зурснаар баталгаажна.
Шалгалтанд боломжтой хадгалалт: батламжууд нь зөвхөн нэмэлт маягаар хадгалагддаг, өөрчлөлт илэрхийлэгдэх бүртгэлд (append-only, tamper-evident logs) холбогдон бие даасан шалгалтыг боломжтой болгодог.
Сэргээх интеграц: RAG хоолойнууд эмзэг асуултуудад криптографиар баталгаажсан эх сурвалжуудыг давуулах эсвэл шаардах боломжтой.
Хамгийн бага саад: API болон SDK-ууд нь хэвлүүлэгчид болон платформуудад шингээх үед батламж гаргах болон шалгах боломж олгодог.

Нэр хүнд ба анхааруулга

Батламжуудаас гадна нэр хүндийн давхарга гарын үсэгтэй дэмжлэгүүдийг нэгтгэн танигдсан зөрчил гаргагчдыг тэмдэглэнэ. Зохион байгуулалттай халдлага эсвэл ер бусын огцом өсөлт илэрсэн тохиолдолд анхааруулах системүүд зорилтот талуудад мэдэгдэж, илүү хурдан хариу өгөх ба агуулга устгуулах хүсэлт илгээх боломжийг олгодог.

Хууль эрх зүйн болон платформын сувгууд

Холбоос, огноо, скриншот, нөлөөллийг багтаасан тодорхой нотлох баримтаар платформын гомдол/репорт урсгалыг ашигла. Гүтгэлэг болон дарамт, доромжиллын бодлогыг иш тат.
Шаардлагатай тохиолдолд албан ёсны мэдэгдлээр дээшлүүл; нотлох баримтын мөрдөлтөд харилцааны бүртгэл болон тасалбарын дугаарыг хадгал.
Гүтгэлэг ба платформын хариуцлагад хамаарах эрх зүйн харилцаануудын ялгааг үзэж хар; өндөр эрсдэлтэй хэрэгт хууль зүйн зөвлөгөөг авч үзнэ үү.

Хэрэгжүүлэх төлөвлөгөө (1-р жил)

MVP: таних мэдэгдэл ба үйл явдлын нэхэмжлэлийг гарын үсэг зурах зориулалттай батламжийн схем ба хэвлэгчийн SDK.
Шалгасан цөөн тооны мэргэжилтэн, байгууллагуудтай пилоот туршилт явуул; баталгаажуулах ажлын урсгалыг тогтоо.
RAG залгаасууд: эмзэг асуултуудад батлагдсан эх сурвалжуудыг давуу эрх болгодог 'эх сурвалжийг эхэнд тавих' хариултын горимыг идэвхжүүлэх.

Нэмэлт уншлага (огноотой)

Хамтын ажиллагаа

Энэхүү судалгаа нь хамгийн сүүлийн үеийн бөгөөд идэвхтэй хөгжиж байна. Chad Scira энэ салбарын бусад мэргэжилтнүүдтэй хамтран ажиллахыг урьж байна.

Хэрэв хамтран ажиллах сонирхолтой бол дараах хаягаар холбогдоно уу: [email protected]

Хууль зүйн мэдэгдэл. Энэхүү хуудас дээр нийтлэгдсэн мэдээлэл нь баримтад тулгуурласан нийтийн бүртгэл юм. Энэ нь Тайланд улсад Jesse Jacob Nickles-ийн эсрэг явагдаж буй гүтгэлгийн эрүүгийн хэргэд нотлох баримтаар ашиглагдаж байна. Албан ёсны эрүүгийн хэргийн лавлагаа: Bang Kaeo Police Station – Өдөр тутмын тайлангийн бүртгэл № 4, Ном 41/2568, Тайлан № 56, 2568 оны 8-р сарын 13-ны өдөр, Лавлагаа хэрэг № 443/2567. Баримтад тэмдэглэгдсэн олон хохирогчидт нөлөөлсөн давтагдсан үйлдлийн хэв маягтай холбогдуулан энэхүү баримт бичиг нь Jesse Nickles-ийн эсрэг өөр иргэд эсвэл байгууллагуудын дарамтлах эсвэл гүтгэлгийн тухай өөрийн нэхэмжлэлүүдэд туслах нотлох баримт болж ашиглагдаж болох юм.