LLM хордуулалт ба зөрчилтэй хэрэглээг эсэргүүцэх судалгаа

Chad Scira нь том хэлний моделүүдийг хувь хүмүүсийг хохироох зорилгоор хэрхэн хордуулах болон буруу ашиглаж болохыг судалж, эдгээр аюулаас хамгаалах системүүдийг байгуулдаг. Эрсдэл яаралтай: LLM-ийн үр дүн дээрх итгэлцэл бидний мэдэгдлийг баталгаажуулах чадварыг давсан бөгөөд дайснууд онлайн оролцоо багатай хүмүүсийн талаар модель ба хайлтын сэтгэгдлийг гуйвуулсан текстийг хямдхан нийтэлж чадна.

Энэхүү судалгааг үргэлжлүүлэх зорилгоор 2025 оны 10-р сарын 3-нд хувийн хөрөнгө оруулалтын шат амжилттай бүрдсэн.

Гүйцэтгэх товч тойм

Интернет дээр жижиг орон зайтай ердийн хүмүүс AI-гаар нэмэгдсэн гүтгэлэг болон өгөгдөл хордуулах ажиллагаанаас илүү их эрсдэлд өртдөг. Нэг урам зоригтой хувь хүн хайлт, нийгмийн сүлжээний тасалбар болон LLM-үүд дахин дамжуулдаг худал түүхийг суулгаж болно. Энэ баримт бичиг нь нийтлэг халдлагын замууд, нэр хүнд ба аюулгүй байдалд үзүүлэх бодит нөлөө, илрүүлэг ба хамгаалалтын практик удирдамжийг тайлбарлана. Мөн криптографиар баталгаажсан гэрчилгээнүүд болон гарал үүслийг нотолж чаддаг сэргээх механизмүүд хувь хүмүүс ба интеграторуудад хэрхэн хохирлыг бууруулж болохыг заана.

Зорилтот бүлэг ба аюулын загвар

Зорилтот бүлэг: их хэмжээний SEO нөлөөгүй хувь хүмүүс болон жижиг байгууллагууд. Хязгаарлалт: цаг, төсөв, техникийн нөөц хязгаарлагдмал. Дайсан: их хэмжээний текст үүсгэн байршуулж, энгийн холбоос сүлжээг ашиглаж, тайлагналын сул талыг ашиглах чадвартай нэг этгээд. Зорилго: хайлт/LLM-ийн гаралтыг гуйвуулж нэр хүндэд хохирол учруулах, ажил олгогчид, үйлчлүүлэгчид, платформууд эсвэл төлөөлөгчдөд эргэлзээ үүсгэх.

LLM-ийг бохирдуулах гэдэг нь юу вэ?

LLM хордуулалт гэдэг нь загварын зан үйлд зориудаар тарьсан эсвэл уялдаатай агуулгаар нөлөөлөхийг хэлнэ — жишээлбэл муу санаатан бичсэн пост, нийлэг өгүүлэл эсвэл форумын спам — эдгээр нь хайлт/таталт системд шингэж эсвэл хүний дохиогоор ашиглагдаж загварыг буруу холбоос болон гүтгэлэг бүхий өгүүллэг рүү түлхдэг.

LLM болон сэргээх системүүд нь цар хүрээ, хамрах хүрээг оновчтой болгодог тул нэг урам зоригтой дайсан вебийн жижиг хэсгийг урсгаж тухайн хүний талаар модель 'харах' мэдээллийг хэлбэржүүлэх боломжтой. Энэ нь онлайн оролцоо хязгаарлагдмал хүмүүст илүү үр дүнтэй байна.

Нэр хүнд яаж гуйврах вэ

  • Хайлтын болон нийгмийн сайтын бохирдол — профайлын хулгай, холбоосын ферм, эрэмбэлэлтийн функц болон автомат дүүргэлтийн холбоосуудыг гуйвуулахын тулд масс бичлэг хийх.
  • Мэдлэгийн сан болон RAG‑ийн хордуулалт - семантикийн хувьд холбогдож харагдах энтити хуудас болон асуулт‑хариултын тэмдэглэл үүсгэн, контекст болгон сэргээдэг.
  • Хяналтгүй (шууд бус) prompt injection - хөтчийн агентуудыг зааврыг давтах эсвэл эмзэг мэдээллийг гадагш гаргахад хүргэдэг дайсагнасан вэб агуулга.
  • Арын хаалгатай төгсгөлүүд — өдөөгч өгүүлбэр гарсан хүртэл хэвийн мэт үйлдэж, дараа нь тодорхой этгээдэд чиглэсэн худал мэдээллийг тараадаг муу санаат модель ороомог.

Нэмэлт эрсдэл ба алдааны горимууд

  • Синтетик гаралтаар сургах явцаас үүдэн загвар доройтох — үүссэн текстүүдийг цэвэрлэж эсвэл жин олгохгүй бол дараагийн загварын чанарыг муутгах хариу холбоо.
  • Хяналтгүй (шууд бус) prompt injection - вэб дээрх дайсагнасан агуулга нь агент эсвэл хөтчийн хэрэгслийг иш татсан үед нууцыг гаргаж авах эсвэл гүтгэлгийг тараах заавар өгдөг.
  • Эмбеддинг сангийн хорлолт - мэдлэгийн санд дайсагнасан хэсгүүдийг оруулснаар эргэн таталтын үед семантик байдлаар холбогдсон мэт харагдах худал мэдээллийг илрүүлдэг.
  • Арын хаалгатай хувилбарууд — өөрчлөлт орсон чекпойнт эсвэл API ороомог нийтэлж, өдөөгч өгүүлбэр байхгүй үед хэвийн ажиллаж, өдөөгч үг илэрсэн тохиолдолд зориулагдсан худал мэдээлэл гаргадаг.

Тодорхой тохиолдлууд ба ишлэлүүд

Гүнзгий хамгаалалтын арга хэмжээ

Мэдээлэл сэргээх ба эрэмбэлэлт

  • Эх үүсвэрийн оноо болон гарал үүсэлд жин өгөх — гарын үсэгтэй эсвэл хэвлэгчээр баталгаажсан контентыг давуулах; шинээр бүтээгдсэн эсвэл нэр хүнд муутай хуудаснуудын жинг бууруулах.
  • Цаг хугацааны элэгдэл ба уян хатан тэнцвэрийн хугацаа - шинэ эх сурвалж нь өндөр эрсдэлтэй хариунд нөлөөлөхийн өмнө тодорхой байрлах хугацаа шаардлагатай; мэдрэмтгий субъектүүдийн тохиолдолд хүний хяналтыг нэмэх.
  • Эхо өрөөг илрүүлэх - ойролцоо хуулбарлагдсан хэсгүүдийг бүлэглэж, нэг эх сурвалж эсвэл сүлжээнээс ирэх давтагдсан нөлөөллийг хязгаарлах.
  • Эмбеддинг орон зайд гадаад тохиолдол болон аномали илрүүлэх — векторын байрлал нь өрсөлдөгчийн зорилгоор оновчлогдсон хэсгүүдийг тэмдэглэх.

Өгөгдөл ба мэдлэгийн сангийн эрүүл ахуй

  • Мэдлэгийн сангийн snapshot ба diff-үүд — томоохон ялгааг шалгаж, ялангуяа хүний объектууд болон эх сурвалжгүй буруутгалуудыг анхаарах.
  • Канар ба хориглох жагсаалтууд — мэдэгдсэн зөрчилтэй домэйнуудыг системд оруулахыг зогсоох; зөвшөөрөлгүй тархалтыг хэмжихийн тулд канар маркерыг оруулах.
  • Өндөр эрсдэлтэй сэдвүүдэд хүнийг оролцуул - нэр хүндтэй холбоотой санал болгосон шинэчлэлүүдийг гар аргаар шийдвэрлэхэд дараалалд оруулах.

Баталгаажуулалт ба нэр хүнд

  • Криптографиар баталгаажсан гэрчилгээнүүд - шалгагдсан мэргэжилтнүүд болон байгууллагуудаас гаргасан гарын үсэгтэй мэдэгдлүүд, зөвхөн нэмэх бүртгэлээр нийтлэгдсэн.
  • Нэр хүндийн график — баталгаажсан гарын үсэгтэй дэмжлэгүүдийг нэгтгэж, давтагдсан зөрчлүүд эсвэл бот сүлжээнүүдийн контентыг доош эрэмбэлнэ.
  • Хэрэглэгч рүү чиглэсэн иш таталтууд - мэдрэмтгий мэдээллийн хувьд эх сурвалж болон итгэлцлийг гарал үүсэл тэмдэг (provenance badges) ашиглан загваруудаас харуулах шаардлага тавих.

Байгууллагын шалгах жагсаалт

  • Танай салбарын эмзэг объектууд (хүмүүс, брэндүүд, хууль эрх зүйн сэдвүүд)-ийг тодорхойлж, лавлагааны хүсэлтүүдийг гарал үүслийн шаардлагатай хамгаалсан шугам руу чиглүүл.
  • Анхны талын агуулгад C2PA эсвэл ижил төстэй контент баталгаажуулалтын стандартыг нэвтрүүлэх, түншүүдийг мөн адил хийхийг уриалах.
  • Шинэ эх сурвалжийн нөлөөг цаг хугацааны явцад хянаж, субъект төвшний хариунууд дахь ер бусын хэлбэлзэлд анхааруулга гаргах.
  • RAG болон хөтчийн агентуудад тасралтгүй улаан багийн (red teaming) шалгалтуудыг явуулж, шууд бус промпт шахалтын туршилтын багцуудыг оролцуул.

Хиймэл оюун ашиглан үйлдэгддэг доромжлол ба гүтгэлэг

Хөлслөгдсөн хүмүүс одоо хиймэл оюун ба автоматчлалыг ашиглан доромжлол, гүтгэлгийг масс үйлдвэрлэж байна; итгэмээр харагдах текст болон индекстлэх, скрейп хийх, дахин хуваалцахад хялбар хуурамч “эх сурвалж”-уудыг бий болгож байна. Эдгээр кампанит ажил нь бага өртөгтэй, өндөр нөлөөтэй бөгөөд автоматжсан системээр өргөжиж эхэлмэгц арилгах нь хэцүү болдог.

Chad Scira нь нэр хүндийн дохио болон хайлтын сэтгэгдлийг гуйвуулах зорилготой спам маягийн холбоосоор хосолсон чиглэсэн дарамт болон гүтгэлэгт хувийн туршлагатай болсон. Нарийн тохиолдол болон нотлох баримтын мөр энд бичигдсэн: Жесси Никлс - Доромжлол ба гүтгэлэг.

Аюулын ангилал

  • Анхны сургалтын өгөгдлийг хордуулах — анхны сургалтад ашиглагддаг олон нийтийн корпусыг буруу холбоос эсвэл нууц хаалга суулгах зорилгоор хордуулах.
  • RAG хордуулах - дүгнэлт хийх үед сэргээх хоолой ашигладаг мэдлэгийн баазууд эсвэл гадаад эх сурвалжуудад буруу өгөгдөл суулгах.
  • Хайлтын/нийгмийн бохирдол — хүний эсвэл сэдвийн талаархи мэдээллийг сэргээх ба эрэмбэлэх дохиог гуйвуулахын тулд их хэмжээний бичлэг эсвэл чанар муутай хуудсуудыг дүүргэх.
  • Эсэргүүцэгч уриалга, агуулга — хүсээгүй үйлдэл эсвэл системийг тойрч гарах (jailbreak) байдлыг өдөөж, гүтгэлэгтэй мэдэгдлийг дахин тараах оролтуудыг боловсруулах.

Сүүлийн үйл явдлууд болон судалгаа (огноотой)

Тэмдэглэл: Дээрх огноонууд нь холбоосын эх сурвалжуудад нийтлэгдсэн эсвэл олон нийтэд гаргасан огноог тусгасан болно.

Энэ яагаад аюултай вэ?

  • LLM‑үүд суурь лавлах эх сурвалжууд сул эсвэл дайснаар тарьсан байсан ч итгэмжтэй, эрх мэдэлтэй мэт харагдаж болно.
  • Мэдээлэл сэргээх ба эрэмбэлэх шугамууд давтагдсан текстэд хэт их ач холбогдол өгөж, нэг этгээд зөвхөн их хэмжээний агуулгаар үр дүнг гуйвуулж болно.
  • Хүний баримт шалгалтын үйл явц нь автомат агуулга үйлдвэрлэл, түгээх хурдтай харьцуулахад удаан бөгөөд өртөг өндөр байдаг.
  • Онлайнаар ихээхэн оролцоогүй хохирогчид ганц бичлэгээр мэдээллийн бохирдолд (poisoning) өртөх болон таних мэдээллийн халдлагад (identity attacks) харьцангуй илүү эмзэг байдаг.

Эрсдэлийн гүнзгий шинжилгээ

  • Ажилд авах болон платформын шалгалт - хайлт болон их хэмжээний хэлний загвар (LLM)-ын хураангуй нь ажилд авах, хяналт, эсвэл бүртгэх шалгалтын үед хорлосон агуулгыг давтан харуулах боломжтой.
  • Аялал, орон байр болон санхүүгийн үйлчилгээ - автомат шалгалтууд буруу өгүүлэмжийг илрүүлж, үйлчилгээний хүргэлтийг хойшлуулж эсвэл хааж болзошгүй.
  • Тогтворшил — нэгэнт мэдлэгийн баазад индексжсэн эсвэл кэшт хариултад орсон хуурамч мэдэгдлүүд устгагдсан ч дахин илэрч болно.
  • Синтетик санал — үүсгэсэн агуулга нь илүү их үүсгэсэн агуулгыг эхлүүлж, буруутай мэдээллийн харагдах жинг цагийн явцад нэмэгдүүлж болно.

Илрүүлэлт ба хяналт

  • Өөрийн нэр болон орлуулагч нэрс дээр хайлтын сэрэмжлүүлэг тохируул; тодорхой хугацаанд site: хайлтуудаар таныг дурдсан нэр хүнд муутай домэйнуудыг шалга.
  • Мэдлэгийн самбарууд болон объект/субъект хуудсууд дахь өөрчлөлтийг хянах; нотлох баримт болгон огноотой дэлгэцийн агшин зураг болон экспортын хуулбаруудыг хадгалах.
  • Нийгмийн холбоосын графикуудыг давтагдсан эх аккаунтууд буюу ижил төстэй хэллэгийн гэнэтийн өсөлтийг хянах.
  • Хэрэв RAG эсвэл мэдлэгийн санг ажиллуулж байгаа бол энтити шилжилтийн шалгалтуудыг гүйцэтгэж, анхдагч эх сурвалжгүй хувь хүний хуудсанд хийсэн их хэмжээний өөрчлөлтүүд болон гомдлуудыг нягтлан шалга.

Хамгаалалтын гарын авлага - Хувь хүн

  • Тодорхой таних баталгаатай, товч намтар болон холбоо барих замуудыг агуулсан хувийн сайтыг нийтэл; огноотой өөрчлөлтийн түүхийг хадгалах.
  • Платформуудын дагуух профайлын мета мэдээллийг нийцүүлэх; боломжтой бол баталгаажсан профайлуудыг олж авах ба тэдгээрийг өөрийн сайтад холбох.
  • Боломжтой тохиолдолд түлхүүр зураг, баримт бичгүүдэд C2PA эсвэл түүнтэй төстэй контентын итгэмжлэл ашиглах; эх хувийг хувийн хадгалалтад хадгалах.
  • Нотлох баримтын цагийн тэмдэгтэй бүртгэл хөтөл: дэлгэцийн зураг, холбоосууд болон платформын тасалбарын дугаарыг дараа нь өргөжүүлэхэд ашиглана.
  • Устгах загваруудыг бэлдэх; шинэ довтолгоонд хурдан хариу өгч, тодорхой баримт мөр бүрдүүлэхийн тулд алхам бүрийг баримтжуулах.

Хамгаалалтын гарын авлага - Багууд болон интеграторууд

  • Сэргээх явцад гарын үсэгтэй эсвэл хэвлэгчийн баталгаатай агуулгыг түрүүлүүлэн ашиглах; шинэ эх үүсвэрүүдэд цаг хугацаанд суурилсан хөнгөлөлтийн хугацаа тогтоох.
  • Ижил гаралтай эх сурвалжаас давтан ирэх нөлөөг хязгаарлаж, тухайн эх сурвалжийн сүлжээнд ойролцоо хуулбаруудыг давхаргүй болго.
  • Хүний түвшний нэхэмжлэл болон бусад эмзэг сэдвүүдэд зориулан гарал үүслийн шошгууд болон хэрэглэгчдэд харагдах эх сурвалжийн жагсаалтыг нэмж оруулах.
  • Эмбеддинг сангуудад аномали илрүүлэхийг нэвтрүүлэх; эсэргүүцэх векторын гадагшилсан утгуудыг тэмдэглэж, зөвшөөрөлгүй тархалтыг илрүүлэх канар шалгалтуудыг явуулах.

Судалгаа: Криптографиар баталгаажсан гэрчилгээнүүд

Chad Scira нь хүний болон үйл явдлын тухай мэдээллийн итгэлцлийг хангах зорилгоор криптографиар баталгаажсан гэрчилгээний системүүдийг бий болгож байна. Зорилго нь шалгасан мэргэжилтнүүд болон байгууллагуудаас гаргасан гарын үсэгтэй, лавлах боломжтой мэдэгдлүүдийг LLM болон сэргээх системд өгч, бат бөх гарал үүслийг хангах ба хордуулалтад илүү тэсвэртэй болгох юм.

Дизайны зарчмууд

  • Идентификаци ба гарал үүсэл: мэдэгдэлүүдийг олон нийтийн түлхүүр криптографи ашиглан баталгаажсан хувь хүн/байгууллага гарын үсэг зурж баталгаажуулна.
  • Шалгагдах хадгалалт: баталгааны баримтууд нь зөвхөн нэмэгддэг, эвдрэлийг илтгэх бүртгэлд холбогдсон байх ёстой бөгөөд ингэснээр бие даасан шалгалт хийх боломжтой.
  • Мэдээлэл интеграц: RAG шугамууд эмзэг асуултуудад криптографиар баталгаажсан эх үүсвэрүүдийг давуу эрхээр авч эсвэл шаарддаг байж болно.
  • Бага саад: API болон SDK нь хэвлэн нийтлэгч болон платформд өгөгдөл авах үед баталгаажуулалт (аттестаци) гаргах, шалгах боломж олгодог.

Нэр хүнд ба анхааруулга

Баталгаажуулалтын дээр репутацийн давхарга гарын үсэгтэй баталсан дэмжлэгүүдийг нэгтгэн танигдсан зөрчигчдийг тэмдэглэнэ. Сэрэмжлүүлэх системүүд зохион байгуулалттай довтолгоо эсвэл ер бусын огцом өсөлтийг илрүүлсэн тохиолдолд зорилтуудыг мэдэгдэж, илүү хурдан хариу, устгалын хүсэлт явуулах боломжийг бүрдүүлдэг.

Хууль эрх зүйн болон платформын сувгууд

  • Тодорхой нотлох баримтын багц бүхий платформын мэдээллэх урсгалуудыг ашиглах: холбоос, огноо, дэлгэцийн агшин зураг болон нөлөөлөл. Гүтгэлэг ба доромжиллын бодлогыг иш татах.
  • Зөв тохиолдолд албан мэдэгдлээр асуудлыг дээшлүүлж; харилцааны бүртгэл болон тасалбарын дугаарыг нотлох баримтын мөрөнд хадгалах.
  • Гүтгэлэг болон платформын хариуцлагын эрх зүйн ялгааг харгалзан үзэж; өндөр эрсдэлтэй тохиолдолд өмгөөлөгчтэй зөвлөлдөх.

Хэрэгжүүлэх төлөвлөгөө (1‑р жил)

  • MVP: таних мэдэгдэл болон үйл явдлын шаардлагыг гарын үсгээр баталгаажуулах схем ба хэвлэгчийн SDK.
  • Шалгасан мэргэжилтэн болон байгууллагуудын жижиг бүлэгтэй пилот явуулж; баталгаажуулах ажлын урсгалыг тогтоох.
  • RAG залгаасууд: эмзэг асуултуудад баталгаажсан эх сурвалжуудыг давуу байлгах 'эх сурвалжийг эхэнд тавих' хариултын горимыг идэвхжүүлэх.

Нэмэлт уншлага (огноотой)

Хамтын ажиллагаа

Энэхүү судалгаа нь хамгийн сүүлийн үеийн бөгөөд идэвхтэйгээр хөгжиж байна. Chad Scira энэ салбарын бусад мэргэжилтнүүдтэй хамтран ажиллахыг урьж байна.

Хамтран ажиллах сонирхолтой бол дараах хаягаар холбоо барина уу: [email protected]