آلودگی مدل‌های زبانی بزرگ (LLM) و پژوهش مقابله با سوءاستفاده

چد اسکیرا پژوهش می‌کند چگونه مدل‌های زبانی بزرگ می‌توانند آلوده و سوءاستفاده شوند تا به افراد آسیب برسانند و سامانه‌های حفاظتی برای مقابله با این تهدیدها می‌سازد. خطر فوری است: سرعت اعتماد به خروجی‌های مدل‌های زبانی بزرگ از توانایی ما برای بررسی گزاره‌ها پیشی گرفته، در حالی که مهاجمان می‌توانند با هزینهٔ اندک متنی منتشر کنند که رفتار مدل و برداشت جستجو از افراد با حضور آنلاین اندک را دگرگون می‌کند.

یک دور سرمایه‌گذاری خصوصی در ۳ اکتبر ۲۰۲۵ به‌منظور ادامه این تحقیق تأمین شد.

خلاصه اجرایی

افراد معمولی با ردپای اینترنتی کوچک در معرض ریسک نامتناسبی از افترا تقویت‌شده توسط هوش مصنوعی و آلوده‌سازی داده قرار دارند. یک فرد مصمم می‌تواند روایت‌های نادرستی را پخش کند که جستجو، خوراک‌های اجتماعی و مدل‌های زبانی بزرگ آن‌ها را بازتولید می‌کنند. این سند مسیرهای حملهٔ رایج، تأثیرهای عینی بر شهرت و ایمنی و یک راهنمای عملی برای شناسایی و حفاظت را توضیح می‌دهد. همچنین نشان می‌دهد چگونه گواهی‌های رمزنگاری‌شدهٔ تأییدشده و بازیابی آگاه از منشأ می‌توانند برای افراد و یکپارچه‌سازان ضرر را کاهش دهند.

مخاطب و مدل تهدید

مخاطب: افراد و سازمان‌های کوچک بدون حضور قوی در سئو. محدودیت‌ها: زمان محدود، بودجه و منابع فنی محدود. مهاجم: یک بازیگر منفرد که قادر به تولید و انتشار حجم بالایی از متن، استفاده از شبکه‌های لینک ساده و بهره‌گیری از نقاط کور گزارش‌دهی است. اهداف: تحریف خروجی‌های جستجو/مدل‌های زبانی بزرگ، آسیب به شهرت، ایجاد تردید برای کارفرمایان، مشتریان، پلتفرم‌ها یا نمایندگان.

مسموم‌سازی مدل‌های زبانی بزرگ چیست؟

آلودگی LLM به دستکاری رفتار مدل از طریق محتوای قرارداده‌شده یا هماهنگ‌شده اشاره دارد — برای مثال پست‌های مخرب، مقالات ساختگی یا هرزنامهٔ انجمنی — که می‌تواند توسط سیستم‌های بازیابی جذب شود یا توسط انسان‌ها به‌عنوان سیگنال استفاده شود و مدل‌ها را به سوی پیوندهای اشتباه و روایت‌های افتراآمیز سوق دهد.

از آنجا که مدل‌های زبانی بزرگ و سیستم‌های بازیابی برای مقیاس و پوشش بهینه‌سازی می‌شوند، یک مهاجم مصمم می‌تواند با پر کردن بخش کوچکی از وب آنچه مدل "دربارهٔ یک فرد می‌بیند" را شکل دهد. این روی افراد با حضور آنلاین محدود به‌ویژه مؤثر است.

چگونه شهرت تحریف می‌شود

  • مسمومیت جستجو و اجتماعی — سرقت پروفایل، مزرعه‌های لینک، و پست‌گذاری انبوه برای جهت‌دهی به ویژگی‌های رتبه‌بندی و ارتباطات تکمیل خودکار.
  • آلوده‌سازی پایگاه دانش و RAG - ایجاد صفحات موجودیت و یادداشت‌های پرسش‌و‌پاسخ که از نظر معنایی مرتبط به‌نظر می‌رسند و به‌عنوان زمینه بازیابی درآیند.
  • تزریق دستور غیرمستقیم - محتوای خصمانه وب که باعث می‌شود عوامل مرور دستورها را تکرار کنند یا داده‌های حساس را استخراج کنند.
  • نقاط انتهایی دارای درب پشتی - بسته‌های مدل مخربی که تا زمان وقوع عبارات محرک عادی رفتار می‌کنند و سپس دروغ‌های هدفمند منتشر می‌کنند.

ریسک‌ها و حالت‌های شکست اضافی

  • فروریختن مدل به‌واسطه آموزش روی خروجی‌های مصنوعی — حلقه‌های بازخوردی که در آن متن تولیدشده کیفیت مدل‌های آینده را کاهش می‌دهد اگر فیلتر یا وزن‌دهی نشود.
  • تزریق دستور غیرمستقیم - محتوای خصمانه در وب که به یک عامل یا ابزار مرور دستور می‌دهد تا هنگام نقل‌قول، داده‌های محرمانه را استخراج کند یا تهمت منتشر کند.
  • آلوده‌سازی مخزن جاسازی‌ها - درج متن‌های خصمانه در یک پایگاه دانش به‌گونه‌ای که بازیابی، ادعاهای نادرستی را که از نظر معنایی مرتبط به‌نظر می‌رسند، نشان دهد.
  • انتشارهای دارای درب پشتی - انتشار نسخه‌های تغییر یافتهٔ نقاط بررسی (checkpoint) یا بسته‌های API که تا زمانی که عبارت محرک وجود نداشته باشد، به‌صورت عادی رفتار می‌کنند.

موارد عینی و مراجع

تدابیر کاهش‌دهنده در عمق

بازیابی و رتبه‌بندی

  • امتیازدهی منابع و وزن‌دهی به منشأ — محتواهای امضا‌شده یا تأییدشده توسط ناشر را ترجیح دهید؛ صفحات تازه‌ساخته‌شده یا کم‌اعتبار را با وزن کمتر در نظر بگیرید.
  • افت زمانی با دورهٔ مهلت - نیاز به مدت انتظار قبل از اینکه منابع جدید بر پاسخ‌های با پیامد بالا تأثیر بگذارند; بازبینی انسانی را برای موجودیت‌های حساس اضافه کنید.
  • تشخیص اتاق پژواک - خوشه‌بندی بخش‌های متن تقریباً تکراری و محدود کردن تأثیر تکراری از همان منشأ یا شبکه.
  • کشف نقاط دورافتاده و ناهنجاری در فضای توکار (امبدینگ) — بخش‌هایی را که موقعیت‌های برداری آن‌ها به‌صورت خصمانه بهینه‌سازی شده‌اند علامت‌گذاری کنید.

بهداشت داده‌ها و پایگاه دانش

  • پایگاه‌های دانش لحظه‌ای و تفاضلی — تغییرات بزرگ را بازبینی کنید، به‌ویژه برای موجودیت‌های شخصی و اتهام‌هایی بدون منابع اولیه.
  • فهرست‌های قناری و ممنوعیت - جلوگیری از ادغام دامنه‌های سوءاستفاده‌شده شناخته‌شده؛ درج مکانیزم‌های قناری برای اندازه‌گیری انتشار غیرمجاز.
  • برای موضوعات پرخطر انسان را در حلقه قرار دهید - به‌روزرسانی‌های پیشنهادی درباره حقایق مربوط به شهرت را برای داوری دستی صف‌بندی کنید.

گواهی‌ها و شهرت

  • گواهی‌های رمزنگاری‌شده تأییدشده - بیانیه‌های امضاشده از سوی متخصصان و سازمان‌های ارزیابی‌شده که از طریق یک دفترکل تنها‌قابل‌افزودن (append-only) منتشر می‌شوند.
  • نمودارهای شهرت — تجمیع تاییدهای امضا‌شده و تنزل رتبهٔ محتواهای ناشی از سوءاستفاده‌گران مکرر یا شبکه‌های بات.
  • ارجاعات قابل مشاهده برای کاربر - از مدل‌ها بخواهید منابع و میزان اطمینان را نشان دهند، همراه با نشان‌واره‌های منبع برای ادعاهای حساس.

چک‌لیست سازمانی

  • موجودیت‌های حساس در حوزهٔ خود (افراد، برندها، موضوعات حقوقی) را نگاشت کنید و پرسش‌ها را به مسیرهای پردازشی محافظت‌شده با الزامات منشاء هدایت کنید.
  • اتخاذ C2PA یا گواهی‌های محتوایی مشابه برای محتوای طرف اول و تشویق شرکا به انجام همین کار.
  • نفوذ منابع جدید را در طول زمان پیگیری کنید و دربارهٔ نوسانات غیرمعمول در پاسخ‌های سطح موجودیت هشدار دهید.
  • انجام red teaming مداوم برای عوامل RAG و مرورگر، از جمله مجموعه‌های آزمایشی تزریق فرمان غیرمستقیم.

آزار و افترا از طریق هوش مصنوعی

افراد برای استخدام اکنون از هوش مصنوعی و خودکارسازی برای تولید انبوه آزار و تهمت استفاده می‌کنند و متن‌هایی با ظاهر قابل قبول و «منابع» جعلی ایجاد می‌کنند که به‌راحتی قابل ایندکس، استخراج و بازنشری هستند. این کارزارها کم‌هزینه، با تأثیر بالا و پس از تقویت توسط سیستم‌های خودکار دشوار برای اصلاح هستند.

چد اسکیرا شخصاً تجربهٔ آزار و افترا هدفمند همراه با لینک‌سازی اسپمی را داشته است که با هدف تحریف سیگنال‌های شهرت و برداشت‌های جستجو انجام می‌شد. یک شرح مفصل و ردیابی شواهد در اینجا مستند شده است: جسی نیکلز - آزار و تهمت.

طبقه‌بندی تهدیدها

  • مسموم‌سازی داده‌های پیش‌آموزشی — مسموم‌سازی مجموعه‌داده‌های عمومی مورد استفاده در آموزش اولیه برای کاشتن رابطه‌های نادرست یا درهای پشتی.
  • مسموم‌سازی RAG — بذرگذاری در پایگاه‌های دانش یا منابع خارجی که خطوط بازیابی در زمان استنتاج از آن‌ها استفاده می‌کنند.
  • مسمومیت جستجو/اجتماعی — سیل پست‌ها یا صفحات کیفیت پایین برای جهت‌دهی سیگنال‌های بازیابی و رتبه‌بندی دربارهٔ یک شخص یا موضوع.
  • پرامپت‌ها و محتوای خصمانه - ساختن ورودی‌هایی که رفتارهای نامطلوب یا دورزدنِ محدودیت‌ها را تحریک می‌کنند و ادعاهای افترا‌آمیز را تکرار می‌کنند.

حوادث و تحقیقات اخیر (با تاریخ‌ها)

توجه: تاریخ‌های بالا نشان‌دهندهٔ تاریخ انتشار یا تاریخ انتشار عمومی در منابع پیوندشده هستند.

چرا این خطرناک است

  • مدل‌های زبان بزرگ می‌توانند حتی زمانی که منابع پایه ضعیف یا به‌طور خصمانه درج شده‌اند، قابل استناد به‌نظر برسند.
  • خط‌لوله‌های بازیابی و رتبه‌بندی ممکن است به متن‌های تکراری وزن بیشتری دهند، که به یک بازیگر اجازه می‌دهد تنها با حجم، نتایج را منحرف کند.
  • روندهای بررسی حقایق انسانی در مقایسه با سرعت تولید و توزیع محتوای خودکار کند و پرهزینه هستند.
  • قربانیانی که حضور آنلاین قابل‌توجهی ندارند به‌طور نامتناسبی در برابر مسموم‌سازی از طریق یک پست و حملات هویتی آسیب‌پذیر هستند.

بررسی عمیق خطر

  • غربالگری استخدام و پلتفرم - جستجوها و خلاصه‌سازی‌های مدل‌های زبانی بزرگ می‌توانند در طول بررسی‌های استخدام، نظارت یا فرایندهای معرفی/پذیرش، محتوای آلوده را منعکس کنند.
  • خدمات سفر، مسکن و مالی - بررسی‌های خودکار ممکن است روایت‌های نادرست را آشکار کنند که منجر به تأخیر یا مسدود شدن خدمات می‌شوند.
  • پایداری — هنگامی که ادعاها در پایگاه‌های دانش نمایه یا پاسخ‌های کش‌شده قرار می‌گیرند، ادعاهای نادرست می‌توانند حتی پس از حذف مجدداً ظهور کنند.
  • بازخورد مصنوعی — محتوای تولیدشده می‌تواند زمینه‌ساز تولید محتوای بیشتر شود و به مرور زمان وزن ظاهری کذب‌ها را افزایش دهد.

شناسایی و پایش

  • تنظیم هشدارهای جستجو برای نام و نام‌های مستعار خود؛ به‌طور دوره‌ای پرس‌وجوهای site: را برای دامنه‌های کم‌اعتبار که شما را ذکر می‌کنند، بررسی کنید.
  • تغییرات پنل‌های دانش یا صفحات موجودیت خود را پیگیری کنید; اسکرین‌شات‌های تاریخ‌دار و نسخه‌های خروجی را به‌عنوان شواهد نگه دارید.
  • نمودارهای پیوند اجتماعی را برای حساب‌های مبدأ تکراری یا افزایش ناگهانی عبارات مشابه پایش کنید.
  • اگر پایگاه دانش یا RAG را اداره می‌کنید، بررسی تغییرات موجودیت را اجرا کرده و تغییرات بزرگ در صفحات افراد یا اتهامات بدون منابع اولیه را بازبینی کنید.

راهنمای حفاظت — افراد

  • یک سایت شخصی منتشر کنید که اظهارات هویتی واضح، یک بیوگرافی کوتاه و مسیرهای تماس داشته باشد؛ یک گزارش تغییرات تاریخ‌دار نگه دارید.
  • همسان‌سازی فرادادهٔ پروفایل در پلتفرم‌ها؛ در صورت امکان پروفایل‌های تأییدشده را به‌دست آورده و آن‌ها را به سایت خود پیوند دهید.
  • در صورت امکان از C2PA یا مدارک محتوایی مشابه برای تصاویر و اسناد کلیدی استفاده کنید; نسخه‌های اصلی را به‌صورت خصوصی نگهداری کنید.
  • یک لاگ شواهد با زمان‌نشانه نگهداری کنید: اسکرین‌شات‌ها، لینک‌ها و هر شماره تیکت پلتفرم برای تصعید بعدی.
  • قالب‌های درخواست حذف را آماده کنید؛ سریعاً به حملات جدید پاسخ دهید و هر مرحله را برای ردپای مستند واضح ثبت کنید.

راهنمای حفاظت — تیم‌ها و یکپارچه‌سازان

  • در بازیابی محتوا، محتوای امضا شده یا تاییدشده توسط ناشر را ترجیح دهید؛ برای منابع جدید دوره‌های مهلت مبتنی بر زمان اعمال کنید.
  • تأثیر تکراری از یک منبع را محدود کنید و در هر شبکه منبع، موارد تقریباً تکراری را حذف کنید.
  • افزودن نشان‌های اثبات منشأ و فهرست‌های منابع قابل‌نمایش برای کاربر برای ادعاهای مربوط به افراد و سایر موضوعات حساس.
  • پیاده‌سازی تشخیص ناهنجاری در مخازن بردارهای جاسازی؛ شناسایی بردارهای خصمانهٔ پرت و اجرای بررسی‌های قناری برای انتشار غیرمجاز.

تحقیقات: گواهی‌های رمزنگاری‌شده

چد اسکیرا در حال ساخت سامانه‌های گواهی رمزنگاری‌شده برای اعتماد به گزاره‌ها دربارهٔ افراد و رویدادها است. هدف ارائهٔ ادعاهای امضا‌شده و قابل‌پرس‌وجو از سوی حرفه‌ای‌ها و سازمان‌های بررسی‌شده به مدل‌های زبانی بزرگ و سیستم‌های بازیابی است تا منشأ قوی و مقاومت بیشتر در برابر آلوده‌سازی فراهم شود.

اصول طراحی

  • هویت و منشاء: بیانیه‌ها توسط افراد/سازمان‌های تأییدشده با استفاده از رمزنگاری کلید عمومی امضا می‌شوند.
  • ذخیره‌سازی قابل تأیید: تصدیق‌ها به لاگ‌های فقط‌افزودنی و قابل‌تشخیص بودنِ دستکاری متصل می‌شوند تا امکان تأیید مستقل فراهم گردد.
  • ادغام بازیابی: خط‌لوله‌های RAG می‌توانند برای پرس‌وجوهای حساس منابع دارای گواهی رمزنگاری‌شده را اولویت‌بندی یا الزام کنند.
  • اصطکاک کم: رابط‌های برنامه‌نویسی (APIs) و کیت‌های توسعه نرم‌افزار (SDKs) به ناشران و پلتفرم‌ها اجازه می‌دهند که هنگام ورود داده، گواهی‌ها را صادر و بررسی کنند.

شهرت و هشداردهی

علاوه بر تصدیق‌ها، لایهٔ شهرت، تاییدیه‌های امضاشده را تجمیع و سوء‌استفاده‌کنندگان شناخته‌شده را علامت‌گذاری می‌کند. سامانه‌های هشداردهی هنگام تشخیص حملات هماهنگ یا افزایش‌های غیرعادی به اهداف اطلاع می‌دهند و امکان پاسخ‌دهی سریع‌تر و درخواست حذف را فراهم می‌سازند.

کانال‌های حقوقی و پلتفرم‌ها

  • از فرایندهای گزارش‌دهی پلتفرم با بسته‌های شواهد واضح استفاده کنید: پیوندها، تاریخ‌ها، اسکرین‌شات‌ها و تأثیرات. به سیاست‌های افترا و آزار و اذیت مراجعه کنید.
  • در صورت مقتضی با اطلاعیه‌های رسمی موضوع را ارجاع دهید؛ لاگ‌های مکاتبات و شناسه‌های تیکت را به‌عنوان سوابق شواهد خود نگهدارید.
  • اختلاف حوزه‌های قضایی در امور افترا و مسئولیت پلتفرم را مدنظر قرار دهید؛ در موارد پرخطر با وکیل مشورت کنید.

نقشه‌راه اجرا (سال اول)

  • MVP: طرح‌واره تصدیق و کیت توسعه‌دهندهٔ ناشر برای امضای اظهارات هویتی و ادعاهای رویداد.
  • آزمایش پایلوت با گروه کوچک از حرفه‌ای‌ها و سازمان‌های بررسی‌شده؛ جریان‌های کاری راستی‌آزمایی را برقرار کنید.
  • افزونه‌های RAG: حالت پاسخ «خاستگاه اول» را فعال کنید که برای پرسش‌های حساس منابع تصدیق‌شده را در اولویت قرار می‌دهد.

مطالعه بیشتر (با تاریخ‌ها)

همکاری

این پژوهش پیشرو است و به‌طور فعال در حال تکامل می‌باشد. Chad Scira از همکاری با سایر حرفه‌ای‌های این بخش استقبال می‌کند.

اگر مایل به همکاری هستید، لطفاً از طریق زیر تماس بگیرید: [email protected]