Дослідження отруєння LLM та запобігання зловживанням
Чед Скіра досліджує, як великі мовні моделі можуть бути отруєні та зловживані для заподіяння шкоди людям, і створює захисні системи для протидії цим загрозам. Ризик невідкладний: темпи довіри до виходів LLM випереджають нашу здатність перевіряти твердження, тоді як супротивники можуть дешево публікувати тексти, що викривляють поведінку моделей і відображення у пошуку для людей без значної онлайн-присутності.
Приватний раунд інвестицій було забезпечено 3 жовтня 2025 року для продовження цього дослідження.
Резюме для керівництва
Люди з невеликою присутністю в інтернеті стикаються з непропорційно великим ризиком від поширення наклепу та отруєння даних, посилених ШІ. Один мотивований індивід може посіяти хибні наративи, які повторюють пошукові системи, стрічки соцмереж та LLM. Цей документ пояснює звичайні шляхи атак, конкретні наслідки для репутації та безпеки, а також практичний план дій для виявлення та захисту. Він також описує, як криптографічно підтверджені атестації та витягування з урахуванням походження можуть зменшити шкоду для окремих осіб та інтеграторів.
Аудиторія та модель загроз
Аудиторія: приватні особи та невеликі організації без значної SEO-присутності. Обмеження: обмежений час, бюджет та технічні ресурси. Супротивник: один актор, здатний генерувати та публікувати велику кількість тексту, використовувати базові мережі посилань і експлуатувати сліпі зони звітності. Цілі: спотворити результати пошуку/LLM, нашкодити репутації, посіяти сумніви у роботодавців, клієнтів, платформ або агентів.
Що таке отруєння великих мовних моделей (LLM)?
Отруєння LLM означає маніпулювання поведінкою моделі через сіяний або скоординований контент - наприклад, зловмисні дописи, синтетичні статті або спам на форумах - який може бути поглинений системами пошуку або використаний людьми як сигнали, підштовхуючи моделі до хибних асоціацій та наклепницьких наративів.
Оскільки LLM та системи витягування оптимізуються для масштабу та охоплення, один мотивований супротивник може формувати те, що модель «бачить» про людину, заповнивши невелику частину мережі. Це особливо ефективно проти осіб з обмеженою присутністю в інтернеті.
Як спотворюється репутація
- Отруєння пошуку та соціальних мереж — захоплення профілів, ферми посилань та масові публікації для упередження функцій ранжування й асоціацій автозаповнення.
- Отруєння бази знань і RAG - створення сторінок сутностей та нотаток QA, які виглядають семантично релевантними і витягуються як контекст.
- Непряма ін’єкція підказок - ворожий веб‑контент, який спричиняє, що браузерні агенти повторюють інструкції або витягують чутливі дані.
- Компрометовані кінцеві точки — зловмисні оболонки моделей, які поводяться нормально до появи сигнальних фраз, а потім видають спрямовані неправдиві твердження.
Додаткові ризики та режими відмови
- Згортання моделі через навчання на синтетичних виходах — зворотні петлі, коли згенерований текст погіршує якість майбутньої моделі, якщо його не фільтрувати або не надавати ваги.
- Непряма ін’єкція підказок - ворожий контент у мережі, який наказує агенту або інструменту для перегляду викрадати секрети чи поширювати наклеп при цитуванні.
- Отруєння сховища ембеддингів — вставляння ворожих уривків у базу знань, щоб при вибірці з'являлися хибні твердження, які здаються семантично релевантними.
- Компрометовані випуски — публікація змінених контрольних точок або оболонок API, що поводяться нормально до появи сигнальної фрази.
Конкретні випадки та посилання
Багаторівневі заходи пом'якшення
Пошук і ранжування
- Оцінка джерел і зважування походження — віддавайте перевагу підписаному або перевіреному видавцем контенту; знижуйте вагу недавно створених або сторінок з низькою репутацією.
- Зниження ваги з часом із пільговим періодом - вимагати часу «dwell time» перед тим, як нові джерела впливатимуть на критично важливі відповіді; додати людську перевірку для чутливих сутностей.
- Виявлення «ехокамер» — визначати кластери майже дубльованих уривків і обмежувати повторний вплив з того самого джерела або мережі.
- Виявлення викидів і аномалій у просторі вбудувань — позначати уривки, чиї векторні позиції оптимізовані шкідливо.
Гігієна даних та бази знань
- Знімки та відмінності баз знань — переглядайте великі зміни, особливо для сутностей людей і звинувачень без первинних джерел.
- Списки канарок та відмови — запобігати включенню відомих зловживальних доменів; вставляти канарки для вимірювання несанкціонованого поширення.
- Людина в циклі для тем з високим ризиком — ставте запропоновані оновлення репутаційних фактів у чергу для ручного розгляду.
Атестації та репутація
- Криптографічно перевірені засвідчення — підписані заяви від перевірених фахівців і організацій, опубліковані в журналі лише для додавання записів.
- Графіки репутації — агрегувати підписані підтвердження й понижувати рейтинг вмісту від повторних зловмисників або ботмереж.
- Цитування для користувачів - вимагайте від моделей показувати джерела та рівень впевненості з позначками походження для чутливих заяв.
Контрольний список для підприємств
- Відобразьте чутливі сутності у вашій домені (люди, бренди, юридичні теми) і спрямовуйте запити до захищених каналів обробки з вимогами щодо походження.
- Впроваджувати C2PA або подібні креденціали вмісту для власного контенту та заохочувати партнерів робити те саме.
- Відстежуйте вплив нових джерел з часом і сповіщайте про незвичні коливання у відповідях на рівні сутностей.
- Проводьте безперервне red teaming для RAG та браузерних агентів, включно з наборами тестів на непряме впровадження підказок.
Переслідування та наклеп із застосуванням ШІ
Наймані особи тепер використовують ШІ та автоматизацію для масового створення переслідувань і наклепів, генеруючи правдоподібні тексти та фейкові «джерела», які легко індексувати, скрейпити та повторно поширювати. Ці кампанії мають низьку вартість, великий вплив і їх важко усунути після підсилення автоматизованими системами.
Чед Скіра особисто зазнав цілеспрямованого переслідування та наклепу у поєднанні зі спам-посиланнями, спрямованими на спотворення сигналів репутації та показів у пошуку. Детальний опис і доказова хроніка задокументовані тут: Jesse Nickles - Переслідування та наклеп.
Таксономія загроз
- Отруєння даних при передтренуванні — отруєння публічних корпусів, що використовуються для початкового навчання, щоб впровадити хибні асоціації або бекдори.
- Отруєння RAG — засів баз знань або зовнішніх джерел, які системи витягання використовують під час інференсу.
- Отруєння пошуку/соцмереж — заливання постів або сторінок низької якості для зміщення сигналів пошуку та ранжування щодо особи чи теми.
- Ворожі підказки та контент — складання введень, що запускають небажану поведінку або джейлбрейки, які повторюють наклепницькі твердження.
Останні інциденти та дослідження (з датами)
Примітка: наведені дати відображають дати публікацій або публічного релізу за посиланнями.
Чому це небезпечно
- Великі мовні моделі (LLM) можуть здаватися авторитетними навіть коли довідкові джерела слабкі або навмисно сіяні противником.
- Конвеєри пошуку й ранжування можуть надмірно враховувати повторюваний текст, дозволяючи одному учаснику спотворювати результати лише за рахунок обсягу.
- Ланцюжки перевірки фактів людиною повільні та дорогі порівняно зі швидкістю автоматизованого створення й поширення контенту.
- Особи без значної онлайн‑присутності особливо вразливі до «отруєння» інформацією через одиночний пост та атак на ідентичність.
Детальний аналіз ризиків
- Перевірки працівників і платформ — пошук та резюме, згенеровані LLM, можуть відтворювати отруєний контент під час найму, модерації або перевірок при адаптації.
- Послуги у сфері подорожей, житла та фінансів - автоматизовані перевірки можуть призводити до появи хибних наративів, які затримують або блокують надання послуг.
- Стійкість — після індексації в базах знань або кешуванні відповідей фейкові твердження можуть з’являтися знову навіть після видалення.
- Синтетичний зворотний зв'язок — згенерований контент може спричиняти появу додаткового згенерованого контенту, що з часом підвищує видиму вагу хибних відомостей.
Виявлення та моніторинг
- Налаштуйте сповіщення пошуку на своє ім'я та псевдоніми; періодично перевіряйте запити site: для доменів з низькою репутацією, що згадують вас.
- Відстежуйте зміни у ваших інформаційних панелях або сторінках сутностей; зберігайте датовані знімки екрана та експортовані копії як докази.
- Моніторити графи соціальних зв’язків на предмет повторних облікових записів-джерел або раптових сплесків схожих формулювань.
- Якщо ви керуєте RAG або базою знань, проводьте перевірки дрейфу сутностей та переглядайте значні відхилення на сторінках осіб або звинувачень без первинних джерел.
Посібник із захисту — для приватних осіб
- Опублікуйте персональний сайт із чіткими заявами про ідентичність, короткою біографією та каналами зв’язку; ведіть хронологію змін із датуванням.
- Уніфікувати метадані профілю між платформами; отримати верифіковані профілі там, де це можливо, і зв'язати їх зі своїм сайтом.
- Використовуйте C2PA або аналогічні облікові дані для контенту для ключових зображень і документів, коли це можливо; зберігайте оригінали приватно.
- Ведіть журнал доказів із відмітками часу: скріншоти, посилання та будь-які номери запитів на платформі для подальшої ескалації.
- Підготувати шаблони запитів на видалення; швидко реагувати на нові атаки та документувати кожен крок для чіткого документального сліду.
Посібник із захисту — команди та інтегратори
- Віддавати перевагу підписаному або перевіреному видавцем контенту під час витягання; застосовувати часові пільгові періоди для нових джерел.
- Обмежуйте повторний вплив з одного й того ж походження та видаляйте майже дублікати в межах мережі походження.
- Додати бейджі походження та видимі для користувача списки джерел для тверджень про окремих осіб та інших чутливих тем.
- Впровадити виявлення аномалій у сховищах ембеддингів; позначати ворожі векторні відхилення та виконувати канаркові перевірки для виявлення несанкціонованого поширення.
Дослідження: криптографічно перевірені підтвердження
Чед Скіра створює системи атестацій з криптографічною верифікацією для підвищення довіри до заяв про людей і події. Мета — надавати LLM та системам витягування підписані, запитувані твердження від перевірених фахівців і організацій, забезпечуючи надійне походження та більший опір отруєнню.
Принципи проєктування
- Ідентичність і походження: заяви підписуються перевіреними фізичними/юридичними особами з використанням криптографії з відкритим ключем.
- Перевіряне зберігання: атестації закріплюються в логах лише для додавання, які захищені від підроблення, щоб забезпечити незалежну верифікацію.
- Інтеграція пошуку: RAG-конвеєри можуть надавати пріоритет або вимагати криптографічно завірені джерела для чутливих запитів.
- Мінімальне тертя: API та SDK дозволяють видавцям і платформам видавати та перевіряти атестації під час прийому даних.
Репутація та оповіщення
Окрім підтверджень, шар репутації агрегує підписані схвалення та позначає відомих зловмисників. Системи оповіщення повідомляють цілі, коли виявляються скоординовані атаки або аномальні сплески, що дозволяє швидше реагувати та ініціювати запити на видалення.
Юридичні та платформні канали
- Користуйтеся механізмами звітності платформи з чіткими пакетами доказів: посилання, дати, знімки екрана та наслідки. Посилайтеся на політики щодо наклепу та переслідувань.
- За потреби ініціюйте ескалацію за допомогою офіційних повідомлень; зберігайте журнали кореспонденції та ідентифікатори звернень у доказовій базі.
- Урахуйте відмінності юрисдикцій щодо наклепу та відповідальності платформ; зверніться до юриста у справах з високим ризиком.
Дорожня карта впровадження (Рік 1)
- MVP: схема підтверджень та SDK видавця для підпису заяв про ідентичність і тверджень про події.
- Пілот з невеликою групою перевірених фахівців та організацій; встановити робочі процеси верифікації.
- Плагіни RAG: увімкнути режим «походження першої відповіді», який віддає пріоритет підтвердженим джерелам для чутливих запитів.
Додаткові матеріали (з датами)
Співпраця
Це дослідження є передовим і активно розвивається. Чад Скіра вітає співпрацю з іншими фахівцями в цій галузі.
Якщо ви зацікавлені у співпраці, зверніться за адресою: [email protected]