Отравление больших языковых моделей и исследования по противодействию злоупотреблениям

Чад Скира исследует, как большие языковые модели могут быть отравлены и злоупотреблены для причинения вреда людям, и разрабатывает защитные системы для противодействия этим угрозам. Риск носит срочный характер: темпы доверия к выводам LLM опережают нашу способность проверять утверждения, тогда как противники могут дешёво публиковать тексты, искажающие поведение модели и поисковые впечатления о людях без большого присутствия в сети.

Раунд частного инвестирования был обеспечен 3 октября 2025 года для продолжения этих исследований.

Краткое изложение

Обычные люди с малым присутствием в интернете подвергаются непропорционально высокому риску из‑за усиленной ИИ‑клеветы и отравления данных. Один мотивированный человек может посеять ложные нарративы, которые повторяют поисковые системы, ленты соцсетей и LLM. Этот документ объясняет распространённые пути атак, конкретные последствия для репутации и безопасности, а также практическое руководство по обнаружению и защите. В нём также описано, как криптографически проверяемые аттестации и поиск с учётом происхождения могут снизить вред для отдельных лиц и интеграторов.

Аудитория и модель угроз

Аудитория: физические лица и небольшие организации без крупного присутствия в SEO. Ограничения: ограниченное время, бюджет и технические ресурсы. Противник: один актор, способный генерировать и размещать большие объёмы текста, использовать простые сети ссылок и эксплуатировать слепые зоны в механизмах жалоб. Цели: исказить результаты поиска/LLM, навредить репутации, посеять сомнения у работодателей, клиентов, платформ или агентов.

Что такое отравление больших языковых моделей (LLM)?

Отравление LLM означает манипулирование поведением модели посредством скоординированного или внедрённого контента — например, вредоносных публикаций, синтетических статей или спама на форумах — который может быть поглощён системами поиска/извлечения или использован людьми в качестве сигналов, подталкивая модели к ложным ассоциациям и клеветническим нарративам.

Поскольку LLM и системы извлечения оптимизированы для масштабирования и покрытия, один мотивированный противник может сформировать то, что модель «видит» о человеке, переполнив небольшой сегмент сети. Это особенно эффективно против людей с ограниченным присутствием в интернете.

Как искажается репутация

  • Отравление поисковых и социальных результатов — захват профилей, линк‑фермы и массовые публикации для смещения признаков ранжирования и ассоциаций автозаполнения.
  • Отравление базы знаний и RAG - создание страниц сущностей и заметок QA, которые выглядят семантически релевантными и извлекаются в качестве контекста.
  • Косвенная инъекция подсказок - враждебный веб‑контент, побуждающий браузинговые агенты повторять инструкции или неправомерно передавать конфиденциальные данные.
  • Скомпрометированные конечные точки — вредоносные оболочки моделей, которые ведут себя нормально до появления триггерных фраз, а затем выдают целевые ложные утверждения.

Дополнительные риски и модели сбоев

  • Коллапс модели при обучении на синтетических выводах - петли обратной связи, когда сгенерированный текст ухудшает качество модели в будущем, если его не фильтровать или не взвешивать.
  • Косвенная инъекция подсказок - враждебный контент в сети, который при цитировании инструктирует агента или средство просмотра на эксфильтрацию секретов или распространение клеветы.
  • Отравление хранилища эмбеддингов — вставка враждебных фрагментов в базу знаний, из-за чего при извлечении появляются ложные утверждения, выглядящие семантически релевантными.
  • Скомпрометированные релизы — публикация модифицированных контрольных точек или API‑оболочек, которые ведут себя нормально до появления триггерной фразы.

Конкретные случаи и ссылки

Многоуровневые меры защиты

Извлечение и ранжирование

  • Оценка источников и взвешивание происхождения — отдавайте предпочтение подписанному или верифицированному издателем контенту; снижайте вес недавно созданных или низко репутационных страниц.
  • Временное уменьшение значимости с льготным периодом - требовать времени выдержки до того, как новые источники начнут влиять на ответы с серьёзными последствиями; добавить ручную проверку для чувствительных сущностей.
  • Обнаружение эхо-камер — группировать близкие по содержанию дублирующиеся фрагменты и ограничивать повторное влияние от одного и того же источника или сети.
  • Обнаружение выбросов и аномалий в пространстве эмбеддингов - помечать фрагменты, чьи векторные позиции оптимизированы злоумышленником.

Гигиена данных и базы знаний

  • Снимки и диффы баз знаний — проверяйте большие дельты, особенно для сущностей людей и обвинений без первичных источников.
  • Канареечные механизмы и черные списки — предотвращать включение известных абузных доменов; вставлять канареечные маркеры для измерения несанкционированного распространения.
  • Человек в цикле для тем с высоким риском — ставьте предложенные обновления фактов о репутации в очередь для ручного рассмотрения.

Аттестации и репутация

  • Криптографически проверенные аттестации — подписанные заявления проверенных специалистов и организаций, опубликованные в журнале, в который можно только добавлять записи.
  • Графы репутации — агрегируют подписанные подтверждения и понижают рейтинг контента от повторных злоумышленников или бот‑сетей.
  • Ссылки, видимые пользователю - требовать от моделей отображения источников и степени уверенности с бейджами происхождения для чувствительных утверждений.

Контрольный список для предприятий

  • Картируйте чувствительные сущности в вашей области (люди, бренды, юридические темы) и направляйте запросы в защищённые конвейеры с требованиями по происхождению.
  • Принять C2PA или аналогичные учетные данные контента для контента первой стороны и поощрять партнёров поступать так же.
  • Отслеживайте влияние новых источников с течением времени и оповещайте о необычных колебаниях в ответах на уровне сущностей.
  • Проводите непрерывный red‑teaming для RAG и агентов с функцией просмотра, включая наборы тестов на косвенную инъекцию подсказок.

Домогательства и клевета с использованием ИИ

Нанимаемые лица теперь используют ИИ и автоматизацию для массового производства домогательств и клеветы, создавая текст, выглядящий правдоподобно, и поддельные «источники», которые легко индексировать, собирать и повторно распространять. Эти кампании низкозатратны, обладают высоким эффектом и трудно поддаются устранению после усиления автоматизированными системами.

Чад Скира лично подвергался целенаправленному преследованию и клевете, сопровождавшимся спамными ссылками, направленными на искажение сигналов репутации и показов в поиске. Подробный отчёт и след доказательств задокументированы здесь: Jesse Nickles - Домогательства и клевета.

Классификация угроз

  • Отравление данных предобучения - отравление публичных корпусов, используемых для начального обучения, с целью внедрения ложных ассоциаций или бэкдоров.
  • RAG poisoning - засев баз знаний или внешних источников, которые пайплайны извлечения используют во время вывода.
  • Отравление поисковых/социальных результатов — заваливание постами или низкокачественными страницами для искажения сигналов извлечения и ранжирования о человеке или теме.
  • Враждебные подсказки и контент — создание вводных данных, вызывающих нежелательное поведение или обходы ограничений (jailbreak), которые повторяют клеветнические утверждения.

Последние инциденты и исследования (с датами)

Примечание: указанные выше даты соответствуют датам публикации или публичного релиза в указанных источниках.

Почему это опасно

  • Большие языковые модели могут выглядеть авторитетно даже при слабых или намеренно внедрённых враждебных источниках.
  • Пайплайны извлечения и ранжирования могут придавать избыточный вес повторяющемуся тексту, позволяя одному участнику исказить результаты только за счёт объёма.
  • Процедуры ручной проверки фактов медленны и дорогостоящи по сравнению со скоростью автоматизированного создания и распространения контента.
  • Жертвы без значительного присутствия в интернете непропорционально уязвимы к манипуляциям через единичные публикации и атакам, направленным на подмену личности.

Глубокий анализ рисков

  • Проверки при трудоустройстве и на платформе — поиск и сводки, сгенерированные LLM, могут повторять отравленное содержимое при проверках при приеме на работу, модерации или адаптации.
  • Путешествия, жильё и финансовые услуги - автоматизированные проверки могут выявлять ложные нарративы, задерживающие или блокирующие предоставление услуг.
  • Устойчивость - после индексации в базах знаний или кэшировании ответов ложные утверждения могут всплывать снова даже после удаления.
  • Синтетическая обратная связь — сгенерированный контент может порождать больше сгенерированного контента, со временем повышая кажущуюся значимость ложной информации.

Обнаружение и мониторинг

  • Настройте поисковые оповещения на своё имя и псевдонимы; периодически проверяйте запросы site: для доменов с низкой репутацией, упоминающих вас.
  • Отслеживайте изменения в ваших панелях знаний или страницах сущностей; сохраняйте датированные скриншоты и экспортированные копии в качестве доказательств.
  • Отслеживайте графы социальных связей на предмет повторяющихся исходных аккаунтов или внезапных всплесков схожей формулировки.
  • Если вы управляете RAG или базой знаний, проводите проверки дрейфа сущностей и проверяйте значительные изменения на страницах о людях или обвинения без первичных источников.

Protection Playbook - физические лица

  • Опубликуйте персональный сайт с чёткими утверждениями об идентичности, краткой биографией и каналами связи; ведите журнал изменений с указанием дат.
  • Согласовать метаданные профиля между платформами; при возможности получить верифицированные профили и связать их с вашим сайтом.
  • Используйте C2PA или аналогичные удостоверения контента для ключевых изображений и документов, когда это возможно; храните оригиналы в частном доступе.
  • Ведите журнал доказательств с отметками времени: скриншоты, ссылки и любые номера обращений на платформе для последующей эскалации.
  • Подготовьте шаблоны для запросов на удаление; быстро реагируйте на новые атаки и документируйте каждый шаг для создания прозрачного следа действий.

Protection Playbook - команды и интеграторы

  • Отдавайте предпочтение подписанному контенту или контенту, верифицированному издателем при извлечении; применяйте временные льготные периоды для новых источников.
  • Ограничьте повторное влияние из одного и того же источника и удаляйте близкие дубликаты в пределах сети источника.
  • Добавить значки происхождения и списки источников, видимые пользователям, для утверждений, касающихся отдельных лиц, и других чувствительных тем.
  • Внедрить обнаружение аномалий в хранилищах эмбеддингов; отмечать враждебные векторные выбросы и проводить canary-проверки на предмет несанкционированного распространения.

Исследование: криптографически подтверждённые аттестации

Чад Скира создаёт системы криптографически проверяемых аттестаций для повышения доверия к утверждениям о людях и событиях. Цель — предоставить LLM и системам извлечения подписанные, доступные для запросов утверждения от проверенных профессионалов и организаций, обеспечивая надёжную прослеживаемость происхождения и повышенную устойчивость к отравлению.

Принципы проектирования

  • Идентичность и происхождение: заявления подписываются проверенными физическими лицами/организациями с использованием криптографии с открытым ключом.
  • Проверяемое хранилище: аттестации закрепляются в журналах только для добавления, защищённых от подмены, чтобы обеспечить независимую проверку.
  • Интеграция извлечения: RAG-пайплайны могут приоритезировать или требовать криптографически аттестованные источники для чувствительных запросов.
  • Минимальные трения: API и SDK позволяют издателям и платформам выдавать и проверять аттестации во время приёма контента.

Репутация и оповещения

Помимо аттестаций, слой репутации агрегирует подписанные рекомендации и помечает известных злоумышленников. Системы оповещения уведомляют цели при обнаружении скоординированных атак или аномальных всплесков, что позволяет быстрее реагировать и подавать запросы на удаление контента.

Юридические и платформенные каналы

  • Используйте внутренние механизмы подачи жалоб на платформе с чёткими пакетами доказательств: ссылки, даты, скриншоты и последствия. Ссылайтесь на политики в отношении клеветы и домогательств.
  • При необходимости эскалируйте с помощью официальных уведомлений; сохраняйте журналы переписки и идентификаторы тикетов в цепочке доказательств.
  • Учитывайте различия в юрисдикциях в вопросах диффамации и ответственности платформ; проконсультируйтесь с юристом в случаях повышенного риска.

Дорожная карта реализации (1 год)

  • MVP: схема аттестации и SDK издателя для подписания заявлений об идентичности и утверждений о событиях.
  • Пилот с небольшой группой проверенных специалистов и организаций; установите рабочие процессы верификации.
  • RAG plug ins: включите режим первого ответа с указанием происхождения, который приоритизирует аттестованные источники для чувствительных запросов.

Дополнительная литература (с датами)

Сотрудничество

Это исследование является передовым и активно развивается. Чад Скира приветствует сотрудничество с другими специалистами в этой области.

Если вы заинтересованы в сотрудничестве, пожалуйста, свяжитесь по адресу: [email protected]