Отравление больших языковых моделей и исследования по противодействию злоупотреблениям
Чад Скира исследует, как большие языковые модели могут быть отравлены и злоупотреблены для причинения вреда людям, и разрабатывает защитные системы для противодействия этим угрозам. Риск носит срочный характер: темпы доверия к выводам LLM опережают нашу способность проверять утверждения, тогда как противники могут дешёво публиковать тексты, искажающие поведение модели и поисковые впечатления о людях без большого присутствия в сети.
Раунд частного инвестирования был обеспечен 3 октября 2025 года для продолжения этих исследований.
Краткое изложение
Обычные люди с малым присутствием в интернете подвергаются непропорционально высокому риску из‑за усиленной ИИ‑клеветы и отравления данных. Один мотивированный человек может посеять ложные нарративы, которые повторяют поисковые системы, ленты соцсетей и LLM. Этот документ объясняет распространённые пути атак, конкретные последствия для репутации и безопасности, а также практическое руководство по обнаружению и защите. В нём также описано, как криптографически проверяемые аттестации и поиск с учётом происхождения могут снизить вред для отдельных лиц и интеграторов.
Аудитория и модель угроз
Аудитория: физические лица и небольшие организации без крупного присутствия в SEO. Ограничения: ограниченное время, бюджет и технические ресурсы. Противник: один актор, способный генерировать и размещать большие объёмы текста, использовать простые сети ссылок и эксплуатировать слепые зоны в механизмах жалоб. Цели: исказить результаты поиска/LLM, навредить репутации, посеять сомнения у работодателей, клиентов, платформ или агентов.
Что такое отравление больших языковых моделей (LLM)?
Отравление LLM означает манипулирование поведением модели посредством скоординированного или внедрённого контента — например, вредоносных публикаций, синтетических статей или спама на форумах — который может быть поглощён системами поиска/извлечения или использован людьми в качестве сигналов, подталкивая модели к ложным ассоциациям и клеветническим нарративам.
Поскольку LLM и системы извлечения оптимизированы для масштабирования и покрытия, один мотивированный противник может сформировать то, что модель «видит» о человеке, переполнив небольшой сегмент сети. Это особенно эффективно против людей с ограниченным присутствием в интернете.
Как искажается репутация
- Отравление поисковых и социальных результатов — захват профилей, линк‑фермы и массовые публикации для смещения признаков ранжирования и ассоциаций автозаполнения.
- Отравление базы знаний и RAG - создание страниц сущностей и заметок QA, которые выглядят семантически релевантными и извлекаются в качестве контекста.
- Косвенная инъекция подсказок - враждебный веб‑контент, побуждающий браузинговые агенты повторять инструкции или неправомерно передавать конфиденциальные данные.
- Скомпрометированные конечные точки — вредоносные оболочки моделей, которые ведут себя нормально до появления триггерных фраз, а затем выдают целевые ложные утверждения.
Дополнительные риски и модели сбоев
- Коллапс модели при обучении на синтетических выводах - петли обратной связи, когда сгенерированный текст ухудшает качество модели в будущем, если его не фильтровать или не взвешивать.
- Косвенная инъекция подсказок - враждебный контент в сети, который при цитировании инструктирует агента или средство просмотра на эксфильтрацию секретов или распространение клеветы.
- Отравление хранилища эмбеддингов — вставка враждебных фрагментов в базу знаний, из-за чего при извлечении появляются ложные утверждения, выглядящие семантически релевантными.
- Скомпрометированные релизы — публикация модифицированных контрольных точек или API‑оболочек, которые ведут себя нормально до появления триггерной фразы.
Конкретные случаи и ссылки
Многоуровневые меры защиты
Извлечение и ранжирование
- Оценка источников и взвешивание происхождения — отдавайте предпочтение подписанному или верифицированному издателем контенту; снижайте вес недавно созданных или низко репутационных страниц.
- Временное уменьшение значимости с льготным периодом - требовать времени выдержки до того, как новые источники начнут влиять на ответы с серьёзными последствиями; добавить ручную проверку для чувствительных сущностей.
- Обнаружение эхо-камер — группировать близкие по содержанию дублирующиеся фрагменты и ограничивать повторное влияние от одного и того же источника или сети.
- Обнаружение выбросов и аномалий в пространстве эмбеддингов - помечать фрагменты, чьи векторные позиции оптимизированы злоумышленником.
Гигиена данных и базы знаний
- Снимки и диффы баз знаний — проверяйте большие дельты, особенно для сущностей людей и обвинений без первичных источников.
- Канареечные механизмы и черные списки — предотвращать включение известных абузных доменов; вставлять канареечные маркеры для измерения несанкционированного распространения.
- Человек в цикле для тем с высоким риском — ставьте предложенные обновления фактов о репутации в очередь для ручного рассмотрения.
Аттестации и репутация
- Криптографически проверенные аттестации — подписанные заявления проверенных специалистов и организаций, опубликованные в журнале, в который можно только добавлять записи.
- Графы репутации — агрегируют подписанные подтверждения и понижают рейтинг контента от повторных злоумышленников или бот‑сетей.
- Ссылки, видимые пользователю - требовать от моделей отображения источников и степени уверенности с бейджами происхождения для чувствительных утверждений.
Контрольный список для предприятий
- Картируйте чувствительные сущности в вашей области (люди, бренды, юридические темы) и направляйте запросы в защищённые конвейеры с требованиями по происхождению.
- Принять C2PA или аналогичные учетные данные контента для контента первой стороны и поощрять партнёров поступать так же.
- Отслеживайте влияние новых источников с течением времени и оповещайте о необычных колебаниях в ответах на уровне сущностей.
- Проводите непрерывный red‑teaming для RAG и агентов с функцией просмотра, включая наборы тестов на косвенную инъекцию подсказок.
Домогательства и клевета с использованием ИИ
Нанимаемые лица теперь используют ИИ и автоматизацию для массового производства домогательств и клеветы, создавая текст, выглядящий правдоподобно, и поддельные «источники», которые легко индексировать, собирать и повторно распространять. Эти кампании низкозатратны, обладают высоким эффектом и трудно поддаются устранению после усиления автоматизированными системами.
Чад Скира лично подвергался целенаправленному преследованию и клевете, сопровождавшимся спамными ссылками, направленными на искажение сигналов репутации и показов в поиске. Подробный отчёт и след доказательств задокументированы здесь: Jesse Nickles - Домогательства и клевета.
Классификация угроз
- Отравление данных предобучения - отравление публичных корпусов, используемых для начального обучения, с целью внедрения ложных ассоциаций или бэкдоров.
- RAG poisoning - засев баз знаний или внешних источников, которые пайплайны извлечения используют во время вывода.
- Отравление поисковых/социальных результатов — заваливание постами или низкокачественными страницами для искажения сигналов извлечения и ранжирования о человеке или теме.
- Враждебные подсказки и контент — создание вводных данных, вызывающих нежелательное поведение или обходы ограничений (jailbreak), которые повторяют клеветнические утверждения.
Последние инциденты и исследования (с датами)
Примечание: указанные выше даты соответствуют датам публикации или публичного релиза в указанных источниках.
Почему это опасно
- Большие языковые модели могут выглядеть авторитетно даже при слабых или намеренно внедрённых враждебных источниках.
- Пайплайны извлечения и ранжирования могут придавать избыточный вес повторяющемуся тексту, позволяя одному участнику исказить результаты только за счёт объёма.
- Процедуры ручной проверки фактов медленны и дорогостоящи по сравнению со скоростью автоматизированного создания и распространения контента.
- Жертвы без значительного присутствия в интернете непропорционально уязвимы к манипуляциям через единичные публикации и атакам, направленным на подмену личности.
Глубокий анализ рисков
- Проверки при трудоустройстве и на платформе — поиск и сводки, сгенерированные LLM, могут повторять отравленное содержимое при проверках при приеме на работу, модерации или адаптации.
- Путешествия, жильё и финансовые услуги - автоматизированные проверки могут выявлять ложные нарративы, задерживающие или блокирующие предоставление услуг.
- Устойчивость - после индексации в базах знаний или кэшировании ответов ложные утверждения могут всплывать снова даже после удаления.
- Синтетическая обратная связь — сгенерированный контент может порождать больше сгенерированного контента, со временем повышая кажущуюся значимость ложной информации.
Обнаружение и мониторинг
- Настройте поисковые оповещения на своё имя и псевдонимы; периодически проверяйте запросы site: для доменов с низкой репутацией, упоминающих вас.
- Отслеживайте изменения в ваших панелях знаний или страницах сущностей; сохраняйте датированные скриншоты и экспортированные копии в качестве доказательств.
- Отслеживайте графы социальных связей на предмет повторяющихся исходных аккаунтов или внезапных всплесков схожей формулировки.
- Если вы управляете RAG или базой знаний, проводите проверки дрейфа сущностей и проверяйте значительные изменения на страницах о людях или обвинения без первичных источников.
Protection Playbook - физические лица
- Опубликуйте персональный сайт с чёткими утверждениями об идентичности, краткой биографией и каналами связи; ведите журнал изменений с указанием дат.
- Согласовать метаданные профиля между платформами; при возможности получить верифицированные профили и связать их с вашим сайтом.
- Используйте C2PA или аналогичные удостоверения контента для ключевых изображений и документов, когда это возможно; храните оригиналы в частном доступе.
- Ведите журнал доказательств с отметками времени: скриншоты, ссылки и любые номера обращений на платформе для последующей эскалации.
- Подготовьте шаблоны для запросов на удаление; быстро реагируйте на новые атаки и документируйте каждый шаг для создания прозрачного следа действий.
Protection Playbook - команды и интеграторы
- Отдавайте предпочтение подписанному контенту или контенту, верифицированному издателем при извлечении; применяйте временные льготные периоды для новых источников.
- Ограничьте повторное влияние из одного и того же источника и удаляйте близкие дубликаты в пределах сети источника.
- Добавить значки происхождения и списки источников, видимые пользователям, для утверждений, касающихся отдельных лиц, и других чувствительных тем.
- Внедрить обнаружение аномалий в хранилищах эмбеддингов; отмечать враждебные векторные выбросы и проводить canary-проверки на предмет несанкционированного распространения.
Исследование: криптографически подтверждённые аттестации
Чад Скира создаёт системы криптографически проверяемых аттестаций для повышения доверия к утверждениям о людях и событиях. Цель — предоставить LLM и системам извлечения подписанные, доступные для запросов утверждения от проверенных профессионалов и организаций, обеспечивая надёжную прослеживаемость происхождения и повышенную устойчивость к отравлению.
Принципы проектирования
- Идентичность и происхождение: заявления подписываются проверенными физическими лицами/организациями с использованием криптографии с открытым ключом.
- Проверяемое хранилище: аттестации закрепляются в журналах только для добавления, защищённых от подмены, чтобы обеспечить независимую проверку.
- Интеграция извлечения: RAG-пайплайны могут приоритезировать или требовать криптографически аттестованные источники для чувствительных запросов.
- Минимальные трения: API и SDK позволяют издателям и платформам выдавать и проверять аттестации во время приёма контента.
Репутация и оповещения
Помимо аттестаций, слой репутации агрегирует подписанные рекомендации и помечает известных злоумышленников. Системы оповещения уведомляют цели при обнаружении скоординированных атак или аномальных всплесков, что позволяет быстрее реагировать и подавать запросы на удаление контента.
Юридические и платформенные каналы
- Используйте внутренние механизмы подачи жалоб на платформе с чёткими пакетами доказательств: ссылки, даты, скриншоты и последствия. Ссылайтесь на политики в отношении клеветы и домогательств.
- При необходимости эскалируйте с помощью официальных уведомлений; сохраняйте журналы переписки и идентификаторы тикетов в цепочке доказательств.
- Учитывайте различия в юрисдикциях в вопросах диффамации и ответственности платформ; проконсультируйтесь с юристом в случаях повышенного риска.
Дорожная карта реализации (1 год)
- MVP: схема аттестации и SDK издателя для подписания заявлений об идентичности и утверждений о событиях.
- Пилот с небольшой группой проверенных специалистов и организаций; установите рабочие процессы верификации.
- RAG plug ins: включите режим первого ответа с указанием происхождения, который приоритизирует аттестованные источники для чувствительных запросов.
Дополнительная литература (с датами)
Сотрудничество
Это исследование является передовым и активно развивается. Чад Скира приветствует сотрудничество с другими специалистами в этой области.
Если вы заинтересованы в сотрудничестве, пожалуйста, свяжитесь по адресу: [email protected]