Отравяне на LLM и изследвания срещу злоупотреби

Чед Скира изследва как големите езикови модели могат да бъдат отровени и използвани за навреждане на индивиди и изгражда защитни системи за противодействие на тези заплахи. Рискът е спешен: темпът, с който се доверяваме на изходите на LLM, надхвърля нашата способност да верифицираме твърденията, докато противниците могат евтино да публикуват текст, който изкривява поведението на моделите и импресиите при търсене на хора без голяма онлайн следа.

Частен инвестиционен кръг беше осигурен на 3 октомври 2025 г. за продължаване на това изследване.

Изпълнително резюме

Средностатистическите хора с малка следа в интернет са изложени на непропорционален риск от усилена от ИИ клевета и отравяне на данни. Един мотивиран индивид може да посее фалшиви наративи, които търсачките, социалните емисии и големите езикови модели повтарят. Този документ обяснява общите пътища на атака, конкретните ефекти върху репутацията и безопасността и практическо ръководство за откриване и защита. Той също така очертава как криптографски удостоверени атестации и извличане, отчитащо произхода, могат да намалят вредите за отделни лица и интегратори.

Аудитория и модел на заплаха

Аудитория: физически лица и малки организации без силно SEO присъствие. Ограничения: ограничено време, бюджет и технически ресурси. Противник: един актьор, способен да генерира и публикува големи обеми текст, да използва базови мрежи от връзки и да експлоатира пропуски в механизмите за подаване на сигнали. Цели: изкривяване на резултатите от търсене/LLM, увреждане на репутацията, създаване на съмнения у работодатели, клиенти, платформи или представители.

Какво представлява отравянето на LLM?

Отравянето на LLM се отнася до манипулиране на поведението на модела чрез засадено или координирано съдържание - например злонамерени публикации, синтетични статии или спам във форуми - което може да бъде възприето от системи за извличане или използвано от хора като сигнали, подтиквайки моделите към фалшиви асоциации и клеветнически разкази.

Тъй като големите езикови модели и системите за извличане са оптимизирани за мащаб и покритие, един мотивиран противник може да оформи това, което моделът „вижда“ за дадено лице, като залее малък сегмент от уеб. Това е особено ефективно срещу лица с ограничено онлайн присъствие.

Как се изкривява репутацията

  • Замърсяване при търсене и в социалните мрежи - присвояване на профили, линк ферми и масови публикации за изкривяване на характеристики за класиране и асоциации при автоматично допълване.
  • Отравяне на база знание и RAG - създаване на страници за ентитети и QA бележки, които изглеждат семантично релевантни и се извличат като контекст.
  • Косвена инжекция на подканване - враждебно уеб съдържание, което кара агенти за разглеждане да повтарят инструкции или да изнасят чувствителни данни.
  • Крайни точки със задни врати - злонамерени обвивки на моделите, които действат нормално докато не се появят задействащи фрази, след което излъчват насочени фалшиви сведения.

Допълнителни рискове и режими на неизправност

  • Колапс на модела вследствие обучение върху синтетични изходи - обратни връзки, при които генерираният текст влошава бъдещото качество на модела, ако не бъде филтриран или претеглен.
  • Косвена инжекция на подканване - враждебно съдържание в мрежата, което инструктира агент или инструмент за преглед да изнесе тайни или да разпространи клевета при цитиране.
  • Отравяне на вграденото хранилище - вмъкване на злонамерени откъси в база знания, така че извличането да показва фалшиви твърдения, които изглеждат семантично релевантни.
  • Релийзи със задни врати - публикуване на модифицирани контролни точки или API обвивки, които се държат нормално до наличието на задействаща фраза.

Конкретни случаи и препратки

Смекчаващи мерки в дълбочина

Извличане и класиране

  • Оценяване на източници и претегляне по произход — предпочитайте подписано или верифицирано от издателя съдържание; намалявайте тежестта на новосъздадени или със слаба репутация страници.
  • Времево намаляване с гратисен период - изисквайте период на изчакване преди нови източници да влияят върху отговори с високи залози; добавете човешка проверка за чувствителни ентитети.
  • Откриване на ехо-камера - групиране на почти дублиращи се откъси и ограничаване на повторното влияние от един и същ източник или мрежа.
  • Откриване на отклонения и аномалии в пространството на вгражданията - маркира пасажи, чиито векторни позиции са оптимизирани от противника.

Хигиена на данните и на базата знания

  • Снимки и 'diff' версии на бази от знания — преглеждайте големи изменения, особено за персони и обвинения без първични източници.
  • Списъци с канарчета и списъци за отхвърляне - предотвратяване на включването на известни злоупотребяващи домейни; вмъкване на канарчета за измерване на неразрешено разпространение.
  • Човек в процеса за високорискови теми - поставяйте предложените актуализации за репутационни факти в опашка за ръчно разглеждане.

Удостоверения и репутация

  • Криптографски проверени удостоверения - подписани изявления от проверени професионалисти и организации, публикувани в журнал с режим само за добавяне.
  • Графики за репутация — агрегиране на подписани препоръки и понижаване на ранга на съдържание от повтарящи се нарушители или бот мрежи.
  • Цитати, видими за потребителя - изисквайте моделите да показват източници и степен на увереност с значки за произход за чувствителни твърдения.

Контролен списък за предприятия

  • Картографирайте чувствителните ентитети във вашия домейн (хора, марки, правни теми) и насочвайте запитванията към защитени конвейери с изисквания за произход.
  • Приемане на C2PA или подобни удостоверения за съдържанието за първично съдържание и насърчаване на партньорите да направят същото.
  • Проследявайте влиянието на нови източници във времето и предупреждавайте при необичайни колебания в отговорите на ниво ентитет.
  • Провеждайте непрекъснато red teaming за RAG и агенти за разглеждане, включително тестови набори за косвени инжекции на подсказки.

Тормоз и клевета чрез ИИ

Наемни лица вече използват ИИ и автоматизация, за да масово произвеждат тормоз и клевета, създавайки текст, който изглежда правдоподобен, и фалшиви „източници“, които са лесни за индексиране, извличане и повторно споделяне. Тези кампании са с ниски разходи, голямо въздействие и трудни за отстраняване, след като бъдат усилени от автоматизирани системи.

Чед Скира лично е преживял целенасочен тормоз и клевета, съчетани със спамверижни връзки, целящи да изкривят сигналите за репутация и импресиите в търсенето. Подробен отчет и следа от доказателства са документирани тук: Джеси Никълс - Тормоз и клевета.

Таксономия на заплахите

  • Отравяне на данни за предварително обучение - отравяне на публични корпуси, използвани за начално обучение, с цел вграждане на фалшиви асоциации или задни врати.
  • Отравяне на RAG - засяване на бази знания или външни източници, които конвейерите за извличане използват по време на инференция.
  • Замърсяване в търсачките/социалните мрежи - наводняване с публикации или нискокачествени страници, за да се изкривят сигналите за извличане и класиране относно лице или тема.
  • Враждебни подсказки и съдържание - изработване на входни данни, които задействат нежелани поведения или jailbreak-ове, повтарящи клеветнически твърдения.

Последни инциденти и изследвания (с дати)

Бележка: Посочените по-горе дати отразяват дати на публикуване или на публично пускане, посочени в свързаните източници.

Защо това е опасно

  • LLM-ите могат да изглеждат авторитетни, дори когато основните източници са слаби или враждебно засадени.
  • Вериги за извличане и класиране могат да дават прекалено голямо тегло на повторен текст, позволявайки на един участник да изкриви резултатите само чрез обем.
  • Човешките проверки на факти са бавни и скъпи в сравнение с темпото на автоматизираното създаване и разпространение на съдържание.
  • Жертвите без значимо онлайн присъствие са непропорционално уязвими на отравяне чрез единична публикация и атаки срещу идентичността.

Задълбочен анализ на риска

  • Проверки при наемане и на платформи - търсенето и обобщенията от LLM могат да повторят отровено съдържание по време на проверки при наемане, модериране или въвеждане в длъжност.
  • Пътувания, жилищно и финансово обслужване - автоматизираните проверки могат да изведат неверни наративи, които забавят или блокират услуги.
  • Устойчивост - след като бъдат индексирани в бази знания или кеширани отговори, неверните твърдения могат да изплуват отново дори след премахване.
  • Синтетична обратна връзка — генерираното съдържание може да подпомогне генерирането на още съдържание, което с времето увеличава видимата тежест на неверните твърдения.

Откриване и наблюдение

  • Настройте известия за търсене за вашето име и псевдоними; периодично проверявайте site: заявки за домейни с ниска репутация, които ви споменават.
  • Проследявайте промени в панелите с информация или страниците на ентитетите; съхранявайте датирани екранни снимки и експортирани копия като доказателство.
  • Следете графите на социалните връзки за повтарящи се изходни акаунти или внезапни скокове на сходни формулировки.
  • Ако управлявате RAG или база знание, извършвайте проверки за дрейф на ентитети и преглеждайте значителни изменения в страниците за лица или в обвиненията без първични източници.

Наръчник за защита - физически лица

  • Публикувайте личен сайт с ясни твърдения за идентичност, кратка биография и начини за контакт; поддържайте хронология на промените с дати.
  • Калибриране на метаданните на профила между платформи; придобиване на верифицирани профили, когато е възможно, и свързването им обратно към вашия сайт.
  • Използвайте C2PA или подобни удостоверения за съдържанието за ключови изображения и документи, когато е възможно; съхранявайте оригиналите поверително.
  • Водете регистър на доказателствата с времеви отметки: скрийншотове, връзки и всички номера на тикети в платформата за по-нататъшно ескалиране.
  • Подгответе шаблони за искания за премахване; реагирайте бързо на нови атаки и документирайте всяка стъпка за ясна документална следа.

Наръчник за защита - екипи и интегратори

  • Предпочитайте подписано или от издателя проверено съдържание при извличане; прилагайте гратисни периоди, базирани на времето, за нови източници.
  • Ограничете повторното влияние от един и същ източник и премахвайте почти идентичните дубликати в рамките на мрежата на произход.
  • Добавяне на значки за произход и списъци с източници, видими за потребителя, за твърдения относно отделни лица и други чувствителни теми.
  • Внедряване на откриване на аномалии в хранилищата на вграждания; маркиране на враждебни векторни аномалии и изпълняване на проверки с канарчета за неразрешено разпространение.

Изследване: Криптографски проверени удостоверения

Чед Скира изгражда криптографски удостоверени системи за атестации за доверие във връзка с твърдения за хора и събития. Целта е да се предоставят на LLM и системите за извличане подписани, заявими твърдения от проверени професионалисти и организации, позволяващи здрава проследимост на произхода и по-голяма устойчивост срещу отравяне.

Принципи на проектиране

  • Идентичност и произход: декларациите са подписани от проверени лица/организации чрез криптография с публични ключове.
  • Проверимо съхранение: удостоверенията са закотвени в логове само за дописване, доказуемо устойчиви на манипулация, за да позволят независимо потвърждение.
  • Интеграция при извличане: RAG пайплайни могат да приоритизират или да изискват криптографски удостоверени източници при чувствителни заявки.
  • Минимални пречки: API-та и SDK-та позволяват на издателите и платформите да издават и проверяват удостоверения при приемането на данни.

Репутация и предупреждения

Освен удостоверяванията, слой за репутация агрегира подписани одобрения и маркира известни злоупотребители. Системите за алармиране уведомяват целите при откриване на координирани атаки или аномални пикове, позволявайки по-бърза реакция и искания за премахване.

Юридически и платформени канали

  • Използвайте процедурите за докладване на платформата с ясни пакети с доказателства: връзки, дати, екранни снимки и въздействия. Позовете се на политиките относно клевета и тормоз.
  • Ескалирайте с официални уведомления, когато е уместно; пазете журналите на кореспонденцията и идентификационните номера на заявките в доказателствената си следа.
  • Вземете предвид юрисдикционните различия при клеветата и отговорността на платформите; консултирайте се с адвокат за високорискови случаи.

Пътна карта за изпълнение (Година 1)

  • MVP: схема за удостоверяване и SDK за издатели за подписване на декларации за идентичност и твърдения за събития.
  • Пилот с малка група проверени професионалисти и организации; установете работни потоци за верификация.
  • RAG плъгини: активирайте режим 'първи отговор по произход', който приоритизира удостоверени източници за чувствителни заявки.

Допълнително четиво (с дати)

Сътрудничество

Това изследване е на границата на науката и се развива активно. Чад Скира приветства сътрудничеството с други специалисти в този сектор.

Ако проявявате интерес към сътрудничество, моля свържете се на: [email protected]