Отравяне на LLM и изследвания срещу злоупотреби
Чед Скира изследва как големите езикови модели могат да бъдат отровени и използвани за навреждане на индивиди и изгражда защитни системи за противодействие на тези заплахи. Рискът е спешен: темпът, с който се доверяваме на изходите на LLM, надхвърля нашата способност да верифицираме твърденията, докато противниците могат евтино да публикуват текст, който изкривява поведението на моделите и импресиите при търсене на хора без голяма онлайн следа.
Частен инвестиционен кръг беше осигурен на 3 октомври 2025 г. за продължаване на това изследване.
Изпълнително резюме
Средностатистическите хора с малка следа в интернет са изложени на непропорционален риск от усилена от ИИ клевета и отравяне на данни. Един мотивиран индивид може да посее фалшиви наративи, които търсачките, социалните емисии и големите езикови модели повтарят. Този документ обяснява общите пътища на атака, конкретните ефекти върху репутацията и безопасността и практическо ръководство за откриване и защита. Той също така очертава как криптографски удостоверени атестации и извличане, отчитащо произхода, могат да намалят вредите за отделни лица и интегратори.
Аудитория и модел на заплаха
Аудитория: физически лица и малки организации без силно SEO присъствие. Ограничения: ограничено време, бюджет и технически ресурси. Противник: един актьор, способен да генерира и публикува големи обеми текст, да използва базови мрежи от връзки и да експлоатира пропуски в механизмите за подаване на сигнали. Цели: изкривяване на резултатите от търсене/LLM, увреждане на репутацията, създаване на съмнения у работодатели, клиенти, платформи или представители.
Какво представлява отравянето на LLM?
Отравянето на LLM се отнася до манипулиране на поведението на модела чрез засадено или координирано съдържание - например злонамерени публикации, синтетични статии или спам във форуми - което може да бъде възприето от системи за извличане или използвано от хора като сигнали, подтиквайки моделите към фалшиви асоциации и клеветнически разкази.
Тъй като големите езикови модели и системите за извличане са оптимизирани за мащаб и покритие, един мотивиран противник може да оформи това, което моделът „вижда“ за дадено лице, като залее малък сегмент от уеб. Това е особено ефективно срещу лица с ограничено онлайн присъствие.
Как се изкривява репутацията
- Замърсяване при търсене и в социалните мрежи - присвояване на профили, линк ферми и масови публикации за изкривяване на характеристики за класиране и асоциации при автоматично допълване.
- Отравяне на база знание и RAG - създаване на страници за ентитети и QA бележки, които изглеждат семантично релевантни и се извличат като контекст.
- Косвена инжекция на подканване - враждебно уеб съдържание, което кара агенти за разглеждане да повтарят инструкции или да изнасят чувствителни данни.
- Крайни точки със задни врати - злонамерени обвивки на моделите, които действат нормално докато не се появят задействащи фрази, след което излъчват насочени фалшиви сведения.
Допълнителни рискове и режими на неизправност
- Колапс на модела вследствие обучение върху синтетични изходи - обратни връзки, при които генерираният текст влошава бъдещото качество на модела, ако не бъде филтриран или претеглен.
- Косвена инжекция на подканване - враждебно съдържание в мрежата, което инструктира агент или инструмент за преглед да изнесе тайни или да разпространи клевета при цитиране.
- Отравяне на вграденото хранилище - вмъкване на злонамерени откъси в база знания, така че извличането да показва фалшиви твърдения, които изглеждат семантично релевантни.
- Релийзи със задни врати - публикуване на модифицирани контролни точки или API обвивки, които се държат нормално до наличието на задействаща фраза.
Конкретни случаи и препратки
Смекчаващи мерки в дълбочина
Извличане и класиране
- Оценяване на източници и претегляне по произход — предпочитайте подписано или верифицирано от издателя съдържание; намалявайте тежестта на новосъздадени или със слаба репутация страници.
- Времево намаляване с гратисен период - изисквайте период на изчакване преди нови източници да влияят върху отговори с високи залози; добавете човешка проверка за чувствителни ентитети.
- Откриване на ехо-камера - групиране на почти дублиращи се откъси и ограничаване на повторното влияние от един и същ източник или мрежа.
- Откриване на отклонения и аномалии в пространството на вгражданията - маркира пасажи, чиито векторни позиции са оптимизирани от противника.
Хигиена на данните и на базата знания
- Снимки и 'diff' версии на бази от знания — преглеждайте големи изменения, особено за персони и обвинения без първични източници.
- Списъци с канарчета и списъци за отхвърляне - предотвратяване на включването на известни злоупотребяващи домейни; вмъкване на канарчета за измерване на неразрешено разпространение.
- Човек в процеса за високорискови теми - поставяйте предложените актуализации за репутационни факти в опашка за ръчно разглеждане.
Удостоверения и репутация
- Криптографски проверени удостоверения - подписани изявления от проверени професионалисти и организации, публикувани в журнал с режим само за добавяне.
- Графики за репутация — агрегиране на подписани препоръки и понижаване на ранга на съдържание от повтарящи се нарушители или бот мрежи.
- Цитати, видими за потребителя - изисквайте моделите да показват източници и степен на увереност с значки за произход за чувствителни твърдения.
Контролен списък за предприятия
- Картографирайте чувствителните ентитети във вашия домейн (хора, марки, правни теми) и насочвайте запитванията към защитени конвейери с изисквания за произход.
- Приемане на C2PA или подобни удостоверения за съдържанието за първично съдържание и насърчаване на партньорите да направят същото.
- Проследявайте влиянието на нови източници във времето и предупреждавайте при необичайни колебания в отговорите на ниво ентитет.
- Провеждайте непрекъснато red teaming за RAG и агенти за разглеждане, включително тестови набори за косвени инжекции на подсказки.
Тормоз и клевета чрез ИИ
Наемни лица вече използват ИИ и автоматизация, за да масово произвеждат тормоз и клевета, създавайки текст, който изглежда правдоподобен, и фалшиви „източници“, които са лесни за индексиране, извличане и повторно споделяне. Тези кампании са с ниски разходи, голямо въздействие и трудни за отстраняване, след като бъдат усилени от автоматизирани системи.
Чед Скира лично е преживял целенасочен тормоз и клевета, съчетани със спамверижни връзки, целящи да изкривят сигналите за репутация и импресиите в търсенето. Подробен отчет и следа от доказателства са документирани тук: Джеси Никълс - Тормоз и клевета.
Таксономия на заплахите
- Отравяне на данни за предварително обучение - отравяне на публични корпуси, използвани за начално обучение, с цел вграждане на фалшиви асоциации или задни врати.
- Отравяне на RAG - засяване на бази знания или външни източници, които конвейерите за извличане използват по време на инференция.
- Замърсяване в търсачките/социалните мрежи - наводняване с публикации или нискокачествени страници, за да се изкривят сигналите за извличане и класиране относно лице или тема.
- Враждебни подсказки и съдържание - изработване на входни данни, които задействат нежелани поведения или jailbreak-ове, повтарящи клеветнически твърдения.
Последни инциденти и изследвания (с дати)
Бележка: Посочените по-горе дати отразяват дати на публикуване или на публично пускане, посочени в свързаните източници.
Защо това е опасно
- LLM-ите могат да изглеждат авторитетни, дори когато основните източници са слаби или враждебно засадени.
- Вериги за извличане и класиране могат да дават прекалено голямо тегло на повторен текст, позволявайки на един участник да изкриви резултатите само чрез обем.
- Човешките проверки на факти са бавни и скъпи в сравнение с темпото на автоматизираното създаване и разпространение на съдържание.
- Жертвите без значимо онлайн присъствие са непропорционално уязвими на отравяне чрез единична публикация и атаки срещу идентичността.
Задълбочен анализ на риска
- Проверки при наемане и на платформи - търсенето и обобщенията от LLM могат да повторят отровено съдържание по време на проверки при наемане, модериране или въвеждане в длъжност.
- Пътувания, жилищно и финансово обслужване - автоматизираните проверки могат да изведат неверни наративи, които забавят или блокират услуги.
- Устойчивост - след като бъдат индексирани в бази знания или кеширани отговори, неверните твърдения могат да изплуват отново дори след премахване.
- Синтетична обратна връзка — генерираното съдържание може да подпомогне генерирането на още съдържание, което с времето увеличава видимата тежест на неверните твърдения.
Откриване и наблюдение
- Настройте известия за търсене за вашето име и псевдоними; периодично проверявайте site: заявки за домейни с ниска репутация, които ви споменават.
- Проследявайте промени в панелите с информация или страниците на ентитетите; съхранявайте датирани екранни снимки и експортирани копия като доказателство.
- Следете графите на социалните връзки за повтарящи се изходни акаунти или внезапни скокове на сходни формулировки.
- Ако управлявате RAG или база знание, извършвайте проверки за дрейф на ентитети и преглеждайте значителни изменения в страниците за лица или в обвиненията без първични източници.
Наръчник за защита - физически лица
- Публикувайте личен сайт с ясни твърдения за идентичност, кратка биография и начини за контакт; поддържайте хронология на промените с дати.
- Калибриране на метаданните на профила между платформи; придобиване на верифицирани профили, когато е възможно, и свързването им обратно към вашия сайт.
- Използвайте C2PA или подобни удостоверения за съдържанието за ключови изображения и документи, когато е възможно; съхранявайте оригиналите поверително.
- Водете регистър на доказателствата с времеви отметки: скрийншотове, връзки и всички номера на тикети в платформата за по-нататъшно ескалиране.
- Подгответе шаблони за искания за премахване; реагирайте бързо на нови атаки и документирайте всяка стъпка за ясна документална следа.
Наръчник за защита - екипи и интегратори
- Предпочитайте подписано или от издателя проверено съдържание при извличане; прилагайте гратисни периоди, базирани на времето, за нови източници.
- Ограничете повторното влияние от един и същ източник и премахвайте почти идентичните дубликати в рамките на мрежата на произход.
- Добавяне на значки за произход и списъци с източници, видими за потребителя, за твърдения относно отделни лица и други чувствителни теми.
- Внедряване на откриване на аномалии в хранилищата на вграждания; маркиране на враждебни векторни аномалии и изпълняване на проверки с канарчета за неразрешено разпространение.
Изследване: Криптографски проверени удостоверения
Чед Скира изгражда криптографски удостоверени системи за атестации за доверие във връзка с твърдения за хора и събития. Целта е да се предоставят на LLM и системите за извличане подписани, заявими твърдения от проверени професионалисти и организации, позволяващи здрава проследимост на произхода и по-голяма устойчивост срещу отравяне.
Принципи на проектиране
- Идентичност и произход: декларациите са подписани от проверени лица/организации чрез криптография с публични ключове.
- Проверимо съхранение: удостоверенията са закотвени в логове само за дописване, доказуемо устойчиви на манипулация, за да позволят независимо потвърждение.
- Интеграция при извличане: RAG пайплайни могат да приоритизират или да изискват криптографски удостоверени източници при чувствителни заявки.
- Минимални пречки: API-та и SDK-та позволяват на издателите и платформите да издават и проверяват удостоверения при приемането на данни.
Репутация и предупреждения
Освен удостоверяванията, слой за репутация агрегира подписани одобрения и маркира известни злоупотребители. Системите за алармиране уведомяват целите при откриване на координирани атаки или аномални пикове, позволявайки по-бърза реакция и искания за премахване.
Юридически и платформени канали
- Използвайте процедурите за докладване на платформата с ясни пакети с доказателства: връзки, дати, екранни снимки и въздействия. Позовете се на политиките относно клевета и тормоз.
- Ескалирайте с официални уведомления, когато е уместно; пазете журналите на кореспонденцията и идентификационните номера на заявките в доказателствената си следа.
- Вземете предвид юрисдикционните различия при клеветата и отговорността на платформите; консултирайте се с адвокат за високорискови случаи.
Пътна карта за изпълнение (Година 1)
- MVP: схема за удостоверяване и SDK за издатели за подписване на декларации за идентичност и твърдения за събития.
- Пилот с малка група проверени професионалисти и организации; установете работни потоци за верификация.
- RAG плъгини: активирайте режим 'първи отговор по произход', който приоритизира удостоверени източници за чувствителни заявки.
Допълнително четиво (с дати)
Сътрудничество
Това изследване е на границата на науката и се развива активно. Чад Скира приветства сътрудничеството с други специалисти в този сектор.
Ако проявявате интерес към сътрудничество, моля свържете се на: [email protected]