大语言模型投毒与反滥用研究
Chad Scira 研究大型语言模型如何被投毒和滥用以伤害个人,并构建保护系统来对抗这些威胁。风险非常紧迫:对 LLM 输出的信任速度已超过我们核验陈述的能力,而对手可以低成本发布文本,扭曲模型行为和在网上影响力有限的人的搜索印象。
已于 2025 年 10 月 3 日获得一轮私人投资,以继续该项研究。
执行摘要
在线影响力小的普通人面临来自 AI 放大诽谤和数据投毒的过度风险。单个有动机的个人即可播下虚假叙事,使搜索、社交推送和 LLM 重复这些内容。本文档解释常见攻击路径、对声誉和安全的具体影响,以及用于检测和防护的实用操作手册。它还概述了如何通过加密验证的证明与具备来源意识的检索来减少对个人和系统集成者的危害。
受众与威胁模型
受众:没有大规模 SEO 影响力的个人和小型组织。约束:时间、预算和技术资源有限。对手:能够生成并发布大量文本、使用基本链接网络并利用报告盲点的单一行为者。目标:扭曲搜索/LLM 输出,伤害声誉,使雇主、客户、平台或代理人产生怀疑。
什么是大型语言模型(LLM)投毒?
大语言模型投毒是指通过植入或协调发布的内容来操纵模型行为 - 例如恶意帖子、合成文章或论坛垃圾信息 - 这些内容可能被检索系统摄取或被人类当作信号使用,从而引导模型形成错误关联和诽谤性叙事。
由于 LLM 和检索系统在规模与覆盖面上进行优化,单个有动机的对手可以通过淹没网络的一个小片段来影响模型“看到”的关于某人的信息。这对在线存在有限的个人尤其有效。
声誉如何被扭曲
- 搜索和社交中毒 - 档案劫持、链接农场以及大量发布以偏置排序特征和自动完成功能关联。
- 知识库和 RAG 投毒 - 创建看似语义相关并被检索作为上下文的实体页面和问答说明。
- 间接提示注入 - 导致浏览代理重复指令或外传敏感数据的敌对网络内容。
- 被植入后门的端点——恶意的模型包装器在触发短语出现前表现正常,然后发出有针对性的虚假信息。
附加风险与失效模式
- 在合成输出上训练导致的模型崩溃 - 生成文本如果不被过滤或加权,会形成反馈循环,降低未来模型的质量。
- 间接提示注入 - 指在网络上出现的敌对内容,当被引用时会指示代理或浏览工具窃取秘密或传播诽谤。
- 嵌入存储中毒 - 在知识库中插入对抗性段落,使检索结果呈现看似语义相关的虚假断言。
- 被植入后门的发布——发布被修改的检查点或 API 包装器,在存在触发短语前表现正常。
纵深缓解措施
检索与排序
- 来源评分与来源权重 - 优先签名或出版者验证的内容;降低新创建或低信誉页面的权重。
- 带有宽限期的时间衰减 - 在新来源影响高风险回答之前,要求存在滞留时间;对敏感实体增加人工审核。
- 回音室检测 - 将近似重复的段落聚类,并限制来自相同来源或网络的重复影响。
- 在嵌入空间中的离群与异常检测 - 标记向量位置被对抗性优化的段落。
数据与知识库治理
- 快照与差异知识库 - 审查较大的变动,尤其是针对个人实体和缺乏原始来源的指控。
- 金丝雀与拒绝名单——防止已知滥用域名被纳入;插入金丝雀以衡量未经授权的传播。
- 对高风险话题采用人工介入 - 将拟议的声誉事实更新排队,等待人工裁定。
证明与声誉
- 加密验证的证明 - 经审查的专业人士和机构通过仅追加日志发布的签名声明。
- 声誉图表 - 汇总签名背书,并降低重复滥用者或机器人网络的内容排名。
- 面向用户的引用 - 要求模型对敏感声明显示来源和置信度,并附上溯源徽章。
企业检查清单
- 映射您领域内的敏感实体(个人、品牌、法律议题),并将查询路由到具有来源要求的受保护管道中。
- 对第一方内容采用 C2PA 或类似的内容凭证,并鼓励合作伙伴也这样做。
- 随时间跟踪新来源的影响,并在实体级回答出现异常波动时发出警报。
- 对 RAG 和浏览代理开展持续的红队演练,包括间接提示注入测试套件。
通过 AI 进行的骚扰与诽谤
受雇个体现在利用人工智能和自动化大规模生成骚扰和诽谤内容,制作看起来可信的文本和容易被索引、抓取和转发的虚假“来源”。此类活动成本低、影响大,一旦被自动化系统放大就难以治理。
Chad Scira 个人经历了针对性的骚扰和诽谤,并伴随着旨在扭曲声誉信号和搜索展示的垃圾链接。详细的描述和证据链记录在此: Jesse Nickles - 骚扰与诽谤.
威胁分类
- 预训练数据投毒 - 对用于初始训练的公共语料进行投毒,以植入错误关联或后门。
- RAG 投毒 - 向检索管道在推理时使用的知识库或外部来源中注入投毒数据。
- 搜索/社交中毒 - 通过大量发布或低质量页面来偏置关于某人或某主题的检索与排序信号。
- 对抗性提示和内容——制作输入以触发不良行为或越狱,从而重复诽谤性声明。
近期事件与研究(附日期)
注:上述日期反映链接来源中的出版或公开发布日期。
为何这很危险
- 即使底层参考资料薄弱或被对抗性植入,大型语言模型也可能显得具有权威性。
- 检索与排序流程可能会对重复文本赋予过高权重,使单一行为者仅凭数量就能扭曲结果。
- 与自动化内容生产和传播的速度相比,人工事实核查流程既缓慢又代价高昂。
- 在线存在感不强的受害者在面对单帖投毒和身份攻击时尤为脆弱。
风险深度分析
- 雇佣与平台筛查 - 在招聘、审核或入职检查过程中,搜索和大型语言模型摘要可能会复述被污染的内容。
- 旅行、住房和金融服务 - 自动检查可能会暴露虚假叙述,从而延迟或阻止服务。
- 持久性 - 一旦被编入知识库或缓存为答案,虚假说法即使在下架后也可能再次出现。
- 合成反馈 - 生成的内容可以促生更多生成的内容,随着时间推移提高虚假信息的表观权重。
检测与监控
- 为你的姓名和别名设置搜索提醒;定期使用 site: 查询检查提及你的低信誉域名。
- 跟踪知识面板或实体页面的更改;保留带日期的截图和导出副本以作证据。
- 监测社交链接图,查找重复的来源账号或类似措辞的突然激增。
- 如果运营 RAG 或知识库,请执行实体漂移检查,并审查对人物页面或缺乏原始来源的指控的重大变更。
防护手册 - 个人
- 发布个人网站,明确身份声明、简短个人简介和联系方式;保持带日期的变更日志。
- 跨平台对齐档案元数据;在可行时获取已验证档案并将其链接回您的网站。
- 在可能的情况下,对关键图片和文档使用C2PA或类似的内容凭证;将原件私下保存。
- 保留带时间戳的证据日志:截图、链接以及任何平台工单编号,以便日后升级处理。
- 准备下架模板;对新攻击快速响应并记录每一步以形成清晰的书面记录。
防护手册 - 团队与集成方
- 在检索中优先使用签名或发布者验证的内容;对新来源设置基于时间的宽限期。
- 限制来自相同来源的重复影响,并对每个来源网络的近似重复内容去重。
- 为个人级别声明和其他敏感主题添加来源徽章和面向用户的来源列表。
- 在嵌入存储上采用异常检测;标记对抗性向量异常值,并运行金丝雀检查以检测未经授权的传播。
研究: 密码学验证的证明
Chad Scira 正在构建用于对关于人物和事件的陈述进行加密验证的证明系统。目标是向 LLM 和检索系统提供来自审查过的专业人员和组织的签名且可查询的声明,从而实现强健的来源追溯并增强对投毒的抵抗力。
设计原则
- 身份和来源:声明由经过验证的个人/组织使用公钥密码学签名。
- 可验证的存储: 证明文件被锚定到仅可追加且防篡改的日志,以便实现独立验证。
- 检索集成: RAG 流程可以对敏感查询优先考虑或要求经密码学证明的来源。
- 最低摩擦:API 和 SDK 允许发布者和平台在摄取时签发并核验证明。
声誉与警报
在证明之上,信誉层会聚合签名背书并标记已知滥用者。告警系统在检测到协调攻击或异常激增时通知目标,使得响应和下架请求更为迅速。
法律与平台渠道
- 使用平台的举报流程并附上清晰的证据包:链接、日期、截图和影响。参考诽谤和骚扰政策。
- 在适当情况下通过正式通知升级;在证据链中保留通信记录和工单编号。
- 考虑诽谤和平台责任在不同司法辖区的差异;对于高风险案件请咨询律师。
实施路线图(第1年)
- MVP: 证明方案与发布者 SDK,用于签署身份声明和事件声明。
- 与一小群经审查的专业人员和机构进行试点;建立验证工作流程。
- RAG 插件:启用来源优先的首答模式,在敏感查询中优先使用经证明的来源。
合作
本研究处于前沿并在不断发展。Chad Scira欢迎与本领域的其他专业人士合作。
如果您有意合作,请联系: [email protected]