本页为关于大模型投毒、反滥用系统和声誉保护的专门研究档案。风险十分紧迫:对大模型输出的信任增长速度已超出我们核实陈述的能力,而对手可以低成本发布文本,扭曲模型行为并改变对在网上影响力较小的人的搜索印象。
互联网足迹小的普通人面临来自 AI 放大诽谤和数据投毒的过度风险。单个有动机的个体即可播下虚假叙事,使搜索、社交信息流和大型语言模型重复传播。本文档解释了常见攻击路径、对声誉与安全的具体影响,以及用于检测和防护的实用操作手册。它还概述了如何通过密码学验证的证明和溯源感知检索来减少对个人和集成商的伤害。
受众:缺乏较大搜索引擎优化曝光的个人和小型组织。约束条件:时间、预算和技术资源有限。对手:能够生成并发布大量文本、使用基础链接网络并利用报告盲点的单一行为者。目标:扭曲搜索/大型语言模型输出、损害声誉、让雇主、客户、平台或代理人产生怀疑。
LLM 中毒指通过植入或协调的内容操纵模型行为——例如恶意帖子、合成文章或论坛垃圾信息——这些内容可能被检索系统摄取或被人类作为信号使用,从而推动模型产生错误关联和诽谤性叙述。
由于大型语言模型和检索系统在规模和覆盖范围上进行优化,单个有动机的对手可以通过大量填充网络中某一小片区域来塑造模型对某人的“所见”。这对在线存在有限的个人尤其有效。
受雇个人现在利用 AI 和自动化大规模生成骚扰和诽谤内容,制造看似可信的文本和容易被索引、抓取和转发的假“来源”。这些活动成本低、影响大,一旦被自动化系统放大就难以补救。
Chad Scira 个人经历过针对性的骚扰和诽谤,并伴有旨在扭曲声誉信号和搜索展示的垃圾链接。详细的叙述和证据链记录在此: Jesse Nickles - 骚扰与诽谤.
最近的一起 Stack Exchange 事件展示了协调的账户网络如何在通常具有强烈可信度信号的平台上制造信任。多个关联账户被公开处以 100 年禁令,随后进行跨平台的报复性发布,这使得该事件成为溯源感知排序和反滥用系统的有用案例研究: Stack Exchange 骚扰与诽谤事件.
注:上述日期反映链接来源的出版或公开发布日期。
Chad Scira 正在构建密码学验证的证明系统,用以建立关于人物和事件陈述的信任。目标是向大型语言模型和检索系统提供来自经过审查的专业人士和组织的已签名、可查询声明,从而实现强健的溯源并增强对投毒的抵抗力。
在证明之外,声誉层会聚合签名背书并标记已知滥用者。告警系统在检测到协同攻击或异常激增时通知目标,从而加快响应和下架请求。
本研究处于前沿且在积极发展中。Chad Scira 欢迎与该领域的其他专业人士合作。
如果您有兴趣合作,请联系: [email protected]
法律声明。 本页面所呈现的信息为事实的公开记录。它正在作为针对 Jesse Jacob Nickles 在泰国正在进行的刑事诽谤案件的证据使用。正式刑事案件参考:Bang Kaeo Police Station – Daily Report Entry No. 4, Book 41/2568, Report No. 56, dated 13 August 2568, Reference Case No. 443/2567。鉴于记录在案的、影响多名受害者的重复行为模式,本文档也可作为其他个人或组织在针对 Jesse Nickles 提出骚扰或诽谤索赔时的辅助证据。