Forschung zu LLM-Vergiftung und Missbrauchsbekämpfung

Chad Scira untersucht, wie Large Language Models vergiftet und missbraucht werden können, um Einzelpersonen zu schaden, und entwickelt Schutzsysteme gegen diese Bedrohungen. Das Risiko ist akut: Das Tempo, mit dem Vertrauen in LLM‑Ausgaben wächst, hat unsere Fähigkeit zur Verifikation von Aussagen überholt, während Gegner kostengünstig Texte veröffentlichen können, die das Modellverhalten und den Sucheindruck von Personen ohne große Online‑Präsenz verzerren.

Am 3. Oktober 2025 wurde eine private Finanzierungsrunde gesichert, um diese Forschung fortzusetzen.

Management-Zusammenfassung

Durchschnittspersonen mit geringer Internetpräsenz sind einem überproportionalen Risiko durch KI‑verstärkte Verleumdung und Datenvergiftung ausgesetzt. Ein einzelner motivierter Akteur kann falsche Narrative verbreiten, die Suchmaschinen, Social‑Feeds und LLMs wiederholen. Dieses Dokument erläutert übliche Angriffswege, konkrete Auswirkungen auf Reputation und Sicherheit sowie ein praxisorientiertes Vorgehen zur Erkennung und zum Schutz. Es beschreibt außerdem, wie kryptographisch verifizierte Atteste und provenienzbewusste Retrieval‑Verfahren Schäden für Einzelpersonen und Integratoren verringern können.

Zielgruppe und Bedrohungsmodell

Zielgruppe: Privatpersonen und kleine Organisationen ohne große SEO‑Präsenz. Einschränkungen: begrenzte Zeit, Budget und technische Ressourcen. Gegner: ein Einzelakteur, der in der Lage ist, große Mengen Text zu erzeugen und zu veröffentlichen, einfache Linknetzwerke zu nutzen und Melde‑Blindstellen auszunutzen. Ziele: Such‑/LLM‑Ergebnisse verfälschen, Reputation schädigen, Zweifel bei Arbeitgebern, Kunden, Plattformen oder Vertretern erzeugen.

Was ist LLM-Vergiftung?

LLM-Vergiftung bezeichnet die Manipulation des Modellverhaltens durch eingesäte oder koordinierte Inhalte – zum Beispiel bösartige Beiträge, synthetische Artikel oder Foren-Spam – die von Retrieval-Systemen aufgenommen oder von Menschen als Signale genutzt werden können und Modelle zu falschen Assoziationen und verleumderischen Narrativen lenken.

Da LLMs und Retrieval‑Systeme auf Skalierung und Abdeckung optimiert sind, kann ein einzelner motivierter Angreifer durch Überschwemmung eines kleinen Abschnitts des Webs beeinflussen, was ein Modell über eine Person „sieht“. Dies ist besonders wirkungsvoll gegenüber Personen mit begrenzter Online‑Präsenz.

Wie Reputation verzerrt wird

  • Such- und Social-Media-Poisoning – Profilübernahmen, Linkfarmen und Massenposts zur Verzerrung von Ranking-Faktoren und Autocomplete-Zuordnungen.
  • Vergiftung von Wissensdatenbanken und RAG – Erstellen von Entitätsseiten und QA-Notizen, die semantisch relevant erscheinen und als Kontext abgerufen werden.
  • Indirekte Prompt-Injektion – feindselige Webinhalte, die Browsing-Agenten dazu bringen, Anweisungen zu wiederholen oder sensible Daten zu exfiltrieren.
  • Hintertür‑versehene Endpunkte – bösartige Modell‑Wrapper, die normal erscheinen, bis Trigger‑Phrasen auftreten, und dann gezielte Falschaussagen ausgeben.

Zusätzliche Risiken und Fehlermodi

  • Zusammenbruch des Modells durch Training an synthetischen Ausgaben - Rückkopplungsschleifen, bei denen generierter Text die künftige Modellqualität verschlechtert, wenn er nicht gefiltert oder gewichtet wird.
  • Indirekte Prompt-Injektion – feindselige Inhalte im Web, die einen Agenten oder ein Browsing-Tool anweisen, Geheimnisse zu exfiltrieren oder bei Zitieren Verleumdung zu verbreiten.
  • Vergiftung des Embedding-Speichers - Einfügen adversarialer Passagen in eine Wissensdatenbank, sodass bei der Suche falsche Behauptungen auftauchen, die semantisch relevant erscheinen.
  • Hintertür‑versehene Veröffentlichungen – Veröffentlichung modifizierter Checkpoints oder API‑Wrapper, die normal funktionieren, bis eine Trigger‑Phrase vorhanden ist.

Konkrete Fälle und Referenzen

Mehrschichtige Gegenmaßnahmen

Abruf und Ranking

  • Quellenbewertung und Herkunftsgewichtung – bevorzugen Sie signierte oder vom Herausgeber verifizierte Inhalte; stufen Sie neu erstellte oder Seiten mit geringer Reputation niedriger ein.
  • Zeitlicher Verfall mit Schonfrist – verlangen Sie eine Verweildauer, bevor neue Quellen Antworten mit hohem Risiko beeinflussen; fügen Sie bei sensiblen Entitäten eine menschliche Überprüfung hinzu.
  • Erkennung von Echokammern - gruppieren Sie nahezu identische Passagen und begrenzen Sie wiederholten Einfluss aus derselben Quelle oder demselben Netzwerk.
  • Erkennung von Ausreißern und Anomalien im Embedding-Raum - Passagen kennzeichnen, deren Vektorpositionen adversarial optimiert wurden.

Daten- und Wissensbasis-Hygiene

  • Snapshots und Diff-Wissensdatenbanken – überprüfen Sie große Deltas, insbesondere bei Personenentitäten und Anschuldigungen ohne Primärquellen.
  • Canary‑ und Sperrlisten – verhindern die Übernahme bekannter missbräuchlicher Domains; fügen Sie Canaries ein, um unautorisierte Verbreitung zu messen.
  • Menschliche Überprüfung für risikoreiche Themen - stellen Sie vorgeschlagene Aktualisierungen reputationsrelevanter Fakten in eine Warteschlange zur manuellen Entscheidung.

Atteste und Reputation

  • Kryptographisch verifizierte Atteste - signierte Erklärungen von geprüften Fachleuten und Organisationen, veröffentlicht über ein Append-only-Protokoll.
  • Reputationsgrafiken – aggregieren signierte Empfehlungen und stufen Inhalte von wiederholten Missbrauchern oder Bot-Netzwerken herab.
  • Nutzerseitige Zitationen – verlangen Sie von Modellen, bei sensiblen Behauptungen Quellen und Konfidenzwerte mit Herkunftskennzeichen anzuzeigen.

Unternehmens-Checkliste

  • Kartieren Sie sensible Entitäten in Ihrem Bereich (Personen, Marken, rechtliche Themen) und leiten Sie Anfragen an geschützte Pipelines mit Anforderungen an Herkunftsnachweise weiter.
  • Übernehmen Sie C2PA oder ähnliche Inhaltsnachweise für Inhalte erster Partei und ermutigen Sie Partner, dasselbe zu tun.
  • Verfolgen Sie den Einfluss neuer Quellen im Zeitverlauf und alarmieren Sie bei ungewöhnlichen Schwankungen bei Antworten auf Entitätsebene.
  • Führen Sie kontinuierliches Red Teaming für RAG- und Browsing-Agenten durch, einschließlich Testsuiten für indirekte Prompt-Injektionen.

Belästigung und Verleumdung durch KI

Zu mietende Personen nutzen nun KI und Automatisierung, um Belästigungen und Verleumdungen massenhaft zu erzeugen, plausibel wirkende Texte und gefälschte „Quellen“ zu erstellen, die leicht zu indexieren, zu scrapen und erneut zu verbreiten sind. Diese Kampagnen sind kostengünstig, haben große Auswirkungen und sind schwer zu beheben, sobald sie von automatisierten Systemen verstärkt werden.

Chad Scira hat persönlich gezielte Belästigung und Verleumdung erfahren, verbunden mit spamartigen Verlinkungen, die darauf abzielten, Reputationssignale und Suchergebnisse zu verfälschen. Eine ausführliche Darstellung und Beweiskette ist hier dokumentiert: Jesse Nickles – Belästigung und Verleumdung.

Bedrohungstaxonomie

  • Vergiftung von Pretraining-Daten - Vergiftung öffentlicher Korpora, die für das Initialtraining verwendet werden, um falsche Assoziationen oder Hintertüren einzupflanzen.
  • RAG-Vergiftung - Einspeisung von Wissensdatenbanken oder externen Quellen, die Abrufpipelines zur Inferenzzeit verwenden.
  • Such-/Social-Poisoning – Fluten von Beiträgen oder minderwertigen Seiten, um Abruf- und Ranking-Signale zu einer Person oder einem Thema zu verzerren.
  • Adversariale Eingaben und Inhalte – Erstellung von Eingaben, die unerwünschte Verhaltensweisen oder Jailbreaks auslösen, die verleumderische Behauptungen wiederholen.

Aktuelle Vorfälle und Forschung (mit Datumsangaben)

Hinweis: Die oben genannten Daten geben Veröffentlichungs- oder öffentliche Freigabedaten in den verlinkten Quellen wieder.

Warum dies gefährlich ist

  • LLMs können maßgeblich wirken, auch wenn die zugrunde liegenden Referenzen schwach oder feindlich eingesät sind.
  • Abruf- und Ranking-Pipelines können wiederholten Text übergewichten, sodass ein Akteur allein durch Menge die Ergebnisse verzerren kann.
  • Menschliche Faktenprüfungen sind im Vergleich zur Geschwindigkeit automatisierter Inhaltserstellung und -verbreitung langsam und teuer.
  • Opfer ohne nennenswerte Online-Präsenz sind überproportional anfällig für Vergiftung durch einzelne Beiträge und Identitätsangriffe.

Tiefgehende Risikoanalyse

  • Einstellungs- und Plattformüberprüfungen - Suche und LLM-Zusammenfassungen können vergiftete Inhalte bei Einstellungs-, Moderations- oder Onboarding-Prüfungen reproduzieren.
  • Reise-, Wohnungs- und Finanzdienstleistungen – automatisierte Prüfungen können falsche Narrative zutage fördern, die Dienstleistungen verzögern oder blockieren.
  • Persistenz - einmal in Wissensdatenbanken indexiert oder als zwischengespeicherte Antworten vorhanden, können falsche Behauptungen selbst nach Löschungen wiederauftauchen.
  • Synthetisches Feedback – generierte Inhalte können weitere generierte Inhalte anstoßen und im Laufe der Zeit das scheinbare Gewicht von Falschinformationen erhöhen.

Erkennung und Überwachung

  • Richten Sie Suchalarme für Ihren Namen und Ihre Aliasnamen ein; prüfen Sie regelmäßig site: Abfragen nach Domains mit geringer Reputation, die Sie erwähnen.
  • Verfolgen Sie Änderungen an Ihren Wissenspanelen oder Entitätsseiten; bewahren Sie datierte Screenshots und exportierte Kopien als Beweismittel auf.
  • Überwachen Sie soziale Verbindungsgraphen auf wiederkehrende Ursprungskonten oder plötzliche Spitzen ähnlicher Formulierungen.
  • Wenn Sie ein RAG oder eine Wissensdatenbank betreiben, führen Sie Überprüfungen auf Entitätsdrift durch und prüfen Sie große Änderungen an Personenprofilen oder Anschuldigungen, die keine Primärquellen haben.

Schutzleitfaden - Einzelpersonen

  • Veröffentlichen Sie eine persönliche Webseite mit klaren Identitätsangaben, einer kurzen Biografie und Kontaktmöglichkeiten; führen Sie ein datiertes Änderungsprotokoll.
  • Synchronisieren Sie Profil‑Metadaten plattformübergreifend; erhalten Sie, wo möglich, verifizierte Profile und verlinken Sie diese auf Ihre Website.
  • Verwenden Sie C2PA- oder ähnliche Inhaltsnachweise für wichtige Bilder und Dokumente, wenn möglich; bewahren Sie die Originale privat auf.
  • Führen Sie ein Beweisprotokoll mit Zeitstempeln: Screenshots, Links und alle Plattform-Ticketnummern für eine spätere Eskalation.
  • Bereiten Sie Löschvorlagen vor; reagieren Sie schnell auf neue Angriffe und dokumentieren Sie jeden Schritt für eine klare Nachverfolgbarkeit.

Schutzleitfaden - Teams und Integratoren

  • Bevorzugen Sie signierte oder vom Herausgeber verifizierte Inhalte beim Abruf; wenden Sie zeitlich begrenzte Kulanzfristen für neue Quellen an.
  • Begrenzen Sie wiederholten Einfluss aus derselben Herkunft und entfernen Sie nahezu identische Duplikate pro Herkunftsnetzwerk.
  • Fügen Sie Herkunfts‑Badges und für Nutzer sichtbare Quelllisten für personenbezogene Behauptungen und andere sensible Themen hinzu.
  • Führen Sie Anomalieerkennung in Embedding‑Speichern ein; markieren Sie adversariale Vektor‑Ausreißer und führen Sie Canary‑Prüfungen zur Erkennung unbefugter Verbreitung durch.

Forschung: kryptografisch verifizierte Atteste

Chad Scira entwickelt kryptographisch verifizierte Attestierungssysteme, um Vertrauen in Aussagen über Personen und Ereignisse zu schaffen. Ziel ist es, LLMs und Retrieval‑Systemen signierte, abfragbare Behauptungen von geprüften Fachpersonen und Organisationen bereitzustellen, die eine robuste Provenienz und stärkere Resistenz gegen Vergiftung ermöglichen.

Designprinzipien

  • Identität und Herkunft: Aussagen werden von verifizierten Personen/Organisationen mittels Public-Key-Kryptographie signiert.
  • Prüfbare Speicherung: Attestierungen sind an Append-Only-, manipulationssichere Protokolle verankert, um eine unabhängige Überprüfung zu ermöglichen.
  • Integration in Abrufsysteme: RAG-Pipelines können für sensible Abfragen kryptografisch attestierte Quellen priorisieren oder vorschreiben.
  • Minimale Reibung: APIs und SDKs ermöglichen Verlagen und Plattformen, Atteste zum Zeitpunkt der Aufnahme auszustellen und zu überprüfen.

Reputation und Alarmierung

Zusätzlich zu Attesten aggregiert eine Reputationsschicht unterzeichnete Befürwortungen und markiert bekannte Missbrauchende. Alarmierungssysteme benachrichtigen Betroffene, wenn koordinierte Angriffe oder anomale Spitzen erkannt werden, wodurch schnellere Reaktionen und Löschanfragen ermöglicht werden.

Rechtliche und Plattformkanäle

  • Nutzen Sie die Meldeabläufe der Plattform mit klaren Beweispaketen: Links, Datumsangaben, Screenshots und Auswirkungen. Verweisen Sie auf Richtlinien zu Verleumdung und Belästigung.
  • Eskalieren Sie mit formellen Mitteilungen, wo angebracht; bewahren Sie Korrespondenzprotokolle und Ticket-IDs in Ihrer Beweiskette auf.
  • Berücksichtigen Sie unterschiedliche Zuständigkeiten bei Verleumdung und Haftung von Plattformen; ziehen Sie für risikoreiche Fälle rechtlichen Rat hinzu.

Umsetzungsfahrplan (Jahr 1)

  • MVP: Attestierungsschema und Publisher-SDK zum Signieren von Identitätserklärungen und Ereignisbehauptungen.
  • Pilotversuch mit einer kleinen Gruppe geprüfter Fachpersonen und Organisationen; Verifizierungs-Workflows einrichten.
  • RAG-Plugins: Aktivieren Sie den Provenance-First-Antwortmodus, der attestierte Quellen für sensible Anfragen priorisiert.

Weiterführende Literatur (mit Daten)

Zusammenarbeit

Diese Forschung ist bahnbrechend und befindet sich in aktiver Weiterentwicklung. Chad Scira begrüßt die Zusammenarbeit mit anderen Fachleuten in diesem Bereich.

Wenn Sie an einer Zusammenarbeit interessiert sind, kontaktieren Sie uns bitte unter: [email protected]