Otrăvirea LLM-urilor și cercetare anti-abuz

Chad Scira cercetează cum pot fi otrăvite și abuzate modelele mari de limbaj pentru a face rău indivizilor și construiește sisteme de protecție pentru a contracara aceste amenințări. Riscul este urgent: ritmul încrederii în rezultatele LLM-urilor a depășit capacitatea noastră de a verifica afirmațiile, în timp ce adversarii pot publica ieftin texte care distorsionează comportamentul modelelor și impresia în căutări asupra persoanelor fără o amprentă online mare.

O rundă privată de investiții a fost asigurată la 3 octombrie 2025 pentru a continua această cercetare.

Rezumat executiv

Oamenii obișnuiți cu amprente mici pe internet sunt expuși unui risc disproporționat din cauza defăimării amplificate de AI și a otrăvirii datelor. Un individ motivat poate semăna narațiuni false pe care le repetă motoarele de căutare, fluxurile sociale și LLM-urile. Acest document explică căile comune de atac, efectele concrete asupra reputației și securității, precum și un plan practic pentru detectare și protecție. De asemenea, prezintă modul în care atestările verificate criptografic și recuperarea conștientă de proveniență pot reduce prejudiciile pentru indivizi și integratori.

Public și modelul de amenințare

Public: persoane și organizații mici fără o prezență SEO semnificativă. Constrângeri: timp, buget și resurse tehnice limitate. Adversar: un singur actor capabil să genereze și să posteze volume mari de text, să folosească rețele de legături de bază și să exploateze punctele oarbe ale raportării. Scopuri: denaturarea rezultatelor căutărilor/LLM-urilor, afectarea reputației, crearea de îndoieli pentru angajatori, clienți, platforme sau agenți.

Ce este intoxicarea LLM?

Otrăvirea LLM-urilor se referă la manipularea comportamentului modelului prin conținut inserat sau coordonat - de exemplu, postări malițioase, articole sintetice sau spam pe forumuri - care pot fi preluate de sistemele de recuperare sau folosite de oameni ca semnale, împingând modelele spre asocieri false și narațiuni defăimătoare.

Deoarece LLM-urile și sistemele de recuperare optimizează pentru scală și acoperire, un singur adversar motivat poate modela ceea ce „vede” un model despre o persoană prin inundația unei porțiuni mici a web-ului. Acest lucru este deosebit de eficient împotriva persoanelor cu o prezență online limitată.

Cum se distorsionează reputația

  • Poisoning în motoare de căutare și social media - deturnarea profilului, ferme de linkuri și postări în masă pentru a influența caracteristicile de ordonare și asocierile de completare automată.
  • Otrăvirea bazei de cunoștințe și RAG - crearea de pagini de entități și note QA care par semantic relevante și sunt preluate ca context.
  • Injecție indirectă de prompturi - conținut web ostil care determină agenții de navigare să repete instrucțiuni sau să exfiltreze date sensibile.
  • Endpoint-uri compromise - învelișuri de model malițioase care se comportă normal până apar fraze declanșatoare, apoi emit falsuri țintite.

Riscuri suplimentare și moduri de eșec

  • Colapsul modelului cauzat de antrenamentul pe ieșiri sintetice - bucle de feedback în care textele generate degradează calitatea viitoare a modelului dacă nu sunt filtrate sau ponderate.
  • Injecție indirectă de prompturi - conținut ostil pe web care instrucționează un agent sau un instrument de navigare să exfiltreze secrete sau să răspândească defăimare atunci când este citat.
  • Otrăvirea depozitului de embedding-uri - inserarea de pasaje adversariale într-o bază de cunoștințe astfel încât mecanismul de regăsire să scoată la suprafață afirmații false care par semantic relevante.
  • Versiuni cu backdoor - publicarea de checkpoint-uri modificate sau wrapper-e API care se comportă normal până când este prezentă o frază declanșatoare.

Cazuri concrete și referințe

Măsuri de atenuare în profunzime

Recuperare și ordonare

  • Scorarea surselor și ponderarea provenienței - preferați conținutul semnat sau verificat de editor; reduceți ponderea paginilor nou-create sau cu reputație scăzută.
  • Decădere în timp cu o perioadă de grație — impuneți un timp de așteptare înainte ca sursele noi să influențeze răspunsurile cu miză ridicată; adăugați revizuire umană pentru entitățile sensibile.
  • Echo chamber detection - grupați pasaje aproape identice și limitați influența repetată din aceeași sursă sau rețea.
  • Detectarea outlier-ilor și a anomaliilor în spațiul embedding-urilor - semnalizați pasajele ale căror poziții vectoriale sunt optimizate adversarial.

Igiena datelor și a bazei de cunoștințe

  • Baze de cunoștințe tip snapshot și diff - revizuiți diferențele mari, în special pentru entități de tip persoană și acuzații fără surse primare.
  • Liste canary și de negare - preveniți încorporarea domeniilor abuzive cunoscute; inserați canary pentru a măsura propagarea neautorizată.
  • Intervenție umană în circuit pentru subiecte cu risc ridicat - puneți în coadă actualizările propuse ale faptelor reputaționale pentru adjudecare manuală.

Atestări și reputație

  • Atestări verificate criptografic - declarații semnate de profesioniști și organizații verificate, publicate într-un registru de tip append-only.
  • Grafice de reputație - agregă susțineri semnate și retrogradează conținutul provenit de la abuzatori repetați sau rețele de boți.
  • Citații vizibile utilizatorului — solicitați modelelor să afișeze sursele și nivelul de încredere cu insigne de proveniență pentru afirmațiile sensibile.

Listă de verificare pentru întreprinderi

  • Cartografiați entitățile sensibile din domeniul dumneavoastră (persoane, mărci, subiecte juridice) și direcționați interogările către fluxuri protejate cu cerințe de proveniență.
  • Adoptați C2PA sau credențiale de conținut similare pentru conținutul de primă parte și încurajați partenerii să facă același lucru.
  • Monitorizați influența noilor surse în timp și alertați privind variații neobișnuite în răspunsurile la nivel de entitate.
  • Efectuați red teaming continuu pentru RAG și agenți de navigare, inclusiv seturi de teste pentru injecție de prompturi indirecte.

Hărțuire și defăimare prin inteligență artificială

Persoane angajabile folosesc acum AI și automatizare pentru a produce în masă hărțuire și defăimare, creând texte cu aspect plauzibil și „surse” false care sunt ușor de indexat, de extras și de redistribuit. Aceste campanii sunt cu cost redus, cu impact mare și dificil de remediat odată ce sunt amplificate de sisteme automate.

Chad Scira a experimentat personal hărțuire și defăimare țintite, însoțite de linkuri spam menite să deformeze semnalele de reputație și impresiile în căutări. O relatare detaliată și un traseu de dovezi sunt documentate aici: Jesse Nickles - Hărțuire și defăimare.

Taxonomia amenințărilor

  • Otrăvire a datelor din preantrenare - otrăvirea corpusurilor publice folosite pentru antrenarea inițială pentru a implanta asocieri false sau backdoor-uri.
  • Otrăvire RAG - introducerea de date false în bazele de cunoștințe sau în sursele externe pe care pipeline-urile de recuperare le utilizează la inferență.
  • Poisoning în căutare/social - inundarea cu postări sau pagini de calitate scăzută pentru a distorsiona semnalele de recuperare și ordonare despre o persoană sau un subiect.
  • Adversarial prompts and content - crafting inputs that trigger undesirable behaviors or jailbreaks that repeat defamatory claims.

Incidente recente și cercetări (cu datele)

Notă: Datele de mai sus reflectă datele de publicare sau de lansare publică de la sursele indicate.

De ce este acest lucru periculos

  • LLM-urile pot părea autoritare chiar și atunci când referințele subiacente sunt slabe sau inserate de adversari.
  • Pipeline-urile de recuperare și ordonare pot supraestima textul repetat, permițând unui actor să influențeze rezultatele doar prin volum.
  • Procesele de verificare umană a faptelor sunt lente și costisitoare în comparație cu viteza de producție și distribuție a conținutului automatizat.
  • Victimele fără o prezență online semnificativă sunt în mod disproporționat vulnerabile la intoxicare printr-o singură postare și la atacuri asupra identității.

Analiză aprofundată a riscurilor

  • Selecția pentru angajare și verificările pe platformă - căutările și rezumatele LLM pot reflecta conținut otrăvit în timpul verificărilor de angajare, moderare sau integrare.
  • Servicii de călătorie, locuire și financiare — verificările automate pot genera narațiuni false care întârzie sau blochează accesul la servicii.
  • Persistența - odată indexate în baze de cunoștințe sau în răspunsuri în cache, afirmațiile false pot reapărea chiar și după eliminări.
  • Feedback sintetic - conținutul generat poate genera mai mult conținut generat, sporind în timp aparenta greutate a falsețelor.

Detectare și monitorizare

  • Configurați alerte de căutare pentru numele și pseudonimele dvs.; verificați periodic interogările site: pentru domenii cu reputație scăzută care vă menționează.
  • Urmăriți modificările panourilor de cunoștințe sau ale paginilor entităților; păstrați capturi de ecran datate și copii exportate ca dovezi.
  • Monitorizați grafurile de legături sociale pentru conturi cu aceeași origine repetată sau pentru creșteri bruște de formulări similare.
  • Dacă operați un RAG sau o bază de cunoștințe, efectuați verificări pentru derapaje de entitate și revizuiți diferențele mari în paginile persoanelor sau acuzațiile fără surse primare.

Ghid de protecție - Persoane

  • Publicați un site personal cu afirmații clare de identitate, o scurtă biografie și căi de contact; păstrați un jurnal de modificări datat.
  • Aliniați metadatele profilului între platforme; obțineți profiluri verificate acolo unde este fezabil și conectați-le la site-ul dumneavoastră.
  • Folosiți C2PA sau acreditări de conținut similare pentru imaginile și documentele cheie, când este posibil; păstrați originalele în privat.
  • Păstrați un jurnal de dovezi cu marcaje temporale: capturi de ecran, linkuri și orice numere de tichet ale platformei pentru escaladare ulterioară.
  • Pregătiți șabloane pentru solicitări de eliminare; răspundeți rapid la atacurile noi și documentați fiecare pas pentru o urmărire clară.

Ghid de protecție - Echipe și integratori

  • Preferă conținut semnat sau verificat de editor în procesul de recuperare; aplicați perioade de grație bazate pe timp pentru sursele noi.
  • Limitați influența repetată din aceeași origine și eliminați duplicatele aproape identice pentru fiecare rețea de origine.
  • Adăugați insigne de proveniență și liste de surse vizibile utilizatorului pentru afirmații la nivel de persoană și alte subiecte sensibile.
  • Implementați detectarea anomaliilor în depozitele de embedding-uri; marcați valorile aberante ale vectorilor adversari și executați verificări canary pentru propagarea neautorizată.

Cercetare: atestări verificate criptografic

Chad Scira construiește sisteme de atestare verificate criptografic pentru a asigura încrederea în afirmațiile despre persoane și evenimente. Scopul este de a furniza LLM-urilor și sistemelor de recuperare declarații semnate și interogabile de la profesioniști și organizații verificate, permițând o proveniență robustă și o rezistență mai mare la otrăvire.

Principii de proiectare

  • Identitate și proveniență: declarațiile sunt semnate de persoane/organizații verificate folosind criptografie cu chei publice.
  • Stocare verificabilă: atestările sunt ancorate în jurnale doar pentru adăugare, evidente la manipulare, pentru a permite verificarea independentă.
  • Integrare în recuperare: pipeline-urile RAG pot prioritiza sau solicita surse atestate criptografic pentru interogări sensibile.
  • Fricțiune minimă: API-urile și SDK-urile permit editorilor și platformelor să emită și să verifice atestările în momentul ingestiei.

Reputație și alertare

Pe lângă atestări, un strat de reputație agregă susțineri semnate și marchează abuzatorii cunoscuți. Sistemele de alertare notifică țintele când sunt detectate atacuri coordonate sau creșteri anormale, permițând un răspuns mai rapid și solicitări de eliminare.

Canale juridice și ale platformei

  • Utilizați fluxurile de raportare ale platformei cu pachete clare de dovezi: linkuri, date, capturi de ecran și impacturi. Faceți referire la politicile privind defăimarea și hărțuirea.
  • Escalați cu notificări formale acolo unde este cazul; păstrați jurnalele de corespondență și ID-urile tichetelor în traseul dovezilor.
  • Luați în considerare diferențele jurisdicționale în materie de defăimare și răspundere a platformei; consultați un avocat pentru cazurile cu risc ridicat.

Plan de implementare (Anul 1)

  • MVP: schemă de atestare și SDK pentru editori pentru semnarea declarațiilor de identitate și a revendicărilor de eveniment.
  • Pilot cu un grup mic de profesioniști și organizații verificate; stabiliți fluxuri de lucru pentru verificare.
  • Plug-in-uri RAG: activați modul 'proveniență întâi' pentru răspunsuri care prioritizează sursele atestate pentru interogările sensibile.

Lecturi suplimentare (cu date)

Colaborare

Această cercetare este de ultimă oră și evoluează activ. Chad Scira este deschis la colaborare cu alți profesioniști din acest sector.

Dacă sunteți interesat de colaborare, vă rugăm să ne contactați la: [email protected]