Enverinament dels LLM i recerca antiabús

Chad Scira investiga com els models de llenguatge grans poden ser enverinats i abusats per fer mal a les persones, i construeix sistemes de protecció per contrarestar aquestes amenaces. El risc és urgent: la velocitat amb què es confia en els resultats dels LLM ha superat la nostra capacitat per verificar les declaracions, mentre que els adversaris poden publicar text de manera econòmica que distorsiona el comportament del model i la impressió de cerca de persones sense una gran empremta en línia.

S'ha assegurat una ronda d'inversió privada el 3 d'octubre de 2025 per continuar aquesta recerca.

Resum executiu

Les persones corrents amb una petita empremta a Internet afronten un risc desproporcionat per la difamació amplificada per IA i l'enverinament de dades. Un únic individu motivat pot sembrar narratives falses que els cercadors, els feeds socials i els LLM repeteixen. Aquest document explica les rutes d'atac més comunes, els efectes concrets sobre la reputació i la seguretat, i un manual pràctic per a la detecció i la protecció. També descriu com les atestacions verificades criptogràficament i la recuperació conscient de la procedència poden reduir el dany per a les persones i els integradors.

Públic i model d'amenaça

Públic: persones i petites organitzacions sense una presència SEO important. Restriccions: temps, pressupost i recursos tècnics limitats. Adversari: un sol actor capaç de generar i publicar grans volums de text, utilitzar xarxes d'enllaços bàsiques i explotar punts cecs en els sistemes de denúncia. Objectius: distorsionar els resultats de cerca/LLM, danyar la reputació, crear dubtes entre ocupadors, clients, plataformes o agents.

Què és l'enverinament d'un LLM?

L'enverinament dels LLM fa referència a la manipulació del comportament del model mitjançant contingut injectat o coordinat — per exemple, publicacions malicioses, articles sintètics o correu brossa a fòrums — que poden ser ingerits pels sistemes de recuperació o ser utilitzats per humans com a senyals, fent que els models tendeixin cap a associacions falses i narratives difamatories.

Com que els LLM i els sistemes de recuperació s'optimitzen per a escala i cobertura, un únic adversari motivat pot modelar el que un model "observa" sobre una persona inundant un petit fragment de la web. Això és especialment eficaç contra persones amb presència en línia limitada.

Com es distorsiona la reputació

Enverinament en cercadors i xarxes socials: usurpació de perfils, granges d'enllaços i publicacions massives per esbiaixar funcions de rànquing i associacions d'autocompletar.
Enverinament de la base de coneixement i del RAG: crear pàgines d'entitats i notes de QA que semblen semànticament rellevants i s'obtenen com a context.
Injecció d'instruccions indirecta: contingut web hostil que fa que els agents de navegació repeteixin instruccions o exfiltrin dades sensibles.
Punts finals amb backdoor - envolcalls de model maliciosos que actuen amb normalitat fins que apareixen frases disparadores i, aleshores, emeten falsedats dirigides.

Riscos addicionals i modes de fallada

Col·lapse del model per entrenar amb sortides sintètiques: bucles de retroalimentació on el text generat degrada la qualitat del model futur si no es filtra o pondera.
Injecció d'instruccions indirecta: contingut hostil a la web que ordena a un agent o eina de navegació extreure secrets o difondre difamació quan se'l cita.
Enverinament de l'emmagatzematge d'embeddings: inserció de passatges adversaris en una base de coneixement perquè la recuperació faci aparèixer afirmacions falses que semblin rellevants semànticament.
Alliberaments amb backdoor - publicació de checkpoints modificats o envolcalls d'API que es comporten amb normalitat fins que es presenta una frase disparadora.

Casos concrets i referències

Mitigacions en profunditat

Recuperació i classificació

Puntuació de fonts i ponderació de la procedència: preferir contingut signat o verificat pel publicador; reduir el pes de pàgines recentment creades o de baixa reputació.
Decaïment temporal amb període de gràcia - requerir un temps de permanència abans que noves fonts influeixin en respostes d'alt risc; afegir revisió humana per a entitats sensibles.
Detecció de cambres d'eco: agrupació de passatges gairebé duplicats i limitació de la influència repetida de la mateixa procedència o xarxa.
Detecció d'exemplars atípics i anomalies en l'espai d'embeddings: senyalitzar passatges les posicions vectorials dels quals han estat optimitzades de manera adversarial.

Higiene de les dades i de la base de coneixement

Instantànies i bases de coneixement de diferències: revisa grans diferències, especialment per a entitats de persones i acusacions sense fonts primàries.
Llistes canàries i de denegació - impedir la incorporació de dominis abusius coneguts; inserir canàries per mesurar la propagació no autoritzada.
Intervenció humana (human-in-the-loop) per a temes d'alt risc: posar en cua les actualitzacions proposades sobre fets reputacionals per a adjudicació manual.

Atestacions i reputació

Atestacions verificades criptogràficament: declaracions signades de professionals i organitzacions verificats publicades mitjançant un registre append-only.
Gràfics de reputació: agreguen avals signats i redueixen la classificació del contingut procedent d'abusadors reiterats o de xarxes de bots.
Cites per a l'usuari: exigir que els models mostrin les fonts i la confiança amb distintius de procedència per a afirmacions sensibles.

Llista de verificació empresarial

Mapeja les entitats sensibles del teu domini (persones, marques, temes legals) i enruta les consultes a canals protegits amb requisits de procedència.
Adopteu C2PA o credencials de contingut similars per al contingut de primera mà i encoratgeu els socis a fer el mateix.
Feu un seguiment de la influència de noves fonts al llarg del temps i alerteu sobre oscil·lacions inusuals en respostes a nivell d'entitat.
Portar a terme red teaming continu per a agents RAG i de navegació, incloent conjunts de proves d'injecció indirecta de prompts.

Assetjament i difamació mitjançant IA

Persones contractades ara utilitzen la IA i l'automatització per produir a gran escala assetjament i difamació, creant textos amb aspecte creïble i falses “fonts” que són fàcils d'indexar, raspar i tornar a compartir. Aquestes campanyes són de baix cost, d'alt impacte i difícils de remediar un cop amplificades per sistemes automatitzats.

Chad Scira ha patit personalment assetjament i difamació dirigits acompanyats d'enllaços spam destinats a distorsionar els senyals de reputació i les impressions de cerca. Un relat detallat i la pista d'evidències estan documentats aquí: Jesse Nickles - Assetjament i Difamació.

Taxonomia d'amenaces

Enverinament de dades de preentrenament: enverinar corpus públics utilitzats per l'entrenament inicial per implantar associacions falses o portes del darrere.
Enverinament RAG: sembrar bases de coneixement o fonts externes que els fluxos de recuperació utilitzen en temps d'inferència.
Enverinament en cercadors/xarxes: inundar amb publicacions o pàgines de baixa qualitat per esbiaixar els senyals de recuperació i classificació sobre una persona o un tema.
Prompts i contingut adversaris - elaborar entrades que desencadenin comportaments indesitjables o "jailbreaks" que repeteixin afirmacions difamatories.

Incidents recents i investigacions (amb dates)

Nota: Les dates anteriors reflecteixen les dates de publicació o de llançament públic a les fonts enllaçades.

Per què això és perillós

Els LLM poden donar una aparença d'autoritat fins i tot quan les fonts subjacents són febles o han estat injectades per actors adversos.
Les canalitzacions de recuperació i classificació poden sobrevalorar el text repetit, permetent que un únic actor esbiaixi els resultats només amb volum.
La verificació de fets humana és lenta i costosa en comparació amb la velocitat de producció i distribució de contingut automatitzat.
Les víctimes sense una presència significativa en línia són desproporcionadament vulnerables a la manipulació mitjançant una única publicació i als atacs d'usurpació d'identitat.

Anàlisi aprofundida del risc

Filtrat per a l'ocupació i plataformes: les cerques i els resums d'LLM poden reproduir contingut enverinat durant els processos de contractació, moderació o incorporació.
Serveis de viatge, habitatge i financers - les verificacions automatitzades poden fer aflorar narratives falses que endarrereixin o bloquegin serveis.
Persistència: un cop indexades en bases de coneixement o respostes en memòria cau, les afirmacions falses poden tornar a aparèixer fins i tot després de les retirades.
Feedback sintètic - el contingut generat pot impulsar més contingut generat, augmentant amb el temps el pes aparent de les falsedats.

Detecció i monitorització

Configura alertes de cerca per al teu nom i els teus àlies; comprova periòdicament consultes site: per detectar dominis de baixa reputació que et mencionin.
Feu un seguiment dels canvis als vostres panells de coneixement o pàgines d'entitats; conserveu captures de pantalla amb data i còpies exportades com a proves.
Monitoritza els gràfics de connexions socials per comptes d'origen repetits o pics sobtats de frases similars.
Si gestioneu un RAG o una base de coneixement, feu comprovacions de deriva d'entitats i reviseu canvis importants a les pàgines de persones o acusacions sense fonts primàries.

Guia de protecció - individus

Publicar un lloc personal amb afirmacions d'identitat clares, una breu biografia i vies de contacte; mantenir un registre de canvis amb data.
Alineeu les metadades de perfil entre plataformes; obteniu perfils verificats quan sigui possible i enllaceu-los al vostre lloc.
Utilitzeu C2PA o credencials de contingut similars per a les imatges i documents clau quan sigui possible; emmagatzemeu els originals de manera privada.
Manteu un registre d'evidències amb marques temporals: captures de pantalla, enllaços i qualsevol número de tiquet de la plataforma per a una posterior escalada.
Preparar plantilles per a retirades; respondre ràpidament a nous atacs i documentar cada pas per tenir una traça documental clara.

Guia de protecció - equips i integradors

Preferir contingut signat o verificat per l'editor en la recuperació; aplicar períodes de gràcia basats en el temps per a noves fonts.
Limitar la influència repetida procedent de la mateixa font i eliminar els quasi-duplicats per xarxa d'origen.
Afegiu insígnies de procedència i llistes de fonts visibles per a l'usuari per a afirmacions a nivell de persona i altres temes sensibles.
Adopteu la detecció d'anomalies en emmagatzematges d'embeddings; marqueu els valors atípics de vectors adversaris i executeu comprovacions canàries per a la propagació no autoritzada.

Investigació: atestacions verificades criptogràficament

Chad Scira està desenvolupant sistemes d'atestacions verificades criptogràficament per a la confiança en declaracions sobre persones i esdeveniments. L'objectiu és proporcionar als LLM i als sistemes de recuperació afirmacions signades i consultables de professionals i organitzacions verificats, permetent una procedència robusta i una major resistència a l'enverinament.

Principis de disseny

Identitat i proveniència: les declaracions estan signades per individus/organitzacions verificats mitjançant criptografia de clau pública.
Emmagatzematge verificable: les atestacions estan ancorades a registres només d'afegir i amb evidència de manipulació per permetre la verificació independent.
Integració de recuperació: les canalitzacions RAG poden prioritzar o exigir fonts atestades criptogràficament per a consultes sensibles.
Fricció mínima: les API i els SDK permeten que editors i plataformes emetin i comprovin atestats en el moment de la ingesta.

Reputació i alertes

A més de les atestacions, una capa de reputació aglutina avals signats i assenyala abusadors coneguts. Els sistemes d'alerta notifiquen les persones afectades quan es detecten atacs coordinats o pics anòmals, permetent una resposta més ràpida i sol·licituds de retirada.

Canals legals i de la plataforma

Utilitzeu els fluxos d'informes de la plataforma amb paquets d'evidències clars: enllaços, dates, captures de pantalla i impactes. Feu referència a les polítiques sobre difamació i assetjament.
Escalar amb notificacions formals quan correspongui; mantenir registres de correspondència i identificadors de tiquets a la traça d'evidències.
Tingueu en compte les diferències jurisdiccionals en matèria de difamació i responsabilitat de les plataformes; consulteu un assessor jurídic per a casos d'alt risc.

Full de ruta d'implementació (Any 1)

MVP: esquema d'atestació i SDK per a editors per signar declaracions d'identitat i reclamacions d'esdeveniments.
Realitzar un pilot amb un petit grup de professionals i organitzacions verificats; establir fluxos de treball de verificació.
Connectors RAG: habilitar el mode de "primera resposta amb procedència" que prioritza les fonts atestades per a consultes sensibles.

Lectures complementàries (amb dates)

Col·laboració

Aquesta recerca és d'avantguarda i està en evolució activa. Chad Scira acull amb interès la col·laboració amb altres professionals d'aquest sector.

Si esteu interessats a col·laborar, poseu-vos en contacte a: [email protected]