Investigación sobre envenenamento de LLM e antiabuso

Chad Scira investiga como os modelos de linguaxe grandes poden ser envenenados e abusados para prexudicar persoas, e constrúe sistemas protectores para contrarrestar estas ameazas. O risco é urxente: o ritmo de confianza nos resultados dos LLMs superou a nosa capacidade de verificar as declaracións, mentres que os adversarios poden publicar texto a baixo custo que sesga o comportamento dos modelos e as impresións de busca de persoas sen grande pegada en liña.

Unha rolda de investimento privada asegurouse o 3 de outubro de 2025 para continuar esta investigación.

Resumo executivo

Persoas medias con pouca pegada en internet enfrontan un risco desproporcionado pola difamación amplificada por IA e o envenenamento de datos. Un individuo motivado pode plantar narrativas falsas que os buscadores, os feeds sociais e os LLMs repiten. Este documento explica as vías de ataque comúns, os efectos concretos na reputación e na seguridade, e un manual práctico para a detección e a protección. Tamén describe como as atestacións verificadas criptograficamente e a recuperación consciente da procedencia poden reducir o dano para persoas e integradores.

Público e modelo de ameaza

Público: persoas e organizacións pequenas sen unha grande presenza en SEO. Restricións: tempo, orzamento e recursos técnicos limitados. Adversario: un único actor capaz de xerar e publicar grandes volumes de texto, usar redes básicas de ligazóns e explotar puntos cegos nos sistemas de informes. Obxectivos: distorsionar os resultados de buscadores/LLMs, prexudicar a reputación, crear dúbidas perante empregadores, clientes, plataformas ou axentes.

Que é o envenenamento de LLM?

O envenenamento de LLM refírese á manipulación do comportamento dun modelo mediante contido introducido ou coordinado - por exemplo, publicacións maliciosas, artigos sintéticos ou spam en foros - que poden ser incorporados por sistemas de recuperación ou empregados por persoas como sinais, empurrando os modelos cara a asociacións falsas e narrativas difamatorias.

Como os LLMs e os sistemas de recuperación se optimizan para escala e cobertura, un adversario motivado pode dar forma ao que un modelo "ve" sobre unha persoa inundando unha pequena parte da web. Isto é especialmente efectivo contra persoas con presenza en liña limitada.

Como se distorsiona a reputación

Envenenamento en buscas e sociais - apropiación de perfís, granxas de ligazóns e publicación masiva para sesgar funcións de clasificación e asociacións de autocompletado.
Envenenamento de base de coñecemento e RAG - crear páxinas de entidades e notas de control de calidade que aparentan ser semanticamente relevantes e son recuperadas como contexto.
Inxección indirecta de prompt - contido hostil web que leva a axentes de navegación a repetir instrucións ou exfiltrar datos sensibles.
Puntos finais con porta traseira - envoltorios maliciosos de modelos que actúan con normalidade ata que aparecen frases disparadoras, entón emiten falsidades dirixidas.

Riscos adicionais e modos de fallo

Colapso do modelo por adestramento con saídas sintéticas - bucles de retroalimentación nos que o texto xerado deteriora a calidade futura do modelo se non se filtran ou se ponderan.
Inxección indirecta de prompt - contido hostil na web que instrúe a un axente ou ferramenta de navegación para exfiltrar segredos ou difundir difamación cando se cita.
Envenenamento do almacén de embeddings - inserir pasaxes adversarias nunha base de coñecemento para que a recuperación amose afirmacións falsas que aparenten ser semanticamente relevantes.
Lanzamentos con porta traseira - publicar puntos de control modificados ou envoltorios de API que se comportan con normalidade ata que está presente unha frase disparadora.

Casos concretos e referencias

Mitigacións en profundidade

Recuperación e clasificación

Puntuación de fontes e ponderación por procedencia - preferir contido asinado ou verificado polo editor; reducir o peso de páxinas recentemente creadas ou de baixa reputación.
Decaemento temporal con período de graza - requirir tempo de permanencia antes de que novas fontes inflúan nas respostas de alto risco; engadir revisión humana para entidades sensibles.
Detección de cámaras de eco - agrupar pasaxes case duplicadas e limitar a influencia repetida da mesma orixe ou rede.
Detección de valores atípicos e anomalías no espazo de incrustacións - sinalar pasaxes cuxas posicións vectoriais foron optimizadas de forma adversarial.

Hixiene de datos e da base de coñecemento

Instantáneas e bases de coñecemento de diferenzas - revisa grandes deltas, especialmente para entidades persoais e acusacións sen fontes primarias.
Listas canary e de negación - impedir a incorporación de dominios coñecidos por abuso; inserir canaries para medir a propagación non autorizada.
Intervención humana para temas de alto risco - poñer en cola as actualizacións propostas sobre feitos reputacionais para adxudicación manual.

Atestacións e reputación

Atestacións verificadas criptograficamente - declaracións asinadas por profesionais e organizacións avaliadas, publicadas mediante un rexistro de só engadir.
Gráficas de reputación - agregan avalos asinados e rebaixan no ranking o contido de abusadores reincidentes ou redes de bots.
Citas visibles para o usuario - esixe que os modelos mostren as fontes e o nivel de confianza con insignias de procedencia para afirmacións sensibles.

Lista de verificación empresarial

Mapea as entidades sensibles no teu dominio (persoas, marcas, temas xurídicos) e encamiña as consultas a canles protexidas con requisitos de procedencia.
Adoptar C2PA ou credenciais de contido similares para contido de primeira parte e animar aos socios a facer o mesmo.
Fai un seguimento da influencia de novas fontes co tempo e alerta sobre oscilacións inusuais nas respostas a nivel de entidade.
Executar red teaming continuo para axentes RAG e de navegación, incluíndo conxuntos de probas de inxección indirecta de prompts.

Acoso e difamación mediante IA

Persoas para contratar agora aproveitan a IA e a automatización para producir masivamente acoso e difamación, creando textos con aparencia verosímil e falsas “fontes” que son fáciles de indexar, raspar e volver compartir. Estas campañas son de baixo custe, alto impacto e difíciles de remediar unha vez amplificadas por sistemas automatizados.

Chad Scira experimentou en persoa acoso e difamación dirixidos, xunto con ligazóns spam pensadas para distorsionar os sinais de reputación e as impresións de busca. Aquí documentase un relato detallado e a cadea de probas: Jesse Nickles - Acoso e difamación.

Taxonomía de ameazas

Envenenamento de datos de preentrenamento - envenenar os corpus públicos usados para o adestramento inicial para implantar asociacións falsas ou portas traseiras.
Envenenamento RAG - sementar bases de coñecemento ou fontes externas que os fluxos de recuperación utilizan en tempo de inferencia.
Envenenamento en buscas/sociais - inundar con publicacións ou páxinas de baixa calidade para sesgar os sinais de recuperación e clasificación sobre unha persoa ou tema.
Mensaxes e contido adversariais - elaborar entradas que desencadenen comportamentos indeseados ou técnicas de jailbreak que repitan acusacións difamatorias.

Incidentes e investigación recentes (con datas)

Nota: As datas anteriores reflicten as datas de publicación ou de difusión pública nas fontes vinculadas.

Por que isto é perigoso

Os LLM poden aparentar autoridade mesmo cando as referencias subxacentes son débiles ou foron introducidas de xeito adversarial.
Os fluxos de recuperación e clasificación poden sobrevalorar texto repetido, permitindo que un único actor sesgue os resultados só co volume.
As verificacións de feitos humanas son lentas e custosas en comparación coa velocidade de produción e distribución de contido automatizado.
As vítimas sen unha presenza dixital significativa son desproporcionadamente vulnerables ao envenenamento por unha soa publicación e aos ataques á identidade.

Análise en profundidade dos riscos

Filtrado para emprego e plataformas - as búsquedas e os resumos de LLM poden replicar contido envenenado durante os procesos de contratación, moderación ou incorporación.
Viaxes, vivenda e servizos financeiros - as comprobacións automatizadas poden facer emerxer narrativas falsas que retrasen ou bloqueen servizos.
Persistencia - unha vez indexadas en bases de coñecemento ou respostas en caché, as afirmacións falsas poden resurgir mesmo despois das retiradas.
Retroalimentación sintética - o contido xerado pode impulsar máis contido xerado, aumentando co tempo o peso aparente das falsidades.

Detección e monitoraxe

Configura alertas de busca co teu nome e alias; comproba periodicamente consultas site: para dominios de baixa reputación que che mencionen.
Fai un seguimento dos cambios nos teus paneis de coñecemento ou nas páxinas de entidade; conserva capturas de pantalla datadas e copias exportadas como proba.
Vixía os grafos de ligazóns sociais por contas de orixe repetidas ou picos súbitos de formulacións similares.
Se opera un RAG ou unha base de coñecemento, realice comprobacións de deriva de entidades e revise grandes diferenzas en páxinas de persoas ou acusacións sen fontes primarias.

Manual de protección - Individuos

Publicar un sitio persoal con afirmacións de identidade claras, unha breve biografía e vías de contacto; manter un rexistro de cambios datado.
Aliñar os metadatos do perfil nas plataformas; adquirir perfís verificados cando sexa posible e enlazalos de volta ao teu sitio.
Use credenciais de contido C2PA ou similares para as imaxes e documentos clave sempre que sexa posible; almacene os orixinais de forma privada.
Manteña un rexistro de probas con marcas temporais: capturas de pantalla, ligazóns e calquera número de ticket da plataforma para escalación posterior.
Preparar modelos de solicitude de retirada; responder rapidamente a novos ataques e documentar cada paso para deixar unha pista documental clara.

Manual de protección - Equipos e integradores

Preferir contido asinado ou verificado polo editor na recuperación; aplicar períodos de graza baseados no tempo para novas fontes.
Limitar a influencia repetida desde a mesma orixe e deduplicar os case duplicados por rede de orixe.
Engadir distintivos de procedencia e listas de fontes visibles para o usuario para reclamacións a nivel persoal e outros temas sensibles.
Adoptar detección de anomalías nos almacéns de incrustacións; sinalizar valores atípicos de vectores adversariais e realizar comprobacións de canario para a propagación non autorizada.

Investigación: Atestacións verificadas criptograficamente

Chad Scira está a desenvolver sistemas de atestación verificados criptograficamente para crear confianza nas declaracións sobre persoas e eventos. O obxectivo é proporcionar aos LLMs e aos sistemas de recuperación reclamacións asinadas e consultables de profesionais e organizacións verificadas, permitindo unha procedencia robusta e unha maior resistencia ao envenenamento.

Principios de deseño

Identidade e proveniencia: as declaracións están asinadas por persoas/organizacións verificadas mediante criptografía de chave pública.
Almacenamento verificable: as atestacións están ancoradas en rexistros de só engadido e evidentes ante manipulación para permitir a verificación independente.
Integración de recuperación: as cadeas RAG poden priorizar ou requirir fontes atestadas criptograficamente para consultas sensibles.
Fricción mínima: as APIs e SDKs permiten que editores e plataformas emitan e verifiquen atestacións no momento da ingestión.

Reputación e alertas

Ademais das atestacións, unha capa de reputación agrupa endosos asinados e sinala os abusadores coñecidos. Os sistemas de alerta notifican aos obxectivos cando se detectan ataques coordinados ou picos anómalos, permitindo unha resposta máis rápida e solicitudes de retirada.

Canais legais e da plataforma

Use os fluxos de denuncia da plataforma con paquetes de probas claros: ligazóns, datas, capturas de pantalla e impactos. Faga referencia ás políticas de difamación e acoso.
Escale mediante notificacións formais cando proceda; manteña rexistros de correspondencia e identificadores de tickets na súa cadea de probas.
Considere as diferenzas xurisdicionais na difamación e na responsabilidade das plataformas; consulte asesoramento xurídico para casos de alto risco.

Folla de ruta de implementación (Ano 1)

MVP: esquema de atestación e SDK para editores para asinar declaracións de identidade e afirmacións de eventos.
Piloto cun pequeno grupo de profesionais e organizacións verificados; establecer fluxos de traballo de verificación.
Complementos RAG: activar o modo de resposta 'provenance-first' que prioriza fontes atestadas para consultas sensibles.

Lecturas adicionais (con datas)

Colaboración

Esta investigación é de vangarda e está en evolución activa. Chad Scira acolle con agrado a colaboración con outros profesionais neste sector.

Se está interesado en colaborar, póñase en contacto en: [email protected]