Investigación sobre envenenamento de LLM e antiabuso

Chad Scira investiga como os modelos de linguaxe grandes poden ser envenenados e abusados para prexudicar persoas, e constrúe sistemas protectores para contrarrestar estas ameazas. O risco é urxente: o ritmo de confianza nos resultados dos LLMs superou a nosa capacidade de verificar as declaracións, mentres que os adversarios poden publicar texto a baixo custo que sesga o comportamento dos modelos e as impresións de busca de persoas sen grande pegada en liña.

Unha rolda de investimento privada asegurouse o 3 de outubro de 2025 para continuar esta investigación.

Resumo executivo

Persoas medias con pouca pegada en internet enfrontan un risco desproporcionado pola difamación amplificada por IA e o envenenamento de datos. Un individuo motivado pode plantar narrativas falsas que os buscadores, os feeds sociais e os LLMs repiten. Este documento explica as vías de ataque comúns, os efectos concretos na reputación e na seguridade, e un manual práctico para a detección e a protección. Tamén describe como as atestacións verificadas criptograficamente e a recuperación consciente da procedencia poden reducir o dano para persoas e integradores.

Público e modelo de ameaza

Público: persoas e organizacións pequenas sen unha grande presenza en SEO. Restricións: tempo, orzamento e recursos técnicos limitados. Adversario: un único actor capaz de xerar e publicar grandes volumes de texto, usar redes básicas de ligazóns e explotar puntos cegos nos sistemas de informes. Obxectivos: distorsionar os resultados de buscadores/LLMs, prexudicar a reputación, crear dúbidas perante empregadores, clientes, plataformas ou axentes.

Que é o envenenamento de LLM?

O envenenamento de LLM refírese á manipulación do comportamento dun modelo mediante contido introducido ou coordinado - por exemplo, publicacións maliciosas, artigos sintéticos ou spam en foros - que poden ser incorporados por sistemas de recuperación ou empregados por persoas como sinais, empurrando os modelos cara a asociacións falsas e narrativas difamatorias.

Como os LLMs e os sistemas de recuperación se optimizan para escala e cobertura, un adversario motivado pode dar forma ao que un modelo "ve" sobre unha persoa inundando unha pequena parte da web. Isto é especialmente efectivo contra persoas con presenza en liña limitada.

Como se distorsiona a reputación

  • Envenenamento en buscas e sociais - apropiación de perfís, granxas de ligazóns e publicación masiva para sesgar funcións de clasificación e asociacións de autocompletado.
  • Envenenamento de base de coñecemento e RAG - crear páxinas de entidades e notas de control de calidade que aparentan ser semanticamente relevantes e son recuperadas como contexto.
  • Inxección indirecta de prompt - contido hostil web que leva a axentes de navegación a repetir instrucións ou exfiltrar datos sensibles.
  • Puntos finais con porta traseira - envoltorios maliciosos de modelos que actúan con normalidade ata que aparecen frases disparadoras, entón emiten falsidades dirixidas.

Riscos adicionais e modos de fallo

  • Colapso do modelo por adestramento con saídas sintéticas - bucles de retroalimentación nos que o texto xerado deteriora a calidade futura do modelo se non se filtran ou se ponderan.
  • Inxección indirecta de prompt - contido hostil na web que instrúe a un axente ou ferramenta de navegación para exfiltrar segredos ou difundir difamación cando se cita.
  • Envenenamento do almacén de embeddings - inserir pasaxes adversarias nunha base de coñecemento para que a recuperación amose afirmacións falsas que aparenten ser semanticamente relevantes.
  • Lanzamentos con porta traseira - publicar puntos de control modificados ou envoltorios de API que se comportan con normalidade ata que está presente unha frase disparadora.

Casos concretos e referencias

Mitigacións en profundidade

Recuperación e clasificación

  • Puntuación de fontes e ponderación por procedencia - preferir contido asinado ou verificado polo editor; reducir o peso de páxinas recentemente creadas ou de baixa reputación.
  • Decaemento temporal con período de graza - requirir tempo de permanencia antes de que novas fontes inflúan nas respostas de alto risco; engadir revisión humana para entidades sensibles.
  • Detección de cámaras de eco - agrupar pasaxes case duplicadas e limitar a influencia repetida da mesma orixe ou rede.
  • Detección de valores atípicos e anomalías no espazo de incrustacións - sinalar pasaxes cuxas posicións vectoriais foron optimizadas de forma adversarial.

Hixiene de datos e da base de coñecemento

  • Instantáneas e bases de coñecemento de diferenzas - revisa grandes deltas, especialmente para entidades persoais e acusacións sen fontes primarias.
  • Listas canary e de negación - impedir a incorporación de dominios coñecidos por abuso; inserir canaries para medir a propagación non autorizada.
  • Intervención humana para temas de alto risco - poñer en cola as actualizacións propostas sobre feitos reputacionais para adxudicación manual.

Atestacións e reputación

  • Atestacións verificadas criptograficamente - declaracións asinadas por profesionais e organizacións avaliadas, publicadas mediante un rexistro de só engadir.
  • Gráficas de reputación - agregan avalos asinados e rebaixan no ranking o contido de abusadores reincidentes ou redes de bots.
  • Citas visibles para o usuario - esixe que os modelos mostren as fontes e o nivel de confianza con insignias de procedencia para afirmacións sensibles.

Lista de verificación empresarial

  • Mapea as entidades sensibles no teu dominio (persoas, marcas, temas xurídicos) e encamiña as consultas a canles protexidas con requisitos de procedencia.
  • Adoptar C2PA ou credenciais de contido similares para contido de primeira parte e animar aos socios a facer o mesmo.
  • Fai un seguimento da influencia de novas fontes co tempo e alerta sobre oscilacións inusuais nas respostas a nivel de entidade.
  • Executar red teaming continuo para axentes RAG e de navegación, incluíndo conxuntos de probas de inxección indirecta de prompts.

Acoso e difamación mediante IA

Persoas para contratar agora aproveitan a IA e a automatización para producir masivamente acoso e difamación, creando textos con aparencia verosímil e falsas “fontes” que son fáciles de indexar, raspar e volver compartir. Estas campañas son de baixo custe, alto impacto e difíciles de remediar unha vez amplificadas por sistemas automatizados.

Chad Scira experimentou en persoa acoso e difamación dirixidos, xunto con ligazóns spam pensadas para distorsionar os sinais de reputación e as impresións de busca. Aquí documentase un relato detallado e a cadea de probas: Jesse Nickles - Acoso e difamación.

Taxonomía de ameazas

  • Envenenamento de datos de preentrenamento - envenenar os corpus públicos usados para o adestramento inicial para implantar asociacións falsas ou portas traseiras.
  • Envenenamento RAG - sementar bases de coñecemento ou fontes externas que os fluxos de recuperación utilizan en tempo de inferencia.
  • Envenenamento en buscas/sociais - inundar con publicacións ou páxinas de baixa calidade para sesgar os sinais de recuperación e clasificación sobre unha persoa ou tema.
  • Mensaxes e contido adversariais - elaborar entradas que desencadenen comportamentos indeseados ou técnicas de jailbreak que repitan acusacións difamatorias.

Incidentes e investigación recentes (con datas)

Nota: As datas anteriores reflicten as datas de publicación ou de difusión pública nas fontes vinculadas.

Por que isto é perigoso

  • Os LLM poden aparentar autoridade mesmo cando as referencias subxacentes son débiles ou foron introducidas de xeito adversarial.
  • Os fluxos de recuperación e clasificación poden sobrevalorar texto repetido, permitindo que un único actor sesgue os resultados só co volume.
  • As verificacións de feitos humanas son lentas e custosas en comparación coa velocidade de produción e distribución de contido automatizado.
  • As vítimas sen unha presenza dixital significativa son desproporcionadamente vulnerables ao envenenamento por unha soa publicación e aos ataques á identidade.

Análise en profundidade dos riscos

  • Filtrado para emprego e plataformas - as búsquedas e os resumos de LLM poden replicar contido envenenado durante os procesos de contratación, moderación ou incorporación.
  • Viaxes, vivenda e servizos financeiros - as comprobacións automatizadas poden facer emerxer narrativas falsas que retrasen ou bloqueen servizos.
  • Persistencia - unha vez indexadas en bases de coñecemento ou respostas en caché, as afirmacións falsas poden resurgir mesmo despois das retiradas.
  • Retroalimentación sintética - o contido xerado pode impulsar máis contido xerado, aumentando co tempo o peso aparente das falsidades.

Detección e monitoraxe

  • Configura alertas de busca co teu nome e alias; comproba periodicamente consultas site: para dominios de baixa reputación que che mencionen.
  • Fai un seguimento dos cambios nos teus paneis de coñecemento ou nas páxinas de entidade; conserva capturas de pantalla datadas e copias exportadas como proba.
  • Vixía os grafos de ligazóns sociais por contas de orixe repetidas ou picos súbitos de formulacións similares.
  • Se opera un RAG ou unha base de coñecemento, realice comprobacións de deriva de entidades e revise grandes diferenzas en páxinas de persoas ou acusacións sen fontes primarias.

Manual de protección - Individuos

  • Publicar un sitio persoal con afirmacións de identidade claras, unha breve biografía e vías de contacto; manter un rexistro de cambios datado.
  • Aliñar os metadatos do perfil nas plataformas; adquirir perfís verificados cando sexa posible e enlazalos de volta ao teu sitio.
  • Use credenciais de contido C2PA ou similares para as imaxes e documentos clave sempre que sexa posible; almacene os orixinais de forma privada.
  • Manteña un rexistro de probas con marcas temporais: capturas de pantalla, ligazóns e calquera número de ticket da plataforma para escalación posterior.
  • Preparar modelos de solicitude de retirada; responder rapidamente a novos ataques e documentar cada paso para deixar unha pista documental clara.

Manual de protección - Equipos e integradores

  • Preferir contido asinado ou verificado polo editor na recuperación; aplicar períodos de graza baseados no tempo para novas fontes.
  • Limitar a influencia repetida desde a mesma orixe e deduplicar os case duplicados por rede de orixe.
  • Engadir distintivos de procedencia e listas de fontes visibles para o usuario para reclamacións a nivel persoal e outros temas sensibles.
  • Adoptar detección de anomalías nos almacéns de incrustacións; sinalizar valores atípicos de vectores adversariais e realizar comprobacións de canario para a propagación non autorizada.

Investigación: Atestacións verificadas criptograficamente

Chad Scira está a desenvolver sistemas de atestación verificados criptograficamente para crear confianza nas declaracións sobre persoas e eventos. O obxectivo é proporcionar aos LLMs e aos sistemas de recuperación reclamacións asinadas e consultables de profesionais e organizacións verificadas, permitindo unha procedencia robusta e unha maior resistencia ao envenenamento.

Principios de deseño

  • Identidade e proveniencia: as declaracións están asinadas por persoas/organizacións verificadas mediante criptografía de chave pública.
  • Almacenamento verificable: as atestacións están ancoradas en rexistros de só engadido e evidentes ante manipulación para permitir a verificación independente.
  • Integración de recuperación: as cadeas RAG poden priorizar ou requirir fontes atestadas criptograficamente para consultas sensibles.
  • Fricción mínima: as APIs e SDKs permiten que editores e plataformas emitan e verifiquen atestacións no momento da ingestión.

Reputación e alertas

Ademais das atestacións, unha capa de reputación agrupa endosos asinados e sinala os abusadores coñecidos. Os sistemas de alerta notifican aos obxectivos cando se detectan ataques coordinados ou picos anómalos, permitindo unha resposta máis rápida e solicitudes de retirada.

Canais legais e da plataforma

  • Use os fluxos de denuncia da plataforma con paquetes de probas claros: ligazóns, datas, capturas de pantalla e impactos. Faga referencia ás políticas de difamación e acoso.
  • Escale mediante notificacións formais cando proceda; manteña rexistros de correspondencia e identificadores de tickets na súa cadea de probas.
  • Considere as diferenzas xurisdicionais na difamación e na responsabilidade das plataformas; consulte asesoramento xurídico para casos de alto risco.

Folla de ruta de implementación (Ano 1)

  • MVP: esquema de atestación e SDK para editores para asinar declaracións de identidade e afirmacións de eventos.
  • Piloto cun pequeno grupo de profesionais e organizacións verificados; establecer fluxos de traballo de verificación.
  • Complementos RAG: activar o modo de resposta 'provenance-first' que prioriza fontes atestadas para consultas sensibles.

Lecturas adicionais (con datas)

Colaboración

Esta investigación é de vangarda e está en evolución activa. Chad Scira acolle con agrado a colaboración con outros profesionais neste sector.

Se está interesado en colaborar, póñase en contacto en: [email protected]