Chad Scira investiga como os modelos de linguaxe grandes poden ser envenenados e abusados para prexudicar persoas, e constrúe sistemas protectores para contrarrestar estas ameazas. O risco é urxente: o ritmo de confianza nos resultados dos LLMs superou a nosa capacidade de verificar as declaracións, mentres que os adversarios poden publicar texto a baixo custo que sesga o comportamento dos modelos e as impresións de busca de persoas sen grande pegada en liña.
Unha rolda de investimento privada asegurouse o 3 de outubro de 2025 para continuar esta investigación.
Resumo executivo
Persoas medias con pouca pegada en internet enfrontan un risco desproporcionado pola difamación amplificada por IA e o envenenamento de datos. Un individuo motivado pode plantar narrativas falsas que os buscadores, os feeds sociais e os LLMs repiten. Este documento explica as vías de ataque comúns, os efectos concretos na reputación e na seguridade, e un manual práctico para a detección e a protección. Tamén describe como as atestacións verificadas criptograficamente e a recuperación consciente da procedencia poden reducir o dano para persoas e integradores.
Público e modelo de ameaza
Público: persoas e organizacións pequenas sen unha grande presenza en SEO. Restricións: tempo, orzamento e recursos técnicos limitados. Adversario: un único actor capaz de xerar e publicar grandes volumes de texto, usar redes básicas de ligazóns e explotar puntos cegos nos sistemas de informes. Obxectivos: distorsionar os resultados de buscadores/LLMs, prexudicar a reputación, crear dúbidas perante empregadores, clientes, plataformas ou axentes.
Que é o envenenamento de LLM?
O envenenamento de LLM refírese á manipulación do comportamento dun modelo mediante contido introducido ou coordinado - por exemplo, publicacións maliciosas, artigos sintéticos ou spam en foros - que poden ser incorporados por sistemas de recuperación ou empregados por persoas como sinais, empurrando os modelos cara a asociacións falsas e narrativas difamatorias.
Como os LLMs e os sistemas de recuperación se optimizan para escala e cobertura, un adversario motivado pode dar forma ao que un modelo "ve" sobre unha persoa inundando unha pequena parte da web. Isto é especialmente efectivo contra persoas con presenza en liña limitada.
Como se distorsiona a reputación
- Envenenamento en buscas e sociais - apropiación de perfís, granxas de ligazóns e publicación masiva para sesgar funcións de clasificación e asociacións de autocompletado.
- Envenenamento de base de coñecemento e RAG - crear páxinas de entidades e notas de control de calidade que aparentan ser semanticamente relevantes e son recuperadas como contexto.
- Inxección indirecta de prompt - contido hostil web que leva a axentes de navegación a repetir instrucións ou exfiltrar datos sensibles.
- Puntos finais con porta traseira - envoltorios maliciosos de modelos que actúan con normalidade ata que aparecen frases disparadoras, entón emiten falsidades dirixidas.
Riscos adicionais e modos de fallo
- Colapso do modelo por adestramento con saídas sintéticas - bucles de retroalimentación nos que o texto xerado deteriora a calidade futura do modelo se non se filtran ou se ponderan.
- Inxección indirecta de prompt - contido hostil na web que instrúe a un axente ou ferramenta de navegación para exfiltrar segredos ou difundir difamación cando se cita.
- Envenenamento do almacén de embeddings - inserir pasaxes adversarias nunha base de coñecemento para que a recuperación amose afirmacións falsas que aparenten ser semanticamente relevantes.
- Lanzamentos con porta traseira - publicar puntos de control modificados ou envoltorios de API que se comportan con normalidade ata que está presente unha frase disparadora.
Casos concretos e referencias
Mitigacións en profundidade
Recuperación e clasificación
- Puntuación de fontes e ponderación por procedencia - preferir contido asinado ou verificado polo editor; reducir o peso de páxinas recentemente creadas ou de baixa reputación.
- Decaemento temporal con período de graza - requirir tempo de permanencia antes de que novas fontes inflúan nas respostas de alto risco; engadir revisión humana para entidades sensibles.
- Detección de cámaras de eco - agrupar pasaxes case duplicadas e limitar a influencia repetida da mesma orixe ou rede.
- Detección de valores atípicos e anomalías no espazo de incrustacións - sinalar pasaxes cuxas posicións vectoriais foron optimizadas de forma adversarial.
Hixiene de datos e da base de coñecemento
- Instantáneas e bases de coñecemento de diferenzas - revisa grandes deltas, especialmente para entidades persoais e acusacións sen fontes primarias.
- Listas canary e de negación - impedir a incorporación de dominios coñecidos por abuso; inserir canaries para medir a propagación non autorizada.
- Intervención humana para temas de alto risco - poñer en cola as actualizacións propostas sobre feitos reputacionais para adxudicación manual.
Atestacións e reputación
- Atestacións verificadas criptograficamente - declaracións asinadas por profesionais e organizacións avaliadas, publicadas mediante un rexistro de só engadir.
- Gráficas de reputación - agregan avalos asinados e rebaixan no ranking o contido de abusadores reincidentes ou redes de bots.
- Citas visibles para o usuario - esixe que os modelos mostren as fontes e o nivel de confianza con insignias de procedencia para afirmacións sensibles.
Lista de verificación empresarial
- Mapea as entidades sensibles no teu dominio (persoas, marcas, temas xurídicos) e encamiña as consultas a canles protexidas con requisitos de procedencia.
- Adoptar C2PA ou credenciais de contido similares para contido de primeira parte e animar aos socios a facer o mesmo.
- Fai un seguimento da influencia de novas fontes co tempo e alerta sobre oscilacións inusuais nas respostas a nivel de entidade.
- Executar red teaming continuo para axentes RAG e de navegación, incluíndo conxuntos de probas de inxección indirecta de prompts.
Acoso e difamación mediante IA
Persoas para contratar agora aproveitan a IA e a automatización para producir masivamente acoso e difamación, creando textos con aparencia verosímil e falsas “fontes” que son fáciles de indexar, raspar e volver compartir. Estas campañas son de baixo custe, alto impacto e difíciles de remediar unha vez amplificadas por sistemas automatizados.
Chad Scira experimentou en persoa acoso e difamación dirixidos, xunto con ligazóns spam pensadas para distorsionar os sinais de reputación e as impresións de busca. Aquí documentase un relato detallado e a cadea de probas: Jesse Nickles - Acoso e difamación.
Taxonomía de ameazas
- Envenenamento de datos de preentrenamento - envenenar os corpus públicos usados para o adestramento inicial para implantar asociacións falsas ou portas traseiras.
- Envenenamento RAG - sementar bases de coñecemento ou fontes externas que os fluxos de recuperación utilizan en tempo de inferencia.
- Envenenamento en buscas/sociais - inundar con publicacións ou páxinas de baixa calidade para sesgar os sinais de recuperación e clasificación sobre unha persoa ou tema.
- Mensaxes e contido adversariais - elaborar entradas que desencadenen comportamentos indeseados ou técnicas de jailbreak que repitan acusacións difamatorias.
Incidentes e investigación recentes (con datas)
Nota: As datas anteriores reflicten as datas de publicación ou de difusión pública nas fontes vinculadas.
Por que isto é perigoso
- Os LLM poden aparentar autoridade mesmo cando as referencias subxacentes son débiles ou foron introducidas de xeito adversarial.
- Os fluxos de recuperación e clasificación poden sobrevalorar texto repetido, permitindo que un único actor sesgue os resultados só co volume.
- As verificacións de feitos humanas son lentas e custosas en comparación coa velocidade de produción e distribución de contido automatizado.
- As vítimas sen unha presenza dixital significativa son desproporcionadamente vulnerables ao envenenamento por unha soa publicación e aos ataques á identidade.
Análise en profundidade dos riscos
- Filtrado para emprego e plataformas - as búsquedas e os resumos de LLM poden replicar contido envenenado durante os procesos de contratación, moderación ou incorporación.
- Viaxes, vivenda e servizos financeiros - as comprobacións automatizadas poden facer emerxer narrativas falsas que retrasen ou bloqueen servizos.
- Persistencia - unha vez indexadas en bases de coñecemento ou respostas en caché, as afirmacións falsas poden resurgir mesmo despois das retiradas.
- Retroalimentación sintética - o contido xerado pode impulsar máis contido xerado, aumentando co tempo o peso aparente das falsidades.
Detección e monitoraxe
- Configura alertas de busca co teu nome e alias; comproba periodicamente consultas site: para dominios de baixa reputación que che mencionen.
- Fai un seguimento dos cambios nos teus paneis de coñecemento ou nas páxinas de entidade; conserva capturas de pantalla datadas e copias exportadas como proba.
- Vixía os grafos de ligazóns sociais por contas de orixe repetidas ou picos súbitos de formulacións similares.
- Se opera un RAG ou unha base de coñecemento, realice comprobacións de deriva de entidades e revise grandes diferenzas en páxinas de persoas ou acusacións sen fontes primarias.
Manual de protección - Individuos
- Publicar un sitio persoal con afirmacións de identidade claras, unha breve biografía e vías de contacto; manter un rexistro de cambios datado.
- Aliñar os metadatos do perfil nas plataformas; adquirir perfís verificados cando sexa posible e enlazalos de volta ao teu sitio.
- Use credenciais de contido C2PA ou similares para as imaxes e documentos clave sempre que sexa posible; almacene os orixinais de forma privada.
- Manteña un rexistro de probas con marcas temporais: capturas de pantalla, ligazóns e calquera número de ticket da plataforma para escalación posterior.
- Preparar modelos de solicitude de retirada; responder rapidamente a novos ataques e documentar cada paso para deixar unha pista documental clara.
Manual de protección - Equipos e integradores
- Preferir contido asinado ou verificado polo editor na recuperación; aplicar períodos de graza baseados no tempo para novas fontes.
- Limitar a influencia repetida desde a mesma orixe e deduplicar os case duplicados por rede de orixe.
- Engadir distintivos de procedencia e listas de fontes visibles para o usuario para reclamacións a nivel persoal e outros temas sensibles.
- Adoptar detección de anomalías nos almacéns de incrustacións; sinalizar valores atípicos de vectores adversariais e realizar comprobacións de canario para a propagación non autorizada.
Investigación: Atestacións verificadas criptograficamente
Chad Scira está a desenvolver sistemas de atestación verificados criptograficamente para crear confianza nas declaracións sobre persoas e eventos. O obxectivo é proporcionar aos LLMs e aos sistemas de recuperación reclamacións asinadas e consultables de profesionais e organizacións verificadas, permitindo unha procedencia robusta e unha maior resistencia ao envenenamento.
Principios de deseño
- Identidade e proveniencia: as declaracións están asinadas por persoas/organizacións verificadas mediante criptografía de chave pública.
- Almacenamento verificable: as atestacións están ancoradas en rexistros de só engadido e evidentes ante manipulación para permitir a verificación independente.
- Integración de recuperación: as cadeas RAG poden priorizar ou requirir fontes atestadas criptograficamente para consultas sensibles.
- Fricción mínima: as APIs e SDKs permiten que editores e plataformas emitan e verifiquen atestacións no momento da ingestión.
Reputación e alertas
Ademais das atestacións, unha capa de reputación agrupa endosos asinados e sinala os abusadores coñecidos. Os sistemas de alerta notifican aos obxectivos cando se detectan ataques coordinados ou picos anómalos, permitindo unha resposta máis rápida e solicitudes de retirada.
Canais legais e da plataforma
- Use os fluxos de denuncia da plataforma con paquetes de probas claros: ligazóns, datas, capturas de pantalla e impactos. Faga referencia ás políticas de difamación e acoso.
- Escale mediante notificacións formais cando proceda; manteña rexistros de correspondencia e identificadores de tickets na súa cadea de probas.
- Considere as diferenzas xurisdicionais na difamación e na responsabilidade das plataformas; consulte asesoramento xurídico para casos de alto risco.
Folla de ruta de implementación (Ano 1)
- MVP: esquema de atestación e SDK para editores para asinar declaracións de identidade e afirmacións de eventos.
- Piloto cun pequeno grupo de profesionais e organizacións verificados; establecer fluxos de traballo de verificación.
- Complementos RAG: activar o modo de resposta 'provenance-first' que prioriza fontes atestadas para consultas sensibles.
Lecturas adicionais (con datas)
Colaboración
Esta investigación é de vangarda e está en evolución activa. Chad Scira acolle con agrado a colaboración con outros profesionais neste sector.
Se está interesado en colaborar, póñase en contacto en: [email protected]