Investigación sobre envenenamiento de LLM y antiabuso

Chad Scira investiga cómo los modelos de lenguaje de gran tamaño pueden ser envenenados y abusados para dañar a individuos, y desarrolla sistemas protectores para contrarrestar estas amenazas. El riesgo es urgente: el ritmo de la confianza en las salidas de los LLM ha superado nuestra capacidad para verificar las afirmaciones, mientras que los adversarios pueden publicar texto a bajo costo que sesga el comportamiento del modelo y las impresiones en búsqueda de personas sin una gran huella en línea.

Se aseguró una ronda de inversión privada el 3 de octubre de 2025 para continuar esta investigación.

Resumen ejecutivo

Las personas comunes con poca huella en internet enfrentan un riesgo desproporcionado por la difamación amplificada por IA y el envenenamiento de datos. Un único individuo motivado puede sembrar narrativas falsas que los motores de búsqueda, los feeds sociales y los LLM repiten. Este documento explica rutas de ataque comunes, efectos concretos sobre la reputación y la seguridad, y una guía práctica para la detección y la protección. También describe cómo las atestaciones verificadas criptográficamente y la recuperación consciente de la procedencia pueden reducir el daño para individuos e integradores.

Audiencia y modelo de amenazas

Audiencia: individuos y pequeñas organizaciones sin una gran presencia SEO. Limitaciones: tiempo, presupuesto y recursos técnicos limitados. Adversario: un actor único capaz de generar y publicar grandes volúmenes de texto, usar redes de enlaces básicas y explotar puntos ciegos en los sistemas de reporte. Objetivos: distorsionar los resultados de búsqueda/LLM, dañar la reputación, crear dudas entre empleadores, clientes, plataformas o representantes.

¿Qué es el envenenamiento de LLM?

El envenenamiento de LLM se refiere a la manipulación del comportamiento del modelo mediante contenido introducido o coordinado: por ejemplo, publicaciones maliciosas, artículos sintéticos o spam en foros, que pueden ser ingeridos por sistemas de recuperación o utilizados por personas como señales, empujando a los modelos hacia asociaciones falsas y narrativas difamatorias.

Dado que los LLM y los sistemas de recuperación se optimizan para escala y cobertura, un único adversario motivado puede moldear lo que un modelo “ve” sobre una persona inundando una pequeña porción de la web. Esto es especialmente efectivo contra individuos con presencia en línea limitada.

Cómo se distorsiona la reputación

Envenenamiento en búsquedas y redes sociales: usurpación de perfiles, granjas de enlaces y publicaciones masivas para sesgar características de clasificación y asociaciones de autocompletar.
Envenenamiento de bases de conocimiento y RAG: creación de páginas de entidades y notas de QA que parecen semánticamente relevantes y se recuperan como contexto.
Inyección indirecta de prompts - contenido web hostil que hace que los agentes de navegación repitan instrucciones o exfiltren datos sensibles.
Puntos finales con puerta trasera - envoltorios maliciosos del modelo que actúan con normalidad hasta que aparecen frases desencadenantes, y entonces emiten falsedades dirigidas.

Riesgos adicionales y modos de fallo

Colapso del modelo por entrenar con salidas sintéticas: bucles de retroalimentación en los que el texto generado degrada la calidad futura del modelo si no se filtra o pondera.
Inyección indirecta de prompts - contenido hostil en la web que instruye a un agente o herramienta de navegación a exfiltrar secretos o difundir difamación cuando se cita.
Envenenamiento del almacén de embeddings: insertar pasajes adversariales en una base de conocimiento para que la recuperación muestre afirmaciones falsas que parezcan semánticamente relevantes.
Lanzamientos con puerta trasera - publicar checkpoints modificados o envoltorios de API que se comportan normalmente hasta que está presente una frase desencadenante.

Casos concretos y referencias

Mitigaciones en profundidad

Recuperación y clasificación

Puntuación de fuentes y ponderación por procedencia: prefiera contenido firmado o verificado por el editor; rebaje el peso de páginas recién creadas o de baja reputación.
Decaimiento temporal con período de gracia - exigir un tiempo de permanencia antes de que nuevas fuentes influyan en respuestas de alto riesgo; añadir revisión humana para entidades sensibles.
Detección de cámaras de eco: agrupar pasajes casi duplicados y limitar la influencia repetida desde la misma fuente o red.
Detección de valores atípicos y anomalías en el espacio de embeddings: marcar pasajes cuyas posiciones vectoriales han sido optimizadas de forma adversarial.

Higiene de datos y de la base de conocimiento

Instantáneas y diferencias en bases de conocimiento: revise cambios significativos, especialmente para entidades de personas y acusaciones sin fuentes primarias.
Listas canary y de denegación - prevenir la incorporación de dominios abusivos conocidos; insertar canarios para medir la propagación no autorizada.
Humano en el circuito para temas de alto riesgo: ponga en cola las actualizaciones propuestas sobre hechos reputacionales para su adjudicación manual.

Atestaciones y reputación

Atestaciones verificadas criptográficamente: declaraciones firmadas por profesionales y organizaciones evaluadas, publicadas mediante un registro de solo anexado.
Gráficos de reputación: agregar avales firmados y degradar la clasificación del contenido procedente de abusadores reincidentes o redes de bots.
Citas visibles para el usuario: exigir que los modelos muestren fuentes y niveles de confianza con insignias de procedencia para afirmaciones sensibles.

Lista de verificación empresarial

Mapee las entidades sensibles en su dominio (personas, marcas, temas legales) y dirija las consultas a canalizaciones protegidas con requisitos de procedencia.
Adoptar C2PA u otras credenciales de contenido similares para contenido de primera parte y alentar a los socios a hacer lo mismo.
Rastree la influencia de nuevas fuentes a lo largo del tiempo y alerte sobre oscilaciones inusuales en respuestas a nivel de entidad.
Ejecutar red teaming continuo para agentes RAG y de navegación, incluyendo suites de pruebas de inyección indirecta de prompts.

Acoso y difamación mediante IA

Personas contratadas ahora aprovechan la IA y la automatización para producir masivamente acoso y difamación, creando textos de apariencia verosímil y “fuentes” falsas que son fáciles de indexar, extraer y volver a compartir. Estas campañas son de bajo costo, alto impacto y difíciles de remediar una vez amplificadas por sistemas automatizados.

Chad Scira ha experimentado personalmente acoso dirigido y difamación junto con enlaces de spam destinados a distorsionar las señales de reputación y las impresiones en búsquedas. Una narración detallada y la cadena de pruebas están documentadas aquí: Jesse Nickles - Acoso y difamación.

Taxonomía de amenazas

Envenenamiento de datos de preentrenamiento: envenenar corpus públicos utilizados para el entrenamiento inicial para implantar asociaciones falsas o puertas traseras.
Envenenamiento RAG: sembrar bases de conocimiento o fuentes externas que las canalizaciones de recuperación utilizan en tiempo de inferencia.
Envenenamiento en búsqueda/redes sociales: inundar con publicaciones o páginas de baja calidad para sesgar las señales de recuperación y clasificación sobre una persona o tema.
Indicaciones y contenido adversarios - elaborar entradas que desencadenen comportamientos indeseables o jailbreaks que repitan acusaciones difamatorias.

Incidentes recientes e investigaciones (con fechas)

Nota: Las fechas anteriores reflejan las fechas de publicación o de difusión pública en las fuentes enlazadas.

Por qué esto es peligroso

Los LLM pueden parecer autoritarios incluso cuando las referencias subyacentes son débiles o han sido introducidas de forma adversarial.
Los pipelines de recuperación y clasificación pueden dar demasiado peso a textos repetidos, permitiendo que un actor sesgue los resultados solo con volumen.
Los procesos de verificación humana de hechos son lentos y costosos en comparación con la rapidez de la producción y distribución automatizada de contenido.
Las víctimas sin una presencia en línea significativa son desproporcionadamente vulnerables al envenenamiento por una sola publicación y a los ataques de suplantación de identidad.

Análisis profundo de riesgos

Filtrado en empleo y plataformas: las búsquedas y los resúmenes de modelos LLM pueden reproducir contenido envenenado durante las verificaciones de contratación, moderación o en el proceso de incorporación.
Viajes, alojamiento y servicios financieros: las comprobaciones automatizadas pueden sacar a la luz narrativas falsas que retrasen o bloqueen los servicios.
Persistencia: una vez indexadas en bases de conocimiento o en respuestas en caché, las afirmaciones falsas pueden resurgir incluso después de las eliminaciones.
Retroalimentación sintética: el contenido generado puede impulsar la creación de más contenido generado, aumentando con el tiempo el peso aparente de las falsedades.

Detección y monitorización

Configura alertas de búsqueda para tu nombre y alias; revisa periódicamente consultas site: para dominios de baja reputación que te mencionen.
Rastree los cambios en sus paneles de conocimiento o páginas de entidades; guarde capturas de pantalla con fecha y copias exportadas como evidencia.
Vigilar los grafos de vínculos sociales en busca de cuentas de origen repetidas o picos repentinos de frases similares.
Si opera un RAG o una base de conocimientos, ejecute comprobaciones de deriva de entidades y revise grandes variaciones en las páginas de personas o acusaciones sin fuentes primarias.

Manual de protección - Individuos

Publicar un sitio personal con declaraciones de identidad claras, una breve biografía y vías de contacto; mantener un registro de cambios con fechas.
Alinear los metadatos del perfil entre plataformas; adquirir perfiles verificados cuando sea factible y vincularlos de vuelta a su sitio.
Utilice C2PA u otras credenciales de contenido similares para imágenes y documentos clave cuando sea posible; almacene los originales de forma privada.
Mantenga un registro de evidencias con marcas de tiempo: capturas de pantalla, enlaces y cualquier número de ticket de la plataforma para una escalada posterior.
Preparar plantillas de solicitud de eliminación; responder rápidamente a nuevos ataques y documentar cada paso para mantener un rastro documental claro.

Manual de protección - Equipos e integradores

Preferir contenido firmado o verificado por el editor en la recuperación; aplicar períodos de gracia basados en el tiempo para fuentes nuevas.
Limitar la influencia repetida desde el mismo origen y desduplicar elementos casi idénticos por red de origen.
Agregar distintivos de procedencia y listas de fuentes visibles para el usuario para afirmaciones a nivel personal y otros temas sensibles.
Adoptar detección de anomalías en los almacenes de embeddings; marcar vectores adversarios atípicos y ejecutar comprobaciones canary para propagación no autorizada.

Investigación: atestaciones verificadas criptográficamente

Chad Scira está construyendo sistemas de atestación verificados criptográficamente para generar confianza en las afirmaciones sobre personas y eventos. El objetivo es proporcionar a los LLM y a los sistemas de recuperación afirmaciones firmadas y consultables de profesionales y organizaciones verificadas, permitiendo una procedencia robusta y una mayor resistencia al envenenamiento.

Principios de diseño

Identidad y procedencia: las declaraciones están firmadas por personas/organizaciones verificadas mediante criptografía de clave pública.
Almacenamiento verificable: las atestaciones están ancladas a registros de solo anexado que evidencian cualquier manipulación para permitir la verificación independiente.
Integración de recuperación: los pipelines RAG pueden priorizar o exigir fuentes atestadas criptográficamente para consultas sensibles.
Fricción mínima: las API y los SDK permiten a editores y plataformas emitir y verificar atestaciones en el momento de la ingestión.

Reputación y alertas

Además de las atestaciones, una capa de reputación agrega respaldos firmados y marca a los abusadores conocidos. Los sistemas de alerta notifican a los objetivos cuando se detectan ataques coordinados o picos anómalos, lo que permite una respuesta más rápida y solicitudes de eliminación.

Canales legales y de plataforma

Utilice los flujos de denuncia de la plataforma con paquetes de evidencia claros: enlaces, fechas, capturas de pantalla e impactos. Haga referencia a las políticas sobre difamación y acoso.
Escale mediante notificaciones formales cuando proceda; mantenga registros de correspondencia e identificadores de tickets en su cadena de evidencia.
Considere las diferencias jurisdiccionales en difamación y responsabilidad de la plataforma; consulte con un abogado en casos de alto riesgo.

Hoja de ruta de implementación (Año 1)

MVP: esquema de atestación y SDK del editor para firmar declaraciones de identidad y afirmaciones de eventos.
Piloto con un pequeño grupo de profesionales y organizaciones verificados; establecer flujos de trabajo de verificación.
Complementos RAG: habilitar el modo "primera respuesta con procedencia" que prioriza fuentes atestadas para consultas sensibles.

Lecturas adicionales (con fechas)

Colaboración

Esta investigación está a la vanguardia y en constante evolución. Chad Scira da la bienvenida a la colaboración con otros profesionales de este sector.

Si está interesado en colaborar, comuníquese en: [email protected]