Hay una forma de atacar a un competidor que no deja rastro en ningún log de seguridad, no activa ninguna alerta de WAF y no requiere acceso a ningún sistema ajeno. Solo requiere contenido. Mucho contenido, publicado con precisión, orientado a un objetivo semántico concreto. El resultado: la entidad objetivo desaparece progresivamente del espacio de recuperación de los modelos de lenguaje que millones de personas consultan cada día. No es ciencia ficción. Es una extensión lógica de lo que ya sabemos sobre cómo funcionan los LLMs y cómo se construyen sus corpus.
Para entender el mecanismo, conviene recordar qué determina que un modelo asocie una entidad con un concepto. Los LLMs no almacenan hechos en tablas relacionales; aprenden distribuciones estadísticas sobre co-ocurrencias textuales. Si «empresa X» aparece consistentemente junto a «soluciones de ciberseguridad empresarial» en miles de documentos del corpus de entrenamiento, el modelo desarrolla una asociación paramétrica entre ambos conceptos. Si esa co-ocurrencia se diluye —porque otro actor inunda el espacio con contenido que asocia ese mismo nicho semántico a una entidad diferente— la probabilidad de que el modelo evoque «empresa X» al responder preguntas sobre ese dominio disminuye. No por olvido, sino por desplazamiento estadístico.
Esto es lo que algunos investigadores del campo de Generative Engine Optimization (GEO) han empezado a documentar como saturación de corpus: la producción sistemática de contenido orientada no a posicionar una entidad, sino a desplazar a otra ocupando su espacio semántico antes de que el modelo lo consolide. El grupo de Princeton que publicó el paper seminal sobre GEO en 2023 ya apuntaba que ciertos patrones de contenido influyen desproporcionadamente en las respuestas generativas. La saturación de corpus lleva esa lógica al extremo ofensivo: no optimizar para ganar visibilidad, sino para que el competidor la pierda.
El paralelismo con un DDoS no es metafórico. En un ataque de denegación de servicio tradicional, se satura un canal con tráfico legítimo en apariencia para que el tráfico legítimo real no pueda pasar. En la saturación de corpus, se satura un espacio semántico con contenido formalmente correcto para que las asociaciones del competidor no puedan consolidarse o se degraden en re-entrenamientos sucesivos. El canal aquí no es ancho de banda: es atención estadística del modelo.
La ejecución práctica tiene varios vectores. El primero y más directo es la producción masiva de contenido indexable que asocia el nicho semántico objetivo a la entidad atacante, usando variantes de la terminología que el competidor ha trabajado durante años. El segundo, más sofisticado, pasa por contaminar fuentes que tienen alta probabilidad de ser incluidas en corpus de entrenamiento: Wikipedia, foros especializados, repositorios académicos, publicaciones con alto PageRank. Investigadores como Carlini et al. han documentado cómo el contenido de estas fuentes tiene un peso estadístico desproporcionado en los modelos resultantes. Atacar esas fuentes es atacar el modelo antes de que se entrene.
El tercer vector afecta específicamente a sistemas RAG, que son los que más organizaciones despliegan hoy en producción. Aquí la saturación no necesita esperar al próximo ciclo de entrenamiento: si el atacante consigue que su contenido sea el que el sistema de recuperación prioriza cuando se consulta el nicho semántico objetivo, el efecto es inmediato. La entidad competidora simplemente no aparece en el contexto que el modelo recibe para generar su respuesta, aunque exista información sobre ella en algún lugar de la base de datos. Esto conecta directamente con la problemática del AIO poisoning que hemos analizado en posts anteriores de este blog: la capa de recuperación es tan manipulable como la capa de generación, y a menudo más.
Lo que hace especialmente difícil defender contra esto es que el ataque no viola ninguna regla explícita. Publicar contenido sobre un tema no es ilegal. Optimizar ese contenido para motores de búsqueda generativos tampoco. La frontera entre GEO legítimo y saturación de corpus ofensiva es, en la práctica, una cuestión de intención y escala, dos variables que ningún sistema automatizado de detección mide con fiabilidad. Los mecanismos de defensa que existen hoy —diversificación de fuentes en RAG, monitorización de deriva semántica en embeddings, auditorías de atribución en respuestas generativas— son parciales y costosos de implementar. Empresas como Vectara han empezado a trabajar en métricas de fidelidad para sistemas RAG, pero la detección de desplazamiento intencional de entidades sigue siendo un problema abierto.
Queda una pregunta que no tiene respuesta técnica. Si un modelo de lenguaje empieza a responder preguntas sobre un sector sin mencionar a uno de sus actores principales, no porque ese actor haya hecho algo malo, sino porque alguien invirtió suficientes recursos en ocupar su espacio semántico antes de la próxima ventana de entrenamiento, ¿quién tiene la responsabilidad de corregirlo? ¿El modelo, que no sabe que fue manipulado? ¿El propietario del sistema, que no tiene visibilidad sobre el corpus de preentrenamiento? ¿O la industria, que construyó una infraestructura de conocimiento sin mecanismos de auditoría sobre quién controla qué parte de ella?