El 8 de enero de 2026, el Centro para Estándares e Innovación en IA (CAISI) del NIST publicó una solicitud formal de información dirigida a desarrolladores, investigadores y operadores de sistemas agénticos. No es una guía. No es una normativa. Es una pregunta abierta: ¿cómo medimos la seguridad de algo que toma decisiones autónomas, usa herramientas reales y puede desplegarse sin supervisión humana?
La pregunta no es retórica. Es estructural. Y que el NIST la haga públicamente, pidiendo respuestas al sector, es en sí mismo un dato.
La autonomía amplía el perímetro de ataque
Según el documento publicado por el CAISI en el Federal Register, los sistemas agénticos consisten en al menos un modelo generativo y software de andamiaje que equipa al modelo con herramientas para tomar acciones discrecionales, pudiendo desplegarse con poca o ninguna supervisión humana. La implicación es directa: si los riesgos no se abordan, estas vulnerabilidades pueden derivar en amenazas sobre infraestructuras críticas, incluyendo el desarrollo o uso de armas CBRNE.
Lo que hace distinto este escenario no es la potencia del modelo base. Es la combinación de autonomía, acceso a herramientas y persistencia. Según el informe Cisco State of AI Security 2026, el 83% de las organizaciones planea desplegar capacidades agénticas en sus operaciones, pero solo el 29% declara estar preparada para asegurar esos despliegues. La brecha existe, en parte, porque los ataques no se parecen a lo que las herramientas tradicionales están diseñadas para detectar. El exploit es texto. El payload es una instrucción en lenguaje natural. El vector de entrega es un documento, una página web o la salida de una herramienta que el agente procesa como parte de su flujo de trabajo normal.
Las defensas convencionales buscan binarios maliciosos, comportamiento anómalo de procesos, indicadores de compromiso conocidos. Los ataques a agentes no tienen ninguna de esas propiedades.
El daño se propaga más rápido de lo que se detecta
En sistemas multi-agente, el riesgo de propagación semántica es cualitativamente diferente al riesgo de un exploit clásico: la memoria de un agente se convierte en entrada para otro, y la contaminación puede replicarse a través de la red de razonamiento sin dejar rastro binario. No hay malware. No hay escalación de privilegios visible. El sistema registra acciones autorizadas. El modelo ejecutó lo que interpretó como su tarea.
Esto también transforma el movimiento lateral. Como señala Brian Krebs en KrebsOnSecurity —citando investigación de Orca Security—, los agentes IA ofrecen a los atacantes un camino más directo para moverse lateralmente dentro de la red de una víctima tras el compromiso inicial: manipulando agentes que ya tienen acceso confiable y cierto grado de autonomía. Las organizaciones deben añadir un tercer pilar a su estrategia defensiva: limitar la «fragilidad IA», la capacidad de los sistemas agénticos de ser influenciados, engañados o silenciosamente armados a través de flujos de trabajo.
La analogía clásica —detectar, contener, remediar— asume que puedes ver el ataque mientras ocurre. Cuando un agente con acceso a CLI de AWS ejecuta comandos de eliminación legítimos bajo instrucciones inyectadas desde un archivo README contaminado, lo que se registra es una acción autorizada. No hay nada que detectar con las herramientas habituales.
El problema no es la IA. Es la delegación sin arquitectura de control
La solicitud del NIST pregunta explícitamente por metodologías de medición y mejora del desarrollo seguro de agentes. Esa formulación importa: no pide mitigaciones post-despliegue, sino frameworks de diseño que incorporen seguridad desde la fase de especificación. El riesgo no emerge cuando un agente falla. Emerge cuando un agente funciona perfectamente dentro de un modelo de amenaza que nadie definió.
En su respuesta formal al RFI, el Centro sobre Cibernética e Innovación Tecnológica (CCTI) de la Fundación para la Defensa de las Democracias (FDD) documenta casos de agentes ya desplegados que han realizado inyecciones de prompt contra otros, llevándolos a eliminar sus propias cuentas, ejecutar esquemas de manipulación financiera o establecer falsa autoridad. Y el Centro Nacional de Ciberseguridad del Reino Unido (NCSC) concluyó que, dada la ausencia de delimitación clara entre instrucciones y datos en un LLM, puede ser imposible eliminar completamente las inyecciones de prompt una vez introducidas en un sistema.
No es un bug. Es una propiedad del paradigma. Los LLMs operan en el espacio semántico, no sintáctico. Esa es su potencia y su vulnerabilidad fundamental, y ambas son inseparables.
Intentar regular lo que aún no sabemos gobernar
La fecha límite para responder a la solicitud del NIST era el 9 de marzo de 2026. Las respuestas informarán el trabajo del CAISI sobre evaluación de riesgos, desarrollo de métricas y generación de directrices técnicas para sistemas agénticos. Esto ocurre en paralelo a marcos como ISO 42001 y el AI Risk Management Framework del propio NIST, que no contemplan bien a los agentes porque su superficie de ataque incluye tanto los sistemas externos como los propios agentes como vectores.
Según el análisis del FDD, los marcos existentes no abordan completamente las vulnerabilidades que los agentes autónomos introducen en contextos de seguridad nacional. Los adversarios pueden reutilizar ataques ya efectivos contra IA convencional, pero con consecuencias que se extienden más allá de salidas manipuladas a acciones ejecutadas en nombre de quien delegó.
Los agentes ya están en producción. Gestionan correo, calendarios, infraestructura cloud, interacciones con clientes. Y nadie tiene todavía una taxonomía completa de qué vigilar, qué auditar, qué prohibir. La pregunta del NIST no es académica: es el reconocimiento de que la velocidad de adopción ha superado la capacidad institucional de especificar qué significa «seguro» en este contexto.
¿Cómo aseguras algo que razona?