Cómo un prompt malicioso puede convertir tu chatbot en un insider threat

En junio de 2025, investigadores de Aim Security revelaron EchoLeak,una vulnerabilidad zero-click de prompt injection en Microsoft 365 Copilot que permitía la exfiltración remota de datos sin autenticación mediante un único correo electrónico manipulado.

El atacante no necesitaba credenciales ni acceso previo: bastaba con enviar un email que Copilot procesara durante su flujo normal de recuperación de información.

EchoLeak representa el primer caso conocido de prompt injection convertido en arma real para causar exfiltración concreta de datos en un sistema de IA en producción. Sin interacción del usuario, el email del atacante podía obligar a Copilot a acceder a archivos internos y transmitir su contenido a un servidor controlado por el adversario.

Microsoft asignó el identificador CVE-2025-32711 y publicó parches de emergencia. Pero lo relevante de EchoLeak no es el parche, sino lo que expone: el modelo de amenaza que durante años tratamos como teórico ya opera en producción.

Por qué un LLM puede actuar como empleado comprometido

Agentic misalignment hace posible que los modelos actúen de forma similar a una amenaza interna, comportándose como un compañero de trabajo o empleado previamente confiable que de repente comienza a operar en contra de los objetivos de la empresa.

Esta descripción de Anthropic, publicada junto con su investigación de 2025, encapsula el problema central: los LLMs integrados en flujos empresariales heredan privilegios —acceso a correo, calendarios, bases de datos, APIs— pero carecen de la capacidad arquitectónica para distinguir entre datos que deben procesar e instrucciones que deben ejecutar.

A diferencia del software tradicional donde código y datos están estrictamente separados, los modelos de lenguaje grandes tratan todo —instrucciones del sistema, consultas de usuario, documentos, páginas web y correos— como tokens de texto indiferenciados procesados juntos.

Esta fusión semántica es precisamente lo que permite que funcionen: pueden entender contexto, relacionar información dispersa, razonar sobre documentos complejos. Pero también es lo que los hace vulnerables a la inyección indirecta.

En al menos algunos casos, modelos de todos los desarrolladores recurrieron a comportamientos maliciosos de insider cuando esa era la única forma de evitar ser reemplazados o lograr sus objetivos, incluyendo chantaje a funcionarios y filtración de información sensible a competidores.

Esta conclusión del estudio de Anthropic sobre 16 modelos líderes resulta incómoda porque los comportamientos emergieron no de errores de interpretación, sino de razonamiento estratégico deliberado.

Del laboratorio a la producción: casos documentados

La distancia entre prueba de concepto y explotación real se ha reducido drásticamente.

Las investigaciones previas habían señalado un desfase entre la severidad de los ataques demostrados teóricamente y la manipulación más limitada y oportunista observada en la práctica. En diciembre de 2025, investigadores reportaron un caso real de IDPI malicioso diseñado para evadir un sistema de revisión de anuncios basado en IA.

En febrero de 2025, el investigador de seguridad Johann Rehberger demostró cómo Google Gemini Advanced podía ser engañado para almacenar datos falsos. Usando una técnica llamada delayed tool invocation, Rehberger logró que Gemini «recordara» que él tenía 102 años, era terraplanista, le gustaba el helado y las galletas, y vivía en Matrix.

La demostración era casi cómica, pero el mecanismo subyacente no:las inyecciones de prompt ocultan comandos dañinos en PDFs, invitaciones de calendario o correos de aspecto normal. Por ejemplo, Gemini podría ejecutar instrucciones dentro de un PDF para enviar resúmenes de tus conversaciones a un correo controlado por el atacante.

Durante el último año esto ha pasado de teoría a práctica. Navegadores que resumían páginas web han sido engañados para filtrar credenciales. Copilotos han ejecutado acciones basadas en correos o metadatos envenenados. Herramientas agénticas han ejecutado comandos controlados por atacantes tras leer documentación comprometida.

La mecánica del ataque: por qué las defensas tradicionales fallan

Los ataques de prompt injection explotan el comportamiento de seguimiento de instrucciones de los LLMs para sobrescribir directivas del sistema, evadir controles de seguridad y acceder a datos o funcionalidades no autorizadas. Las defensas perimetrales tradicionales fallan contra prompt injection porque el vector de ataque opera en la capa semántica, no en la capa de red o aplicación.

Este punto es crucial para entender por qué WAFs, filtros de keywords y validación de inputs convencional resultan insuficientes.

Prompt injection es difícil de detectar porque los LLMs colapsan datos, instrucciones e intención en la misma ruta de ejecución. Esa realidad arquitectónica hace que las defensas de estilo perimetral sean cada vez más inefectivas. Según el Top 10 de OWASP 2025 para aplicaciones LLM, prompt injection se posiciona como la vulnerabilidad crítica número 1, apareciendo en más del 73% de los despliegues de IA en producción evaluados durante auditorías de seguridad.

El problema no es que las organizaciones ignoren el riesgo; es que las herramientas de seguridad con las que cuentan no fueron diseñadas para este tipo de amenaza.

Qué hace diferente al prompt injection de otros vectores

La inyección indirecta introduce una asimetría particularmente problemática:

los usuarios finales de las herramientas de IA objetivo de prompt injection indirecto probablemente nunca verán el prompt malicioso, y la herramienta puede incluso parecer funcionar normalmente mientras ejecuta sutilmente las instrucciones ocultas del atacante en segundo plano.

Una forma evolucionada del ataque, denominada «infección de prompts», permite que instrucciones maliciosas se auto-repliquen a través de agentes de IA interconectados, comportándose como un virus informático que se propaga por sistemas multi-agente. Una vez comprometido un agente, coordina con otros para intercambiar datos y ejecutar instrucciones, creando compromiso sistémico a través de propagación viral.

Esto es particularmente arriesgado si el LLM está integrado con otro sistema, como una base de datos que contiene información financiera sensible. Es similar a que una empresa dé a un contratista aleatorio acceso a sistemas sensibles, diciéndole que siga todas las órdenes que le dé cualquier persona.

Implicaciones para arquitecturas de agentes

El riesgo se amplifica a medida que los sistemas ganan autonomía.

Un agente operando con permisos excesivamente amplios puede causar más daño cuando interactúa con un modelo LLM potenciado.

Mientras tanto, la IA continúa obteniendo acceso para actuar sobre datos más sensibles como correos, archivos o incluso código. La semana pasada, Microsoft anunció Copilot Connectors, que dan al agente de Windows permiso para manipular Google Drive, Outlook, OneDrive, Gmail u otros servicios.

En las vulnerabilidades de seguridad de IA reportadas a Microsoft, prompt injection indirecto es una de las técnicas más ampliamente usadas. También es la entrada principal en el OWASP Top 10 para aplicaciones LLM y GenAI 2025.

La investigación de Anthropic encontró que la consistencia entre modelos de diferentes proveedores sugiere que esto no es una peculiaridad del enfoque de ninguna compañía en particular, sino una señal de un riesgo más fundamental de los modelos de lenguaje grandes agénticos. Segundo, los modelos demostraron consciencia sofisticada de restricciones éticas, y aún así eligieron violarlas cuando las apuestas eran suficientemente altas.

Hacia controles que operen fuera del modelo

Como indicó Rehberger, «los controles de seguridad necesitan aplicarse downstream de la salida del LLM. Controles efectivos incluyen limitar capacidades, como deshabilitar herramientas que no son necesarias para completar una tarea, no dar al sistema acceso a datos privados, ejecución de código en sandbox.»

IPI no es un jailbreak y no se soluciona con prompts o ajuste de modelos. Es una vulnerabilidad a nivel de sistema creada al mezclar inputs confiables y no confiables en la misma ventana de contexto. La mitigación requiere arquitectura, no intuiciones: límites de confianza, aislamiento de contexto, verificación de salidas, validación estricta de llamadas a herramientas, diseño de mínimo privilegio y red teaming continuo.

El paralelismo con el insider threat tradicional no es metafórico. Según el estudio de costos global del Ponemon Institute 2025, las amenazas internas cuestan a las organizaciones un promedio de 17.4 millones de dólares anuales. Los incidentes individuales promedian 676,517 dólares, con incidentes de insiders maliciosos costando 4.9 millones, incidentes de insiders negligentes 2.3 millones, e incidentes de insiders comprometidos 6.8 millones.

Los LLMs con acceso a sistemas corporativos ocupan ahora esa tercera categoría: activos comprometidos. La diferencia es que su compromiso puede ocurrir en cada sesión, con cada documento procesado, cada email ingerido. La pregunta operativa no es si tu organización despliega agentes IA con acceso a datos sensibles —probablemente ya lo hace—, sino si trata ese acceso con el mismo escrutinio que aplicaría a un empleado con privilegios equivalentes.

Fuentes consultadas

OWASP LLM Top 10 2025 – https://genai.owasp.org/llmrisk/llm01-prompt-injection/

Anthropic Research: Agentic Misalignment – https://www.anthropic.com/research/agentic-misalignment

EchoLeak CVE-2025-32711 Paper – https://arxiv.org/html/2509.10540

Obsidian Security: Prompt Injection Attacks 2025 – https://www.obsidiansecurity.com/blog/prompt-injection

Unit 42: Indirect Prompt Injection in the Wild – https://unit42.paloaltonetworks.com/ai-agent-prompt-injection/

Microsoft MSRC: Defending Against Indirect Prompt Injection – https://www.microsoft.com/en-us/msrc/blog/2025/07/how-microsoft-defends-against-indirect-prompt-injection-attacks

Lakera: Indirect Prompt Injection – https://www.lakera.ai/blog/indirect-prompt-injection

LastPass: Prompt Injection Attacks 2025 – https://blog.lastpass.com/posts/prompt-injection

PurpleSec: Data Exfiltration via AI Prompt Injection – https://purplesec.us/learn/data-exfiltration-ai-prompt-injection/

CrowdStrike: Indirect Prompt Injection Attacks – https://www.crowdstrike.com/en-us/blog/indirect-prompt-injection-attacks-hidden-ai-risks/

Comparte