El agente que no sabe con quién habla

Hay una pregunta que el caso OpenClaw deja sin responder, y que los análisis técnicos no acaban de formular: ¿qué significa confiar en un sistema que no entiende el contexto en el que actúa?

OpenClaw es un agente de IA autónomo de código abierto que conecta con tus aplicaciones de mensajería, gestiona tu correo, ejecuta comandos de terminal, navega por la web y opera sobre tu vida digital de forma persistente. En semanas alcanzó 135.000 estrellas en GitHub, convirtiéndose en uno de los proyectos de mayor crecimiento en la historia de la plataforma. Esa velocidad de adopción es parte del problema, pero no la causa.

La causa es más estructural.

Cuando localhost deja de ser frontera

La vulnerabilidad CVE-2026-25253, con una puntuación CVSS de 8.8, es técnicamente un fallo de validación de WebSocket. Pero lo que revela va más allá del parche. OpenClaw asumía que cualquier conexión originada desde localhost podía ser implícitamente confiable, sin considerar que los sitios web también pueden originar conexiones desde esa misma dirección local. Un atacante podía construir una página con JavaScript que abriera silenciosamente una conexión WebSocket al gateway del agente, extrajera el token de autenticación y tomara control administrativo completo de la instancia. Desde ahí: desactivar confirmaciones, escapar del sandbox Docker, ejecutar comandos arbitrarios en la máquina anfitriona. El ataque se ejecuta en milisegundos y es explotable incluso en instancias vinculadas solo a localhost.

El fallo no era que alguien hubiera escrito código descuidado. Era que el modelo de confianza del sistema estaba construido sobre una asunción incorrecta: que el perímetro de red equivale al perímetro de riesgo. En un entorno agéntico, eso no se sostiene.

ClawHavoc y la cadena de suministro como superficie de ataque

Mientras se corregía el núcleo, el ecosistema de extensiones revelaba el mismo problema a otra escala. Koi Security auditó los 2.857 skills disponibles en ClawHub y encontró 341 entradas maliciosas, de las cuales 335 se rastrearon hasta una única operación coordinada, la campaña denominada ClawHavoc. Los skills maliciosos se distribuían con documentación profesional, nombres plausibles —herramientas de seguimiento de wallets, utilidades de productividad—, e instrucciones de instalación que pedían al usuario pegar comandos en el terminal o descargar archivos externos. En macOS, los payloads instalaban variantes del Atomic Stealer; en Windows, shells inversas. Las cifras actualizadas sitúan los skills comprometidos en más de 1.184 sobre un registro total de 10.700, aproximadamente el 20% del ecosistema.

No era sofisticación técnica. Era ingeniería social aprovechando un recurso específico de los entornos agénticos: la confianza del desarrollador en los repositorios comunitarios, transferida sin fricción a un sistema con acceso de administrador sobre su máquina.

Aquí aparece con claridad el problema de fondo.

Acceso heredado, contexto ausente

Un humano que instala una extensión sospechosa puede leer la documentación, dudar, preguntar, comparar con versiones anteriores. Puede activar, aunque sea imperfectamente, un juicio sobre intención. Un agente autónomo no duda: ejecuta. La asimetría no es solo técnica; es epistémica. El agente hereda el acceso que el usuario le ha delegado —correo, calendario, Slack corporativo, repositorios privados, tokens de API— pero no hereda ninguna representación del contexto de riesgo en el que opera. No sabe que esa skill acaba de subirse. No sabe que esa instrucción viene de un sitio que el usuario no eligió visitar conscientemente. No sabe que el sistema de confianza del open source fue diseñado para humanos que pueden razonar sobre reputación, historial y señales débiles.

Cuando un agente autónomo está comprometido, el atacante hereda todo ese acceso. Ese es el salto cualitativo respecto a las vulnerabilidades de generaciones anteriores. No comprometes un proceso; comprometes una delegación de capacidades que el usuario construyó durante semanas de integración.

SecurityScorecard identificó más de 135.000 instancias de OpenClaw expuestas públicamente en 82 países, muchas sin autenticación activa y con permisos que incluían acceso a entornos corporativos. Bitdefender confirmó despliegues de OpenClaw en máquinas corporativas sin visibilidad del equipo de seguridad. El agente personal se convierte en vector de movimiento lateral. No porque alguien lo haya diseñado así, sino porque nadie diseñó el perímetro de confianza para este escenario.

Autonomía sin perímetro de confianza

La respuesta técnica fue rápida. El parche llegó en menos de 24 horas tras la divulgación de CVE-2026-25253, y versiones posteriores añadieron validación de origen, gestión reforzada de sesiones y cambios en la política SSRF. Las vulnerabilidades concretas se han ido cerrando.

Pero hay algo que los parches no tocan: la arquitectura de confianza subyacente no fue diseñada para entornos agénticos. Fue heredada del modelo open source clásico —confianza en el contribuidor, confianza en la comunidad, confianza en el repositorio— sin el componente que en ese modelo lo sostiene: la capacidad del humano de ejercer juicio sobre las señales disponibles.

Un agente que puede ejecutar comandos, gestionar credenciales, operar sobre memoria persistente y actuar en múltiples servicios conectados necesita un modelo de confianza diferente. Uno que no asuma que el perímetro de red define el perímetro de riesgo. Uno que no trate la delegación de acceso como equivalente a la delegación de juicio.

La nueva capa de riesgo opera con los mismos privilegios que el agente que el usuario configuró. Eso no es un bug. Es una consecuencia de haber construido autonomía antes de haber construido los mecanismos para acotar su superficie de daño.

La pregunta que queda abierta no es si OpenClaw se va a estabilizar. Casi seguro que sí. La pregunta es si los siguientes agentes autónomos —los que vendrán con más capacidades, más integraciones y más usuarios— van a resolver primero ese problema estructural o si van a reproducir la misma apuesta: adopción primero, perímetro de confianza después.


Fuentes: Koi Security / ClawHavoc · SecurityScorecard STRIKE Team · Conscia · AdminByRequest · Dark Reading · NVD / CVE-2026-25253

Comparte

Deja un comentario