La instrucción como vector de ataque: la inyección de prompts como vulnerabilidad de diseño
Cuando una empresa despliega un asistente de IA sobre sus datos internos, asume que el modelo hará lo que le han pedido: responder preguntas, resumir documentos, ayudar al equipo. Lo que no suele asumir es que un tercero, sin acceso directo al sistema, pueda redirigir ese asistente para que filtre información, deshabilite sus propios filtros … Leer más