Google Chrome advierte a los desarrolladores que las herramientas WebMCP se pueden utilizar para manipular y secuestrar agentes de inteligencia artificial. La nueva guía describe cómo los atacantes pueden manipular los agentes que operan en el navegador de un usuario, incluso dentro de sus sesiones autenticadas. Chrome publicó dos guías, una para desarrolladores web y otra para desarrolladores de agentes de IA.
Los exploits no son específicos de WebMCP
La advertencia tiene dos descargos de responsabilidad que explican que los exploits no son específicos de WebMCP sino que son fallas inherentes a los LLM y las extensiones de Chrome.
El primer descargo de responsabilidad dice que la amenaza no es exclusiva de WebMCP. Chrome explica que los agentes de IA pueden encontrar entradas maliciosas de contenido que no es de confianza incluso sin WebMCP, y que la guía identifica técnicas de seguridad que son especialmente relevantes cuando los agentes usan WebMCP:
“Si bien esta amenaza existe sin WebMCP, hemos identificado algunas de las técnicas de seguridad que son especialmente relevantes para los agentes que utilizan WebMCP”.
El segundo descargo de responsabilidad explica que las extensiones de Chrome con permisos de host pueden manipular páginas web incluso sin WebMCP:
“Las extensiones pueden usar permisos de host para manipular la página ejecutando JavaScript personalizado, incluso sin WebMCP”.
Chrome publicó dos guías de seguridad WebMCP relacionadas:
- Consideraciones de seguridad del agente para WebMCP, para desarrolladores de agentes de IA
- y seguridad de herramientas WebMCP, para desarrolladores que crean herramientas WebMCP
Juntas, las dos guías brindan orientación de seguridad para los riesgos de inyección rápida en WebMCP, incluidos los riesgos que afectan a los agentes de IA basados en navegador y las herramientas que utilizan.
Chrome identifica dos formas en que se pueden secuestrar agentes de IA
Según la guía de seguridad para agentes de Chrome, los agentes de IA que utilizan WebMCP deben defenderse contra dos vectores de ataque principales: manifiestos maliciosos y resultados contaminados.
- Manifiesto
Un manifiesto es la información que describe las herramientas WebMCP y las funciones del sitio web para un agente de IA. El manifiesto describe cómo se llaman las funciones del sitio web, qué hacen y qué entradas aceptan para que los agentes de IA puedan descubrirlas y utilizarlas. - Salida contaminada
Una salida contaminada es información devuelta por una herramienta WebMCP que contiene instrucciones maliciosas.
Un malicioso manifiesto puede contener ataques de inyección rápida ocultos en nombres de herramientas, descripciones o parámetros. Estas instrucciones están diseñadas para manipular o secuestrar el comportamiento de un agente de IA.
El segundo vector de ataque, salidas contaminadases información devuelta por una herramienta WebMCP que contiene instrucciones maliciosas. Chrome advierte que incluso las herramientas confiables pueden generar resultados contaminados cuando incluyen contenido de terceros, como comentarios de usuarios, reseñas, publicaciones en foros u otros datos proporcionados externamente.
Estos ataques funcionan porque los modelos de lenguaje grandes procesan instrucciones y datos juntos. Es posible que un modelo no distinga de manera confiable entre la solicitud de un usuario y las instrucciones maliciosas ocultas en el contenido que consume. Chrome describe esto como inyección inmediata indirecta y señala que la prevalencia de estos ataques en la web está aumentando.
Chrome dice que los modelos de IA no pueden detener de manera confiable la inyección rápida
La guía de seguridad del agente establece:
“Los LLM tratan todo el texto, las instrucciones y los datos del usuario como una secuencia única de tokens. Esto significa que son susceptibles a una inyección inmediata indirecta, una inclusión de instrucciones maliciosas por parte de un atacante. Si bien algunos modelos incluyen capas de seguridad contra la inyección rápida, la naturaleza probabilística de los LLM hace imposible garantizar la seguridad dentro del modelo mismo.
Los investigadores de seguridad han demostrado repetidamente ataques de inyección rápida contra sistemas agentes que utilizan LLM de última generación, y la prevalencia de ataques en la web está aumentando”.
Chrome también señala repetidas demostraciones de ataques de inyección rápida contra sistemas agentes y cita una creciente actividad de inyección rápida en la web.
Chrome recomienda controles de seguridad en capas
En lugar de depender del modelo para reconocer instrucciones maliciosas, Chrome recomienda una estrategia de defensa en profundidad que combine controles deterministas con salvaguardas probabilísticas. En este contexto, determinista significa barreras de seguridad binarias, predecibles y basadas en reglas.
Entre los controles deterministas que recomienda Chrome se encuentran:
- Establecer límites de tokens en las respuestas de las herramientas
- Restringir las interacciones entre orígenes
- Requerir la confirmación del usuario antes de tomar medidas
- Reconocer y manejar contenido marcado como no confiable
Chrome también dice que limitar los orígenes web con los que un agente puede interactuar puede reducir las oportunidades de acciones no autorizadas y filtración de datos, particularmente cuando los agentes operan dentro de sesiones de usuarios autenticados.
La guía también enfatiza mantener a los humanos informados y tratar las herramientas WebMCP como capaces de modificar el estado a menos que estén explícitamente identificadas como de solo lectura.
Para protección adicional, Chrome recomienda técnicas como resaltar contenido que no es de confianza, clasificadores de inyección rápida que analizan las descripciones y resultados de las herramientas, y modelos “críticos” secundarios que evalúan las llamadas a herramientas planificadas antes de su ejecución.
Orientación para desarrolladores de herramientas WebMCP
La guía de seguridad de la herramienta se centra en los desarrolladores que crean sitios web y aplicaciones que exponen las herramientas WebMCP a agentes de IA.
Chrome recomienda utilizar sugerencias de anotaciones que ayuden a los agentes a comprender cómo se debe manejar la salida de la herramienta. Un ejemplo es untrustedContentHint, que se puede aplicar cuando una herramienta devuelve contenido generado por el usuario o información de origen externo. Según Chrome, la pista indica que el resultado debería recibir un escrutinio adicional.
También se anima a los desarrolladores a utilizar readOnlyHint para herramientas que no modifican el estado, lo que ayuda a los agentes a tomar mejores decisiones sobre cuándo es necesaria la confirmación del usuario.
La implementación de Chrome permite a los desarrolladores especificar orígenes confiables a través de una configuración expuesta a, lo que limita el acceso a los sitios aprobados. La guía señala que incluso las herramientas de solo lectura pueden revelar información del usuario y solo deben compartirse con orígenes confiables.
Llevar
El aspecto más notable de la guía no son las recomendaciones de seguridad individuales, sino el reconocimiento de Chrome de que la inyección rápida sigue siendo un desafío fundamental para los agentes de IA.
En lugar de presentar mejoras del modelo como solución, la guía de Chrome supone que los atacantes lograrán colocar instrucciones maliciosas en descripciones de herramientas, resultados de herramientas y contenido de terceros. La respuesta recomendada es una arquitectura de seguridad en capas que combine controles de acceso, aislamiento de contenido, supervisión humana, monitoreo y sistemas de validación independientes.
La guía de Chrome trata la seguridad de los agentes de IA como una responsabilidad compartida entre los desarrolladores de agentes y los desarrolladores de herramientas en todo el ecosistema WebMCP.
Fuentes
Consideraciones de seguridad del agente para WebMCP
Seguridad de la herramienta WebMCP
Imagen destacada de Shutterstock/A9 STUDIO

