Cómo ven los agentes de IA su sitio web (y cómo crearlo para ellos)

- Advertisement -spot_img

Todas las principales plataformas de inteligencia artificial ahora pueden navegar por sitios web de forma autónoma. La navegación automática de Chrome se desplaza y hace clic. ChatGPT Atlas llena formularios y completa compras. Perplexity Comet investiga entre pestañas. Pero ninguno de estos agentes ve su sitio web como lo hace un humano.

Esta es la Parte 4 de una serie de cinco partes sobre la optimización de sitios web para la web agencial. La parte 1 cubrió la evolución de SEO a AAIO. La parte 2 explicó cómo hacer que su contenido sea citado en las respuestas de IA. La parte 3 mapeó los protocolos que forman la capa de infraestructura. Este artículo se vuelve técnico: cómo los agentes de IA perciben realmente su sitio web y qué construir para ellos.

La idea central es una que sigue apareciendo en mi investigación: lo más impactante que se puede hacer para la compatibilidad de los agentes de IA es el mismo trabajo que los defensores de la accesibilidad web han estado impulsando durante décadas. El árbol de accesibilidad, creado originalmente para lectores de pantalla, se está convirtiendo en la interfaz principal entre los agentes de IA y su sitio web.

Según el Informe Imperva Bad Bot 2025 (Imperva es una empresa de ciberseguridad), el tráfico automatizado superó al tráfico humano por primera vez en 2024, constituyendo el 51% de todas las interacciones web. No todo eso es navegación agente, pero la dirección es clara: la audiencia no humana de su sitio web ya es mayor que la humana y está creciendo. A lo largo de este artículo, nos basamos exclusivamente en documentación oficial, investigaciones revisadas por pares y anuncios de las empresas que construyen esta infraestructura.

Tres formas en que los agentes ven su sitio web

Cuando un humano visita su sitio web, ve colores, diseño, imágenes y tipografía. Cuando un agente de IA nos visita, ve algo completamente diferente. Comprender lo que los agentes realmente perciben es la base para crear sitios web que funcionen para ellos.

Las principales plataformas de IA utilizan tres enfoques distintos y las diferencias tienen implicaciones directas sobre cómo debe estructurar su sitio web.

Visión: lectura de capturas de pantalla

El uso de la computadora de Anthropic adopta el enfoque más literal. Claude toma capturas de pantalla del navegador, analiza el contenido visual y decide en qué hacer clic o escribir en función de lo que “ve”. Es un bucle de retroalimentación continuo: captura de pantalla, motivo, acto, captura de pantalla. El agente opera a nivel de píxel, identifica botones por su apariencia visual y lee el texto de la imagen renderizada.

El Proyecto Mariner de Google sigue un patrón similar con lo que Google describe como un ciclo de “observar-planificar-actuar”: observar captura elementos visuales y estructuras de código subyacentes, planificar formula secuencias de acción y actuar simula las interacciones del usuario. Mariner logró una tasa de éxito del 83,5 % en el punto de referencia WebVoyager.

El enfoque de visión funciona, pero es computacionalmente costoso, sensible a los cambios de diseño y limitado por lo que se representa visualmente en la pantalla.

Árbol de accesibilidad: estructura de lectura

OpenAI tomó un camino diferente con ChatGPT Atlas. Las preguntas frecuentes de sus editores y desarrolladores son explícitas:

ChatGPT Atlas utiliza etiquetas ARIA, las mismas etiquetas y roles que admiten lectores de pantalla, para interpretar la estructura de la página y los elementos interactivos.

Atlas se basa en Chromium, pero en lugar de analizar los píxeles renderizados, consulta el árbol de accesibilidad en busca de elementos con funciones específicas (“botón”, “enlace”) y nombres accesibles. Esta es la misma estructura de datos que utilizan los lectores de pantalla como VoiceOver y NVDA para ayudar a las personas con discapacidad visual a navegar por la web.

Playwright MCP de Microsoft, el servidor MCP oficial para la automatización del navegador, adopta el mismo enfoque. Proporciona instantáneas de accesibilidad en lugar de capturas de pantalla, lo que brinda a los modelos de IA una representación estructurada de la página. Microsoft eligió deliberadamente los datos de accesibilidad en lugar de la representación visual para su estándar de automatización del navegador.

Híbrido: ambos a la vez

En la práctica, los agentes más capaces combinan enfoques. El agente de uso de computadoras (CUA) de OpenAI, que impulsa tanto a Operador como a Atlas, analiza capas de captura de pantalla con procesamiento DOM y análisis de árboles de accesibilidad. Prioriza las etiquetas y roles de ARIA, recurriendo al contenido de texto y a los selectores estructurales cuando los datos de accesibilidad no están disponibles.

La investigación de Perplexity confirma el mismo patrón. Su artículo BrowseSafe, que detalla la infraestructura de seguridad detrás del agente de navegador de Comet, describe el uso de “gestión de contexto híbrida que combina instantáneas de árboles de accesibilidad con visión selectiva”.

PlataformaEnfoque primarioDetalles
Uso antrópico de la computadoraVisión (capturas de pantalla)Captura de pantalla, motivo, bucle de retroalimentación de acto
Proyecto Marinero de GoogleVisión + estructura de códigoObservar-planificar-actuar con datos visuales y estructurales
Atlas abierto de IAÁrbol de accesibilidadUtiliza explícitamente etiquetas y roles ARIA
OpenAI CUAHíbridoCapturas de pantalla + DOM + árbol de accesibilidad
Dramaturgo de Microsoft MCPÁrbol de accesibilidadInstantáneas de accesibilidad, sin capturas de pantalla
Cometa de perplejidadHíbridoÁrbol de accesibilidad + visión selectiva

El patrón es claro. Incluso las plataformas que comenzaron con enfoques que priorizan la visión están incorporando datos de accesibilidad. Y las plataformas que optimizan la confiabilidad y la eficiencia (Atlas, Playwright MCP) lideran el árbol de accesibilidad.

El árbol de accesibilidad de su sitio web no es un artefacto de cumplimiento. Es cada vez más la interfaz principal que utilizan los agentes para comprender e interactuar con su sitio web.

El año pasado, antes de que entrara en vigor la Ley Europea de Accesibilidad, medio bromeé diciendo que sería irónico que lo que finalmente hiciera que la gente se preocupara por la accesibilidad fueran los agentes de inteligencia artificial, no las personas para las que estaba diseñada la accesibilidad. Eso ya no es una broma.

El árbol de accesibilidad es la interfaz de su agente

El árbol de accesibilidad es una representación simplificada del DOM de su página que los navegadores generan para las tecnologías de asistencia. Donde el DOM completo contiene cada div, span, styley scriptel árbol de accesibilidad elimina el ruido y expone sólo lo que importa: elementos interactivos, sus funciones, sus nombres y sus estados.

Leer  Cómo Macy's está llevando su programa de afiliados Style Crew más allá de las redes sociales

Por eso funciona tan bien para los agentes. El DOM de una página típica puede contener miles de nodos. El árbol de accesibilidad lo reduce a los elementos con los que un usuario (o agente) realmente puede interactuar: botones, enlaces, campos de formulario, encabezados, puntos de referencia. Para los modelos de IA que procesan páginas web dentro de una ventana de contexto limitada, esa reducción es significativa.

Las preguntas frecuentes de editores y desarrolladores de OpenAI son muy claras al respecto:

Siga las mejores prácticas de WAI-ARIA agregando roles, etiquetas y estados descriptivos a elementos interactivos como botones, menús y formularios. Esto ayuda a ChatGPT a reconocer lo que hace cada elemento e interactuar con su sitio con mayor precisión.

Y:

Hacer que su sitio web sea más accesible ayuda al agente ChatGPT en Atlas a comprenderlo mejor.

Los datos de la investigación respaldan esto. Los datos más rigurosos al respecto provienen de un estudio de la UC Berkeley y la Universidad de Michigan publicado para CHI 2026, la principal conferencia académica sobre interacción persona-computadora. Los investigadores probaron Claude Sonnet 4.5 en 60 tareas web del mundo real bajo diferentes condiciones de accesibilidad, recopilando 40,4 horas de datos de interacción en 158.325 eventos. Los resultados fueron sorprendentes:

CondiciónTasa de éxito de la tareaPromedio Tiempo de finalización
Estándar (predeterminado)78,33%324,87 segundos
Solo teclado41,67%650,91 segundos
Vista ampliada28,33%1.072,20 segundos

En condiciones estándar, el agente tuvo éxito casi el 80% de las veces. Restrinjalo a la interacción únicamente con el teclado (simulando cómo navegan los usuarios de lectores de pantalla) y el éxito cae al 42%, lo que lleva el doble de tiempo. Restrinja la ventana gráfica (simulando herramientas de ampliación) y el éxito se reduce al 28%, lo que lleva más de tres veces más tiempo.

El documento identifica tres categorías de brechas:

  • Brechas de percepción: los agentes no pueden acceder de manera confiable a los anuncios del lector de pantalla o a los cambios de estado de ARIA que les indiquen lo que sucedió después de una acción.
  • Brechas cognitivas: los agentes tienen dificultades para realizar un seguimiento del estado de la tarea en varios pasos.
  • Brechas de acción: los agentes infrautilizan los atajos de teclado y fallan en interacciones como arrastrar y soltar.

La implicación es directa. Los sitios web que presentan un árbol de accesibilidad rico y bien etiquetado brindan a los agentes la información que necesitan para tener éxito. Los sitios web que dependen de señales visuales, estados de desplazamiento o interacciones complejas de JavaScript sin alternativas accesibles crean las condiciones para que el agente falle.

El documento sobre arquitectura de la API de búsqueda de Perplexity de septiembre de 2025 refuerza esto desde el punto de vista del contenido. Su sistema de indexación prioriza el contenido que sea “de alta calidad tanto en fondo como en forma, con información capturada de una manera que preserve la estructura y el diseño del contenido original”. Los sitios web “con muchos datos bien estructurados en forma de lista o tabla” se benefician de “reglas de análisis y extracción más formuladas”. La estructura no sólo es útil. Es lo que hace posible un análisis confiable.

HTML semántico: la base del agente

El árbol de accesibilidad se construye a partir de su HTML. Utilice elementos semánticos y el navegador generará automáticamente un árbol de accesibilidad útil. Sáltelos y el árbol será escaso o engañoso.

Este no es un consejo nuevo. Los defensores de los estándares web han estado gritando “use HTML semántico” durante dos décadas. No todos escucharon. La novedad es que la audiencia se ha ampliado. Solía ​​​​tratarse de lectores de pantalla y de un porcentaje relativamente pequeño de usuarios. Ahora se trata de cada agente de IA que visita su sitio web.

Utilice elementos nativos. A El elemento aparece automáticamente en el árbol de accesibilidad con la función “botón” y su contenido de texto como nombre accesible. A

does not. The agent doesn’t know it’s clickable.





Search flights

Etiquete sus formularios. Cada entrada necesita una etiqueta asociada. Los agentes leen las etiquetas para comprender qué datos espera un campo.







El autocomplete atributo merece atención. Les dice a los agentes (y a los navegadores) exactamente qué tipo de datos espera un campo, utilizando valores estandarizados como name, email, tel, street-addressy organization. Cuando un agente llena un formulario en nombre de alguien, autocomplete Los atributos marcan la diferencia entre un mapeo de campo seguro y una conjetura.

Establecer jerarquía de encabezados. Usar h1 a través de h6 en orden lógico. Los agentes utilizan encabezados para comprender la estructura de la página y ubicar secciones de contenido específicas. Saltar niveles (saltar de h1 a h4) crean confusión sobre las relaciones de contenido.

Utilice regiones emblemáticas. Elementos emblemáticos HTML5 (

,

,

,

,

) informa a los agentes dónde se encuentran en la página. A

El elemento es inequívocamente navegación. A

Slobodan maníaco
Anfitrión del podcast No Hacks y consultor de optimización web para máquinas en No Hacks

Slobodan “Sani” Manić es un consultor de optimización de sitios web con más de 15 años de experiencia ayudando a empresas a hacer sus sitios más rápidos,...

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares