La auditoría técnica de SEO necesita una nueva capa

- Advertisement -spot_img

La auditoría técnica de SEO estándar comprueba la rastreabilidad, la indexabilidad, la velocidad del sitio web, la compatibilidad con dispositivos móviles y los datos estructurados. Esa lista de verificación fue diseñada para un consumidor: el robot de Google.

Así ha sido siempre.

En 2026, su sitio web tendrá, al menos, una docena de consumidores no humanos adicionales. Los rastreadores de IA como GPTBot, ClaudeBot y PerplexityBot entrenan modelos y potencian los resultados de búsqueda de IA. Los agentes activados por el usuario, como el recientemente anunciado Google-Agent, o sus “hermanos” Claude-User y ChatGPT-User, navegan por sitios web en nombre de humanos específicos en tiempo real. Un análisis del primer trimestre de 2026 en la red de Cloudflare encontró que el 30,6% de todo el tráfico web ahora proviene de robots, y los rastreadores y agentes de IA representan una proporción cada vez mayor. Su auditoría técnica debe tener en cuenta todos ellos.

Aquí están las cinco capas que puede agregar a su auditoría técnica de SEO existente.

Capa 1: Acceso al rastreador de IA

Su robots.txt probablemente fue escrito para Googlebot, Bingbot y tal vez algunos scrapers. Los rastreadores de IA necesitan sus propias reglas de robots.txt y deben estar separados de Googlebot y Bingbot.

Qué comprobar

Revise su archivo robots.txt para conocer las reglas dirigidas a agentes de usuario específicos de IA: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider, AppleBot-Extended, CCBot y ChatGPT-User. Si no aparece ninguno de estos, está utilizando valores predeterminados y es posible que esos valores predeterminados no reflejen lo que realmente desea. Nunca acepte los valores predeterminados a menos que sepa que son exactamente lo que necesita.

La clave es tomar una decisión consciente por rastreador en lugar de permitir o bloquear todo de manera general. No todos los rastreadores de IA tienen el mismo propósito. El tráfico de rastreadores de IA se puede dividir en tres categorías: rastreadores de entrenamiento que recopilan datos para el entrenamiento de modelos (89,4 % del tráfico de rastreadores de IA según los datos de Cloudflare), rastreadores de búsqueda que impulsan los resultados de búsqueda de IA (8 %) y agentes activados por el usuario como Google-Agent y ChatGPT-User que navegan en nombre de un humano específico en tiempo real (2,2 %). Cada categoría justifica una decisión diferente sobre robots.txt.

Datos de Cloudflare Radar que muestran el volumen de tráfico por propósito de rastreo (primer trimestre de 2026); Captura de pantalla del autor, abril de 2026

Las proporciones de rastreo a referencia del informe Radar de Cloudflare pueden hacer que esta sea una decisión informada para usted. ClaudeBot de Anthropic rastrea 20,6 mil páginas por cada referencia que devuelve. La proporción de OpenAI es 1300:1. Meta no envía referencias. Bloquear OAI-SearchBot o PerplexityBot de OpenAI reduce su visibilidad en ChatGPT Search y las respuestas de IA de Perplexity. Bloquear rastreadores centrados en la capacitación como CCBot o el rastreador de Meta evita la extracción de datos de un proveedor que no devuelve tráfico. Los índices de rastreo y referencia le indican quién recibe sin dar.

Hay un rastreador que requiere atención especial. Google agregó Google-Agent a su lista oficial de buscadores activados por usuarios el 20 de marzo de 2026. Google-Agent identifica solicitudes de sistemas de inteligencia artificial que se ejecutan en la infraestructura de Google y que navegan por sitios web en nombre de los usuarios. A diferencia de los rastreadores tradicionales, Google-Agent ignora robots.txt. La posición de Google es que, dado que un humano inició la solicitud, el agente actúa como un proxy del usuario en lugar de un rastreador autónomo. El bloqueo del Agente de Google requiere autenticación del lado del servidor, no reglas de robots.txt. Esto es interesante e importante para el futuro, incluso si no está dentro del alcance de este artículo.

Documentación oficial de cada rastreador:

Capa 2: Representación de JavaScript

El robot de Google procesa JavaScript utilizando Chromium sin cabeza. No hay nada nuevo en eso. Lo que es nuevo y diferente es que prácticamente todos los principales rastreadores de IA no procesan JavaScript.

TractorRepresenta JavaScript
GPTBot (OpenAI)No
ClaudeBot (antrópico)No
PerplejidadBotNo
CCBot (rastreo común)No
AppleBot
robot de Google

AppleBot (que utiliza un renderizador basado en WebKit) y Googlebot son los únicos rastreadores importantes que renderizan JavaScript. Cuatro de los seis principales rastreadores web (GPTBot, ClaudeBot, PerplexityBot y CCBot) solo obtienen HTML estático, lo que hace que la representación del lado del servidor sea un requisito para la visibilidad de la búsqueda de IA, no una optimización. Si su contenido se encuentra en JavaScript del lado del cliente, es invisible para los rastreadores que entrenan los modelos de OpenAI, Anthropic y Perplexity y potencian sus productos de búsqueda de IA.

Qué comprobar

Correr curl -s (URL) en sus páginas críticas y busque en el resultado contenido clave como nombres de productos, precios o descripciones de servicios. Si ese contenido no está en la respuesta curl, GPTBot, ClaudeBot y PerplexityBot tampoco podrán verlo. Alternativamente, use Ver código fuente en su navegador (no Inspeccionar elemento, que muestra el DOM renderizado). después Ejecución de JavaScript) y compruebe si la información importante está presente en el HTML sin formato.

Leer  ¿Cómo Doordash se convirtió en un gran comienzo con un nombre de dominio de $ 10?
Recuperación CURL de la página de inicio de No Hacks
Búsqueda de rizos de la página de inicio de No Hacks (Imagen del autor, abril de 2026)

Las aplicaciones de una sola página (SPA) creadas con React, Vue o Angular corren un riesgo particular a menos que utilicen renderizado del lado del servidor (SSR) o generación de sitios estáticos (SSG). Un React SPA que presenta descripciones de productos, precios o afirmaciones clave completamente en el lado del cliente envía a los rastreadores de IA una página en blanco con un enlace al paquete de JavaScript.

La solución no es complicada. La renderización del lado del servidor (SSR), la generación de sitios estáticos (SSG) o la renderización previa resuelven este problema para todos los marcos principales. Next.js admite SSR y SSG de forma nativa para React, Nuxt proporciona lo mismo para Vue y Angular Universal maneja la renderización del servidor para aplicaciones Angular. La auditoría sólo necesita señalar qué páginas dependen del JavaScript del lado del cliente para el contenido crítico.

Capa 3: datos estructurados para IA

Los datos estructurados forman parte de las auditorías técnicas de SEO desde hace años, pero es necesario actualizar los criterios de evaluación. La pregunta ya no es simplemente “¿esta página tiene marcado de esquema?” Es “¿este marcado ayuda a los sistemas de inteligencia artificial a comprender y citar este contenido?”

Qué comprobar

  • Implementación de JSON-LD (preferida a Microdata y RDFa para el análisis de IA).
  • Tipos de esquemas que van más allá de lo básico: organización, artículo, producto, preguntas frecuentes, instrucciones, persona.
  • Relaciones entre entidades: conexiones iguales, de autor y de editor que vinculan su contenido con entidades conocidas.
  • Integridad: ¿están completadas todas las propiedades relevantes o simplemente está marcando una casilla utilizando esquemas esqueléticos con nombre y URL?

Por qué esto importa ahora

El director de producto principal de Bing de Microsoft, Fabrice Canel, confirmó en marzo de 2025 que el marcado de esquema ayuda a los LLM a comprender el contenido de Copilot. El equipo de Búsqueda de Google afirmó en abril de 2025 que los datos estructurados ofrecen una ventaja en los resultados de búsqueda.

No, no se puede ganar sólo con el esquema. Sí, puede ayudar.

El ángulo de la densidad de datos también importa. El artículo de investigación GEO de Princeton, Georgia Tech, el Instituto Allen de IA y el IIT Delhi (presentado en ACM KDD 2024, el primero en utilizar públicamente el término “GEO”) encontró que agregar estadísticas al contenido mejoraba la visibilidad de la IA en un 41%. El análisis de Yext encontró que los sitios web ricos en datos obtienen 4,3 veces más citas de IA que los listados de estilo directorio. Los datos estructurados contribuyen a la densidad de los datos al proporcionar a los sistemas de inteligencia artificial hechos legibles por máquinas en lugar de exigirles que extraigan significado de la prosa.

Una advertencia importante: todavía no existen estudios académicos revisados ​​por pares sobre el impacto del esquema en las tasas de citas de IA específicamente. Los datos de la industria son prometedores y consistentes, pero trate estas cifras como indicadores en lugar de garantías.

W3Techs informa que aproximadamente el 53% de los 10 millones de sitios web principales utilizan JSON-LD a principios de 2026. Si su sitio web no se encuentra entre ellos, se está perdiendo las señales que utilizan los sistemas de búsqueda tradicionales y de IA para comprender su contenido.

Duane Forrester, quien ayudó a crear Bing Webmaster Tools y co-lanzó Schema.org, sostiene que el marcado de esquema es sólo el primer paso. A medida que los agentes de IA continúen pasando de simplemente interpretar páginas a tomar decisiones, las marcas también necesitarán publicar la verdad operativa (precios, políticas, restricciones) en formatos verificables por máquina con control de versiones y firmas criptográficas. La publicación de paquetes fuente verificables por máquina está más allá del alcance de una auditoría estándar hoy en día, pero auditar la integridad y precisión de los datos estructurados es la base sobre la que se basan los paquetes fuente verificados.

Capa 4: HTML semántico y árbol de accesibilidad

Las primeras tres capas de la auditoría de preparación de la IA cubren el acceso de los rastreadores (robots.txt), la representación de JavaScript y los datos estructurados. Los dos últimos abordan cómo los agentes de IA leen realmente sus páginas y qué señales les ayudan a descubrir y evaluar su contenido.

La mayoría de los SEO evalúan HTML para el consumo de motores de búsqueda. Los navegadores agentes como ChatGPT Atlas, Chrome con navegación automática y Perplexity Comet no analizan páginas como lo hace el robot de Google. En su lugar, leen el árbol de accesibilidad.

El árbol de accesibilidad es una representación paralela de su página que los navegadores generan a partir de su HTML. Elimina el estilo visual, el diseño y la decoración, manteniendo solo la estructura semántica: encabezados, enlaces, botones, campos de formulario, etiquetas y las relaciones entre ellos. Lectores de pantalla como VoiceOver y NVDA han utilizado el árbol de accesibilidad durante décadas para hacer que los sitios web sean utilizables para personas con discapacidad visual. Los agentes de IA ahora utilizan el mismo árbol para comprender las páginas web e interactuar con ellas.

Leer  API de búsqueda valiente ahora disponible a través de AWS Marketplace

Y la razón es simple: eficiencia. Procesar capturas de pantalla es más caro y más lento que trabajar con el árbol de accesibilidad.

Árbol de accesibilidad mostrado en Google Chrome
Así se ve un árbol de accesibilidad en Google Chrome (Imagen del autor, abril de 2026)

Esto es importante porque el árbol de accesibilidad expone lo que realmente comunica su HTML, no cómo lo hace lucir su CSS (o JS). A

styled to look like a button doesn’t appear as a button in the accessibility tree. An image without alt text means nothing. A heading hierarchy that skips from H1 to H4 creates a broken structure that both screen readers and AI agents will struggle to navigate.

Microsoft’s Playwright MCP, the standard tool for connecting AI models to browser automation, uses accessibility snapshots rather than raw HTML or screenshots. Playwright MCP’s browser_snapshot La función devuelve una representación de árbol de accesibilidad porque es más compacta y semánticamente significativa para los LLM. La documentación de OpenAI indica que ChatGPT Atlas utiliza etiquetas ARIA para interpretar la estructura de la página cuando navega por sitios web.

La accesibilidad web y la compatibilidad con agentes de IA son ahora la misma disciplina. La jerarquía de encabezados adecuada (H1-H6) crea secciones significativas que los sistemas de inteligencia artificial utilizan para la extracción de contenido. Elementos semánticos como

,

,

y

decirle a las máquinas qué papel juega cada bloque de contenido. Las etiquetas de los formularios y el texto descriptivo de los botones hacen que los elementos interactivos sean comprensibles para los agentes que analizan el árbol de accesibilidad en lugar de representar el diseño visual.

Qué comprobar

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares