Un anuncio reciente de Common Crawl introdujo una auditoría de visibilidad de IA diseñada para ayudar a las organizaciones a determinar si los sistemas de IA pueden descubrir y acceder a su contenido. La premisa es sencilla y difícil de discutir. Antes de que un sistema de IA pueda recuperar, resumir, citar, recomendar o actuar en base a información, primero debe poder encontrarla.
Durante años, la visibilidad ha sido la base de la búsqueda. Si Google no podía rastrear una página, no podía clasificarla. Si un sistema de IA no puede acceder a la información, no puede incorporar esa información en respuestas, recomendaciones o decisiones.
Sin embargo, mientras leía el anuncio, me encontré pensando en un problema completamente diferente.
Common Crawl no es un motor de búsqueda ni una plataforma de inteligencia artificial. Es uno de los mayores repositorios abiertos de datos de rastreo web y se ha convertido en una fuente importante de datos de capacitación e investigación para el ecosistema de IA en general. Ya sea que un modelo de IA en particular utilice Common Crawl directamente o no, el proyecto se ha convertido en un proxy útil para una pregunta más amplia: ¿Pueden las máquinas descubrir y acceder a la información que las organizaciones publican en línea?
Precisamente por eso me llamó la atención la AI Visibility Audit.
¿Qué sucede después de que se descubre el contenido?
Esa pregunta surgió al revisar las implementaciones de esquemas en varios sitios web bancarios. A primera vista, la mayoría parecía razonablemente madura. Los sitios contenían marcas de la organización, entidades de BankOrCreditUnion, información de sucursales, esquemas de productos, esquemas de servicios y muchos de los componentes que uno esperaría ver en las grandes instituciones financieras.
Sin embargo, cuando dejé de mirar páginas individuales y comencé a mirar las relaciones entre entidades, surgió una imagen muy diferente. Descubrí que la mayoría de los bancos tenían un esquema fundamental, pero muy pocos habían elaborado un gráfico de conocimiento.
La diferencia entre describir una página y describir un negocio
Un tema recurrente en la industria del SEO es la importancia de que el esquema esté completo. Auditamos si las propiedades requeridas están presentes. Validamos el marcado con las herramientas de Google. Buscamos campos faltantes y oportunidades para ampliar la cobertura.
El problema es que la mayoría de estos ejercicios evalúan páginas de forma aislada. Una página de sucursal se revisa como tal. Una página de producto se revisa como una página de producto. Una página de servicio se revisa como tal. Lo que a menudo se pasa por alto es si esas entidades están conectadas de manera significativa.
En los ejemplos bancarios que revisé, era común encontrar una sucursal, una cuenta corriente, una oferta hipotecaria y una organización corporativa, todos marcados por separado. Lo que frecuentemente faltaba era el tejido conectivo que explicaba cómo esas entidades se relacionaban entre sí.
- ¿Qué entidad jurídica era propietaria de la marca de cara al consumidor?
- ¿Qué productos se ofrecieron a través de qué servicios?
- ¿Qué servicios estaban disponibles en qué sucursales?
- ¿Qué ofertas estaban disponibles sólo en mercados o jurisdicciones específicas?
- ¿Qué productos pertenecían a una familia más amplia de soluciones financieras?
El marcado describía las piezas individuales, pero rara vez describía el negocio en sí.
Esa distinción puede parecer sutil, pero se vuelve cada vez más importante a medida que los motores de búsqueda y los sistemas de inteligencia artificial van más allá de la comprensión a nivel de página hacia la comprensión a nivel de entidad.
El problema del validador
Parte del problema puede surgir de cómo evaluamos los datos estructurados. La mayoría de las herramientas de validación realizan una revisión de una sola página. Determinan si una página contiene las propiedades esperadas para un tipo de esquema determinado y si esas propiedades se ajustan a los estándares aceptados.
Este enfoque funciona razonablemente bien cuando el objetivo es generar un resultado rico o validar una entidad independiente. Se vuelve menos efectivo cuando el objetivo es construir un gráfico de conocimiento conectado.
Uno de los aspectos más frustrantes de la implementación de arquitecturas de esquemas sofisticadas es que los mismos mecanismos diseñados para crear relaciones entre entidades a menudo parecen incompletos cuando se ven a través de herramientas de validación a nivel de página.
La contradicción se vuelve particularmente evidente cuando las organizaciones intentan implementar arquitecturas basadas en gráficos como recomienda Google. Una página sucursal puede hacer referencia a su organización matriz a través de una relación @id que apunta a la definición de entidad principal de la organización en la página de inicio. La dirección de la organización, la información legal, los perfiles sociales y otros atributos principales se almacenan en el gráfico, pero no necesariamente en la página que se prueba.
Irónicamente, algunas de las mismas implementaciones que Google recomienda para la alineación de entidades pueden generar advertencias en las herramientas de prueba a nivel de página porque la información se hace referencia intencionalmente en otro lugar en lugar de duplicarse. De hecho, se anima a las organizaciones a crear gráficos sin dejar de ser evaluadas como si cada página fuera una isla.
Es posible que esa distinción haya importado poco durante la era de los fragmentos enriquecidos, cuando el objetivo principal era determinar si una sola página contenía suficiente información para calificar para una función de búsqueda. Se vuelve cada vez más importante a medida que los motores de búsqueda, los sistemas de conocimiento y las plataformas de inteligencia artificial buscan comprender cómo se relacionan las entidades entre sí en toda una organización.
La evolución de Google revela la dirección real
Hoy en día, muchas de las inversiones más importantes de Google parecen centrarse en las relaciones y el contexto. El gráfico de productos, los feeds de Merchant Center, los datos de compatibilidad, las relaciones de variantes, la conciliación de entidades y los atributos conversacionales apuntan en una dirección similar. En conjunto, estas iniciativas sugieren que comprender las relaciones entre entidades se ha vuelto cada vez más importante, particularmente cuando esas relaciones son difíciles de inferir consistentemente a partir del contenido únicamente.
Las acciones de Google sugieren que la inferencia de relaciones sigue siendo un desafío incluso para uno de los sistemas de recuperación de información más sofisticados del mundo. De lo contrario, habría pocas razones para seguir ampliando los mecanismos a través de los cuales las organizaciones pueden proporcionar explícitamente información contextual sobre productos, servicios, marcas y audiencias.
Visibilidad de las medidas de rastreo comunes. Las relaciones determinan la comprensión
Esto nos lleva de nuevo al rastreo común.
La Auditoría de Visibilidad de la IA aborda un desafío importante. Las organizaciones deben comprender absolutamente si los sistemas de inteligencia artificial pueden acceder a su contenido. El contenido que no se puede descubrir no puede influir en los resultados de búsqueda, las respuestas generadas por IA ni los sistemas de recomendación.
La visibilidad importa. Sin embargo, visibilidad y comprensión no son lo mismo. En muchos sentidos, Common Crawl plantea la misma pregunta que los equipos de SEO se han planteado durante décadas: ¿pueden las máquinas acceder al contenido?
El desafío emergente de la IA es lo que sucede después de que las máquinas obtienen acceso al contenido. Un rastreador puede descubrir con éxito cada página de un sitio web y aún así tener dificultades para comprender cómo se conectan las entidades subyacentes. Históricamente, los motores de búsqueda intentaron inferir esas relaciones a partir del contenido, los enlaces, el comportamiento del usuario y muchas otras señales. En muchos casos, llegaron a ser notablemente buenos en eso. Sin embargo, las recientes inversiones de Google sugieren que la inferencia tiene límites.
Considere la reciente introducción de atributos conversacionales en Merchant Center. En lugar de depender únicamente de los sistemas de inteligencia artificial para determinar qué productos resuelven problemas similares, qué productos son alternativos o qué atributos importan en situaciones específicas, Google pide cada vez más a los comerciantes que proporcionen ese contexto directamente.
Google claramente posee los recursos, los datos y las capacidades de inteligencia artificial para hacer conjeturas fundamentadas sobre las relaciones entre productos. Sin embargo, continúa buscando información directamente de las organizaciones que fabrican, venden y respaldan esos productos.
La razón es sencilla. La inferencia puede ser poderosa, pero el conocimiento de primera mano suele ser más preciso.
Un fabricante sabe qué productos son compatibles. Un minorista sabe qué productos se compran habitualmente juntos. Un banco sabe qué servicios están disponibles en qué sucursales. Una empresa global sabe qué variaciones de productos se aplican en mercados específicos.
Si bien los sistemas de inteligencia artificial pueden intentar reconstruir esas relaciones a partir del contenido, las organizaciones ya poseen las respuestas. La cuestión, por tanto, no es si la IA puede inferir relaciones. La pregunta más importante es si las organizaciones propietarias de esas relaciones pueden proporcionar y deberían proporcionar una forma confiable para que las máquinas las comprendan.
Esa distinción se vuelve cada vez más importante a medida que los sistemas de IA van más allá de recuperar información y comienzan a sintetizarla, recomendarla y actuar en consecuencia. Es posible que la información ya exista en algún lugar del sitio web, pero las relaciones contextuales que le dan significado a menudo se dejan para que las máquinas las descubran por sí solas.
¿Estamos preparados para la máquina del bombo agente?
Durante el año pasado, la industria se centró cada vez más en conceptos como MCP, WebMCP, habilidades de agentes, tarjetas de agentes, catálogos API, protocolos A2A y archivos llms.txt. Gran parte del debate supone que la web está evolucionando rápidamente hacia un ecosistema en el que el agente es lo primero.
La reciente investigación sobre preparación agente realizada por Bastian Grimm ofrece una útil comprobación de la realidad. Después de comparar sitios web altamente visibles en los Estados Unidos, el Reino Unido y Alemania, descubrió que la adopción de estos estándares orientados a agentes sigue siendo notablemente limitada. La inmensa mayoría de los sitios no expuso ninguno de los mecanismos de descubrimiento de agentes que actualmente promueve la industria.
Ese hallazgo no sugiere que la web preparada para agentes no sea importante, pero sugiere que es posible que nos estemos adelantando. Más importante aún, incluso si todos los sitios web importantes implementaran llms.txt, manifiestos WebMCP y catálogos de API mañana, el mismo desafío subyacente permanecería.
¿Qué información están exponiendo esos sistemas?
Una puerta legible por máquina sólo es valiosa si conduce a información precisa, conectada y contextualmente completa. Si las relaciones subyacentes entre productos, marcas, ubicaciones, servicios y mercados están mal modeladas, el acceso agente simplemente hace que la información incompleta sea más fácil de recuperar.
La capa de acceso no es la parte difícil. La capa de relación lo es.
Más allá de los gráficos de entidades: presentación del gráfico de integridad
La mayoría de las discusiones sobre datos estructurados se centran en la creación de un Entity Graph para ayudar a las máquinas a comprender la empresa, el producto, la ubicación y cómo están conectados entre sí. Esas capacidades son importantes. Sin embargo, los sistemas de IA enfrentan un desafío más difícil. Deben determinar qué hechos se aplican en qué contextos. Aquí es donde creo que las organizaciones deben empezar a pensar en lo que yo llamo un gráfico de integridad.
Un gráfico de integridad va más allá de la identificación de entidades para preservar la verdad contextual.
Ayuda a establecer qué entidad jurídica posee una marca, qué productos pertenecen a una familia de productos, qué servicios están disponibles en mercados específicos, qué sucursales ofrecen servicios particulares, qué regulaciones se aplican en jurisdicciones particulares y qué información es aplicable globalmente versus relevante localmente.
Ya no basta con identificar entidades. Las organizaciones deben preservar la integridad de sus relaciones.
Qué organizaciones deberían auditar a continuación
El creciente número de auditorías de preparación de la IA pone de relieve la rapidez con la que está evolucionando la conversación. La auditoría de visibilidad de IA de Common Crawl se centra en la capacidad de descubrimiento y la accesibilidad. El punto de referencia de Bastian Grimm para tecnologías listas para agentes evalúa si los sitios web proporcionan interfaces legibles por máquinas que los agentes pueden descubrir e interactuar. Dixon Jones y el equipo de Waikay abordan el desafío desde otro ángulo: la auditoría de visibilidad de la IA de la marca, evaluando si los sistemas de IA pueden reconocer marcas, comprender entidades y asociar con precisión una organización con los temas, productos y conceptos que busca poseer.
Vistos en conjunto, estos marcos de auditoría emergentes revelan que la industria está evaluando varias capas distintas de comprensión de las máquinas.
Common Crawl se centra en la visibilidad y la accesibilidad preguntando si las máquinas pueden descubrir y acceder al contenido.
Los marcos de preparación de agentes examinan si los agentes pueden descubrir capacidades e interactuar con los sistemas.
Las evaluaciones de visibilidad de las entidades evalúan si los sistemas de inteligencia artificial pueden identificar correctamente marcas, organizaciones y los conceptos asociados con ellas.
La integridad de las relaciones se centra en una cuestión completamente diferente: si las máquinas entienden cómo opera la propia organización.
Cada capa se basa en la anterior. El contenido debe ser reconocible antes de poder acceder a él. Debe ser accesible antes de poder asociarlo con una entidad. Debe estar asociado con una entidad antes de que las máquinas puedan comprender con precisión las relaciones que dan significado a la información.
Por qué esto es importante para las organizaciones globales
La importancia de la integridad de las relaciones se vuelve aún más obvia cuando se ve a través de una lente internacional.
Una empresa multinacional puede tener contenidos disponibles en veinte mercados. Common Crawl puede descubrirlo todo con éxito. Los sistemas de inteligencia artificial pueden recuperarlo. Los motores de búsqueda pueden indexarlo. El problema de la visibilidad está solucionado.
Durante años, el SEO internacional se centró en ayudar a los motores de búsqueda a mostrar la página correcta al usuario correcto. Los sistemas de IA presentan un desafío diferente. Ahora debemos ayudar a las máquinas a comprender los hechos correctos para la audiencia, el mercado y el contexto correctos.
Debemos garantizar la claridad sobre qué información del producto se aplica en Alemania, qué regulaciones se aplican en Japón y qué servicios están disponibles en Canadá. A menudo, un desafío igualmente complejo es qué marcas locales corresponden al mismo producto global, y qué hechos son ciertos a nivel mundial y cuáles son específicos del mercado. Estos no son problemas de rastreo y recuperación, sino problemas de integridad de los datos.
En muchos sentidos, la próxima generación de SEO internacional puede parecerse a hreflang en el nivel de conocimiento más que en el nivel de URL. El desafío ya no es simplemente dirigir a los usuarios a la página correcta. El desafío es garantizar que las máquinas comprendan la versión correcta de la verdad.
La próxima ventaja competitiva
El análisis bancario que inspiró este artículo ilustra bien la cuestión. A la mayoría de las instituciones no les faltaba esquema. Sus sitios web contenían miles de líneas de datos estructurados y numerosos tipos de esquemas. Lo que les faltaba era una representación coherente de cómo operaba el negocio en sí. Ese enfoque tiene sentido porque la capacidad de descubrimiento sigue siendo un requisito previo para la participación. Sin embargo, la capacidad de descubrimiento por sí sola no será suficiente.
Es posible que las organizaciones que prosperen en la siguiente fase de búsqueda no sean aquellas con la mayor cantidad de marcado de esquema, la mayor cantidad de páginas o los puntos finales más preparados para la IA. Pueden ser las organizaciones que proporcionen la representación más clara, completa y confiable de cómo sus entidades, productos, servicios, ubicaciones, marcas y mercados se relacionan entre sí. El siguiente desafío es determinar si las máquinas entienden cómo funciona realmente el negocio.
En última instancia, ese cambio puede resultar más importante que cualquier propiedad de esquema individual, punto final de API o táctica de optimización de IA. A medida que los motores de búsqueda y los sistemas de inteligencia artificial sean cada vez más capaces de recuperar información, la ventaja competitiva se desplazará hacia organizaciones que puedan proporcionar contexto, preservar las relaciones y mantener la integridad de su conocimiento.
Comprender una entidad es sólo el comienzo. Comprender cómo se relaciona esa entidad con todo lo que la rodea es donde radica el valor real.
Más recursos:
Imagen de portada: Roman Samborskyi/Shutterstock

