Llms.txt fue el primer paso. Aquí está la arquitectura que viene a continuación

- Advertisement -spot_img

La conversación en torno a llms.txt es real y vale la pena continuar. Lo cubrí en un artículo anterior y el instinto central detrás de la propuesta es correcto: los sistemas de inteligencia artificial necesitan un acceso limpio, estructurado y autorizado a la información de su marca, y la arquitectura actual de su sitio web no se creó con eso en mente. Donde quiero ir más allá es en la arquitectura misma. llms.txt es, en esencia, una tabla de contenido que apunta a archivos Markdown. Ése es un punto de partida, no un destino, y la evidencia sugiere que el destino debe ser considerablemente más sofisticado.

Antes de entrar en arquitectura, quiero dejar algo claro: no estoy diciendo que todas las marcas deban apresurarse a construir todo lo descrito en este artículo para el próximo trimestre. El panorama de las normas todavía se está formando. Ninguna plataforma importante de IA se ha comprometido formalmente a consumir llms.txt, y una auditoría de los registros CDN en 1.000 dominios de Adobe Experience Manager encontró que los bots específicos de LLM estaban esencialmente ausentes en las solicitudes de llms.txt, mientras que el propio rastreador de Google representaba la gran mayoría de las recuperaciones de archivos. Lo que estoy argumentando es que la cuestión en sí, específicamente cómo los sistemas de IA obtienen acceso estructurado y autorizado a la información de la marca, merece un pensamiento arquitectónico serio en este momento, porque los equipos que lo piensen desde el principio definirán los patrones que se convertirán en estándares. Ese no es un argumento exagerado. Así es como ha funcionado esta industria cada vez que llegaba un nuevo paradigma de recuperación.

Donde Llms.txt se queda sin camino

El verdadero valor de la propuesta es la legibilidad: brinda a los agentes de IA un camino limpio y silencioso hacia su contenido más importante al aplanarlo en Markdown y organizarlo en un único directorio. Para la documentación del desarrollador, referencias de API y contenido técnico donde la prosa y el código ya están relativamente estructurados, esto tiene una utilidad real. Para las marcas empresariales con conjuntos de productos complejos, contenido con muchas relaciones y hechos que cambian constantemente, la historia es diferente.

El problema estructural es que llms.txt no tiene un modelo de relación. Le dice a un sistema de inteligencia artificial “aquí hay una lista de cosas que publicamos”, pero no puede expresar que el Producto A pertenece a la Familia de Productos B, que la Característica X quedó obsoleta en la Versión 3.2 y fue reemplazada por la Característica Y, o que la Persona Z es el portavoz autorizado para el Tema Q. Es una lista plana sin gráfico. Cuando un agente de IA realiza una consulta de comparación, compara múltiples fuentes entre sí y trata de resolver contradicciones, una lista plana sin metadatos de procedencia es exactamente el tipo de entrada que produce resultados que suenan seguros pero inexactos. Tu marca paga el coste reputacional de esa alucinación.

También hay una cuestión de la carga de manutención que la propuesta no aborda plenamente. Una de las objeciones prácticas más fuertes a llms.txt es el mantenimiento continuo que exige: cada cambio estratégico, actualización de precios, nuevo estudio de caso o actualización de producto requiere actualizar tanto el sitio activo como el archivo. Para una pequeña herramienta de desarrollo, eso es manejable. Para una empresa con cientos de páginas de productos y un equipo de contenido distribuido, es una responsabilidad operativa. El mejor enfoque es una arquitectura que se basa en fuentes de datos autorizadas mediante programación en lugar de crear una segunda capa de contenido para mantener manualmente.

Leer  La patente de clasificación de confianza de Google muestra cómo el comportamiento del usuario es una señal

La pila de contenido legible por máquina

Piense en lo que propongo no como una alternativa a llms.txt, sino como lo que viene después, así como los mapas de sitio XML y los datos estructurados vinieron después de robots.txt. Hay cuatro capas distintas y no es necesario crearlas todas a la vez.

La capa uno son hojas informativas estructuradas que utilizan JSON-LD. Cuando un agente de IA evalúa una marca para comparar a un proveedor, lee el esquema de organización, servicio y revisión, y en 2026, eso significa leerlo con mucha más precisión que Google en 2019. Esta es la base. Las páginas con datos estructurados válidos tienen 2,3 veces más probabilidades de aparecer en las descripciones generales de IA de Google en comparación con páginas equivalentes sin marcas, y la investigación de Princeton GEO encontró que el contenido con señales estructurales claras obtuvo hasta un 40% más de visibilidad en las respuestas generadas por IA. JSON-LD no es nuevo, pero la diferencia ahora es que no se debe tratar como un juego de fragmentos enriquecidos sino como una capa de hechos orientada a la máquina, y eso significa ser mucho más preciso sobre los atributos del producto, los estados de precios, la disponibilidad de funciones y las relaciones organizativas que la mayoría de las implementaciones actuales.

La capa dos es el mapeo de relaciones entre entidades. Aquí es donde expresas el gráfico, no solo los nodos. Sus productos se relacionan con sus categorías, sus categorías se asignan a las soluciones de su industria, sus soluciones se conectan con los casos de uso que respalda y todo enlaza con la fuente autorizada. Esto se puede implementar como una extensión de gráfico JSON-LD liviana o como un punto final dedicado en un CMS sin cabeza, pero el punto es que un sistema de IA consumidor debería poder atravesar su arquitectura de contenido de la misma manera que un analista humano revisaría un catálogo de productos bien organizado, preservando el contexto de relación en cada paso.

La tercera capa son los puntos finales de la API de contenido, el acceso programático y versionado a sus preguntas frecuentes, documentación, estudios de casos y especificaciones de productos. Aquí es donde la arquitectura va más allá del marcado pasivo y hacia la infraestructura activa. Un punto final en /api/brand/faqs?topic=pricing&format=json que devuelve respuestas estructuradas, con marca de tiempo y atribuidas es una señal categóricamente diferente para un agente de IA que un archivo Markdown que puede reflejar o no los precios actuales. El Model Context Protocol, introducido por Anthropic a finales de 2024 y posteriormente adoptado por OpenAI, Google DeepMind y la Fundación Linux, proporciona exactamente este tipo de marco estandarizado para integrar sistemas de IA con fuentes de datos externas. No es necesario implementar MCP hoy, pero la trayectoria hacia donde se dirige el intercambio de datos de IA a marca es claramente hacia interfaces estructuradas, autenticadas y en tiempo real, y su arquitectura debería estar encaminada en esa dirección. Llevo años diciendo esto: estamos avanzando hacia sistemas conectados para el intercambio y la comprensión en tiempo real de los datos de una empresa. Esto es lo que acaba con el rastreo y el coste asociado a él para las plataformas.

La cuarta capa son metadatos de verificación y procedencia, marcas de tiempo, autoría, historial de actualizaciones y cadenas de fuentes adjuntas a cada hecho que usted expone. Esta es la capa que transforma su contenido de “algo que la IA lee en alguna parte” a “algo que la IA puede verificar y citar con confianza”. Cuando un sistema RAG decide cuál de varios hechos conflictivos emergerá en una respuesta, los metadatos de procedencia son el desempate. Un hecho con una marca de tiempo de actualización clara, un autor atribuido y una cadena de origen rastreable superará siempre a una afirmación sin fecha y sin atribución, porque el sistema de recuperación está capacitado para preferirlo.

Leer  El CMO de PepsiCo explica cómo su estrategia de Super Bowl influye en los planes de crecimiento para 2026

Cómo se ve esto en la práctica

Tomemos como ejemplo una empresa SaaS del mercado medio, una plataforma de gestión de proyectos que genera alrededor de 50 millones de dólares en ARR y vende tanto a PYMES como a cuentas empresariales. Tienen tres niveles de productos, un mercado de integración con 150 conectores y un ciclo de ventas donde se realizan comparaciones competitivas en investigaciones asistidas por IA antes de que un representante de ventas humano entre en escena.

En este momento, su sitio web es excelente para compradores humanos, pero opaco para los agentes de IA. Su página de precios se representa dinámicamente en JavaScript. Su tabla de comparación de funciones se encuentra en un PDF que la IA no puede analizar de manera confiable. Sus estudios de caso son HTML de formato largo sin atribución estructurada. Cuando un agente de IA los evalúa frente a un competidor para una comparación de adquisiciones, está trabajando a partir de todo lo que puede inferir del texto rastreado, lo que significa que probablemente se equivoque en el precio, probablemente se equivoque en la disponibilidad de funciones empresariales y casi con seguridad no pueda revelar la integración específica que el cliente potencial necesita.

Una arquitectura de contenido legible por máquina cambia esto. En la capa de hoja informativa, publican esquemas de organización y producto JSON-LD que describen con precisión cada nivel de precios, su conjunto de características y su caso de uso objetivo, actualizados mediante programación desde la misma fuente de verdad que impulsa su página de precios. En la capa de relación entre entidades, definen cómo sus integraciones se agrupan en categorías de soluciones, de modo que un agente de IA pueda responder con precisión una pregunta de capacidad compuesta sin tener que analizar 150 páginas de integración separadas. En la capa de API de contenido, exponen un punto final de comparación estructurado y versionado, algo que actualmente un ingeniero de ventas produce manualmente a pedido. En la capa de procedencia, cada hecho lleva una marca de tiempo, un propietario de datos y un número de versión.

Cuando un agente de IA ahora procesa una consulta de comparación de productos, el sistema de recuperación encuentra hechos estructurados, atribuidos y actuales en lugar de texto inferido. La IA no alucina con sus precios. Representa correctamente sus características empresariales. Muestra las integraciones correctas porque el gráfico de entidades las conecta con las categorías de solución correctas. El vicepresidente de marketing que lee un informe de pérdidas competitivas seis meses después no encuentra que “AI citó precios incorrectos” como la causa principal.

Esta es la infraestructura detrás de los paquetes de fuentes verificadas

En el artículo anterior sobre Paquetes de fuentes verificadas, describí cómo las marcas pueden posicionarse como fuentes preferidas en la investigación asistida por IA. La API de contenido legible por máquina es la arquitectura técnica que hace que los VSP sean viables a escala. Un VSP sin esta infraestructura es una declaración de posicionamiento. Un VSP es una capa de datos validada por máquina que los sistemas de inteligencia artificial pueden citar con confianza. El VSP es el resultado visible para su audiencia; la API de contenido es la tubería que hace que el resultado sea confiable. Los datos estructurados limpios también mejoran directamente su higiene del índice vectorialla disciplina que presenté en un artículo anterior, porque un sistema RAG que construye representaciones a partir de contenido bien estructurado, con mapas de relaciones y con marca de tiempo produce incrustaciones más nítidas que uno que trabaja a partir de una prosa indiferenciada.

Leer  Google advierte contra la confianza en las puntuaciones de las herramientas de auditoría SEO

Construir vs. Espere: la cuestión del momento real

La objeción legítima es que los estándares no están establecidos, y eso es cierto. MCP tiene un impulso real, con 97 millones de descargas mensuales de SDK para 2026 y la adopción de OpenAI, Google y Microsoft, pero los estándares API de contenido empresarial aún están surgiendo. JSON-LD está maduro, pero el mapeo de relaciones entre entidades a nivel de marca aún no tiene una especificación formal.

La historia, sin embargo, sugiere que la objeción va en sentido contrario. Las marcas que implementaron Schema.org datos estructurados en 2012, cuando Google acababa de lanzarlo y nadie estaba seguro de cuán ampliamente se utilizaría, determinaron cómo Google consumió datos estructurados durante la siguiente década. No esperaron una garantía; construyeron según el principio y dejaron que el estándar se formara en torno a su caso de uso. El mecanismo específico importa menos que el principio subyacente: el contenido debe estructurarse para la comprensión de las máquinas sin dejar de ser valioso para los humanos. Eso será cierto independientemente de qué protocolo gane.

La implementación mínima viable, una que se puede implementar este trimestre sin apostar la arquitectura a un estándar que pueda cambiar, son tres cosas. Primerouna auditoría JSON-LD y una actualización de sus páginas comerciales principales, organización, producto, servicio y esquemas de páginas de preguntas frecuentes, interconectados adecuadamente mediante el patrón gráfico @id, para que su capa de datos sea precisa y legible por máquina hoy. Segundoun único punto final de contenido estructurado para la información que se compara con más frecuencia, que, para la mayoría de las marcas, son precios y características principales, generados mediante programación desde su CMS para que se mantenga actualizado sin mantenimiento manual. Tercerometadatos de procedencia sobre cada hecho público que le interese: una marca de tiempo, un autor o equipo atribuido y una referencia de versión.

Eso no es un llms.txt. No es una copia Markdown de su sitio web. Es una infraestructura duradera que sirve tanto para los sistemas actuales de recuperación de IA como para cualquier estándar que se formalice a continuación, porque se basa en el principio de que las máquinas necesitan hechos limpios, atribuidos y mapeados con relaciones. Las marcas que preguntan “¿deberíamos construir esto?” ya están detrás de los que preguntan “¿cómo lo escalamos?”. Empiece por lo mínimo. Envía algo este trimestre que puedas medir. La arquitectura le dirá a dónde ir a continuación.

Duane Forrester tiene casi 30 años de experiencia en marketing digital y SEO, incluida una década en Microsoft ejecutando SEO para MSN, creando Bing Webmaster Tools y lanzando Schema.org. Su nuevo libro sobre cómo mantenerse confiable y relevante en la era de la IA (The Machine Layer) ya está disponible en Amazon.

Más recursos:


Esta publicación fue publicada originalmente en Duane Forrester decodifica.


Imagen de portada: mim.girl/Shutterstock; Paulo Bobita/Diario del motor de búsqueda

(etiquetasToTranslate)SEO

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares