Esquema, LLM y el listón bajo para la 'evidencia' en GEO

TL;DR: Realicé un pequeño experimento para intentar obtener una idea de si los modelos de lenguaje grandes realmente analizan el marcado del esquema o simplemente asienten cortésmente en su dirección. Puse una dirección de empresa falsa (dentro de JSON-LD bellamente inválido, en una página sobre patos) en el encabezado de un documento HTML, no mencioné ninguna dirección en ninguna parte del texto visible y luego pregunté a varios LLM dónde tenía su sede la empresa. Me lo dijeron felizmente, varios de ellos citando los “datos estructurados” que habían consultado con tanto esmero.

Luego, el experimento fue retomado por Search Engine Roundtable, momento en el cual el sarcasmo británico se topó con el carrusel de LinkedIn, los dos se aniquilaron entre sí en una pequeña bocanada de humo, y una parte de la comunidad GEO salió convencida de que acababa de demostrar que los LLM están analizando esquemas con amor exactamente como pretendía Schema.org.

La publicación culpable de LinkedIn que fue el paciente cero de confusión de esquemas. Crédito de la imagen: Mark Williams-Cook

Podría decirse que había demostrado lo contrario. El esquema fue roto deliberadamente. Los LLM devolvieron los datos de todos modos, porque en lo que a ellos concernía, el JSON-LD era simplemente más texto en la página, ligeramente adornado con llaves. Esa distinción es el punto central, porque una creciente cohorte de “expertos en GEO” señala que “el LLM devolvió información que solo estaba en el esquema” como prueba irrefutable de que los LLM están utilizando el esquema tal como fue diseñado. No están haciendo nada por el estilo. Están leyendo el HTML y encogiéndose de hombros ante la estructura.

No estoy profesando que el esquema sea inútil. Creo que aún deberías usarlo. Pero la forma en que se vende actualmente a los clientes (como una inyección mágica de citas de LLM) se basa en una pila de evidencia notablemente escasa, y quiero explicar por qué.

Un repaso rápido sobre para qué sirve realmente el esquema

Schema, o datos estructurados de Schema.org, es un vocabulario colaborativo creado por Google, Microsoft, Yahoo y Yandex para permitir a los webmasters incorporar información legible por máquina en sus páginas. La pista está en el nombre. es un esquema. Una estructura compartida y acordada que permite a una máquina saber que “Mark Williams-Cook” es una persona, que trabaja en una organización llamada “Candour” y que la cadena “01603 957068” que aparece en su perfil es un número de teléfono y no, por ejemplo, mi peso en gramos.

Leer Los datos muestran que Google AIO está citando más profundamente en los sitios web

La documentación oficial de Google lo expresa tan claramente como lo hace Google:

“Los datos estructurados son un formato estandarizado para proporcionar información sobre una página y clasificar el contenido de la página”. Google también dice que utiliza datos estructurados “para comprender el contenido de la página, así como para recopilar información sobre la web y el mundo en general, como información sobre las personas, libros o empresas que se incluyen en el marcado”.

El objetivo del esquema es eliminar la ambigüedad. El lenguaje natural es confuso. “Apple” es una fruta, una empresa, un sello discográfico y probablemente el apellido de algún jerbo. Si le dices a un motor de búsqueda en un lenguaje sencillo que vendes Apple, tiene que adivinar. Si le dice en un esquema que vende una organización llamada “Apple Inc.” con lo mismo que un enlace a la página de Wikipedia de Apple, esa ambigüedad se reduce a nada. Ese es el trabajo. Desambiguación. Pistas explícitas. Identidad resoluble por máquina. Es, básicamente, un contrato cortés entre usted y una máquina que dice: “Acordemos ambos lo que significa esta palabra, sólo por esta vez”.

¿Dónde se resuelve realmente la ambigüedad? En el caso de Google, en Knowledge Graph, la gigantesca base de datos de entidades y relaciones que impulsa los paneles de conocimiento, “la gente también pregunta”, carruseles de entidades y cien otras superficies. El esquema es una de las entradas. No es el único insumo, y nunca ha sido el único insumo. Pero es limpio, explícito y silencioso, razón por la cual les gusta a los motores de búsqueda.

Leer Cómo demostrar el valor empresarial de relaciones públicas con parámetros UTM y GA4

Bien. Eso es lo que hace el esquema motores de búsqueda. Pasemos ahora a los LLM, que son un animal diferente en casi todos los aspectos importantes.

¿Dónde, exactamente, un LLM utilizaría un esquema?

Hay dos campos en el debate LLM/esquema, y la mayoría de los argumentos caen en uno de ellos.

Campamento 1: El esquema se aspira durante el entrenamiento del modelo y termina “integrado” de alguna manera.

Campamento 2: El esquema se lee en el momento en que el LLM recupera en vivo una página (durante la recuperación en el momento de la consulta o mediante rastreos que alimentan la recuperación).

Analicémoslos uno por uno, con el debido escepticismo.

Campo 1: el esquema ingresa a los datos de entrenamiento

He escrito sobre esto antes y fue cubierto por Search Engine Roundtable el año pasado. La versión corta es que esta es la teoría más popular y también la que tiene el argumento mecánico más débil detrás. Hay dos problemas y ninguno de ellos es pequeño.

Problema 1: Es casi seguro que el esquema se elimina antes del entrenamiento

Si no ha profundizado en cómo se crean realmente los LLM básicos, la inmersión profunda de tres horas y media de Andrej Karpathy en la capacitación previa de LLM es la referencia canónica, y sí, tres horas y media es el trato.

Los canales de preentrenamiento realizan una gran cantidad de trabajos de limpieza poco glamorosos antes de que una sola GPU vea los datos: filtrado de URL, filtrado de idioma, deduplicación, eliminación de información de identificación personal y, lo que es más importante, eliminación de HTML y texto estándar. El objetivo no es preservar la página. El objetivo es extraer prosa limpia que ayude al modelo a construir una distribución de probabilidad útil sobre el lenguaje. Cuanto más ruido (marcas, navegación, pies de página, scripts, JSON-LD, su banner de consentimiento de cookies) deje, peor será el modelo resultante. Entonces no lo hacen.

Leer Meta gana nuevas certificaciones de seguridad publicitaria para Facebook e Instagram

El conjunto de datos FineWeb ampliamente utilizado (15 billones de tokens, derivados de 96 instantáneas de Common Crawl) es sorprendentemente explícito. Su canal extrae texto de los archivos WARC utilizando trafilatura, una biblioteca elegida específicamente porque produce “el texto de la página principal” con “menos texto repetitivo y de menú” que las alternativas. La tarjeta de datos dice: “Luego extrajimos el texto de la página principal del HTML de cada página web, filtramos cada muestra y deduplicamos cada volcado/rastreo de CommonCrawl individual”. JSON-LD vive en un `

Podrías preguntarte razonablemente: entonces, ¿cómo puede ChatGPT escribir el marcado del esquema cuando lo pido? Porque hay millones de ejemplos de esquema. en prosa visible a través de la web. Tutoriales. Documentación. Publicaciones del foro. Repositorios de GitHub y respuestas de Stack Overflow. Bloques de código en publicaciones de blog. El modelo aprende cómo se ve el esquema de la misma manera que aprende cómo se ve una función de Python, leyendo infinitas explicaciones del mismo, escritas por humanos, en párrafos. El esquema en la página de su producto realsentado en silencio en la cabecera del documento, haciendo su trabajo adecuado, es eliminado directamente.

Problema 2: incluso si sobreviviera, no funcionaría como cree

Seamos generosos y estipulemos que una cantidad no trivial de esquema sin procesar se cuele en los datos de entrenamiento de un modelo. En realidad, Frontier Labs no nos da total transparencia sobre lo que ingieren, y los tribunales no han sido precisamente amables en este punto. Actualmente, el proceso de formación de Meta está siendo desmantelado por supuestamente utilizar LibGen, una biblioteca pirata de alrededor de 7,5 millones de libros protegidos por derechos de autor. Si los laboratorios fronterizos están felices de tragarse enteras las novelas de otras personas, probablemente no estén por encima de tragarse alguna que otra

Incluso si este fuera el caso y nuestro precioso esquema JSON-LD llegara a los datos de entrenamiento, no saldría ileso.

Aquí está el truco: el modelo no memoriza páginas. No tiene un pequeño archivador con la etiqueta “Candour Agency Ltd” y la dirección dentro. Lo que realmente sucede es esto:

Todo el texto del corpus de entrenamiento se divide en fichas (fragmentos de caracteres, a menudo partes de palabras).
Al modelo se le muestran miles de millones de pequeñas ventanas de tokens y se le pide que prediga la siguiente.
Cada vez que se equivoca, miles de millones de pequeños pesos numéricos dentro de la red son empujados para que funcione un poco mejor la próxima vez.
Después de suficientes empujones, esos pesos codifican colectivamente una impresión (con pérdidas, borrosa, estadística) de qué tokens tienden a seguir a qué otros tokens, en qué contextos.

Eso es lo que se almacena. Pesos. No hechos. No direcciones. No es tu código postal. Una distribución de probabilidad glorificada que ha leído mucho y recuerda, con la misma fidelidad con la que alguien intenta recordar la letra de una canción que escuchó por última vez en 2011, qué palabras suelen seguir a otras palabras.

Una captura de pantalla de la herramienta OpenAI Platform Tokenizer en una interfaz oscura, que muestra cómo un script de datos estructurados JSON-LD se divide en tokens individuales. En la parte superior izquierda, el contador muestra — Tu hermoso esquema, siendo Dahmerfied. Crédito de la imagen: Mark Williams-Cocinero

Aquí es donde el esquema se desmorona específicamente. el conjunto punto del esquema era tomar una cadena como “77 The Muddy Bank” y etiquetarla explícitamente como una dirección de calle perteneciente a una dirección postal que pertenece a su organización, para que una máquina no pueda confundirla con nada más. Cuando se tokeniza ese JSON-LD, la estructura se disuelve. La cadena “@type”: “Organization” se convierte en una secuencia de tokens que incluyen @, type, :, Organization, completamente indistinguibles para el modelo, de la misma sopa de palabras que aparece en cualquier publicación de blog sobre esquema. La desambiguación, que fue la única razón para usar el esquema en primer lugar, es lo primero que se descarta en la primera etapa del entrenamiento. Maravilloso.

Peor aún, un LLM sólo “recuerda” un hecho si lo ha visto muchas, muchas veces. Una sola mención de su dirección en la página de un solo producto es una gota extremadamente pequeña en un cubo de quince billones de tokens. Incluso si sobreviviera a la ingestión, también necesitaría que el modelo encontrara su streetAddress suficientes veces para que esos pesos particulares realmente se establecieran en un patrón útil. Para >99,99% de las empresas, eso no sucede. El hecho no se almacena. No será recordado. Le está pagando a un consultor para que le susurre su código postal a un huracán.

Entonces, si estás comprando la teoría de que “el esquema se incorpora al modelo”, estás comprando improbabilidades en una gabardina: que sobrevive a la limpieza previa al entrenamiento, que sobrevive a la tokenización con su estructura intacta y que se repite con suficiente frecuencia en la web para que el modelo realmente lo “aprenda”. Ninguna de las tres es obviamente cierta.

Campo 2: el esquema se lee en el momento de la consulta

He experimentado que es raro que los defensores de esquemas/LLM quieran discutir la participación de los datos de entrenamiento una vez que se han prendido fuego suavemente. El argumento tiende a pasar rápidamente a la posibilidad de que el esquema no esté en el modelo en sí, sino que se lea en el momento en que un usuario hace una pregunta, cuando el LLM recupera la página en tiempo real. Examinemos los tres tipos de este argumento en orden creciente de confianza y nivel preocupante de inexactitud.

Versión 1: “El esquema alimenta el gráfico de conocimiento”

Knowledge Graph de Google es una base de datos de entidades y relaciones amplia, seleccionada y de lento movimiento. Se alimenta de datos estructurados, Wikipedia, Wikidata, datos heredados de base libre y cientos de señales más. Lo crean y actualizan los canales de Google según el cronograma de Google. No se ensambla sobre la marcha cuando alguien escribe una pregunta, sin importar cuán rápidamente lo escriba.

La noción de que un LLM “construye un gráfico de conocimiento en tiempo real cuando se buscan las páginas” suena mucho menos razonable cuando lo dices en voz alta frente al espejo. Los gráficos de conocimiento son entidades construidas. Tienen identificaciones. Tienen reglas de cardinalidad de relación. Deben conciliarse con las entradas existentes, para que no termines con tres “Apple Inc.” a la deriva. nodos que presentan diferentes declaraciones de impuestos. Nada de eso sucede entre un usuario que presiona Enter y la respuesta que aparece en la pantalla. No puede. No hay tiempo suficiente y no hay infraestructura expuesta en el producto chatbot para hacerlo.

Entonces, si existe un proceso de resolución de entidades en cualquiera de los laboratorios fronterizos, se está construyendo río arribacon una cadencia similar a la de Google, y no durante su conversación. Lo cual está bien, pero no coincide con la afirmación sin aliento de que “tu esquema alimenta el cerebro del LLM”. Conceptualmente, la versión más sólida se acerca más a “su esquema puede eventualmente alimentar una base de datos seleccionada que el LLM podría consultar algún día”. Lo cual es una afirmación mucho más débil y de la que, por el momento, no existe evidencia pública alguna.

Versión 2: “Copilot de feeds de esquemas confirmados por Microsoft”

Citado erróneamente a escala industrial, el artículo de Search Engine Land apareció bajo el título “Microsoft Bing/Copilot usa esquema para sus LLM”, en el que se informó que Fabrice Canel de Microsoft había “confirmado” que el marcado de esquema ayuda a los LLM de Microsoft. Indique a la mitad de LinkedIn que pegue el titular como prueba, a menudo sin alterar el cuerpo del texto.

Si lees la cita real, se trata de IndexNow:

“La generación de IA valora el contenido nuevo en particular, en parte como una verificación de referencia de sus datos de capacitación LLM. Utilice la API en indexnow.org para impulsar esa información a medida que se publica o actualiza”.
~ Fabrice Canel

Es “tu página cambió, aquí está su nuevo estado, por favor ven a ver”. Fabrice estaba haciendo hincapié en frescura (avisar a los motores de búsqueda cuando su contenido ha cambiado para que puedan actualizar su comprensión) y ni un punto sobre el hecho de que JSON-LD sea analizado con deferencia por sistemas con sabor a GPT. Combinar los dos es un ejemplo de libro de texto del truco de salón favorito de la industria: tomar una afirmación cuidadosa sobre una cosa, lijarle los bordes y revenderla como una afirmación audaz sobre algo completamente distinto.

Versión 3: “Los LLM devuelven información que solo estaba en el esquema, por lo tanto, utilizan el esquema”

Este es el que impulsó el experimento. También es la pieza de “evidencia” más citada en las publicaciones de GEO en LinkedIn, y la más fácil de falsificar una vez que pasas media tarde pensando en ello.

Creé una página de prueba deliberadamente tonta sobre una empresa ficticia de camisetas de pato llamada DUCK YEA en i83.uk/duckyea.html. El contenido visible de la página no menciona ninguna dirección. Escondido en el encabezado del HTML, dentro de un

{ "@context": "http://api.the-great-pond.net/schema", "@type": "MallardEnterprise", "flockName": "DUCK YEA T-SHIRTS", "waddleStyle": "Aggressive", "nestingGrounds": { "@type": "LilyPadAddress", "reedNumber": "77", "puddle": "The Muddy Bank", "region": "South Pondshire", "featherCode": "DK99 YEA", "country": "United Queendom" }, "migrationPattern": "Non-Migratory", "quackVolume": "Loud" }

Algunas cosas para notar. El @context es una URL inventada que no resuelve nada (el gran estanque, lamentablemente, no tiene API). El @type no es un tipo válido de Schema.org. Ninguna de las propiedades (flockName, waddleStyle, nestingGrounds, reedNumber, puddle, featherCode, quackVolume) existe en el vocabulario de Schema.org. El JSON es JSON sintácticamente válido, pero en lo que respecta a Schema.org, esto es una tontería absoluta, el equivalente digital de alguien que habla francés en voz muy alta y solo conoce las palabras “queso” y “comadreja”. Un analizador consciente de esquemas que se comporte bien debería mirar esto, suspirar e ignorarlo.

Luego les pregunté a ChatGPT y Perplexity: “¿cuál es la dirección de esta empresa?”, señalando la URL.

Ambos regresaron felices: Caña número 77, The Muddy Bank, South Pondshire, DK99 YEA, Reino Unido.

Perplejity incluso ofreció amablemente que había encontrado la respuesta “en los datos estructurados incrustados en la página”, con el aire satisfecho de un estudiante que había leído claramente el material prescrito. Ninguno de los dos se inmutó ante el hecho de que nada del esquema era real, porque (y este es el objetivo del ejercicio) no lo estaban analizando como esquema. Estaban haciendo lo que siempre hacen los LLM: leer el texto visible de la página, seleccionar la parte que parecía una dirección y presentarla. El contenedor JSON-LD era, para el modelo, simplemente una prosa con una puntuación ligeramente extraña. Si hubiera envuelto la dirección en etiquetas y lo rodeó con emoji de patos, no habría hecho precisamente ninguna diferencia.

Si los LLM realmente analizaran JSON-LD con alguna reverencia por el vocabulario de Schema.org, mis tipos y propiedades inventados habrían sido rechazados o, al menos, marcados. No lo fueron. La información se sacó directamente del HTML, se desempolvó y se presentó con confianza. Curandero. 🦆

Con el fin de no cometer el pecado exacto del que estoy acusando a la multitud de GEO: el experimento del pato demuestra que los LLM devolvieron contenido de un bloque JSON-LD con un formato inventado. @contextun inventado @typey ninguna propiedad real de Schema.org. Lo que no prueba, por sí solo, es que los LLM ignoren el esquema por completo. Un sistema que consultaba el esquema. y recurrir a la extracción de texto produciría la misma respuesta aquí.

Si ejecuta la misma consulta hoy, obtendrá un resultado ligeramente diferente:

Una captura de pantalla de una interfaz de chat que muestra un mensaje de usuario y la respuesta de una IA sobre un fondo oscuro. La burbuja de texto del usuario dice: "¿Puedes decirme la dirección de esta empresa? ¿Cuál es la dirección de esta empresa? https://markwilliamscook.com/duckyea.html" El texto de respuesta de la IA dice: "El sitio web que vinculó es una página de broma/prueba creada por el experto en SEO Mark Williams-Cook como un experimento para probar cómo los modelos de lenguaje grande (LLM) y los motores de búsqueda analizan datos estructurados. Si bien no hay una dirección física visible en la página web, oculta dentro del código fuente de la página (marcado de esquema) hay una dirección ficticia: Reed Number 77, The Muddy Bank, South Pondshire, DK99 YEA, United Queendom." — Los LLM ahora obtienen la respuesta “correcta”, sin siquiera saber que estaba incorrecta (Crédito de la imagen: Mark Williams-Cook)

El modelo ahora señala (correctamente) que se trata de una página de prueba creada por algún tipo de SEO, lo que demuestra de manera encantadora que el problema de convergencia de la IA hace su trabajo en tiempo real: suficientes personas han escrito sobre el experimento que “DUCK YEA es una página de broma de Mark Williams-Cook” ahora está siendo retirada durante RAG, y la respuesta de consenso ha sobrescrito lo que de otro modo sería una prueba limpia. La dirección todavía se está leyendo desde el HTML, al diablo con la validez del esquema. El modelo acaba de aprender a advertirlo. Lo cual es, de forma pequeña y ligeramente sombría, un progreso.

Conjetura: ¿Podrían los LLM estar utilizando esquemas, de alguna manera, en algún lugar?

La respuesta honesta es que no sabemos qué está sucediendo en OpenAI, Anthropic, Google DeepMind, xAI y el resto, porque no lo dicen. Google en sí es una proliferación de sistemas separados (el índice, los reclasificadores, el pegamento, el gráfico de conocimiento, las descripciones generales de IA, el modo IA) que trabajan juntos para producir lo que parece, desde fuera, una única respuesta coherente, y en un buen día, en realidad lo es. En principio, no hay ninguna razón por la que un proveedor de LLM no pueda ejecutar un canal de extracción de entidades en la web, crear su propio almacén de entidades y consultarlo en el momento de generar la respuesta. Esto es conceptualmente adyacente a cómo funciona la generación de recuperación aumentada (RAG), y es el tipo de cosa que absolutamente construirías si fueras OpenAI y quisieras evitar que tu modelo invente con confianza al CEO equivocado.

Si están haciendo eso, el esquema es una entrada excelente y obvia. Es explícito, estructurado, silencioso y ya está ampliamente implementado. Sería una tontería que no lo utilizaran.

Pero aquí está el gran “pero”. No tenemos evidencia publicada, ni artículos filtrados, ni confirmación pública, ni resultados de pruebas de comportamiento de que algún LLM de frontera esté realmente haciendo esto. todavía. Razonar desde “probablemente deberían” hasta “por lo tanto, el esquema vale 20.000 libras esterlinas en consultoría este trimestre” es exactamente el tipo de pensamiento basado en hechos y cargado de vibraciones que el discurso necesita menos. Haga el caso, por supuesto. Pero etiquételo como conjetura, no como evidencia. Utilice una fuente diferente.

Google aún no ha resuelto este problema de forma fiable

También hay un elefante un poco incómodo parado en silencio en un rincón de la habitación. Si alguien en el mundo fuera a resolver primero el problema de “alimentar un gráfico de conocimiento resuelto por una entidad en el proceso de respuestas de un LLM”, seguramente sería Google. Tiene más de una década de ventaja en el enfoque de extracción de entidades. Tiene el Gráfico de Conocimiento. Tiene un perfil empresarial de Google, que es un editado por el usuario, estructurado, aparentemente autorizado Base de datos de información empresarial. Posee el modelo (Gemini). Es dueño de la superficie (Descripciones generales de AI). Es propietario del índice de búsqueda que lo envuelve. Cada página del planeta eventualmente pasa junto a uno de sus rastreadores. Si se supone que unir datos comerciales estructurados a los resultados de un LLM es el siguiente paso obvio en la historia humana, Google tiene todas las ventajas imaginables para ser quien lo demuestre.

Y sin embargo:

Una página de resultados de la Búsqueda de Google que muestra un conflicto destacado entre una descripción general de IA y la lista de perfiles comerciales de Google debajo de ella. En la parte superior, la descripción general de la IA dice: — Google se contradice de manera espectacular. Crédito de la imagen: Mark Williams-Cook

Esa es una única página de resultados de búsqueda de Google. A la izquierda, AI Overview de Google afirma con seguridad que Perrys Dover Mazda “no está cerrado”, enumera la dirección y proporciona útiles horarios de apertura, presumiblemente para que pueda pasar y echar un vistazo a los autos que ya no están allí. A la derecha, en la misma página, el panel de conocimiento de Perfil de Empresa de Google para exactamente la misma empresa está etiquetado como “Cerrado permanentemente” en una pancarta roja grande e inequívoca. Los datos del perfil empresarial de Google están estructurados. Está editado por el usuario. Es lo más parecido que tiene Google a una fuente verificable y autorizada sobre si una empresa está realmente abierta. Y el AI Overview, generado en el mismo SERP, por la misma empresa, en la misma sesión, no lo consulta. Son dos órganos de un mismo cuerpo que hace tiempo que no se hablan.

Si la empresa con la ventaja inicial más larga posible, los datos más estructurados, el incentivo comercial más obvio y la integración vertical total en cada parte de la pila no puede conectar de manera confiable su propia base de datos de horarios comerciales a su propia IA, la idea de que OpenAI o Anthropic hayan construido silenciosamente una cartera de entidades más rica que hace ceder al esquema de su organización es, digamos, optimista.

Entonces… ¿Deberías seguir usando Schema?

Sí. Sólo por las razones correctas y al precio correcto.

Schema sigue siendo, en términos generales, un recurso provisional. Existe porque la tecnología aún no puede leer de manera confiable el lenguaje humano sin ambigüedad, y los datos estructurados son la forma en que tapamos la brecha mientras los ingenieros descubren cómo leer el inglés correctamente. Gary Illyes de Google, hablando en una reunión de SEOFOMO en 2025, señaló (parafraseando) que sería maravilloso si Google no tuviera que depender en absoluto del esquema, porque en un mundo ideal, los sistemas simplemente entender la página. Mientras tanto, Schema le proporciona un poco de seguridad, que vale algo incluso si no vale la factura del asesoramiento que le han cotizado.

El reciente estudio de Ahrefs, que rastreó 1.885 páginas citadas que recién agregaron JSON-LD y las comparó con 4.000 controles, encontró que el esquema esencialmente no tuvo ningún efecto en las citas de IA en ChatGPT, Modo AI y Reseñas de IA. Eso suena condenatorio y varios carruseles de LinkedIn ya se están divirtiendo en consecuencia. Pero como señaló Gianluca Fiorelli en su excelente crítica, el estudio probó páginas que eran ya está siendo citado fuertemente por AI (Cada página del conjunto de datos tenía más de 100 citas de descripción general de IA antes del tratamiento). Esa es la peor población posible para probar el esquema, porque ya son entidades sólidas y bien entendidas. El trabajo de Schema es eliminar la ambigüedad. Si el sistema ya puede resolver quién es usted con gran confianza, agregar el esquema de organización resuelve un problema que la página no tiene. No te presentas por tu nombre a tu propia madre.

El caso interesante, y que nadie ha probado adecuadamente, es el nuevo y retador marcas, donde la huella de la entidad en la web es escasa y el sistema aún no puede decir con seguridad “esta empresa es la empresa a la que te refieres”. Para ellos, el esquema es infraestructura. En primer lugar, así es como te conviertes en un nodo resoluble en el gráfico. No le permitirá obtener una citación hoy. Te otorga el derecho a ser uno de los candidatos mañana, lo cual, en un mundo donde ser candidato de repente es el único juego disponible, no es poca cosa.

Comidas para llevar

Algunas ideas prácticas, revestidas para uso táctico:

Todavía uso el esquema. El costo de implementación es bajo, las desventajas son esencialmente nulas y las ventajas son acumulativas. Si el esquema termina siendo ingerido de manera significativa en cualquier etapa de la pila LLM (y podría ser así), el trabajo ya está hecho y usted puede sentirse satisfecho al respecto. La presunción libre es la mejor.
Deje de vender esquemas como una palanca mágica para citar un LLM. La evidencia pública actual de que los LLM utilizan el esquema “según lo previsto” en el momento de la consulta es, francamente, débil. A cualquier persona que le diga lo contrario a un cliente se le debe pedir cortésmente que muestre su trabajo, frente a otras personas, con una pizarra.
Sea implacable con la prueba. “Un LLM arrojó un hecho que aparece en el esquema” no es evidencia de que se haya utilizado el esquema. El mismo hecho casi siempre aparece en el HTML, los metadatos, el título de la página, la tarjeta social o en algún lugar donde un predictor simbólico lo captaría alegremente. El experimento del pato es importante precisamente porque el esquema no era válido y los LLM devolvieron la respuesta de todos modos. Si tu “prueba” sobrevive a esa prueba, habla conmigo. Si no es así, deja de ponerlo en diapositivas.
Centrar la inversión en esquemas donde la desambiguación realmente importe. Nuevas marcas. Marcas con colisiones de nombres. Organizaciones sin panel de conocimiento. Entidades personales que se superponen con otras personas que comparten su nombre y han sido más famosas durante más tiempo. Ahí es donde reside el lado positivo asimétrico.
Trate las “mejores prácticas de GEO” de la misma manera que trataría cualquier otra nueva ortodoxia de SEO. Con escepticismo, con experimentos y con la voluntad de revisar la posición cuando cambie la evidencia. El razonamiento de grado de lavado de autos en los LLM, donde la respuesta popular simplemente se repite hasta que parece cierta, también está vivo y próspero en nuestra industria.

Schema es una apuesta útil, de bajo coste y duradera. Tampoco es lo que arrastrará por sí solo su marca al conjunto de respuestas de ChatGPT. Úselo. Simplemente no lo sobrevendas. Y por el amor de Dios, antes de crear una plataforma en torno a “los LLM devolvieron el contenido del esquema, por lo tanto usan el esquema”, primero ejecute el experimento con un esquema deliberadamente sin sentido. Quizás te sorprenda lo que te diga el pato.

Más recursos:

Esta publicación se publicó originalmente en Mark Williams-Cook Substack.

Imagen de portada: Roman Samborskyi/Shutterstock

Esquema, LLM y el listón bajo para la ‘evidencia’ en GEO

Un repaso rápido sobre para qué sirve realmente el esquema

¿Dónde, exactamente, un LLM utilizaría un esquema?

Campo 1: el esquema ingresa a los datos de entrenamiento

Problema 1: Es casi seguro que el esquema se elimina antes del entrenamiento

Problema 2: incluso si sobreviviera, no funcionaría como cree

Campo 2: el esquema se lee en el momento de la consulta

Versión 1: “El esquema alimenta el gráfico de conocimiento”

Versión 2: “Copilot de feeds de esquemas confirmados por Microsoft”

Versión 3: “Los LLM devuelven información que solo estaba en el esquema, por lo tanto, utilizan el esquema”

Conjetura: ¿Podrían los LLM estar utilizando esquemas, de alguna manera, en algún lugar?

Google aún no ha resuelto este problema de forma fiable

Entonces… ¿Deberías seguir usando Schema?

Comidas para llevar

Artículos relacionados

La estrategia de búsqueda europea va más allá de Google y Bing

Qué se necesita para ser citado y permanecer citado en la búsqueda con IA

La IA reconoce el 96% de las marcas pero no menciona casi ninguna

LEAVE A REPLY Cancel reply

Artículos populares

Martin Splitt de Google revela 3 errores y soluciones de SEO...

7 mejores agencias de marketing de IA para transformar su estrategia...

Guía de precios de la agencia de IA 2025: Modelos, costos...

Las 9 mejores plantillas de calendario de contenido para 2024

25 mejores ejemplos de páginas de preguntas frecuentes efectivas

10 cosas que deben saber sobre la configuración de la campaña...

Chipotle conecta SMS, Social para celebrar los ‘extras’ del Super Bowl

OPCIONES EDITORIALES

Snapchat amplía las suscripciones de creadores a todos los usuarios elegibles

¿Hay algún beneficio de SEO para los datos de geolocalización de...

Apple se apoyará en Google Gemini para la revisión de Siri

Tendencias

Martin Splitt de Google revela 3 errores y soluciones de SEO...

7 mejores agencias de marketing de IA para transformar su estrategia...

Guía de precios de la agencia de IA 2025: Modelos, costos...

TABLAS POPULARES

Etiquetas populares

Sobre nosotras

Síganos