En un podcast reciente de Search Off the Record, los presentadores John Mueller y Martin Splitt rechazaron la idea promovida por los SEO de IA de que las versiones simplificadas y de solo contenido son una mejor manera de optimizar la búsqueda con IA. Argumentaron que todas las cosas que los SEO de IA quieren eliminar son en realidad útiles para la clasificación.
Las partes sin contenido de las páginas web son importantes
El TL;DR de esta parte es que HTML es para que los navegadores lo representen en una página visible para los humanos, así como para que lo lean los lectores de pantalla.
Martin Splitt comienza la discusión explicando por qué el HTML simple no parece ser la forma ideal de proporcionar contenido a los agentes de IA y LLM. La idea es que, además del contenido, hay muchos otros códigos en el HTML que son irrelevantes para un LLM o un agente de IA que puede estar visitando un sitio en busca del contenido.
El atractivo de Markdown, entonces, es que puede proporcionar el contenido de una manera que se libera de todo el HTML que debe hacer que una página web sea visible para los humanos o legible para un lector de pantalla.
Dividir explica:
“Y creo que esa es también la razón por la que la gente piensa que es bueno para los LLM, porque tienes menos cosas, menos tokens. Y si miras un archivo HTML sin que un navegador lo represente, si simplemente miras el HTML simple en un editor de texto, básicamente, entonces es difícil leer el contenido, porque hay mucho material, muchas cosas en él. Están todas estas etiquetas HTML y todo esto, tal vez incluso estilos en línea y todo ese tipo de cosas”.
También elogia a Markdown por la capacidad de seguir comunicando la esencia del contenido:
“Pero si falla una renderización de Markdown y miras el archivo Markdown en un editor de texto, todavía está estructurado y legible. Como un enlace, es la palabra del texto del enlace, como el texto de anclaje, y luego entre corchetes y luego entre corchetes normales. Probablemente es lo que haría si lo único que tuviera disponible fuera texto.
Si estuviera escribiendo un correo electrónico sin la posibilidad de vincular cosas, probablemente marcaría algún tipo de texto de vínculo y luego pondría alguna forma de decir, “y aquí es donde debes ir para verlo”.
Y creo que este minimalismo es probablemente lo que hace que la gente piense, sí, esto es genial para una máquina que necesita entender este contenido, a diferencia de HTML”.
Convertir HTML a texto es trivial
Mueller y Splitt notaron que a pesar de lo complejo que parece HTML, rastrearlo y darle sentido es trivial y muy fácil de hacer. El argumento de venta sobre el uso de rebajas para los LLM, que simplifica el rastreo y la indexación de contenido, se desmorona por completo en este punto.
John Mueller explica:
“Creo que lo más importante es que la web con HTML y todo eso existe desde hace mucho tiempo, más que Markdown. Y todos los rastreadores que existen han practicado con HTML. Y convertir HTML en texto es trivial. Hay muchas bibliotecas que pueden hacer eso por usted. Entonces, si piensa en lo que un rastreador web promedio podría buscar o necesitar encontrar en una página para poder entenderla, entonces probablemente sea solo HTML”.
Markdown falla en el descubrimiento de contenido
El descubrimiento se produce cuando un rastreador visita una página web y descubre otras páginas web dentro de un único sitio web, y también de un sitio web a otro.
Splitt dijo que el descuento se centra en una sola parte del contenido: el contenido mismo. Explicó que esto hace que sea más difícil para los motores de búsqueda ver una página web en el contexto de cómo se conecta con el resto del contenido de un sitio web a través de enlaces, lo que ayuda al descubrimiento.
Él explicó:
“Sí, y quiero decir, la otra cosa es, sí, es bueno que Markdown generalmente se centre en una parte del contenido, pero el HTML con todos los enlaces, la navegación y los encabezados y todo ese tipo de cosas que se eliminan en los archivos Markdown que componen el sitio web son importantes para comprender la estructura y cómo se conecta con el resto del sitio.
Así que supongo que eso también es malo. Si perdiéramos esto, probablemente no sea tan bueno para rastrear en Discovery, ¿eh? “
Llevar
Al leer patentes y artículos de investigación, queda claro que los motores de búsqueda ven un sitio web como una colección de páginas web individuales, pero también como grupos de páginas web que pertenecen a secciones y categorías, y también como un sitio web en su conjunto. Al alejar el zoom, el sitio web no es más que un punto entre miles y miles de otros sitios web en un vecindario de sitios web, autoorganizados por enlaces en categorías y niveles de calidad.
Para SEO, tenemos que entender un sitio tanto desde la vista ampliada como alejada para conceptualizar cómo encajan todas las piezas. La razón es que eso es lo que hacen los motores de búsqueda.
El SEO basado en IA parece obsesionado con facilitar a los LLM y a los agentes de IA el rastreo e indexación de contenido. El rastreo y la indexación son preocupaciones válidas. Pero al insistir en los archivos Markdown, no están considerando los fundamentos del descubrimiento y lo trivial que es extraer contenido de una página web HTML, lo que hace que los archivos Markdown sean redundantes.
Aparte de las cuestiones anteriores, también está la de la confiabilidad. Solía haber una cosa llamada metaetiqueta de palabra clave que algunos motores de búsqueda usaban para obtener una pista sobre de qué se trataba una página web. Naturalmente, los propietarios de sitios y los SEO lo utilizaron para deshacerse de todas las palabras clave que querían clasificar, independientemente del contenido.
No estoy diciendo que los SEO y los propietarios de sitios web no sean dignos de confianza, pero el tráfico de búsqueda es dinero y la gente hará lo que quiera. Entonces, la última consideración es que los motores de búsqueda nunca confiarán en el contenido marcado y lo usarán como canónico cuando es algo trivial rastrear y extraer el contenido original del HTML.
Volviendo a lo que discutieron Mueller y Splitt, Google insiste en que la insistencia de AI SEO en las rebajas elimina una cantidad significativa de contexto que importa.
Mire Search Off The Record Episodio 111 aquí:

