Mueller de Google califica la idea de rebajas para bots como “una idea estúpida”

- Advertisement -spot_img

Algunos desarrolladores han estado experimentando con la entrega de Markdown específico para bots como una forma de reducir el uso de tokens por parte de los rastreadores de IA.

El defensor de la búsqueda de Google, John Mueller, rechazó la idea de entregar archivos Markdown sin procesar a los rastreadores LLM, planteando preocupaciones técnicas en Reddit y calificando el concepto como “una idea estúpida” en Bluesky.

Lo que está sucediendo

Un desarrollador publicó en r/TechSEO, describiendo planes para utilizar el middleware Next.js para detectar agentes de usuario de IA como GPTBot y ClaudeBot. Cuando esos bots llegan a una página, el middleware intercepta la solicitud y entrega un archivo Markdown sin formato en lugar de la carga útil completa de React/HTML.

El desarrollador afirmó que los primeros puntos de referencia mostraron una reducción del 95% en el uso de tokens por página, lo que, según ellos, debería aumentar la capacidad de ingesta del sitio para los robots de generación aumentada de recuperación (RAG).

Mueller respondió con una serie de preguntas.

“¿Está seguro de que pueden reconocer MD en un sitio web como cualquier otra cosa que no sea un archivo de texto? ¿Pueden analizar y seguir los enlaces? ¿Qué pasará con los enlaces internos, el encabezado, el pie de página, la barra lateral y la navegación de su sitio? Una cosa es darle un archivo MD manualmente, pero parece muy diferente entregarle un archivo de texto cuando buscan una página HTML”.

En Bluesky, Mueller fue más directo. En respuesta al consultor técnico de SEO Jono Alderson, quien argumentó que aplanar páginas en Markdown elimina el significado y la estructura,

Leer  Es por eso que AI no lleva tu trabajo (todavía)

Mueller escribió:

“Convertir páginas a Markdown es una idea tan estúpida. ¿Sabías que los LLM pueden leer imágenes? ¿POR QUÉ NO CONVERTIR TODO TU SITIO EN UNA IMAGEN?”

Alderson argumentó que colapsar una página en Markdown elimina contexto y estructura importantes, y enmarcó la búsqueda de Markdown como una jugada de conveniencia en lugar de una estrategia duradera.

Otras voces en el hilo de Reddit se hicieron eco de las preocupaciones. Un comentarista cuestionó si el esfuerzo podría limitar el rastreo en lugar de mejorarlo. Señalaron que no hay evidencia de que los LLM estén capacitados para favorecer documentos que requieren menos recursos para analizar.

El cartel original defendió la teoría, argumentando que los LLM son mejores para analizar Markdown que HTML porque están muy capacitados en repositorios de código. Esa afirmación no ha sido probada.

Por qué esto importa

Mueller ha sido coherente en esto. En un intercambio anterior, respondió a una pregunta de Lily Ray sobre la creación de páginas Markdown o JSON separadas para LLM. Su posición entonces era la misma. Dijo que debemos centrarnos en HTML limpio y datos estructurados en lugar de crear copias de contenido exclusivas para bots.

Esa respuesta siguió al análisis de SE Ranking de 300.000 dominios, que no encontró conexión entre tener un archivo llms.txt y la frecuencia con la que se cita un dominio en las respuestas de LLM. Además, Mueller ha comparado llms.txt con la metaetiqueta de palabras clave, un formato que las principales plataformas no han documentado como algo que utilizan para la clasificación o las citas.

Leer  ¿En qué se diferencia la optimización de motores de respuesta de SEO?

Hasta ahora, la documentación de la plataforma pública no ha demostrado que los formatos exclusivos para bots, como las versiones Markdown de las páginas, mejoren la clasificación o las citas. Mueller planteó las mismas objeciones en múltiples discusiones y los datos de SE Ranking no encontraron nada que sugiriera lo contrario.

Mirando hacia el futuro

Hasta que una plataforma de inteligencia artificial publique una especificación que solicite versiones Markdown de las páginas web, la mejor práctica sigue siendo la misma. Mantenga HTML limpio, reduzca el JavaScript innecesario que bloquea el análisis de contenido y utilice datos estructurados donde las plataformas tengan esquemas documentados.

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares