Google explica por qué las URL bloqueadas por Robots.txt aún se pueden indexar

- Advertisement -spot_img

John Mueller de Google respondió una pregunta sobre la curiosa circunstancia de que Search Console informara que miles de URL estaban indexadas a pesar de estar bloqueadas por robots.txt. Mueller ayudó a explicar cómo sucede esto y qué hacer al respecto.

Contenido indexado a pesar de estar bloqueado por Robots.txt

Un Redditor pidió consejo porque Google Search Console informaba de más de 51.000 páginas con el estado “Indexadas, aunque bloqueadas por robots.txt”. Las URL afectadas eran principalmente URL de productos WooCommerce que contenían parámetros de URL para agregar al carrito como “?add-to-cart=”.

Debido a que el problema apareció repentinamente, el propietario del sitio cuestionó si las reglas del archivo robots.txt eran responsables de crear el problema. También querían saber si eliminar las reglas ayudaría a Google a procesar las señales canónicas y eliminar las URL informadas de Search Console.

La persona preguntó:

“Tengo un sitio WooCommerce y de repente, desde el mes pasado, nos enfrentamos a este problema: “Indexado, aunque bloqueado por robots.txt”.

hay un total de “páginas afectadas: 51.000 páginas”

al final de la URL veo principalmente ?page&post_type=product&product=slug&add-to-cart=98063,

Después de inspeccionar esas URL, descubrí que tenían una configuración de etiqueta de índice y que el archivo robots.txt tenía

* No permitir: /*?add-to-cart=
* No permitir: /*?*add-to-cart=

Eliminé esas dos reglas de robots.txt y espero que esas páginas se arreglen porque tienen configuración canónica para corregir el producto, ¿eso solucionará el problema?

¿O también debería configurar reglas sin índice? ¿Eso nos causará nuestro presupuesto de rastreo? Es un sitio de WooCommerce bastante grande. Déjenme saber qué piensan, muchachos, si alguien tiene experiencia en solucionar ese problema. y cuál será el método correcto sin evitar nuestra pérdida de funcionalidad o SEO”.

Google dice que las URL para agregar al carrito no necesitan estar indexadas

Mueller respondió que no es necesario indexar las URL para agregar al carrito y que bloquearlas a través de robots.txt es un enfoque aceptable.

Leer  42 Estadísticas y hechos de Facebook para 2024

Explicó que incluso cuando Google informa que esas URL están indexadas, es poco probable que aparezcan en los resultados de búsqueda normales porque están bloqueadas por robots.txt. Según Mueller, los usuarios generalmente no buscan esas URL directamente, lo que los convierte en malos candidatos para la visibilidad de búsqueda.

John Mueller respondió:

“No es necesario indexar las URL para agregar al carrito. Bloquearlas con robots.txt está bien. Incluso si se “indexan” porque están bloqueadas por robots.txt, es poco probable que se muestren en la búsqueda (a menos que realice consultas específicas para esas URL, lo cual los usuarios no hacen)”.

Estoy un poco indeciso acerca de lo que Mueller dijo sobre “robots.txt”, lo que hace que sea “improbable” que las URL se muestren en la Búsqueda. El motivo es que el archivo robots.txt no impide que una página web se muestre en la Búsqueda de Google. Simplemente evita que el robot de Google rastree esas páginas. Técnicamente, eso no es del todo correcto y me sorprende un poco que Mueller diga eso.

Noindex probablemente no sea una solución

Uno de los Redditors que respondió a esa pregunta sugirió la solución de agregar una etiqueta de robots noindex a las URL parametrizadas. Pero puede que esa no sea una solución viable porque las páginas con y sin parámetros de URL son esencialmente la misma. Se representan utilizando la misma plantilla para una página específica. Entonces, a menos que WooCommerce los trate de manera diferente y pueda representar las URL parametrizadas con un noindex y la página normal sin el noindex, esa no es una solución real.

Leer  Google dice que las cargas de mapa del sitio GSC no garantizan rastreos inmediatos

Por qué Google informa URL indexadas que no puede rastrear

Otro Redditor ofreció una posible explicación de por qué aparecían tantas URL en Search Console. Sugirieron que Google probablemente descubrió enlaces que contenían los parámetros de agregar al carrito en algún lugar del sitio y agregó esas URL a sus sistemas.

Mi sugerencia para la persona que originalmente hizo esa pregunta es rastrear el sitio web con Screaming Frog, revisar los enlaces internos para identificar desde dónde se enlazan esas páginas y luego tomar alguna medida, como eliminar esos enlaces o agregarles un atributo de enlace rel=”nofollow”.

Probablemente, la mejor solución sea utilizar el bloque robots.txt para evitar el rastreo, siempre que se entienda que eso es todo lo que hace. Si la persona quiere estar más segura, también puede identificar dónde existen esos enlaces y luego agregar el atributo de enlace nofollow como una capa adicional, una pista para Google. Nofollow no es una directiva, pero es una pista fuerte.

Las advertencias de Search Console no siempre indican un problema de búsqueda

Uno de los desafíos recurrentes de los informes de Search Console es que pueden exponer condiciones técnicas que parecen preocupantes pero que en realidad tienen poco o ningún efecto en el rendimiento de la búsqueda. Por ejemplo, los informes de error 404 son útiles por diversas razones, pero muchas veces una respuesta 404 del servidor es la respuesta correcta y en realidad no es un “error” que deba corregirse.

Llevar

La respuesta de Mueller refuerza la conclusión de que no todas las advertencias de Search Console requieren tomar medidas para solucionar algo, aunque en este caso específico puede haber algo que solucionar en forma de enlaces internos a páginas web que utilizan los parámetros de URL del carrito de compras. Si esos enlaces con los parámetros de URL del carrito de compras son absolutamente necesarios, entonces el uso de un atributo de enlace rel=”nofollow” le dará a Google una fuerte indicación de no seguir ese enlace. ¡El placer del SEO técnico!

Leer  LinkedIn comparte especificaciones técnicas y consejos de publicación para contenido de video

Imagen destacada de Shutterstock/Orange Line Media

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares