WordPress Robots.txt: ¿Qué debes incluir?

- Advertisement -spot_img

El archivo humilde robots.txt a menudo se sienta en silencio en el fondo de un sitio de WordPress, pero el valor predeterminado es algo básico y, por supuesto, no contribuye a las directivas personalizadas que desee adoptar.

No se necesita más introducción: profundicemos en qué más puede incluir para mejorarla.

(Una pequeña nota para agregar: esta publicación solo es útil para las instalaciones de WordPress en el directorio raíz de un dominio o subdominio solamente, por ejemplo, dominio.com o ejemplo.domain.com).

¿Dónde está exactamente el archivo WordPress Robots.txt?

Por defecto, WordPress genera un archivo virtual robots.txt. Puede verlo visitando /robots.txt de su instalación, por ejemplo:

https://yoursite.com/robots.txt

Este archivo predeterminado existe solo en la memoria y no está representado por un archivo en su servidor.

Si desea usar un archivo Robots.txt personalizado, todo lo que tiene que hacer es cargar uno en la carpeta raíz de la instalación.

Puede hacer esto utilizando una aplicación FTP o un complemento, como Yoast SEO (SEO → Herramientas → Editor de archivos), que incluye un editor de robots.txt al que puede acceder dentro del área de administración de WordPress.

El WordPress Robots.txt predeterminado (y por qué no es suficiente)

Si no crea manualmente un archivo robots.txt, la salida predeterminada de WordPress se ve así:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Si bien esto es seguro, no es óptimo. Vamos más allá.

Incluya siempre su (s) XML Sitemap (s)

Asegúrese de que todos los Sitemaps XML se enumeren explícitamente, ya que esto ayuda a los motores de búsqueda a descubrir todas las URL relevantes.

Sitemap: https://example.com/sitemap_index.xml
Sitemap: https://example.com/sitemap2.xml

Algunas cosas no bloquear

Ahora hay sugerencias anticuadas para rechazar algunos directorios centrales de WordPress como/WP-Includes/,/WP-Content/Plugins/, o incluso/WP-Content/uploads/. ¡No!

Leer  Tendencias actualizadas, flujos de trabajo impulsados ​​por la IA y estrategias de datos más inteligentes para Q2

He aquí por qué no debes bloquearlos:

  1. Google es lo suficientemente inteligente como para ignorar archivos irrelevantes. Bloquear CSS y JavaScript puede dañar la renderización y causar problemas de indexación.
  2. Puede bloquear involuntariamente imágenes/videos valiosos/otros medios, especialmente aquellos cargados desde/wp-contento/cargas/, que contiene todos los medios cargados que definitivamente desea que se arrastren.

En su lugar, deje que los rastreadores obtengan el CSS, JavaScript y las imágenes que necesitan para una representación adecuada.

Gestión de sitios de estadificación

Es aconsejable asegurarse de que los sitios de estadificación no se rastreen tanto para el SEO como para fines de seguridad general.

Siempre aconsejo no permitir todo el sitio.

Todavía debe usar la metaetic de noindex, pero para asegurarse de que se cubra otra capa, todavía es aconsejable hacer ambas cosas.

Si navegas a Configuración> Lecturapuede marcar la opción “desalentar los motores de búsqueda para indexar este sitio”, que hace lo siguiente en el archivo robots.txt (o puede agregar esto en usted mismo).

User-agent: *
Disallow: /

Google aún puede indexar páginas si descubre enlaces en otros lugares (generalmente causados ​​por llamadas a la puesta en escena de la producción cuando la migración no es perfecta).

IMPORTANTE: Cuando se mueva a la producción, asegúrese de verificar esta configuración nuevamente para asegurarse de revertir cualquier rechazo o noindexing.

Limpiar algunas rutas de WordPress de núcleo no esencial

No todo debe bloquearse, pero muchas rutas predeterminadas no agregan valor de SEO, como el siguiente:

Disallow: /trackback/
Disallow: /comments/feed/
Disallow: */embed/
Disallow: /cgi-bin/
Disallow: /wp-login.php

No permitir parámetros de consulta específicos

A veces, querrá evitar que los motores de búsqueda se arrastren con URL con parámetros de consulta de bajo valor conocidos, como parámetros de seguimiento, respuestas de comentarios o versiones de impresión.

Leer  Cómo el marketing de sobrealimentaciones de fábricas de IA de Yum en Taco Bell y más allá

Aquí hay un ejemplo:

User-agent: *
Disallow: /*?*replytocom=
Disallow: /*?*print=

Puede usar la herramienta de parámetros de URL de URL de la consola de búsqueda de Google para monitorear los patrones de indexación impulsados ​​por los parámetros y decidir si los desordenados adicionales son dignos de agregar.

No permitir taxonomías de bajo valor y serps

Si su sitio de WordPress incluye archivos de etiquetas o páginas de resultados de búsqueda internos que no ofrecen valor agregado, también puede bloquearlos:

User-agent: *
Disallow: /tag/
Disallow: /page/
Disallow: /?s=

Como siempre, sopese esto con su estrategia de contenido específica.

Si usa páginas de taxonomía de etiquetas como parte del contenido que desea indexado y rastreado, entonces ignora esto, pero en general, no agregan ningún beneficio.

Además, asegúrese de que su estructura de vinculación interna respalde su decisión y minimice cualquier vinculación interna con las áreas que no tenga intención de indexación o rastreo.

Monitorear en estadísticas de rastreo

Una vez que su robots.txt esté en su lugar, monitoree las estadísticas de rastreo a través de la consola de búsqueda de Google:

  • Mire las estadísticas de rastreo en Configuración para ver si los bots están desperdiciando recursos.
  • Use la herramienta de inspección de URL para confirmar si una URL bloqueada está indexada o no.
  • Verifique los sitios sitios y asegúrese de que solo sean páginas de referencia que realmente desea rastrearse e indexar.

Además, algunas herramientas de administración de servidores, como Plesk, Cpanel y Cloudflare, pueden proporcionar estadísticas de rastreo extremadamente detalladas más allá de Google.

Por último, use la anulación de configuración de Screaming Frog para simular cambios y revisar las características de optimización de rastreo de Yoast SEO, algunas de las cuales resuelven lo anterior.

Leer  La venta estadounidense de Tiktok enfrenta más desafíos con 59 días restantes

Pensamientos finales

Si bien WordPress es un gran CMS, no está configurado con los robots predeterminados más ideales.

Solo unas pocas líneas de código y menos de 30 minutos de su tiempo pueden ahorrarle miles de solicitudes de rastreo innecesarias a su sitio que no son dignos de ser identificados en absoluto, además de asegurar un problema de escala potencial en el futuro.

Más recursos:


Imagen destacada: Sklyareek/Shutterstock

(Tagstotranslate) SEO técnico

spot_img
spot_img

Artículos relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Artículos populares