A John Mueller de Google se le preguntó cuántos megabytes de HTML rastrea el robot de Google por página. La pregunta era si el robot de Google indexa dos megabytes (MB) o quince megabytes de datos. La respuesta de Mueller minimizó el aspecto técnico de la pregunta y fue directo al meollo de la cuestión, que en realidad se trata de cuánto contenido está indexado.
GoogleBot y otros robots
En medio de una discusión en curso en Bluesky, alguien revivió la pregunta sobre si el robot de Google rastrea e indexa 2 o 15 megabytes de datos.
Publicaron:
“Espero que hayas conseguido lo que te hizo huir 🙂
Sería muy útil tener más precisiones y ejemplos de la vida real como “Mi página tiene X Mb de largo, se corta después de X Mb, también carga el recurso A: 15 Kb, el recurso B: 3 Mb, el recurso B no está completamente cargado, pero el recurso A tiene 15 Kb.
El pánico por el límite de 2 megabytes es exagerado
Mueller dijo que no es necesario sopesar los bytes e insinuó que lo que en última instancia es importante no es limitar cuántos bytes hay en una página, sino si los pasajes importantes están indexados o no.
Además, Mueller dijo que es raro que un sitio supere los dos megabytes de HTML, descartando la idea de que es posible que el contenido de un sitio web no se indexe porque es demasiado grande.
También dijo que Googlebot no es el único robot que rastrea una página web, aparentemente para explicar por qué 2 megabytes y 15 megabytes no son factores limitantes. Google publica una lista de todos los rastreadores que utiliza para diversos fines.
Cómo comprobar si los pasajes de contenido están indexados
Por último, la respuesta de Mueller confirmó una forma sencilla de comprobar si los pasajes importantes están indexados o no.
Mueller respondió:
“Google tiene muchos rastreadores, por eso los dividimos. Es extremadamente raro que los sitios tengan problemas en este sentido, 2 MB de HTML (para aquellos que se centran en el robot de Google) es bastante. La forma en que suelo comprobar es buscar una cita importante más abajo en una página; normalmente no es necesario sopesar los bytes”.
Pasajes para clasificar
Las personas tienen períodos de atención cortos, excepto cuando leen sobre un tema que les apasiona. Es entonces cuando un artículo completo puede resultar útil para aquellos lectores que realmente quieran profundizar para obtener más información.
Desde una perspectiva de SEO, puedo entender por qué algunos pueden sentir que un artículo completo puede no ser ideal para clasificar si un documento proporciona una cobertura profunda de múltiples temas, cualquiera de los cuales podría ser un artículo independiente.
Un editor o un SEO deben dar un paso atrás y evaluar si un usuario está satisfecho con una cobertura profunda de un tema o si los usuarios necesitan un tratamiento más profundo. También hay diferentes niveles de exhaustividad, uno con detalles granulares y otro con un nivel general de cobertura de detalles, con enlaces a una cobertura más profunda.
En otras palabras, a veces los usuarios necesitan una vista del bosque y otras veces necesitan una vista de los árboles.
Google ha podido durante mucho tiempo clasificar pasajes de documentos con sus algoritmos de clasificación de pasajes. En última instancia, en mi opinión, todo se reduce a lo que es útil para los usuarios y es probable que resulte en un mayor nivel de satisfacción del usuario.
Si la cobertura completa del tema entusiasma a las personas y les apasiona lo suficiente como para compartirlo con otras personas, entonces eso es una victoria.
Si una cobertura completa no es útil para ese tema específico, entonces puede ser mejor dividir el contenido en una cobertura más corta que se alinee mejor con las razones por las que las personas visitan esa página para leer sobre ese tema.
Comidas para llevar
Si bien la mayoría de estas conclusiones no están representadas en la respuesta de Mueller, en mi opinión representan buenas prácticas para SEO.
- Los límites de tamaño de HTML ocultan una preocupación por preguntas más profundas sobre la longitud del contenido y la visibilidad de la indexación.
- Los umbrales de megabytes rara vez son una limitación práctica para las páginas del mundo real
- Contar bytes es menos útil que verificar si el contenido realmente aparece en la búsqueda
- La búsqueda de pasajes distintivos es una forma práctica de confirmar la indexación.
- La exhaustividad debe estar impulsada por la intención del usuario, no por suposiciones de rastreo.
- La utilidad y la claridad del contenido importan más que el tamaño del documento
- La satisfacción del usuario sigue siendo el factor decisivo en el rendimiento del contenido
La preocupación sobre cuántos megabytes son un límite de rastreo estricto para el robot de Google refleja la incertidumbre sobre si el contenido importante de un documento extenso se está indexando y está disponible para clasificar en la búsqueda. Centrarse en los megabytes desvía la atención de los problemas reales en los que deberían centrarse los SEO, que es si la profundidad de la cobertura del tema satisface mejor las necesidades del usuario.
La respuesta de Mueller refuerza el punto de que las páginas web que son demasiado grandes para ser indexadas son poco comunes, y los límites de bytes fijos no son una restricción que deba preocupar a los SEO.
En mi opinión, los SEO y los editores probablemente tendrán una mejor cobertura de búsqueda al dejar de centrarse en la optimización de los límites de rastreo supuestos y centrarse en los límites de consumo de contenido del usuario.
Pero si a un editor o SEO le preocupa si un pasaje cercano al final de un documento está indexado, existe una manera fácil de verificar el estado simplemente buscando una coincidencia exacta para ese pasaje.
La cobertura exhaustiva de temas no es automáticamente un problema de clasificación y no siempre es el mejor (o peor) enfoque. El tamaño de HTML no es realmente una preocupación a menos que comience a afectar la velocidad de la página. Lo que importa es si el contenido es claro, relevante y útil para el público objetivo en los niveles precisos de granularidad que sirvan a los propósitos del usuario.
Imagen destacada de Shutterstock/Krakenimages.com

