John Mueller de Google respondió una pregunta en Reddit sobre por qué Google elige una página web sobre otra cuando varias páginas tienen contenido duplicado, y también explica por qué Google a veces parece elegir la URL incorrecta como canónica.
URL canónicas
Anteriormente, la palabra canónico se usaba principalmente en el sentido religioso para describir qué escritos o creencias se reconocían como autorizadas. En la comunidad de SEO, la palabra se usa para referirse a qué URL es la verdadera página web cuando varias páginas web comparten el mismo contenido o uno similar.
Google permite a los propietarios de sitios y a los SEO proporcionar una pista de qué URL es canónica con el uso de un atributo HTML llamado rel=canonical. Los SEO a menudo se refieren a rel=canonical como un elemento HTML, pero no lo es. Rel=canonical es un atributo del elemento. Un elemento HTML es un componente básico de una página web. Un atributo es un marcado que modifica el elemento.
Por qué Google elige una URL sobre otra
Una persona en Reddit le pidió a Mueller que profundizara en las razones por las que Google elige una URL en lugar de otra.
Ellos preguntaron:
“Hola John, ¿puedo pedirte que profundices un poco más en esto? Digamos que quiero entender por qué Google piensa que dos páginas están duplicadas y elige una sobre la otra y el motivo no está realmente a la vista. ¿Qué se puede hacer para entender mejor por qué se elige una página sobre otra si cubren temas diferentes? Como, IDK, panda rojo y panda “normal” 🐼. ¡¡TY!! “
Mueller respondió con alrededor de nueve razones diferentes por las que Google elige una página sobre otra, incluidas las razones técnicas por las que Google parece equivocarse, pero en realidad a veces se debe a algo que el propietario del sitio pasó por alto durante el SEO.
Aquí están las nueve razones que citó para las elecciones canónicas:
- Contenido duplicado exacto
Las páginas son completamente idénticas y no dejan ninguna señal significativa para distinguir una URL de otra. - Duplicación sustancial en el contenido principal.
Una gran parte del contenido principal se superpone en varias páginas, como por ejemplo el mismo artículo que aparece en varios lugares. - Muy poco contenido principal exclusivo en relación con el contenido de la plantilla
El contenido único de la página es mínimo, por lo que los elementos repetidos como la navegación, los menús o el diseño dominan y hacen que las páginas parezcan efectivamente iguales. - Patrones de parámetros de URL inferidos como duplicados
Cuando se sabe que varias URL parametrizadas devuelven el mismo contenido, Google puede generalizar ese patrón y tratar variaciones de parámetros similares como duplicados. - Versión móvil utilizada para comparar.
Google puede evaluar la versión móvil en lugar de la versión de escritorio, lo que puede dar lugar a evaluaciones duplicadas que difieren de las que se verifican manualmente. - Versión visible para el robot de Google utilizada para la evaluación
Las decisiones canónicas se basan en lo que el robot de Google realmente recibe, no necesariamente en lo que ven los usuarios. - Ofrecer páginas alternativas o sin contenido del robot de Google
Si al robot de Google se le muestran desafíos de bot, páginas de pseudoerror u otras respuestas genéricas, es posible que coincidan con el contenido visto anteriormente y se traten como duplicados. - No se puede representar el contenido de JavaScript
Cuando Google no puede representar la página, puede depender del shell HTML base, que puede ser idéntico en todas las páginas y provocar duplicación. - Ambigüedad o clasificación errónea en el sistema.
En algunos casos, una URL puede tratarse como duplicada simplemente porque parece “fuera de lugar” o debido a limitaciones en la forma en que el sistema interpreta la similitud.
Aquí está la respuesta completa de Mueller:
“No existe ninguna herramienta que indique por qué algo se considera duplicado; a lo largo de los años, la gente suele tener una idea de ello, pero no siempre es obvio. El vídeo de Matt “¿Cómo maneja Google el contenido duplicado?” es un buen comienzo, incluso ahora.
Algunas de las razones por las que las cosas se consideran duplicadas son (todas ellas se han mencionado en varios lugares; contenido duplicado sobre contenido duplicado, por así decirlo :-)): duplicado exacto (todo está duplicado), coincidencia parcial (una gran parte está duplicada, por ejemplo, cuando tienes la misma publicación en dos blogs; a veces, simplemente no hay mucho contenido para continuar, por ejemplo, si tienes un menú gigante y una publicación de blog pequeña) o, esto es más difícil, cuando la URL parece estar duplicada según los duplicados encontrados en otros lugares. el sitio (por ejemplo, si /page?tmp=1234 y /page?tmp=3458 son iguales, probablemente /page?tmp=9339 también lo sea; esto puede ser complicado y terminar mal con múltiples parámetros, ¿es /page?tmp=1234&city=detroit el mismo también? ¿Qué tal /page?tmp=2123&city=chicago?).
Dos razones por las que he visto que la gente se desanima son: usamos la versión móvil (la gente generalmente verifica en la computadora de escritorio) y usamos la versión que ve el robot de Google (y si le muestra al robot de Google un desafío de bot o alguna otra página de pseudoerror, es probable que lo hayamos visto antes y podamos considerarlo un duplicado). Además, usamos la versión renderizada, pero esto significa que debemos poder renderizar su página si utiliza un marco JS para el contenido (si no podemos renderizarla, podríamos tomar la página HTML de arranque y, lo más probable es que esté duplicada).
Sucede que estos sistemas no son perfectos a la hora de seleccionar contenido duplicado y, a veces, también es que la URL alternativa parece obviamente fuera de lugar. A veces eso se calma con el tiempo (a medida que nuestros sistemas reconocen que las cosas son realmente diferentes), a veces no es así.
Si se trata de contenido similar, los usuarios aún pueden encontrarlo, por lo que generalmente no es tan terrible. Es bastante raro que terminemos escalando un duplicado incorrecto: a lo largo de los años, los equipos han hecho un trabajo fantástico con estos sistemas; la mayoría de los extraños no causan problemas, a menudo es solo una página de error extraña que es difícil de detectar”.
Llevar
Mueller ofreció un análisis profundo de las razones por las que Google elige los canónicos. Describió el proceso de elección de canónicos como un sistema de clasificación difuso construido a partir de señales superpuestas, en el que Google compara contenido, patrones de URL, resultados renderizados y versiones visibles para el rastreador, mientras que las clasificaciones límite (“extrañas”) reciben un pase porque no plantean un problema.
Imagen destacada de Shutterstock/Garun .Prdt

