Contenidos
Gary Illyes de Google describe las señales que utiliza para elegir páginas canónicas y comparte por qué las páginas duplicadas pueden ser importantes para el SEO
En un video de Google Search Central, Gary Illyes de Google explicó parte de la indexación de páginas web que implica seleccionar canónicos, explicando qué significa un canónico para Google, una explicación en miniatura de las señales de una página web, menciona la pieza central de una página y dice qué hace con los duplicados que
¿Qué es una página web canónica?
Hay varias formas de considerar qué significa canónico, el punto de vista del editor y del SEO desde nuestro lado del cuadro de búsqueda y qué significa canónico desde el lado de Google.
Los editores identifican lo que creen que es la página web «original» y la concepción de los canónicos por parte de los SEO consiste en elegir la versión «más fuerte» de una página web con fines de clasificación.
La canonicalización para Google es algo completamente diferente de lo que los editores y los SEO creen que es, por lo que es bueno escucharlo de un Googler como Gary Illyes.
La documentación oficial de Google sobre canonicalización utiliza la palabra deduplicación para hacer referencia al proceso de elección de un canonical y enumera cinco razones típicas por las que un sitio puede tener páginas duplicadas. documentation about canonicalization
Cinco razones para páginas duplicadas
- “Region variants: for example, a piece of content for the USA and the UK, accessible from different URLs, but essentially the same content in the same language
- Device variants: for example, a page with both a mobile and a desktop version
- Protocol variants: for example, the HTTP and HTTPS versions of a site
- Site functions: for example, the results of sorting and filtering functions of a category page
- Accidental variants: for example, the demo version of the site is accidentally left accessible to crawlers”
- “Variantes regionales: por ejemplo, un contenido para EE. UU. y el Reino Unido, accesible desde diferentes URL, pero esencialmente el mismo contenido en el mismo idioma.
- Variantes de dispositivo: por ejemplo, una página con una versión móvil y otra de escritorio.
- Funciones del sitio: por ejemplo, los resultados de las funciones de clasificación y filtrado de una página de categoría.
- Variantes accidentales: por ejemplo, la versión de demostración del sitio se deja accidentalmente accesible a los rastreadores”.
Los canónicos se pueden considerar de tres maneras diferentes y existen al menos cinco razones para las páginas duplicadas.
Gary describe una forma más de pensar en los canónicos.
Las señales se utilizan para elegir Canonicals
Ilyes comparte una definición más de canónico, esta vez desde el punto de vista de la indexación, y habla sobre las señales que se utilizan para seleccionar canónicos.
Gary explica:
“Google determines if the page is a duplicate of another already known page and which version should be kept in the index, the canonical version.
But in this context, the canonical version is the page from a group of duplicate pages that best represents the group according to the signals we’ve collected about each version.”
“Google determina si la página es un duplicado de otra página ya conocida y qué versión debe mantenerse en el índice, la versión canónica.
Pero en este contexto, la versión canónica es la página de un grupo de páginas duplicadas que mejor representa al grupo según las señales que hemos recopilado sobre cada versión”.
Gary se detiene para explicar la agrupación duplicada y poco después vuelve a hablar de señales.
Él continuó:
“For the most part, only canonical pages appear in Search results. But how do we know which page is canonical?
So once Google has the content of your page, or more specifically the main content or centerpiece of a page, it will group it with one or more pages featuring similar content, if any. This is duplicate clustering.”
«En su mayor parte, solo aparecen páginas canónicas en los resultados de búsqueda. Pero ¿cómo sabemos qué página es canónica?
Entonces, una vez que Google tenga el contenido de su página, o más específicamente el contenido principal o la pieza central de una página, lo agrupará con una o más páginas con contenido similar, si corresponde. Esto es una agrupación duplicada”.
Sólo quiero detenerme aquí para señalar que Gary se refiere al contenido principal como la «pieza central de una página», lo cual es interesante porque hay un concepto introducido por Martin Splitt de Google llamado Anotación de pieza central. Realmente no explicó qué es la anotación central, pero esta parte que Gary compartió ayuda.
La siguiente es la parte del video donde Gary habla sobre qué son realmente las señales.
Illyes explica qué son las “señales”:
“Then it compares a handful of signals it has already calculated for each page to select a canonical version.
Signals are pieces of information that the search engine collects about pages and websites, which are used for further processing.
Some signals are very straightforward, such as site owner annotations in HTML like rel=”canonical”, while others, like the importance of an individual page on the internet, are less straightforward.”
“Luego compara un puñado de señales que ya ha calculado para cada página para seleccionar una versión canónica.
Las señales son datos que el motor de búsqueda recopila sobre páginas y sitios web y que se utilizan para su posterior procesamiento.
Algunas señales son muy sencillas, como las anotaciones del propietario del sitio en HTML como rel=”canonical”, mientras que otras, como la importancia de una página individual en Internet, son menos sencillas”.
Los clústeres duplicados tienen uno canónico
A continuación, Gary explica que se elige una página para representar lo canónico para cada grupo de páginas duplicadas en los resultados de búsqueda. Cada grupo de duplicados tiene un canónico.
Él continúa:
“Each of the duplicate clusters will have a single version of the content selected as canonical.
This version will represent the content in Search results for all the other versions.
The other versions in the cluster become alternate versions that may be served in different contexts, like if the user is searching for a very specific page from the cluster.”
“Cada uno de los grupos duplicados tendrá una única versión del contenido seleccionado como canónico.
Esta versión representará el contenido de los resultados de búsqueda de todas las demás versiones.
Las otras versiones del clúster se convierten en versiones alternativas que pueden servirse en diferentes contextos, como si el usuario estuviera buscando una página muy específica del clúster”.
Versiones alternativas de páginas web
La última parte es realmente interesante y es importante tenerla en cuenta porque puede resultar útil para poder clasificar para múltiples variaciones de una palabra clave, especialmente para páginas web de comercio electrónico.
A veces, el sistema de gestión de contenidos (CMS) crea páginas web duplicadas para tener en cuenta las variaciones de un producto, como el tamaño o el color de un producto, que luego pueden afectar la descripción. Google puede elegir esas variaciones para clasificarlas en los resultados de búsqueda cuando esa página de variante coincida más estrechamente con una consulta de búsqueda.
Es importante pensar en esto porque podría resultar tentador redirigir páginas web variantes sin índice para mantenerlas fuera del índice de búsqueda por temor al (inexistente) problema de canibalización de palabras clave. Agregar un noindex a páginas que son variantes de una página puede ser contraproducente porque hay escenarios en los que esas páginas variantes son las mejores para clasificar para una consulta de búsqueda más matizada que contiene colores, tamaños o números de versión diferentes a los de la página canónica.
Principales conclusiones sobre Canonicals (y más) para recordar
Hay mucha información contenida en la discusión de Gary sobre los canónicos, incluidos algunos temas secundarios sobre el contenido principal.
Aquí hay siete conclusiones a considerar:
- El contenido principal se conoce como pieza central.
- Google calcula un «puñado de señales» para cada página que descubre.
- Las señales son datos que se utilizan para un “procesamiento posterior” después de que se descubren las páginas web.
- Algunas señales están bajo el control del editor, como sugerencias (y presumiblemente directivas) La pista que mencionó Illyes es el atributo de enlace rel=canonical.
- Otras señales están fuera del control del editor, como la importancia de la página en el contexto de Internet.
- Algunas páginas duplicadas pueden servir como versiones alternativas.
- Las versiones alternativas de páginas web aún pueden clasificarse y son útiles para Google (y el editor) a efectos de clasificación.
Mire el episodio de Search Central sobre indexación:
Cómo indexa la Búsqueda de Google las páginas
No se pudo incrustar.
Imagen destacada de Google video/modificada por el autor
Leer el articulo original en Search Engine Journal.