Google canonicalizó un feed sobre la página web que desencadenó un problema Rastreado actualmente no indexado
Un SEO técnico publicó un estudio de caso de cómo resolvió un curioso problema Rastreado actualmente no indexado en su sitio. Si bien la solución que encontró puede no ser universal para otras personas que experimentan este problema, su método para identificar el problema y resolverlo presenta un recorrido útil para resolver problemas técnicos de SEO.
Lo que sucedió con la indexación de su sitio fue realmente extraño. Pero su solución fue sencilla y tiene sentido.
Descubrí una descripción de este problema en un tweet de Adam Gent (@Adoubleagent) @Adoubleagent
A little blog post about a technical SEO issue I had on my tiny website.
A Curious Case of Canonicalization –> https://t.co/pC2QAYLjq9
TL; DR – Google can get canonicalization very wrong which can impact SEO traffic.
— Adam Gent (@Adoubleagent) November 3, 2021
Una pequeña publicación de blog sobre un problema técnico de SEO que tuve en mi pequeño sitio web.
Un curioso caso de canonicalización –> https://t.co/pC2QAYLjq9 https://t.co/pC2QAYLjq9
TL;
– Adam Gent (@Adoubleagent) 3 de noviembre de 2021 November 3, 2021
Rastreado: actualmente no indexado
Hay muchos informes anecdóticos de Rastreado actualmente no indexado en Facebook, Twitter e incluso en los lugares de reunión en horario de oficina de John Mueller.
En un hangout reciente en horario de oficina, alguien preguntó por qué Google Search Console (GSC) mostraba Rastreado, no indexado, pero cuando haces clic, resulta que están indexados.. John Mueller respondió que es solo un retraso entre los informes.
Y en otro lugar de reunión en horas de oficina, John Mueller señaló que es completamente normal que un sitio tenga muchas páginas sin indexar.
El lo notó:
“…if you have a smaller site and you’re seeing a significant part of your pages are not being indexed, then I would take a step back and try to reconsider the overall quality of the website and not focus so much on technical issues for those pages.
The other thing to keep in mind with regards to indexing, is it’s completely normal that we don’t index everything off of the website.
And over time, when you get to like 200 pages on your website and we index 180 of them, then that percentage gets a little bit smaller.”
“…si tiene un sitio más pequeño y ve que una parte importante de sus páginas no están indexadas, entonces daría un paso atrás e intentaría reconsiderar la calidad general del sitio web y no centrarme tanto en los problemas técnicos para
La otra cosa a tener en cuenta con respecto a la indexación es que es completamente normal que no indexemos todo lo que está fuera del sitio web.
Y con el tiempo, cuando le gustan 200 páginas en su sitio web e indexamos 180 de ellas, ese porcentaje se vuelve un poco más pequeño”.
Si bien ambas son buenas razones para explicar por qué el problema Rastreado no indexado le está sucediendo a algunas personas, esa no es la razón por la que Adam Gent descubrió.
Adam Gent descubrió un problema completamente diferente que parecía ser un problema de algoritmo en el propio Google.. No había nada malo con el sitio en sí, el problema estaba en la indexación de Google.
Por qué rastreado: actualmente no indexado
Adam revisó el informe de cobertura de índices de GSC y descubrió que Google rastreaba e indexaba sus fuentes como si fueran páginas HTML.
Tomó palabras al azar de esas páginas e hizo un sitio: buscó con esas palabras y descubrió que el contenido de la página de noticias estaba indexado.
Para empeorar las cosas, Google aparentemente canonicalizó el contenido de la fuente RSS sobre la página web real, explicando por qué las páginas web reales se rastrearon pero no se indexaron.
El feed RSS fue generado por WordPress
Una cosa extraña de este caso es que cuando miras la página de noticias, se muestra como una página web y no como se muestra normalmente un archivo XML.
Captura de pantalla de caché de fuente RSS
Puede que me equivoque, pero eso no parece un feed RSS normal.. Parece una página HTML.
Aunque el código subyacente en realidad es XML, ese no es el aspecto normal de la mayoría de los feeds.
¿Podría eso haber influido en por qué Google eligió canonicalizar el feed?
Es difícil entender cómo podría suceder eso porque hay tantas señales como los enlaces internos que, en circunstancias normales, harían que Google favoreciera las páginas HTML como canónicas.
Cómo solucionó Adam el problema
Después de que Adam descubrió lo que sucedió, eliminó las páginas de fuentes generadas por WordPress, envió las URL de las fuentes para un rastreo y luego 404 en las páginas.
Después de eliminar esas páginas del índice, envió las URL correctas a Google y, en unos pocos días, se solucionó el problema.
¿Qué causó el problema?
Adam escribió que el problema parece estar del lado de Google.
Pregunté y alguien me dijo que, aparentemente, hace unos años, Google comenzó a indexar los feeds, pero pensó que este problema se había solucionado.
No soy un experto en XML, pero parece inusual que el feed se parezca a una página HTML en lugar del diseño XML normal que se muestra sin estilo HTML.
El feed no se ve normal, por lo que parece que lo que sea que lo hace parecer podría ser una causa subyacente.
De todos modos, si tiene problemas de rastreo actualmente no indexado, esta es una cosa más que debe verificar en caso de que también le esté sucediendo a usted.
Citación
Lea la publicación original que explica cómo resolver el problema:
Un curioso caso de canonicalización A Curious Case of Canonicalization
Leer el articulo original en Search Engine Journal.