Una de las tareas recurrentes para cualquier SEO es el estudio de la competencia. Es algo altamente recomendable en la fase inicial de un proyecto, pero también puede ser muy útil en cualquier otro momento en que buscamos oportunidades de mejora. En este sentido, nos puede ser de gran utilidad conocer de primera mano todas las urls de nuestro competidor, algo que podemos hacer accediendo de forma sencilla a su sitemap.
Índice
Dónde encuentro el sitemap de un site
Antes de proceder a la extracción de las urls, debemos ubicar el sitemap que vamos a analizar. En un gran número de ocasiones encontraréis el sitemap de cualquier web añadiendo /sitemap.xml al dominio en cuestión.
Otra opción es acceder al robots.txt del site en particular. Por lo general una gran mayoría de proyectos incluyen el sitemap en este archivo, de modo que ya solventaríamos esta parte. A modo de ejemplo, aquí tenéis la parte final del robots.txt de Semrush.
Extraer las URLs de un sitemap de forma sencilla
Hay diferentes formas de hacerlo, algunas de ellas realmente sencillas. Vamos a ver las 3 formas:
Yoast, Rank Math, etc.
Un alto porcentaje de las webs de hoy en día utilizan WordPress y algún plugin de sobras conocido por todos, como Yoast o Rank Math. Estos plugins nos facilitan muchísimo las cosas para conseguir lo que pretendíamos. Pongamos el ejemplo del sitemap de Sistrix.
Tenemos el clásico Sitemap generado por Yoast, que encima ya nos clasifica todas urls por páginas, entradas, categorías, tags, etc. Entramos por ejemplo en el de entradas, ya que tenemos un especial interés en analizar el blog, y llegaremos a esta página:
Puedes copiarte de forma sencilla todas estas urls en un Excel, aunque también lo podrías hacer ayudándote de una extensión muy útil como es Linkgrabber, que te ayudará en muchos otros menesteres.
Screaming Frog
La que es posiblemente la herramienta más importante de cualquier SEO nos ayudará fácilmente a conseguir nuestro objetivo. Sigue los siguientes pasos:
- Ve a Mode y selecciona modo “List”.
- A continuación clica en Upload y selecciona Download XML Sitemap.
- Introduce la url del Sitemap que ya has localizado previamente.
- Y automáticamente te empezará a rastrear todas las urls listadas en el sitemap.
Una de las ventajas de esta forma de hacerlo es que tendremos estas urls analizadas y podremos conocer de primera mano datos interesantes, como por ejemplo los inlinks, su estructura de encabezados o metadatos, número de palabras…
No obstante, si hemos extraído las urls con el primer método, siempre las podemos listar directamente en Screaming Frog y conseguir exactamente lo mismo.
Por qué nos puede ayudar extraer las urls de un Sitemap
Se pueden buscar todo tipo de utilidades según el contexto. Por lo general, tener a mano el sitemap nos permite ir al grano. Un simple crawl nos puede bastar para conocer todas las urls rastreables de una web, pero posiblemente perderás mucho tiempo rastreando cosas que no te interesan, o bien perderás ese tiempo estableciendo antes según qué filtros para que el crawleo sea de tu agrado.
Por otro lado, no todas las webs presenten una lógica de urls perfecta, más bien al contrario. Ponte en un escenario en el cual queremos identificar rápidamente las urls de un determinado directorio de un competidor, por ejemplo el blog. En este caso, las entradas del blog cuelgan de la raíz del dominio, no de una carpeta, por lo que un crawleo básico no te vale. A través del sitemap las vamos a poder localizar en segundos.
Lo cierto es que el sitemap siempre puede ser un buen punto de partida para el análisis de contenido, identificar rápidamente las tipologías de página de cualquier web, qué lógica de urls se siguen, etc.
Otras formas de extraer las urls de un proyecto
Ayudarnos del sitemap es posiblemente la forma más sencilla y más efectiva de extraer las urls de un sitio, especialmente porque en el sitemap se incluyen habitualmente aquellas urls que queremos indexar y por tanto posicionar.
Otra opción, como hemos dicho, sería hacer un crawl sencillo con Screaming Frog. Sin embargo, de este modo vamos a rascar también un montón de urls que posiblemente no nos interesen tanto y que tendremos que limpiar.
Y obviamente, si por ejemplo nuestro objetivo es tener una idea de las urls que realmente aportan tráfico a un competidor, es tan sencillo como ir a Semrush, Sistrix o Ahrefs, clicar en el apartado de mejores páginas, y exportarnos nuestro excel con aquellas urls que más nos interesan y sus correspondientes keywords posicionadas. Siempre recordando que los datos de tráfico de estas herramientas pueden diferir más de un 50% de la realidad.