Sitemap xml: recomendaciones técnicas, configuración y extracción automática de urls

Un sitemap o mapa del sitio web es un archivo que muestra información sobre las diferentes páginas que conforman un sitio web. Buscadores como Google, Bing o Yandex, usan este tipo de ficheros para rastrear e indexar el contenido disponible de cualquier dominio.

Validador de sitemaps a nivel técnico

Puedes hacer una validación técnica del archivo sitemap desde diferentes sitios, es lo más recomendable para detectar posibles errores de configuración:

  • Google Search Console: desde la opción de subida del sitemap, Google te mostrará si detecta algún error como atributos, lenguaje, etc.
  • Yandex: también se puede utilizar la herramienta gratuita que ofrece Yandex en su versión de webmasters “Sitemap Validator”.
  • También puedes probar con herramientas gratis y online como XML-Sitemaps donde también te detectan errores.

Requerimientos técnicos de acuerdo a Google

A nivel técnico y siguiendo las recomendaciones de Google para sitemaps xml genéricos, recomiendo revisar las directrices que comparten en su Centro de Recursos para Developers, son las básicas para un correcto e indexación por parte de googlebot.

Si el sitemap que quieres generar es específico de Noticias, se recomienda seguir las recomendaciones de Google que publica desde el Centro de Editores.

Recomendaciones de configuración

  • Encoded en formato UTF-8
  • Utilizar códigos de escape de entidad para caracteres como símbolos y marcas (&), comillas simples («), comillas dobles («), menor que (<) y mayor que (>). Además, las URLs sólo deben contener caracteres ASCII.
  • Incluir sólo urls cuyo estado de respuesta sea 200, NO se incluirán aquellas que devuelvan un estado 4xx, 3xx o 500.
  • No incluir urls con parámetros.
  • No incluir urls de imágenes u otros archivos.
  • Incluir sólo urls que lleven canonical hacia sí misma.

Extracción de urls individuales sobre xml con Google Sheets

Con Screaming Frog, puedes en su formato «lista -> importar -> descargar sitemap xml» descargar todas las urls rastreadas internas del xml.

La otra opción que es interesante para sitemaps más pequeños, es a través de Google Sheets mediante consultas “importxml”, donde combinado con un getStatusCode te permitirá extraer todas las urls finales del xml y validar su código de respuesta, para limpiar y optimizar el xml.

=IMPORTXML(B1;"//*[local-name() ='url']/*[local-name() ='loc']")  *****Para importar todas las urls del xml
=getStatusCode(B3)  *****Para saber el estado de respuesta de todas las urls del xml

Para poder activar el getStatusCode necesitas añadir el siguiente Script en el Google Sheets:

function getStatusCode(url){
   var options = {
     'muteHttpExceptions': true,
     'followRedirects': false
   };
   var url_trimmed = url.trim();
   var response = UrlFetchApp.fetch(url_trimmed, options);
   return response.getResponseCode();
}