retirada de urls search console

Cómo evitar que Google indexe contenido (páginas, pdfs, vídeos o imágenes)

Decido crear este post para poder anotar algunos de los pasos que trato de seguir cuando se plantean diferentes escenarios donde se quiere desindexar un contenido de una web.

Es obvio que este proceso no es un paso a paso ya que depende de la situación de cada sitio web y el objetivo que se quiera conseguir, pero cuento lo que yo recomendaría hacer si alguna vez te has enfrentado a este escenario.

En mi caso me ha ocurrido varias veces con proyectos personales como este sitio web, por lo que os comparto lo que a mí me ha funcionado hasta ahora.

Comparto varios escenarios y cómo recomendaría actuar:

Se publica de inicio cualquiera de esos contenidos con política «noindex»

  • A nivel de Páginas HTML:

Si se trata de una página html, lo recomendable es que en el código HTM de la página, dentro del <head> se incluya la etiqueta:

<meta name="robots" content="noindex">

Cómo Implementar noindex – documentación oficial de Google 

  • A nivel de Recursos como Imágenes, Vídeos o PDFs:

Si se trata de imágenes, vídeos o pdfs, para desindexar estos recursos se recomienda devolver la siguiente respuesta mediante la cabecera HTTP del recurso a nivel de servidor de esta forma:

HTTP/1.1 200 OK

(...)

X-Robots-Tag: noindex

(...)

Cómo implementarlo desde el encabezado de respuesta HTTP “noindex” – documentación oficial de Google

Si ya se ha publicado esa página o recurso, y ha sido indexado por Google, para hacer que la desindexe y no la muestre en las SERPs

Además de aplicar primero las acciones anteriores, recomendaría:

  • Desde Search Console pedir a Google “ocultar” de forma temporal esa url concreta (o que contengan además algún prefjio) y en ese caso se borra la versión cacheada de esa url y se oculta durante seis meses – si después de ese tiempo, la url es indexable Google puede volver a mostrártela como antes.

La otra opción es Borrar la versión cacheada de esa url por Google para que el bot vea el no-index y la desindexe (sin ocultarla de las serps).

Search Console -> Indexación > Retirada de URLS

  • Accedes a Search Console desde la web que elijas
  • Desde el bloque de «Indexación», seleccionar «Retirada de URLs»
  • Clicas en «NUEVA SOLICITUD»
  • Seleccionar cualquiera de las dos opciones:
    • «Retirar URL Temporalmente» incluye la parte de borrado de caché
    • «Borrar URL Almacenada en caché»

NOTA: Remarcar que, en cualquiera de las opciones, es necesario que a nivel archivo robots.txt no se esté bloqueando esas páginas o recursos a rastreo porque de lo contrario, los buscadores no podrán acceder a ver esa directiva noindex.

Otra opción de eliminación «rápida» de ese recurso en las SERPs podría ser el eliminarlo devolviendo por servidor un estado 404, y volver a subir ese recurso bajo otra url con un noindex previo.

Fuentes:

Herramienta de retirada y herramientas de denuncia de Búsqueda Segura [Google]

Retirada de URLs (1.ª parte): URLs y directorios [Google]

¿Y en BING Webmasters cómo se haría?

Si además quisieras hacer el mismo proceso pero para el buscador de Bing, en este caso puedes ir al entorno de Bing Webmasters Tools:

Bing Webmaster Tools -> Configuración > URL Bloqueadas

  • Accedes a Bing Webmaster Tools desde la web que elijas
  • Desde el bloque de «Configuración», seleccionar «URL Bloqueadas»
  • Clicas en «Agregar URL a bloque»

Otros posts relacionados