Cómo evitar que Google pueda indexar urls de tu entorno de desarrollo

Existen ocasiones en las que por desconocimiento o error, entornos de desarrollo o pruebas pueden llegar a indexar su contenido en buscadores si no se siguen determinadas acciones técnicas que lo impidan. Esto provoca que para dos entornos diferentes (desarrollo o pre-producción y producción) el contenido sea duplicado al existir dos urls diferentes (pre.domain vs domain) pero con el mismo contenido.

Pues bien, en el Webmaster Central office hours hangout del 4 de Septiembre de 2020, John Mueller responde ante esta pregunta y ofrece unas recomendaciones para evitarlo:

  • El mejor enfoque para evitar esto es bloquear este entorno de desarrollo desde el lado del servidor, o bien con un sistema de autenticación con usuario y contraseña, o bien con restricciones por dirección IP sólo para desarrolladores, etc.
  • Otras recomendaciones son:
    • Desde el robots.txt del entorno de desarrollo, bloquear con un Disallow todo el sitio. De esta forma te aseguras que Google no va a rastrear ni indexar esas urls. Importante aquí revisar que, efectivamente esas urls de desarrollo no están siendo enlazadas desde ninguna parte del site de producción (puede darse el caso) y asegurar bien, que cuando se haga el pase a producción, ese robots.txt no se sobrescriba al robots.txt del entorno de producción y por tanto no bloquee a rastreo el entorno de pro.
    • En éstas urls del entorno de desarrollo, colocarles en el html la etiqueta noindex y por tanto asegurarnos así de que esas páginas «no se van a indexar». ¡Ojo con subir a producción estos cambios!