Estaba desarrollando una nueva versión de nuestro sitio en un subdominio ( dev.oursite.com
) y el robots.txt con el Disallow
reemplazado en algún momento, por lo que Google y otros motores de búsqueda indexaron el sitio. No se muestra alto en resultados ni nada, pero tiene todo el contenido duplicado y prefiero que no esté allí.
El subdominio ya no está y tengo un 301 que redirige cada página de dev.oursite.com/page-name
a http://oursite.com/page-name
.
¿Hay algo más que deba hacer para eliminar el sitio de desarrollo de Google? ¿Desaparecerá por sí solo eventualmente?
Respuestas:
Consulte la herramienta de eliminación de URL en las Herramientas para webmasters de Google. También 404 las páginas en lugar de redirigirlas para eliminarlas más rápido, en el futuro, más allá de robots.txt , podría ingresar
rel="canonical"
para asegurarse de que Google sepa que el sitio de desarrollo es solo una copia del sitio principal y no debe ser indexado.fuente
Siempre me preocupa que los sitios de desarrollo se indexen. No confío en robots.txt o
meta noindex
, si bien los uso, también protejo los sitios con contraseña si no es un inconveniente. Pero otra opción es usar .htaccess y denegar el acceso a todos, excepto a los IP dentro de su empresa y para los compañeros de trabajo y desarrolladores. Simplemente agregue su clase C.fuente
Además de la respuesta correcta proporcionada por Joshak, me gustaría darle un consejo sobre cómo se puede evitar esto.
Lo que he hecho para resolver exactamente este mismo problema es forzar el robot.txt en la definición httpd de Apache del vhost. De esta forma no hay forma de que el "rechazo" pueda desaparecer o ser modificado por ningún código en el sitio web en desarrollo. Todas mis definiciones de vhost se parecen a esto:
fuente