Sitio de desarrollo indexado por Google

8

Estaba desarrollando una nueva versión de nuestro sitio en un subdominio ( dev.oursite.com) y el robots.txt con el Disallowreemplazado en algún momento, por lo que Google y otros motores de búsqueda indexaron el sitio. No se muestra alto en resultados ni nada, pero tiene todo el contenido duplicado y prefiero que no esté allí.

El subdominio ya no está y tengo un 301 que redirige cada página de dev.oursite.com/page-namea http://oursite.com/page-name.

¿Hay algo más que deba hacer para eliminar el sitio de desarrollo de Google? ¿Desaparecerá por sí solo eventualmente?

Kyle
fuente
44
Google tiene una página de
preguntas frecuentes

Respuestas:

7

Consulte la herramienta de eliminación de URL en las Herramientas para webmasters de Google. También 404 las páginas en lugar de redirigirlas para eliminarlas más rápido, en el futuro, más allá de robots.txt , podría ingresar rel="canonical"para asegurarse de que Google sepa que el sitio de desarrollo es solo una copia del sitio principal y no debe ser indexado.

Joshak
fuente
3

Siempre me preocupa que los sitios de desarrollo se indexen. No confío en robots.txt o meta noindex, si bien los uso, también protejo los sitios con contraseña si no es un inconveniente. Pero otra opción es usar .htaccess y denegar el acceso a todos, excepto a los IP dentro de su empresa y para los compañeros de trabajo y desarrolladores. Simplemente agregue su clase C.

Anagio
fuente
1
Esta es la mejor manera. 403 todos menos una serie de direcciones o bloques de direcciones. El resto del mundo desaparece y solo aquellos que necesitan verlo pueden hacerlo. Después del hecho de esta pregunta, pero es bueno saberlo para el futuro. Es posible que necesite un sitio de desarrollo privado accesible incluso después del lanzamiento para pruebas de actualización, programación personalizada de desarrolladores
externos
1

Además de la respuesta correcta proporcionada por Joshak, me gustaría darle un consejo sobre cómo se puede evitar esto.

Lo que he hecho para resolver exactamente este mismo problema es forzar el robot.txt en la definición httpd de Apache del vhost. De esta forma no hay forma de que el "rechazo" pueda desaparecer o ser modificado por ningún código en el sitio web en desarrollo. Todas mis definiciones de vhost se parecen a esto:

<VirtualHost *:80>
    DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
    ServerName newsite.com.test.example.com
    ServerAlias *.newsite.com.test.example.com
    UseCanonicalName on
    RewriteEngine on
    RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>
Niels Basjes
fuente