Robots.txt: ¿necesito no permitir una página que no esté vinculada a ningún lado?

12

Hay algunas páginas en mi sitio web que deseo que el usuario pueda visitar solo si le doy la URL.

Si no autorizo ​​las páginas individuales robots.txt, serán visibles para cualquiera que las vea.

Mi pregunta es: si no los vinculo desde ninguna parte, o al menos desde cualquier página indexada, ¿los rastreadores seguirían llegando a ellos de alguna manera?

martjno
fuente

Respuestas:

11

No desea que la página aparezca en los SERPs en absoluto ...

No deshabilite en robots.txt. Agregue una metaetiqueta noindex (o encabezado HTTP X-Robots-Tag) a sus páginas.

Como sugiere j0k, sus páginas podrían encontrarse de alguna manera. Informes de estadísticas, listados de directorios, etc.

No permitir en robots.txt evita que la página se rastree, pero aún así podría indexarse ​​y aparecer como un enlace de solo URL en los SERP. Algo como:

Enlace solo URL en SERPs de Google

Una metaetiqueta noindex impide que la página aparezca en los SERPs, pero Google debe poder rastrear la página para ver la metaetiqueta noindex, por lo que no se puede rechazar en robots.txt.

Si hay algo en la página que no debe estar disponible públicamente, entonces las páginas deben estar detrás de algún tipo de autenticación.

Señor White
fuente
Una cosa a tener en cuenta es que si esto es realmente algo confidencial, "ocultarlo" con una URL es una mala práctica, independientemente del método que elija. Usar una autenticación adecuada es realmente importante en un caso como ese.
John Mueller
1
Además, los botones de redes sociales (Me gusta / Compartir / + 1 / varios marcadores) también obtienen el contenido y pueden mostrar la URL, el título y el fragmento de una manera pública, incluso si la URL tiene un índice no incluido (o no está permitido por los robots) .TXT). La única forma de evitar eso es usar la autenticación.
John Mueller
2

Bueno, creo que tienes un buen rastreador que lee el archivo robots.txt y sigue la directiva. Y otro que no sigue la directiva.

¿Y cómo planeas dar esta url? ¿Por correo electrónico, usando Facebook o Twitter? Todos estos servicios rastrean la información que envía. Gmail analiza el correo electrónico que recibe para proporcionar anuncios. Por lo tanto, su URL se rastreará de alguna manera.

Algunas personas usan la barra Google (o cualquier otra barra de herramientas del motor de búsqueda). Hay una opción (marcada por defecto si no recuerdo mal) que permite que la barra de herramientas envíe todas las URL que visita a Google. Esta es otra forma para que Google vea la web oculta. Entonces, incluso si le dijo a la persona que no compartiera la URL, implícitamente lo hará (gracias a la barra de herramientas).

Creo que podemos encontrar muchas otras posibilidades.

Por lo tanto, puede agregarlo a robots.txt pero también proporcionar meta adicionales como noindex, nofollow, etc.

editar:

La sugerencia de w3d sobre robots.txt me parece buena. Por lo tanto, no lo agregue a robots.txt y proporcione la metaetiqueta propia.

j0k
fuente
Los estoy vinculando por correo electrónico. Sí, estaba planeando proporcionar meta meta. ¿Entonces su sugerencia es agregarlos a los robots o no? Gracias
martjno
Recomendaría agregarlo a robots.txt. Pero la sugerencia de w3d me hizo cambiar de opinión. No lo agregue, pero proporcione la metaetiqueta adecuada.
j0k
0

Además de los comentarios anteriores, también recomendaría la autenticación HTACCESS como mínimo, de esa manera puede dar a las personas una combinación de nombre de usuario / contraseña durante el tiempo que tengan derecho a ver las páginas.

Si hay algo con problemas de privacidad, entonces debe considerar un script de control de inicio de sesión adecuado.

Una página desprotegida (no importa cuán bien oculta creas que podría estar) entrará en libertad.

Andrés
fuente