Para evitar que su archivo PDF (o cualquier archivo que no sea HTML) aparezca en la lista de resultados de búsqueda, la única forma es usar el X-Robots-Tag
encabezado de respuesta HTTP , por ejemplo:
X-Robots-Tag: noindex
Puede hacerlo agregando el siguiente fragmento al archivo raíz del sitio .htaccess o al archivo httpd.conf:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>
Tenga en cuenta que para que funcione lo anterior, debe poder modificar los encabezados HTTP del archivo en cuestión. Por lo tanto, es posible que no pueda hacer esto, por ejemplo, en las páginas de GitHub .
También tenga en cuenta que robots.txt no no evitar que su página de estar registrados en los resultados de búsqueda.
Lo que hace es evitar que el bot rastree su página, pero si un tercero vincula a su archivo PDF desde su sitio web, su página seguirá apareciendo en la lista.
Si evita que el bot rastree su página usando robots.txt , no tendrá la oportunidad de ver la X-Robots-Tag: noindex
etiqueta de respuesta. Por lo tanto, nunca rechace una página en robots.txt si utiliza el X-Robots-Tag
encabezado. Se puede encontrar más información en Google Developers: Robots Meta Tag .
Files
directiva habilitada para expresiones regulares , debería considerar usarla en suFilesMatch
lugar, como se sugiere aquí stackoverflow.com/q/14792381/1262357Hay varias formas de hacer esto (combinarlas es obviamente una forma segura de lograr esto):
1) Use robots.txt para bloquear los archivos de los rastreadores de motores de búsqueda:
2) Usar
rel="nofollow"
en enlaces a esos PDF3) Use el
x-robots-tag: noindex
encabezado HTTP para evitar que los rastreadores los indexen. Coloque este código en su archivo .htaccess :fuente
x-robots-tag
yrobots.txt
al mismo tiempo no es una buena idea y puede hacer que el contenido se indexe de todos modos. Si usa ambosrobots.txt
yx-robots-tag: noindex
, el rastreador nunca se arrastrará ni verá elx-robots-tag
porque honra primero alrobots.txt
.robots.txt
no evita que los recursos se indexen, solo se rastree, por lo que la mejor solución es usar elx-robots-tag
encabezado, pero permite que los motores de búsqueda rastreen y encuentren ese encabezado dejándolorobots.txt
solo.Puede usar el archivo robots.txt . Puedes leer más aquí .
fuente
No estoy seguro de si este alféizar podría aportar algo de valor a alguien, pero recientemente hemos encontrado un problema de que nuestra caja GSA local no está dispuesta a indexar el archivo PDF.
El Soporte de Google trabajó con el problema y su respuesta es que está relacionado con el hecho de que este documento PDF tiene un conjunto de propiedades personalizado (Archivo -> Propiedades del documento -> Personalizado (pestaña))
lo que evitó que GSA lo indexara correctamente.
Si tiene acceso al documento y puede modificar sus propiedades, esto podría funcionar ... al menos para GSA.
fuente
Si las instancias de desarrollo con tecnología nginx se muestran en los resultados de búsqueda de Google, hay una manera rápida y fácil de evitar que los motores de búsqueda rastreen su sitio. Agregue la siguiente línea al bloque de ubicación de su archivo de configuración de virtualhost para el bloque que desea evitar el rastreo.
fuente
Puede usar un archivo robots.txt. Los motores de búsqueda que respetan ese archivo no indexarán el PDF. Simplemente use el comando para no permitir la indexación de un archivo y designe qué carpeta o archivo PDF no desea que indexen los motores de búsqueda.
fuente