¿Cómo puedo hacer que mi Wiki de Github pueda rastrearse por los motores de búsqueda? robots.txt parece prohibirlo

9

Mientras usaba el verificador de enlaces W3C , descubrí que mi Wiki de Github no se puede rastrear:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Estado: (N / A) Prohibido por robots.txt

Esto es lamentable, ya que me gustaría que la gente encuentre fácilmente este Wiki en los motores de búsqueda.

PREGUNTA: ¿Cómo puedo hacer que mi Wiki de Github pueda rastrearse por los motores de búsqueda?
¿O me equivoco y el archivo robots.txt de Github está realmente bien?

nic
fuente
1
Sospecho que la respuesta es aproximadamente la misma que en esta pregunta similar .
John C

Respuestas:

9

El archivo GtHub robots.txt no permite explícitamente el rastreo de las páginas wiki, por ejemplo, en la sección Googlebot:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

Como este es el archivo de robots de todo el sitio, no hay forma de evitarlo.

Es una opción interesante, ya que GitHub describe los wikis como un lugar para "compartir contenido de formato largo sobre su proyecto". Dado que, por defecto, los wikis públicos son editables por cualquier usuario, tal vez es una protección dura contra los spammers.

John C
fuente
0

Las wikis de GitHub pueden buscarse mediante motores que lo admiten. Vea las dos primeras líneas de https://github.com/robots.txt :

# If you would like to crawl GitHub contact us at [email protected].
# We also provide an extensive API: https://developer.github.com/

Probablemente sea para analizar varios formatos wiki, etc.

Por ejemplo, busque en Google el "protocolo de broker openrefine" y el primer resultado es una página debajo de un wiki de proyecto Github.

Peter Kehl
fuente
Hmm, entonces, ¿por qué Google indexa la wiki de Broker-Protocol y no la wiki de OP?
Vidar S. Ramdal