Estoy buscando una manera de tomar cada enlace que indice Google y exportarlos a un archivo CSV. Recientemente he tenido muchas más páginas indexadas por Google que las que realmente tengo y quiero encontrar de dónde provienen todas estas páginas sin tener que ver cada página de resultados de búsqueda.
seo
google
search-results
Sotavento
fuente
fuente
Respuestas:
Lamentablemente, no hay forma de obtener una lista completa de todas las páginas indexadas en Google. Incluso la solución de milo5b solo le proporcionará un máximo de 1,000 URL.
Parece que tienes algunos problemas de contenido duplicado. En Herramientas para webmasters de Google, verifique Salud> Estado del índice y le mostrará un total acumulado de páginas indexadas a lo largo del tiempo. Si el gráfico da un gran salto en un punto, es posible que pueda resolverlo si un cambio específico en su sitio provocó el salto.
También puede intentar usar las Herramientas para webmasters de Bing . Tienen un Explorador de índices que podría ayudarlo a encontrar las URL. Las arañas de los motores de búsqueda son bastante similares, por lo que si Google encontró esos enlaces, Bing probablemente también lo hizo.
Pensé que Bing tenía una manera de exportar la mayoría de sus datos, pero no puedo encontrarlos a simple vista. Sin embargo, hay una API, por lo que probablemente podría usarla para extraer todo.
fuente
Terminé profundizando en la subcarpeta problemática mediante la búsqueda del sitio: dominio.com/foo/bar/ pero en mi búsqueda encontré un método para obtener los resultados de la búsqueda en un archivo de Excel.
Abra una hoja de cálculo de Google Docs y use esta fórmula:
Solo obtendrá los primeros 100 resultados, pero puede usarlo nuevamente para obtener los siguientes 100. Simplemente cambie la variable de inicio:
Esto solo proporcionará hasta 1000 resultados, como se mencionó anteriormente por DisgruntledGoat, pero la fórmula se puede cambiar para proporcionar enlaces desde subdirectorios específicos:
fuente
Puede escribir un script que analice el SERP de Google (por ejemplo, PHP + Curl) y almacenar cada enlace en un archivo CSV. Tenga cuidado de que su script se comporte como un humano, porque Google podría prohibir su IP de los resultados de búsqueda durante unas horas si abusa de esto.
fuente