¿Cómo saber cuántos años tiene una página?

15

Pensé que Google era más o menos preciso al determinar quién publicó primero un texto y quién lo copió. Sin embargo, cuando uso la "herramienta de búsqueda: intervalo personalizado" los resultados son bastante extraños. Encontré páginas que datan de 2002 para un sitio web que he tenido durante solo un par de años.

Por lo tanto, Google no es exacto para averiguar quién copió y quién escribió el original. ¿Que es?

ingrese la descripción de la imagen aquí

Si stackexchange.comse creó en 2009, ¿cómo es esto posible? hermeneutics.sees más antiguo que Stack Overflow!

Renan
fuente
¿Alguien poseía el nombre de dominio antes que usted? ¿Cuál es la (s) página (s) que está comparando en Google?
closetnoc
Actualicé la pregunta con datos de SE. Las marcas de tiempo no pueden ser precisas.
Renan
2
Guau. No estoy seguro. Entiendo la mecánica de esto normalmente, pero lo que hace Google sigue siendo un misterio. Hay muy poca información en la red sobre cómo Google determina las fechas. Tuvimos una pregunta sobre cómo Google determina las fechas modificadas hace un tiempo. Investigué un poco y casi no hay nada. Aún así, miraré de nuevo. Pero puede tomar un par de días. Tenga en cuenta que el software CMS y probablemente el código SE no devuelve las fechas de creación y modificación como lo haría Apache para las páginas HTML. Y esta puede ser la respuesta.
closetnoc
No tiene que ser Google, pero realmente quiero saber si mis usuarios están plagiando o siendo plagiados. = /
Renan
Hasta ahora, parece que Google no comprende el formato de fecha dentro del HTML, pero esto no es concluyente. El código fuente de la primera página de ejemplo no proporciona pistas claras de fecha para Google. Google (al menos) se ve o una fecha en este orden: URL, título, cuerpo (contenido), metaetiquetas, última fecha de modificación de la respuesta HTTP. Una solicitud HEAD devuelve la fecha de creación y la última fecha de modificación. Además, un GET con if-modified-since devuelve el recurso con un 200 Ok o devuelve un 304 No modificado. El código SE puede no devolver estos y solo están disponibles URL, título, contenido y metaetiquetas.
closetnoc

Respuestas:

12

Investigué la respuesta a esta pregunta de esta manera: usando Google ya que este es el ejemplo que tengo, cómo Google obtiene fechas de creación y fechas modificadas, y formatos de fecha que Google reconoce. Por favor, comprenda que esta información no existe en solo unas pocas páginas y tuve que descubrir los datos de muchas fuentes, algunas de las cuales no parecen aplicarse directamente y juntarlas. En algunos casos, la información se deriva de varias fuentes y no siempre se puede citar.

Google busca las fechas de página en este orden; URL, etiqueta de título, cuerpo (contenido), metaetiquetas, encabezado de respuesta HTTP al menos en lo que respecta al dispositivo de búsqueda de Google. En otros párrafos en otros documentos, no se documentó ningún orden, pero la lista se discutió y pareció confirmarla. Si lo piensa, esto refleja el orden en que lo haría un motor de búsqueda; uno: descubra su página (enlace) y dos: lea su página de arriba a abajo (título, cuerpo y metaetiqueta) con la excepción de la metaetiqueta (pequeño detalle) y el encabezado de respuesta HTTP. Aquí está la lista en lo que respecta al dispositivo:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Nota: La fecha de inicio es la fecha en que Google solicitó por primera vez la página. En ausencia de una fecha de creación, se utiliza la fecha de inicio.

1] Cualquier motor de búsqueda puede solicitar un recurso a través de una solicitud HTTP GET y el servidor web devuelve la última fecha de modificación dentro del encabezado de respuesta con el recurso dentro del paquete de datos.

2] Cualquier motor de búsqueda puede solicitar información de encabezado de un recurso a través de una solicitud de encabezado HTTP y el servidor web devuelve la fecha de modificación dentro del encabezado de respuesta sin el recurso dentro del paquete de datos.

3] Cualquier motor de búsqueda puede solicitar si un recurso ha sido modificado desde una fecha determinada solicitando un recurso con un HTTP GET con if-modified-since establecido en una fecha. Si el recurso se ha modificado desde la fecha establecida, el servidor web responde con una respuesta de 200 Ok y devuelve el recurso o si el recurso no se ha modificado desde la fecha establecida, el servidor web responde con un 304 No modificado sin devolver el recurso .

Google realiza muchas solicitudes utilizando el método # 3 para ahorrar en ancho de banda. Los verá en los archivos de registro de su servidor web.

Nota: es posible que un sistema de administración de contenido (CMS) u otro software no pueda proporcionar la fecha de manera adecuada dentro de un encabezado de respuesta.

Estos ejemplos de fechas también provienen de la documentación del dispositivo de Google, pero también existen en otros lugares relacionados con la búsqueda general. Tomé estos detalles de la documentación del dispositivo simplemente porque se podía cortar y pegar como una lista donde en otros lugares no estaba tan ordenada.

4] Google busca una fecha dentro de la URL. Busca los siguientes formatos; YYYMMDDHH - YYYY - YYYYMM.

5] Google busca una fecha dentro de la etiqueta del título. Busca los siguientes formatos; AAAAMMDDHH - AAAA - AAAAMM aunque sospecho que se pueden reconocer otros formatos. Vea abajo.

6] Google busca una fecha dentro de la etiqueta del cuerpo (contenido). Busca los siguientes formatos; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY aunque sospecho que se pueden reconocer otros formatos. Vea abajo.

Nota: Se sabe que Google busca específicamente una fecha justo debajo de la primera H1 etiqueta. Esto se debe a que los blogs a menudo ponen fechas en esta ubicación.

7] Google busca una metaetiqueta como esta. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

También se dice que Google reconoce los siguientes formatos de fecha.

AAAA-MD - AAAA.MD - AAAA / M / D - MD-AAAA - MDYYYY - M / D / AAAA - AA-MM-DD - AAA.MM.DD - AA / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - AAAA-DM - ​​AAAA.DM - AAAA / D / M - DM-AAAA - DMYYYY - D / M / AAAA - DD-MM-AA - MM-DD-AA - DD / MM / AA - MM / DD / AA - AAAAMMDDHH - AAAAMMDD - AAAAMM - AAAA - DDMMYYYY - MMDDYYYY - AAAMMDD - DDMMYY - MMDDYY

La investigación que encontré no respondió la cuestión del tiempo.

En el caso de los ejemplos citados, las páginas no proporcionan pistas de fecha, excepto dentro de una etiqueta de intervalo que puede ignorarse. Es posible que el software / servidor web SE no pueda devolver la creación y las fechas modificadas dentro de cualquier encabezado de respuesta.

Por qué y cómo Google obtuvo estas fechas es una buena pregunta que tal vez nunca se resuelva. Sin embargo, seguiré buscando.

closetnoc
fuente
3
¿Tiene alguna referencia para "Google busca fechas de página en este orden; URL, etiqueta de título, cuerpo (contenido), metaetiquetas, encabezado de respuesta HTTP"? ¿Tiene algún número o estadística para esta investigación? Si pudiera publicar referencias de lo que publicó aquí, sería mucho mejor para todos nosotros.
PatomaS
Le agradezco que pregunte esto. Gran parte de lo que encontré fue en pedazos. La lista se encontró en varios lugares, pero el orden se encontró en la documentación del dispositivo de búsqueda de Google y parecía estar respaldado en párrafos en otros lugares. Literalmente miré varias docenas de documentos que me llevó bastante tiempo encontrar. Traté de tener cuidado al decir que tenía que reunir los datos de una variedad de fuentes, ya que no parecía haber ninguna información directa sobre esto. Editaré la declaración para que quede más clara.
closetnoc
También puedo confirmar que la siguiente cadena de formato de fecha contenida en algún article.post > div.post-content > h2 > pnivel fue recientemente recogida por Google y utilizada para mostrar la fecha: "Última actualización: 7 de octubre de 2018"
Matt
-2

Si desea ver la antigüedad de un dominio, busque en Google una máquina de retroceso . Este sitio es lo que está buscando: http://archive.org/web/ .

Si desea detectar plagio, este enlace lo ayudará: http://copyscape.com/signup.php?pro=0&o=f

Además, busque en Google "verificador de plagio".

Espero haber ayudado.

Pascut
fuente
3
Con respeto, debe volver a leer la pregunta.
closetnoc
La pregunta es "¿Cómo saber cuántos años tiene una página?" Siga mi enlace y verá que la respuesta es buena. Gracias por leer esto.
Pascut
3
No estás leyendo la pregunta. Estás leyendo el título. El camino de regreso de la máquina no responde la pregunta.
closetnoc
Tienes razón, he editado mi pregunta ..
Pascut
1
La máquina Wayback realiza un seguimiento de la página en el dominio. No es útil comparar fechas entre páginas específicas. Estoy buscando medios precisos para saber cuál se publicó primero.
Renan