¿Qué NO puedes encontrar en Google? [cerrado]

18

Google afirma ser justo, y a la compañía le interesa (la mayoría de las veces) buscar en Internet cualquier cosa y todo lo que sus arañas puedan acceder. Quiero saber:

  • ¿Qué tipo de contenido (de acceso público) no entrega Google?
  • ¿Existe un tipo específico de contenido que Google no puede recuperar?

Las referencias, especialmente a la propia documentación de Google, serían especialmente impresionantes.

samthebrand
fuente
Ahora que la UE ha promulgado un "Derecho a ser olvidado", hay un poco que ya no podremos encontrar. Aquí hay algunas cosas que han sido "olvidadas".
samthebrand

Respuestas:

21

Algunas ideas sobre el tipo de cosas:

  1. El contenido explícitamente no permitido por el robots.txtarchivo de un dominio se excluye del índice de Google.
  2. Sitios web que no están vinculados desde otros sitios web que Google ya conoce. Es decir, probablemente hay muchos sitios web que no se vinculan desde páginas visibles, esos sitios web nunca serán encontrados por la araña de Google a menos que se envíen manualmente a Google a través de las Herramientas para webmasters de Google .
  3. Sitios web que están detrás de formularios web que debe completar.
  4. Imágenes del censo. Dado que el contenido son imágenes que a menudo se indexan manualmente, generalmente se encuentran en sitios pagos como ancestry.com.

Obtenga más información sobre la Web profunda

amh
fuente
2
El punto 2 no es cierto. Puede enviar un sitio a Google a través de las Herramientas para webmasters , y se indexará incluso si no está vinculado desde otros sitios web.
Alex
Eso es verdad. Buena aclaracion.
amh
3
En realidad no estaré de acuerdo con el segundo punto. Tenía un servidor web de prueba en mi PC y estaba indexado. Encontré esto comprobando el registro de acceso.
Bakudan
2
Registré nuevos dominios, comencé a desarrollarlos y descubrí que Googlebot los rastrea solo unos días después. Pensé que esto era un poco espeluznante hasta que me di cuenta: es posible que no sea la primera persona en poseer este dominio :) No revelan detalles, pero estoy seguro de que realizan un seguimiento de los dominios que las personas pensaban que eran lo suficientemente importantes como para registrarse y en al menos unos pocos visitados en algún momento, al menos durante un período de tiempo.
Tim Post
6

Aparte de Twitter, Google no indexa Tumblr tan bien. Las publicaciones de blog en Tumblr son más fáciles de encontrar usando la búsqueda de Tumblr. Además, todo en Google Sites no está (o apenas está) indexado. Si inicia un sitio de Google, obtenga su propio dominio.

Los blogs más pequeños que no se actualizan regularmente a menudo se eliminan de los resultados de búsqueda. Además de todo lo que piensan que es un splog .

David
fuente
5

Bueno, la mayoría del contenido de Twitter no está indexado por Google, incluso si es público. Solía ​​estar disponible para Google, pero ese ya no es el caso ya que su acuerdo expiró.

Fuente .

Alex
fuente
Si bien es cierto, la pregunta pregunta qué "contenido de alta calidad" no está disponible en Google. La mayoría de Twitter no cumpliría con ese criterio :) Sin embargo, veo que el tweet extraño aparece en la búsqueda de Google.
HappyTimeGopher
4

Depende de en qué país te encuentres. En Alemania no muestra miles de sitios que el gobierno considera que no son buenos para usted, y la lista aumenta en miles cada año.

Google es el motor de la censura de Internet. Si desea un Internet gratis, use algunas compañías no malvadas, como DuckDuckGo u otras.

Hellagot
fuente
1

Sitios con tanto contenido que Google simplemente no ha tenido tiempo (o la inclinación) para indexarlo todo.

Los sitios que no tienen un mapa del sitio rastreable y requieren que Google proporcione términos de búsqueda para acceder a los resultados disponibles en el sitio podrían no estar completamente indexados.

Josephine Bonaparte
fuente