¿Alguien sabe cómo Google o Yahoo realizan búsquedas de palabras clave en cantidades muy grandes de datos? ¿Qué tipo de base de datos o tecnologías emplean para esto?
Tarda unos pocos milisegundos, pero tienen más de mil millones de páginas indexadas.
database-design
full-text-search
rkosegi
fuente
fuente
Respuestas:
Estoy seguro de que hay una combinación de cosas:
gran cantidad de datos: los datos se distribuyen y replican en muchos nodos y diferentes centros de datos
fuente
Palomas .
El corazón de la tecnología de búsqueda de Google es PigeonRank ™ , un sistema para clasificar páginas web desarrollado por los fundadores de Google Larry Page y Sergey Brin en la Universidad de Stanford:
fuente
Es importante tener en cuenta un par de cosas sobre google:
Su base de datos es BigTable patentada : fue diseñada a medida por GOOGLE para adaptarse exactamente a sus necesidades
Su base de datos patentada está construida sobre su sistema de archivos patentado, Google File System , que fue diseñado, nuevamente por GOOGLE , para ser fácilmente expandible utilizando hardware común. Como Aaron mencionó en su respuesta, tienen una gran cantidad de servidores promedio en lugar de una pequeña cantidad de servidores muy potentes.
Almacenan tablas individuales en varias máquinas como una forma de hacer que el acceso sea más rápido: su software sabe qué datos están en qué máquina y, en lugar de pasar por un disco para localizarlos, puede ir directamente al servidor con la información relevante.
fuente
Google no utiliza la tecnología tradicional de bases de datos relacionales. Desarrolló su propia tecnología, redujo la tabla grande y el mapa. Los trabajos de investigación originales están aquí: Big Table y Map / Reduce . También es interesante la tabla de cadenas ordenadas SSTable .
Tecnología similar ahora se utiliza en hadoop y las bases de datos NoSQL .
fuente
Lea " In The Plex: cómo piensa, trabaja y da forma nuestra vida " a Steven Levy . Este libro es una lectura fascinante sobre todas las cosas de Google y discute a alto nivel algunas de las tecnologías e ingeniería detrás de la búsqueda. Aaron lo resume muy bien en su respuesta y el libro de Levy le dará más detalles sobre cómo lo hacen.
fuente