Visitando el Blog Oficial de Google, encontramos que los ingenieros del buscador explican con orgullo que Google alcanzó por primera vez un billón de URLs únicas indexadas; en la noticia en ingles “1 trillion”; en números para no confundirnos 1,000,000,000,000 de URLs.

El primer índice de Google en 1998 ya tenía 26 millones de páginas y en el 2000 el índice ya tenía mil millones de páginas. En los últimos 8 años el contenido fue creciendo hasta sorprender a los ingenieros de búsquedas de Google.

Los sistemas que procesan links de la Web para encontrar nuevo contenido alcanzaron un nuevo hito: ¡Un billón (1,000,000,000,000) de URLs únicas en la Web al mismo tiempo!

¿Cómo se encuentran todas esas páginas? Se comienza con un grupo de páginas iniciales bien conectadas y se sigue cada uno de sus links a nuevas páginas. Luego se siguen los links de estas nuevas páginas hacia más páginas, y así, hasta obtener un enorme listado de links. De hecho, se encuentra más de 1 billón de links individuales, pero no todos ellos llevan a páginas web únicas. Muchas páginas tienen muchos URLs con exactamente el mismo contenido, o URLs que se enlazan entre si. Incluso luego de quitar estos duplicados exactos, se obtiene un billón de URLs únicas y el número de páginas web individuales sigue creciendo diariamente.

Para poder manejar todo este volumen de información, los sistemas de Google han avanzando mucho desde el primer grupo de datos que se procesó para responder consultas.

En aquel entonces se hacía todo en batch: una estación de trabajo se encargaba de procesar el grafo de PageRank de los 26 millones de páginas en un par de horas, y este grupo de páginas era utilizado como índice de Google por un tiempo fijo.

Hoy en día, la infraestructura distribuida de Google permite que las aplicaciones recorran de manera eficiente este grafo de links con muchos billones de conexiones u ordenen rápidamente petabytes de información, sólo para prepararse a responder la pregunta más importante: tu próxima consulta en Google.

Mayor información en:
http://googleblog.blogspot.com