Nelson Minar, ingeniero de Google, participó el pasado miércoles 11 de febrero en la Conferencia ‘Emerging Technology‘, organizada por la prestigiosa editorial O’Reilly.
Nelson ofreció una charla de casi una hora titulada ‘Google is harder than it looks‘ (’Google es más duro de lo que parece’), en la que intentó explicar a los asistentes el funcionamiento de este popular buscador.
Cory Doctorow acudió al evento, y tomó unas cuantas notas sobre lo dicho. Entre los puntos que se expusieron caben destacar:
- Google indexa más de 3 mil millones de páginas web [esta cifra ha sido actualizada recientemente], aunque ofrecen más resultados gracias a los ‘rastreos profundos’.
- Hay varios ‘rastreadores’: el general (una vez al mes), que busca en la mayoría de la WWW; el ‘Fresh’, que rastrea en las páginas que se actualizan frecuentemente; y el de noticias, que rastrea cada 10 minutos.
- El servidor web que utilizan es uno personalizado, llamado ‘Google Web Server - GWS’ [se sospecha que se trata del servidor Apache modificado]. Actualmente existe la versión 2.1.
- Google analiza más de 100 factores para determinar la relevancia de una página web. Entre ellos, destacan el texto del enlace (el ‘anchor text’), el tamaño de la fuente y la proximidad.
- Para calcular el valor del PageRank, Google utiliza la teoría de grafos, mediante una matriz de 30 billones de nodos. Cada uno de estos nodos tiene 10 arcos (o aristas) diferentes.
- Hay 4 tipos de servidores en el clúster de Google, situados en paralelo del servidor web:
- Los servidores índice: están divididos en fragmentos (por ejemplo, uno apunta a todo lo que comienza con la letra ‘a’), y devuelve al servidor web una lista con las id’s de documentos donde aparece una determinada palabra.
- Los servidores de documentos: contienen las copias caché de las páginas web que se rastrean.
- Los servidores correctores de deletreo: son los que nos muestran el mensaje “Quiso decir: …”.
- Los servidores AdWords: nos muestran los enlaces patrocinados.
Si quieres saber algo más sobre la arquitectura de Google, puedes consultar este documento PDF: “The Google Cluster Architecture“.
Por Dirson