Con muy buen tino me recordaba Fran de Xeoweb que ya me estaba columpiando con mi promesa de hacer una reseña de este libro:
Google’s PageRank and Beyond:
The Science of Search Engine Rankings
Amy N. Langville and Carl D. Meyer
así que como ya me lo he leido, vamos a darle un repasito para ver los puntos fuertes y los no tan fuertes que nos ofrece.
En mi opinión se trata de una obra de obligada lectura para todo friki sin miedo a las matemáticas y ganas de saber como funcionan las tripas de un buscador web. En general el libro tiene una carga matemática bastante importante, si bien tampoco es que sea de una complejidad apabullante. De hecho se lee bastante bien y podemos sacarle provecho sin entender al 100% todas las explicaciones matemáticas que contiene, ya que, a parte de las formulas, se explica con mucha claridad cual es la idea que reside detrás de los algoritmos, lo que nos permite entender como funcionan sin necesidad de saber como se formalizan matemáticamente.
Como puntos fuertes del libro están las explicaciones de los dos grandes algoritmos de ranking basados en el análisis de enlaces, Pagerank y HITS.
Los capitulos dedicados a Pagerank son muy completos y de hecho contiene la mejor explicación y modelización del concepto de navegante aleatorio (random surfer) que yo he tenido la oportunida de leer.
El damping factor, que es el valor que mide la probabilidad de que un usuario que está navegando pulse un enlace o salte a otra página no enlazada (por ejemplo tecleando una URL directamente en su navegador) es la gran aportación del Pagerank, ya que la otra parte del algoritmo ya se utilizaba desde hacía bastante tiempo en análisis bibliométrico de citas. Por este motivo los autores de este libro se han centrado precisamente en la modelización matemática de este damping factor, que no es otra cosa que una probabilidad que permite modelizar el comportamiento de un usuario mientras navega por Internet. Esto nos permite entender que la potencia de Pagerank está en permitirnos definir un ranking automáticamente de la misma forma que lo haría un navegante humano.
El resto de capítulos dedicados a Pagerank se centran en aspectos de implementación y optimización del algoritmo, y en mi opinión conforman una base excelente para el que quiera implementar Pagerank en un sistema real capaz de entrar en producción. La única pega que se le puede poner a estos capítulos es que el código de ejemplo está en MatLab, muy útil y cómodo para hacer experimentos, pero lejos de los lenguajes de programación tradicionales donde la implementación de algunas operaciones matemáticas no es tan trivial como lo es en MatLab.
El capítulo sobre HITS no desmerece, aunque se le dedica mucho menos espacio que a la explicación de Pagerank, no insistiré sobre los detalles de HITS, ya que podeis ver más o menos como funciona en este post que acabo de publicar.
Si bien las explicaciones sobre Pagerank y HITS son una maravilla, no lo es tanto la parte de recuperación de información tradicional, ya que se trata muy por encima y apenas se pone en relación con el uso que hacen los buscadores de los métodos tradicionales de recuperación de información. Esta falta de detalle supone un desequilibrio muy fuerte y puede llegar a dar la impresión de que los buscadores en la Web sólo dependen de los algoritmos basados en enlaces, lo cual está muy alejado de la realidad.
Los algoritmos basado en análisis de frecuencias (TF-IDF) y los modelos de IR (vectorial, probabilístico) forman también parte del núcleo de los buscadores y de hecho estos no podrían funcionar sin esos modelos. La excesiva superficialidad con la que se trata la IR clásica es este libro es sin duda su gran fallo, y aunque seguramente no era la intención de los autores hacer un manual de IR, aún así se quedan demasiado cortos a este respecto.
En cuanto al resto de libro, está muy bien escrito, y nos ameniza cada pocas páginas con historietas sobre el mundo de los buscadores y demás, que son bastante interesantes y amenas (y sin una sola formula matemática). En particular hay una historia sobre un spammer al que le visitan los fantasmas de las búsquedas pasadas, presentes y futuras que es bastante graciosa.
En cuanto a los dos capitulos sobre otros algoritmos de ranking mediante enlaces y el futuro de la web no pasan de ser un repaso muy superficial, de utilidad para estar al día, pero sin que profundicen en cuestiones realmente importantes.
El apendice matemático es bastante útil, pero se necesita cierta base para poder usarlo, si hace mucho que diste algebra en la universidad, lo mismo se te hace un poco duro.
En definitiva un libro imprescindible para conocer en profundidad Pagerank y HITS además de aprenderse algunas historias curiosas sobre buscadores para contarles a los colegas. Si resumimos mi opinión en una frase yo diría:
“un libro necesario pero no suficiente (¿algún libro lo es?)”
Muy interesante.