hoy OJO mira los buscadores … mañana los buscadores mirarán OJO
SEO
First Tuesday
OJO
9 de Octubre de 2006

Hoy es la inauguración oficial del laboratorio de investigación que ha abierto Yahoo! en Barcelona. Aunque el lab lleva funcionando ya unos cuantos meses y hubo una apertura allá por mayo, hoy será el día de la inauguración oficial y se contará con la presencia de Prabhakar Raghavan, director de Yahoo! Research.

27 de Septiembre de 2006

Voy a utilizar la voz que me presta OJObuscador para una reivindicación de la comunidad universitaria a la que pertenezco, espero que a Javier no le importe.

La biblioteca de la UCM ha llegado a un acuerdo con Google, para que éste escanee todas sus obras libres de derechos de autor.

Sin embargo, como se puede leer en Barrapunto que Google escanee nuestros libros no significa que vayan a estar accesibles por internet; del enlace anterior, textualmente:

Marco Marinucci contestó que sí, que los libros en el dominio público seguirían en el dominio público, y que en un futuro sería incluso posible que los usuarios pudieran imprimírselos. Hizo falta preguntarle tres veces más (la última cuando ya se estaba yendo) para que contestara que no, que los libros del dominio público digitalizados por Google no estarían disponibles para su descarga por el público.

Cerca del día del octavo cumpleaños de Google, la Universidad Complutense de Madrid llegó a un acuerdo con Google para digitalizar la totalidad de las colecciones de la Biblioteca Complutense libres de derechos de autor, dentro del proyecto Google Library. Aunque formo parte de la plantilla de la UCM, no estoy de acuerdo con esta decisión. Estoy a favor de la cultura libre, pero no de donar los fondos de nuestra biblioteca a una empresa privada. Más detalles aquí. (Texto escrito por Marco A. Gómez-Martín al que me adhiero al 100%).

Tags:
20 de Septiembre de 2006

Desde el 18 de septiembre y hasta el día 22 está teniendo lugar la 10ª conferencia europea de bibliotecas digitales. Los temas tratados van desde las distintas arquitecturas de las bibliotecas y archivos digitales hasta como recuperar organizar y gestionar los contenidos en estos grandes almacenes de datos y como aspectos de la Web Semántica pueden ser de utilidad para gestionar contenidos en Internet.

La sesiones se pueden seguir en directo a través de la página web del congreso ECDL

Video en directo de las sesiones

30 de Agosto de 2006

Hace una semana tuve la suerte de asistir al FINTAL 2006, una conferencia centrada en temas de procesamiento de lenguaje natural. Entre los muchos e interesantes trabajos que allí se presentaron, a mi me llamo especialmente la atención uno referente a la selección de ads para weblogs personales.

El trabajo ha sido realizado por Gilad Mishne y Maarten de Rijke de la Universidad de Amsterdam, de hecho el nombre de Maarten de Rijke es bastante conocido dentro del ámbito de la IR.

Continuar leyendo este artículo »»»

18 de Agosto de 2006

Existen numerosos factores que afectan al proceso de recuperación de información, como por ejemplo la formulación de consultas, el proceso de comparación entre la cosulta y los documentos de la colección y la presentación de los resultados al usuario final.

Sin embargo, en los ultimos años ha aumentado el interés por parte de la comunidad científica sobre el contexto en el que se realiza la recuperación. A este campo de conocimiento se le ha dado el nombre de IR adaptativa, y su objetivo fundamental es adaptar el proceso de búsqueda a las necesidades del los usuarios y a las características del contexto en el que estos realizan la búsqueda. Esta línea de trabajo ha dado lugar a un esfuerzo de modelización de usuarios y contextos, del que, quizás, el ejemplo más claro es el desarrollo de búsquedas locales en los grandes buscadores, aunque no sólo se reduce a esto.
Debido al creciente inetrés que este tipo de estudios está teniendo entre los investigadores en IR se va a organizar un taller sobre IR adaptativa el próximo 14 de octubre, coincidiendo con la celebración de SPIRE, otra de las grandes citas del año para los especialistas en IR.

Fuente: SIG-IR List

16 de Agosto de 2006

Acaba de salir este interesante libro para aquellos que quieran profundizar en los algoritmos de ranking.

Google’s PageRank and Beyond:
The Science of Search Engine Rankings
Amy N. Langville and Carl D. Meyer

http://www.pupress.princeton.edu/titles/8216.html

Yo ya me lo he pedido en Amazon y prometo hacerle una reseña cuando me llegue :-)

Fuente: SIG-IR List

9 de Agosto de 2006

Otro video sobre Google, en este caso nos hablan sobre los desafíos de montar un buscador que no sólo depende de los algoritmos de búsqueda, sino también de como puede escalar su arquitectura para asumir el tráfico y la enorme cantidad de datos que se van almacenando a lo largo del tiempo. Video del 2004 muy, muy interesante donde tenemos una descripción de MapReduce (La herramienta que implementa el sistema distribuido de ficheros de Google).

Y ya, aprovechando que hablamos de MapReduce no puedo dejar de recomendar a los que les interesen estos temas que después de ver el video le echen un vistazo a la implementación libre de MapReduce que está haciendo la gente de Nutch, y que se llama Hadoop.

Search is one of the most important applications used on the Internet and poses interesting challenges in computer science. Providing high-quality search requires understanding across a wide range of computer science disciplines. In this program, Google Fellow Jeff Dean describes some of these challenges, discusses applications Google has developed, and highlights systems they’ve built, including GFS, a large-scale distributed file system, and MapReduce, a library for automatic parallelization and distribution of large-scale computation. He also shares observations derived from Google’s Web data.

http://www.researchchannel.org/prog/displayevent.asp?rid=2459

Fuente: SIG-IR Resources (Videos IR Talks)

9 de Agosto de 2006

Para aquellos que se atrevan con el inglés, aquí tienen un video sobre el cluster de máquinas que soportan toda la carga de trabajo de Google. El video es del 2002 pero sigue siendo muy interesante:

Google’s Linux cluster currently processes over 150 million queries a day, searching a multi-terabyte web index for every query with an average response time of less than a quarter of a second, with near-100% uptime. In this discussion, Google Fellow Urs Hölzle will describe the software and hardware infrastructure that makes this performance possible, as well as provide an overview of the main problems facing a web search, software architecture, servers and compact rack hardware designs.

http://www.researchchannel.org/prog/displayevent.asp?rid=1680

Fuente: SIG-IR Resources (Videos IR Talks)

7 de Agosto de 2006

En el post anterior hemos visto como indexar una colección de documentos con Terrier. En este veremos como acceder a ese índice para buscar documentos en él. También le echaremos un vistazo a la interfaz gráfica de Terrier y veremos como extraer datos del índice como la frecuencia de las palabras por documento o la frecuencia total de una palabra en la colección.

Continuar leyendo este artículo »»»

5 de Agosto de 2006

Mañana domingo 6 de agosto comienza SIGIR 2006 una de las conferencias más importantes del año sobre Recuperación de Información. SIGIR es el grupo de interés de la ACM para Recuperación de Información.

En este foro se reunen los mayores expertos en IR del mundo junto con los ingenieros de I+D de las principales empresas que desarrollan servicios de búsqueda, desde Google, Yahoo y Microsoft, hasta IBM y AOL.

El programa de este año no tiene desperdicio, y sólo con echarle un vistazo podemos hacernos una idea de por donde van los intereses en investigación de los principales buscadores que operan en Internet.

También se celebrarán varios workshops entre los que destaca OSIR, donde se hablará de software libre para recuperación de información y donde estarán los creadores de las principales herramientas de IR que están disponibles en Internet.

Páginas: << 1 2 3 >>