hoy OJO mira los buscadores … mañana los buscadores mirarán OJO
suscríbete

OJO
28 de Enero de 2007

A veces cuando haces una búsqueda los resultados no son muy relevantes. Cuando no recibes los resultados que esperabas de un buscador de internet o intranet, ¿es por qué el buscador no es muy bueno, o por qué no hay demasiada información indexada en la web o en la intranet que contiene el contenido relacionado a la búsqueda?

Un nuevo pedido de patente discute como los buscadores podrían identificar búsquedas difíciles, donde podría no haber contenido suficiente sobre el tema. El proceso descrito provee a los usuarios sugerencias de búsquedas que podrían darle una respuesta a la pregunta que estaban buscando o que posibilita a los buscadores esforzarse en indexar contenidos para esos “agujeros” de contenido.

La mejor introducción al pedido de patente es probablemente un par de páginas de IBM que discuten los esfuerzos de los investigadores que inventaron el proceso:

El pedido de patente:

Detection of missing content in a searchable repository

Inventado por Andrei Z. Broder, David Carmel, Adam Darlow, Shai Fine, Elad Yom-Tov
Asignado a IBM
US Patent Application 20070016545
Publicado el 18.1.2007
Presentado el 14.7.2005

Traducción autorizada por Bill Slawski para OJObuscador.
Versión completa original en inglés: Difficult Queries and Identifying Missing Content in Search Engines

Tags:

1 comentario »
  1. José R. Pérez Agüera ha dicho el 28 de Enero de 2007

    El año pasado algunos de los autores de la patente publicaron este artículo en SIGIR 2006 donde se explican los detalles del método propuesto:

    Carmel, D., Yom-Tov, E., Darlow, A., and Pelleg, D. 2006. What makes a query difficult?. In Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, Washington, USA, August 06 - 11, 2006). SIGIR ‘06. ACM Press, New York, NY, 390-397. DOI= http://doi.acm.org/10.1145/1148170.1148238

    Debo reconocer que este tema tiene bastante que ver con mi tesis, por lo que después de leer el artículo implementé su propuesta para ver que tal funcionaba, y la verdad es que por las pruebas que yo hice todavía les queda muuuucho curro para poder identificar cuando una consulta es difícil y cuando no lo es. Otra bibliografía relacionada con este tema es la siguiente:

    Cronen-Townsend, S., Zhou, Y., and Croft, W. B. 2002. Predicting query performance. In Proceedings of the 25th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Tampere, Finland, August 11 - 15, 2002). SIGIR ‘02. ACM Press, New York, NY, 299-306. DOI= http://doi.acm.org/10.1145/564376.564429

    Zhou, Y. and Croft, W. B. 2006. Ranking robustness: a novel framework to predict query performance. In Proceedings of the 15th ACM international Conference on information and Knowledge Management (Arlington, Virginia, USA, November 06 - 11, 2006). CIKM ‘06. ACM Press, New York, NY, 567-574. DOI= http://doi.acm.org/10.1145/1183614.1183696

    Voorhees, E. M. 2005. The TREC robust retrieval track. SIGIR Forum 39, 1 (Jun. 2005), 11-20. DOI= http://doi.acm.org/10.1145/1067268.1067272

    En todos los artículos se puede observar que la aroximación mostrada presenta un correlación estadística bastante débil con la precisión, que es la función que queremos aproximar. Por otra parte el método que mejores resultados presenta, que es el propuesto por Croft, Zhou y Cronen-Townsend, es muy costoso desde el punto de vista computacional.

    Así que de momento, mucha patente pero pocas soluciones reales :-(

    Si teneis interés por este tema decidlo en los comentarios a este post y me curro un post nuevo explicando como funciona realmente el método propuesto por Carmel y compañía, más allá de la patente, mediante la aplicación de la divergencia Jensen-Shannon a ciertas características de la consulta y de la colección.

Rellena el formulario para poder comentar...

XHTML permitido:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>