Ahora que está tan de moda hablar de Quaero, Exalead y los buscadores europeos, no me puedo resistir a enlazar este excelente artículo de opinión publicado hace unos años por Ricardo Baeza-Yates (Yahoo! Research) en la revista Informática donde, en mi opinión se ve como los europeos perdimos la gran oportunidad de tener nuestro propio Google:
La increible historia de FAST por Ricardo Baeza-Yates
Después de leer el texto de Baeza-Yates y por lo que he ido viendo estos últimos años, el aparente retraso en el desarrollo de tecnologías de búsqueda europeas, no tiene tanto que ver con la calidad de nuestra investigación, que está al nivel de los EE.UU. y Asia, sino con las reducidas posibilidades de encontrar inversión y financiación en este campo que existe en toda Europa y particularmente en España.
¿Cuántos FAST’s más vamos a perder? ¿Cuántos nos podemos permitir perder? Yo creo que son preguntas que cualquier político y empresario europeo centrado en temas de IT debería plantearse hoy en día.
Google ordena los resultados en base al contenido que aparece en páginas individuales o en URL’s específicas. Pero el contenido puede ser de diferentes autores, quienes tienen diferentes niveles de control sobre el contenido. Por ejemplo, un blog puede tener entradas escritas por diferentes autores, comentarios de usuarios y publicidad sobre la cual el “dueño” del blog no tiene control directo.
Un foro puede tener muchos autores respondiendo a un post inicial y también puede contener publicidad.
Imaginad un sistema que en lugar de rankear el contenido por página, divide dichas páginas y observa pequeñas cantidades de contenido y lo asocia a “firmas digitales”. Los creadores de contenido podrían recibir puntuaciones, que influenciaría los rankings de las páginas donde aparece su contenido, o de las cuales son dueños, editan o recomiendan.
Esto hace la nueva patente de Google llamada Agent Rank.
Leer el post completo en Search Engine Land.
El otro día escribí un post sobre si realmente es posible llamar buscador a cualquier cosa que tire del API de los grandes buscadores. El caso es que hoy, revisando antiguas lecturas me he encontrado con este artículo que explica lo complicado que es desarrollar un buscador y que creo que es un buen complemento para aquella discusión.
Why Writing Your Own Search Engine is Hard
ACM Queue vol. 2, no. 2 – April 2004
by Anna Patterson, Stanford University
¿Pensáis que hoy en día es más fácil o que los problemas que plantea la autora siguen vigentes? Yo lo veo bastante actual y a decir verdad, creo que la afirmación que he oído en algún sitio de que la tecnología es, a día de hoy, tan sólo una commodity a la hora desarrollar un buscador me parece bastante aventurado.
Mientras, sorprendentemente, la aparente desactivación del “Google Bombing” no aparece como lo más buscado ni lo más escrito en Technorati, pese a estar despertando todo tipo de pasiones, he aquí una recopilación de las teorías que se están barajando, en cuanto cómo funcionaría este nuevo sistema de análisis de enlaces de Google:
[0153] Este enfoque tiene el beneficio de prevenir por completo ciertos tipos de manipulación de páginas web, con el objetivo de alterar los resultados para una búsqueda. Los buscadores usan un algoritmo de ranking que se basa en el número de enlaces que apuntan a un documento dado, y para rankear dicho documento es posible “bombardearlo” mediante la creación artificial de una gran cantidad de páginas con las palabras seleccionadas que luego enlazan al documento en cuestión. Como resultado, cuando se busca ese texto, la página bombardeada aparece, aún cuando de hecho la página tiene poco o nada que ver con el texto de los enlaces. Al importar el “bit vector” relacionado del documento en cuestión URL1 en la frase A, el “bit vector” de la frase relacionada al documento URL0 elimina la confianza en el sistema de búsqueda, pero solamente en la relación entre frase A en la URL0 apuntando a la URL1, como un indicador del significado, o URL1 al texto de la frase.
Parte de la respuesta puede encontrarse en algún análisis de redes. Me puedo imaginar que los Googlebombs tienen algún criterio en común, como que siempre utilizan el mismo texto en los enlaces (cosa que también comparten con algunas no-bombas), pero también se perciben como “puentes” de redes que sino estarían desconectadas. Con qué razón podrían un alto número de redes (vecindarios, comunidades) que no están estrechamente conectadas con una otra red mediante enlaces generales, de repente aparecen relacionados con su red opuesta? Para usar el ejemplo “failure”: por qué la red websites de los demócratas norteamericanos irían a enlazar todos juntos contra su red opuesta, la de los repúblicanos?
Resumiendo
Google dice que no es 100% efectivo y que algunas “bombas” podrían no estar desactivadas. De hecho en numerosos blogs y foros aparecen palabras en otros idiomas que aún siguen vigentes como bombas. ¿Será qué el nuevo sistema de análisis no re-analiza los millones de billones de enlaces de la web en busca de bombas?
Cuando se dice que esto ha sido manual, no es que nadie de Google se meta en sus servidores a borrar manualmente nada, sino que ha sido un retoque manual del algoritmo para ciertas palabras y que dichas palabras sí fueron seleccionadas a mano. Vale, sí, que luego el análisis de si se trata efectivamente de una bomba o no, es algorítmico, no hay duda alguna. De otra manera no sería escalable y como bien sabemos, todo lo que no sea escalable no es rentable.
De todas formas y como me dice Ricardo Baeza-Yates de Yahoo! sobre esto: “No tengo opinión, no se puede adivinar que cambios se hicieron en el algoritmo.”
A veces cuando haces una búsqueda los resultados no son muy relevantes. Cuando no recibes los resultados que esperabas de un buscador de internet o intranet, ¿es por qué el buscador no es muy bueno, o por qué no hay demasiada información indexada en la web o en la intranet que contiene el contenido relacionado a la búsqueda?
Un nuevo pedido de patente discute como los buscadores podrían identificar búsquedas difíciles, donde podría no haber contenido suficiente sobre el tema. El proceso descrito provee a los usuarios sugerencias de búsquedas que podrían darle una respuesta a la pregunta que estaban buscando o que posibilita a los buscadores esforzarse en indexar contenidos para esos “agujeros” de contenido.
La mejor introducción al pedido de patente es probablemente un par de páginas de IBM que discuten los esfuerzos de los investigadores que inventaron el proceso:
El pedido de patente:
Detection of missing content in a searchable repository
Inventado por Andrei Z. Broder, David Carmel, Adam Darlow, Shai Fine, Elad Yom-Tov
Asignado a IBM
US Patent Application 20070016545
Publicado el 18.1.2007
Presentado el 14.7.2005
Traducción autorizada por Bill Slawski para OJObuscador.
Versión completa original en inglés: Difficult Queries and Identifying Missing Content in Search Engines
Tal como comentan en este blog sobre minería de datos, el día de mi cumpleaños es decir, el próximo 26 de abril, tendrá lugar la conferencia FigLang2007 en Nueva York. ¿Por qué es importante entender el lenguaje figurativo? Existen una serie de recursos en el discurso natural de los humanos, tales como la metáfora, la [...]
Continuar leyendo Conferencia sobre lenguaje figurativo
Con muy buen tino me recordaba Fran de Xeoweb que ya me estaba columpiando con mi promesa de hacer una reseña de este libro: Google’s PageRank and Beyond: The Science of Search Engine Rankings Amy N. Langville and Carl D. Meyer
Continuar leyendo Reseña de Google’s PageRank and Beyond
Existen un montón de explicaciones sobre el Pagerank en la Web. Sin duda para mi una de las más claras es esta: http://pr.efactory.de/ Sin embargo, no es el único algoritmo de ranking sobre análisis de enlaces que existe, ni siquiera nació solo, sino que en el mismo año que Brin y Page presentaban su Pagerank, [...]
Continuar leyendo HITS: Porque no sólo de Pagerank vive el SEO
Aprovechando que el Pisuerga pasa por Valladolid y que Technorati saca sus versiones locales creo que es importante recordar que nuestro buscador favorito de blogs usa Lucene como base de su software de búsqueda. Lucene powers search in surprising places–in discussion groups at Fortune 100 companies, in commercial issue trackers, in email search from Microsoft, [...]
Continuar leyendo Uso de Lucene por Technorati
La noticia ayer por la mañana, en el blog de Google, es que Google ha adquirido Jotspot. He estado trabajando con Jotspot wikis en un par de proyectos internos, y realmente lo disfruto. Fue una excelente elección de Google y el programa provee una herramienta adicional para integrarse con Google Docs & Spreadsheets. Hay algunas [...]
Continuar leyendo Google compra Jotspot & Pedido de patente Wiki