facebook
twitter
feed

Qué comentan tus amigos

OJO
artículo de publicado el 14 de febrero de 2007 y con ningún comentario...

Ahora que está tan de moda hablar de Quaero, Exalead y los buscadores europeos, no me puedo resistir a enlazar este excelente artículo de opinión publicado hace unos años por Ricardo Baeza-Yates (Yahoo! Research) en la revista Informática donde, en mi opinión se ve como los europeos perdimos la gran oportunidad de tener nuestro propio Google:

La increible historia de FAST por Ricardo Baeza-Yates

Después de leer el texto de Baeza-Yates y por lo que he ido viendo estos últimos años, el aparente retraso en el desarrollo de tecnologías de búsqueda europeas, no tiene tanto que ver con la calidad de nuestra investigación, que está al nivel de los EE.UU. y Asia, sino con las reducidas posibilidades de encontrar inversión y financiación en este campo que existe en toda Europa y particularmente en España.

¿Cuántos FAST’s más vamos a perder? ¿Cuántos nos podemos permitir perder? Yo creo que son preguntas que cualquier político y empresario europeo centrado en temas de IT debería plantearse hoy en día.

artículo de publicado el 10 de febrero de 2007 y con 1 comentario...

Google ordena los resultados en base al contenido que aparece en páginas individuales o en URL’s específicas. Pero el contenido puede ser de diferentes autores, quienes tienen diferentes niveles de control sobre el contenido. Por ejemplo, un blog puede tener entradas escritas por diferentes autores, comentarios de usuarios y publicidad sobre la cual el “dueño” del blog no tiene control directo.

Un foro puede tener muchos autores respondiendo a un post inicial y también puede contener publicidad.

Imaginad un sistema que en lugar de rankear el contenido por página, divide dichas páginas y observa pequeñas cantidades de contenido y lo asocia a “firmas digitales”. Los creadores de contenido podrían recibir puntuaciones, que influenciaría los rankings de las páginas donde aparece su contenido, o de las cuales son dueños, editan o recomiendan.

Esto hace la nueva patente de Google llamada Agent Rank.

Leer el post completo en Search Engine Land.

artículo de publicado el 9 de febrero de 2007 y con 2 comentarios...

El otro día escribí un post sobre si realmente es posible llamar buscador a cualquier cosa que tire del API de los grandes buscadores. El caso es que hoy, revisando antiguas lecturas me he encontrado con este artículo que explica lo complicado que es desarrollar un buscador y que creo que es un buen complemento para aquella discusión.

Why Writing Your Own Search Engine is Hard
ACM Queue vol. 2, no. 2 – April 2004
by Anna Patterson, Stanford University

¿Pensáis que hoy en día es más fácil o que los problemas que plantea la autora siguen vigentes? Yo lo veo bastante actual y a decir verdad, creo que la afirmación que he oído en algún sitio de que la tecnología es, a día de hoy, tan sólo una commodity a la hora desarrollar un buscador me parece bastante aventurado.

artículo de publicado el 28 de enero de 2007 y con 3 comentarios...

Mientras, sorprendentemente, la aparente desactivación del “Google Bombing” no aparece como lo más buscado ni lo más escrito en Technorati, pese a estar despertando todo tipo de pasiones, he aquí una recopilación de las teorías que se están barajando, en cuanto cómo funcionaría este nuevo sistema de análisis de enlaces de Google:

  • De la patente de Google “Indexación en sistemas de recuperación de la información basada en frases relacionadas“, sugerido por Bill Slawski:
    [0153] Este enfoque tiene el beneficio de prevenir por completo ciertos tipos de manipulación de páginas web, con el objetivo de alterar los resultados para una búsqueda. Los buscadores usan un algoritmo de ranking que se basa en el número de enlaces que apuntan a un documento dado, y para rankear dicho documento es posible “bombardearlo” mediante la creación artificial de una gran cantidad de páginas con las palabras seleccionadas que luego enlazan al documento en cuestión. Como resultado, cuando se busca ese texto, la página bombardeada aparece, aún cuando de hecho la página tiene poco o nada que ver con el texto de los enlaces. Al importar el “bit vector” relacionado del documento en cuestión URL1 en la frase A, el “bit vector” de la frase relacionada al documento URL0 elimina la confianza en el sistema de búsqueda, pero solamente en la relación entre frase A en la URL0 apuntando a la URL1, como un indicador del significado, o URL1 al texto de la frase.

  • Google Blogoscoped dice:
    Parte de la respuesta puede encontrarse en algún análisis de redes. Me puedo imaginar que los Googlebombs tienen algún criterio en común, como que siempre utilizan el mismo texto en los enlaces (cosa que también comparten con algunas no-bombas), pero también se perciben como “puentes” de redes que sino estarían desconectadas. Con qué razón podrían un alto número de redes (vecindarios, comunidades) que no están estrechamente conectadas con una otra red mediante enlaces generales, de repente aparecen relacionados con su red opuesta? Para usar el ejemplo “failure”: por qué la red websites de los demócratas norteamericanos irían a enlazar todos juntos contra su red opuesta, la de los repúblicanos?

  • También le he preguntado a José Ramón Pérez Agüera de la Univesidad Complutense y que será ponente en el Congreso OJObuscador 2.0 sobre temas de IR open-source para SEOs:
    Tomy Lorsch: ¿Tu crees que ahora “re-analizan” los millones de enlaces que tienen indexados en busca de bombas? ¿O es que manualmente ponen una palabra, tipo “miserable failure” para que el sistema analice si para esa palabra hay enlaces bomba?
    José Ramón Pérez Agüera: Re-analizar lo enlaces no creo, eso es muy costoso. Yo, desde mi “ignorancia” creo que han podido implementar una serie de heurísticas para que a partir de todos los casos de bombings que han tenido hasta ahora puedan intentar preveer cuando se lo están haciendo. Esto querría decir que el bombing como se ha hecho hasta ahora podría funcionar peor, pero que en el momento en que se cambia la forma de hacer bombing se lo van a volver a tragar de lleno.
    Tomy Lorsch: Yo pienso lo mismo. Entonces, ¿es una decisión “editorial” (manual) seleccionar que palabras quieren “controlar” como si fuesen semillas (seeds) para analizar si se tratan de bombas? ¿Hay una decisión editorial y otra algoritmica?
    José Ramón Pérez Agüera: Supongo que será un algoritmo supervisado. Es decir se entrena el algoritmo sobre una serie de reglas o ejemplos establecidos manualmente y a partir de ahí el algoritmo aprende y funciona de forma automática. Es una aproximación típica de machine learning, pero no te puedo asegurar que sea eso lo que han hecho. El bombing ataca la base de su algoritmo de ranking, que es el PageRank, la única forma real de no tragarse un bombing bien hecho, es no usar algoritmos basados en análisis de grafos. No hay otra, ya que el bombing se aprovecha de la base matemática misma que hay detrás de PageRank. Si no han dejado de usar PageRank no pueden decir que el bombing ya no les afecta, creo yo.

Resumiendo
Google dice que no es 100% efectivo y que algunas “bombas” podrían no estar desactivadas. De hecho en numerosos blogs y foros aparecen palabras en otros idiomas que aún siguen vigentes como bombas. ¿Será qué el nuevo sistema de análisis no re-analiza los millones de billones de enlaces de la web en busca de bombas?

Cuando se dice que esto ha sido manual, no es que nadie de Google se meta en sus servidores a borrar manualmente nada, sino que ha sido un retoque manual del algoritmo para ciertas palabras y que dichas palabras sí fueron seleccionadas a mano. Vale, sí, que luego el análisis de si se trata efectivamente de una bomba o no, es algorítmico, no hay duda alguna. De otra manera no sería escalable y como bien sabemos, todo lo que no sea escalable no es rentable.

De todas formas y como me dice Ricardo Baeza-Yates de Yahoo! sobre esto: “No tengo opinión, no se puede adivinar que cambios se hicieron en el algoritmo.”

artículo de publicado el 28 de enero de 2007 y con 1 comentario...

A veces cuando haces una búsqueda los resultados no son muy relevantes. Cuando no recibes los resultados que esperabas de un buscador de internet o intranet, ¿es por qué el buscador no es muy bueno, o por qué no hay demasiada información indexada en la web o en la intranet que contiene el contenido relacionado a la búsqueda?

Un nuevo pedido de patente discute como los buscadores podrían identificar búsquedas difíciles, donde podría no haber contenido suficiente sobre el tema. El proceso descrito provee a los usuarios sugerencias de búsquedas que podrían darle una respuesta a la pregunta que estaban buscando o que posibilita a los buscadores esforzarse en indexar contenidos para esos “agujeros” de contenido.

La mejor introducción al pedido de patente es probablemente un par de páginas de IBM que discuten los esfuerzos de los investigadores que inventaron el proceso:

El pedido de patente:

Detection of missing content in a searchable repository

Inventado por Andrei Z. Broder, David Carmel, Adam Darlow, Shai Fine, Elad Yom-Tov
Asignado a IBM
US Patent Application 20070016545
Publicado el 18.1.2007
Presentado el 14.7.2005

Traducción autorizada por Bill Slawski para OJObuscador.
Versión completa original en inglés: Difficult Queries and Identifying Missing Content in Search Engines

artículo de publicado el 4 de diciembre de 2006 y con 2 comentarios...

Tal como comentan en este blog sobre minería de datos, el día de mi cumpleaños es decir, el próximo 26 de abril, tendrá lugar la conferencia FigLang2007 en Nueva York. ¿Por qué es importante entender el lenguaje figurativo? Existen una serie de recursos en el discurso natural de los humanos, tales como la metáfora, la [...]

Continuar leyendo Conferencia sobre lenguaje figurativo

artículo de publicado el 1 de diciembre de 2006 y con 1 comentario...

Con muy buen tino me recordaba Fran de Xeoweb que ya me estaba columpiando con mi promesa de hacer una reseña de este libro: Google’s PageRank and Beyond: The Science of Search Engine Rankings Amy N. Langville and Carl D. Meyer

Continuar leyendo Reseña de Google’s PageRank and Beyond

artículo de publicado el 30 de noviembre de 2006 y con 7 comentarios...

Existen un montón de explicaciones sobre el Pagerank en la Web. Sin duda para mi una de las más claras es esta: http://pr.efactory.de/ Sin embargo, no es el único algoritmo de ranking sobre análisis de enlaces que existe, ni siquiera nació solo, sino que en el mismo año que Brin y Page presentaban su Pagerank, [...]

Continuar leyendo HITS: Porque no sólo de Pagerank vive el SEO

artículo de publicado el 20 de noviembre de 2006 y con 1 comentario...

Aprovechando que el Pisuerga pasa por Valladolid y que Technorati saca sus versiones locales creo que es importante recordar que nuestro buscador favorito de blogs usa Lucene como base de su software de búsqueda. Lucene powers search in surprising places–in discussion groups at Fortune 100 companies, in commercial issue trackers, in email search from Microsoft, [...]

Continuar leyendo Uso de Lucene por Technorati

artículo de publicado el 1 de noviembre de 2006 y con 5 comentarios...

La noticia ayer por la mañana, en el blog de Google, es que Google ha adquirido Jotspot. He estado trabajando con Jotspot wikis en un par de proyectos internos, y realmente lo disfruto. Fue una excelente elección de Google y el programa provee una herramienta adicional para integrarse con Google Docs & Spreadsheets. Hay algunas [...]

Continuar leyendo Google compra Jotspot & Pedido de patente Wiki

Páginas: 1 2 3 >>