hoy OJO mira los buscadores … mañana los buscadores mirarán OJO
OJO

2 de Marzo de 2007

Hace un tiempo se hablaba por aquí del tipo de trabajo que iban a realizar los ingenieros que contrate Google en España. Para aquellos a los que todavía les interese el tema, hay un vídeo que describe exactamente los mismos puesto que Google está ofreciendo para Madrid: Google Partner Solutions Organization

Tags:
14 de Febrero de 2007

Ahora que está tan de moda hablar de Quaero, Exalead y los buscadores europeos, no me puedo resistir a enlazar este excelente artículo de opinión publicado hace unos años por Ricardo Baeza-Yates (Yahoo! Research) en la revista Informática donde, en mi opinión se ve como los europeos perdimos la gran oportunidad de tener nuestro propio Google:

La increible historia de FAST por Ricardo Baeza-Yates

Después de leer el texto de Baeza-Yates y por lo que he ido viendo estos últimos años, el aparente retraso en el desarrollo de tecnologías de búsqueda europeas, no tiene tanto que ver con la calidad de nuestra investigación, que está al nivel de los EE.UU. y Asia, sino con las reducidas posibilidades de encontrar inversión y financiación en este campo que existe en toda Europa y particularmente en España.

¿Cuántos FAST’s más vamos a perder? ¿Cuántos nos podemos permitir perder? Yo creo que son preguntas que cualquier político y empresario europeo centrado en temas de IT debería plantearse hoy en día.

9 de Febrero de 2007

El otro día escribí un post sobre si realmente es posible llamar buscador a cualquier cosa que tire del API de los grandes buscadores. El caso es que hoy, revisando antiguas lecturas me he encontrado con este artículo que explica lo complicado que es desarrollar un buscador y que creo que es un buen complemento para aquella discusión.

Why Writing Your Own Search Engine is Hard
ACM Queue vol. 2, no. 2 - April 2004
by Anna Patterson, Stanford University

¿Pensáis que hoy en día es más fácil o que los problemas que plantea la autora siguen vigentes? Yo lo veo bastante actual y a decir verdad, creo que la afirmación que he oído en algún sitio de que la tecnología es, a día de hoy, tan sólo una commodity a la hora desarrollar un buscador me parece bastante aventurado.

30 de Enero de 2007

De un tiempo a esta parte no hago más que escuchar que fulano o mengano ha sacado un buscador. Cada vez que leía o escuchaba la noticia me iba corriendo a ver el “nuevo” buscador para estudiar que ofrece, como ordena, que tamaño estimado tiene el índice, etc. En cada una de esas ocasiones me he encontrado con que el nuevo buscador no era otra cosa que una capa de búsqueda sobre Google, Yahoo!, Live o Ask donde no había nada más que alguna funcionalidad rollo Web 2.0 que reordena de forma más o menos dudosa los resultados de alguno de los cuatro grandes.

No me voy a meter en detalles sobre lo complicado que es a nivel algorítmico mezclar los resultados de varios buscadores y/o modificar su orden en función a determinados parámetros, tan sólo decir que no basta con cambiar el orden de los resultados obtenidos de Google usando información externa, ya que si esta información (por ejemplo votos de usuarios) no está integrada en el algoritmo que calcula el ranking final, lo único que se consigue es estropear los resultados. Sobre esto hay bastante escrito y está más que demostrado en la literatura de IR, pero apelo a vuestra fe para no extenderme en exceso ;-)

Aún así, independientemente de aspectos tecnológicos, desde mi punto de vista nadie que haga un buscador basado en los resultados de otro buscador puede decir que tiene un buscador, el buscador lo tiene Google, o Yahoo! o Live, y si un día cambian el modo de acceso o modifican el API te quedaste sin buscador como yo me quedé sin abuelo.

Para “tener” un buscador debes “tener” un índice propio, un crawler propio y un algoritmo de recuperación propio, si no, es que no tienes un buscador.

Creo sinceramente que todas estas iniciativas no aportan mucho, es más creo que no aportan nada, por lo menos a mi, ya que provocan una falsa sensación de diversidad y de multiplicidad de opciones cuando realmente no la hay, ya que seguimos buscando en los mismos sitios, Google, Yahoo!, Live y Ask. De todas formas me gustaría saber vuestra opinión al respecto, ya que no deja de sorprenderme la proliferación de este tipo de buscadores últimamente y lo mismo se me está escapando algo ¿realmente son útiles? ¿los usa alguien?

1 de Diciembre de 2006

Con muy buen tino me recordaba Fran de Xeoweb que ya me estaba columpiando con mi promesa de hacer una reseña de este libro:

Google’s PageRank and Beyond:
The Science of Search Engine Rankings
Amy N. Langville and Carl D. Meyer

Continuar leyendo este artículo »»»

30 de Noviembre de 2006

Existen un montón de explicaciones sobre el Pagerank en la Web. Sin duda para mi una de las más claras es esta:

http://pr.efactory.de/

Sin embargo, no es el único algoritmo de ranking sobre análisis de enlaces que existe, ni siquiera nació solo, sino que en el mismo año que Brin y Page presentaban su Pagerank, 1998, Jon Kleinberg, premio Fields de matemáticas e investigador de IBM por aquellas fechas, presentaba HITS, un algoritmo similar a Pagerank pero con algunas particularidades que veremos a continuación.

Continuar leyendo este artículo »»»

20 de Noviembre de 2006

Aprovechando que el Pisuerga pasa por Valladolid y que Technorati saca sus versiones locales creo que es importante recordar que nuestro buscador favorito de blogs usa Lucene como base de su software de búsqueda.

Lucene powers search in surprising places–in discussion groups at Fortune 100 companies, in commercial issue trackers, in email search from Microsoft, in the Nutch web search engine (that scales to billions of pages). It is used by diverse companies including Akamai, Overture, Technorati, HotJobs, Epiphany, FedEx, Mayo Clinic, MIT, New Scientist Magazine, and many others. fuente:http://www.manning.com/hatcher2/

De hecho tienen a uno de sus desarrolladores en plantilla, Otis Gospodnetić, y hace poco pedían gente con conocimientos de Lucene para trabajar con ellos. Seguro que de todo esto nos podrá hablar en detalle Hector García en el congreso de OJObuscador.

3 de Noviembre de 2006

Llevo una tarde de los más tonta, distraído con cualquier cosa menos con lo que me tengo que distraer, y no será porque no tengo curro. El caso es que se me ha ocurrido lo siguiente:

Os propongo un reto, casi todos los que hay por aquí tienen un weblog o similar sobre temas de SEO, ¿Que os parece si compitierais por posicionar vuestros blogs sobre SEO en un buscador?.

Hasta aquí nada nuevo bajo el sol. Pero hay una diferencia, ¿Que os parece si ese buscador fuera completamente transparente? tendríais acceso completo al código fuente, a todos los algoritmos y a una explicación de como ha sido ponderado cada término para cada consulta accesible vía web al momento. Esto ya cambia un poco, ¿verdad?

¿De que va esto?, muy sencillo he montado un buscador basado en Nutch en mi servidor y me ofrezco a crawlear e indexar a todo aquel con un blog sobre SEO o similar que me lo pida. Una vez haya terminado de crawlear a todos comenzara el “concurso”, pactaremos entre todos cuales son las consultas más interesantes a posicionar y a por ellas. El buscador re-crawleara las webs participantes una vez al día (más o menos) y la duración del concurso la podemos pactar entre todos o dejarlo abierto.

Condiciones para participar: Mandadme un correo a jose.aguera@gmail.com con la URL que queréis que visite el crawler y con la palabra [NUTCH] en el asunto del mensaje y tener un blog sobre SEO, SEM o similares.

Premio: Lo que aprendáis, que ya es bastante y un buscador sobre SEO que jamás, repito JAMÁS, llevará publicidad y será transparente y sin mácula para que hagáis todos los experimentos y pruebas que queráis :-)

Como veis faltan cosas por definir así que acepto todo tipo de consejos, críticas y/o preguntas sobre esto.

Otra cosa más, aunque pongo el post en OJObuscador (gracias por dejarme escribir aquí, chicos), en principio ellos no están en el ajo, para que nadie diga que si esto lo monta fulano o lo monta mengano. En todo caso lo monto yo, que curro en la Complutense, y todo aquel que se quiera apuntar, ya que esto está abierto a todo el mundo. Si alguien quiere participar como organizador (esto no implica poner dinero, sino currar en temas de implementación y/o diseño del buscador), lo cual excluiría a su blog del concurso por razones obvias, que me lo diga que me vendrás de perlas, eso si, nada de susceptibilidades ni mal rollo, lo que veis es lo que hay, para cualquier pregunta al respecto ya sabéis donde estoy.

La idea es poner al servicio de la comunidad de SEO’s una herramienta que sirva para aprender como funcionan los buscadores, pero no por ingeniería inversa como se hace con Google o Yahoo!, sino viéndole las tripas y comprendiendo desde abajo como funcionan. El buscador implementará un algoritmo similar a Pagerank y funciones de ponderación de términos similares a las de los grandes buscadores.

¿Quien se apunta?

Tags:
28 de Octubre de 2006

Leo en la lista de SIGIR esta noticia sobre el lanzamiento de CLAIRLIB

El grupo de Lingüística Computacional y Recuperación de Información de la Universidad de Michigan, CLAIR (Computational Linguistics And Information Retrieval) group, presenta Clair library, unas librerías escritas en perl que pretenden simplificar tareas generales de Natural Language Processing (NLP), Information Retrieval (IR) y Lexical Network Analysis.

Entre sus funcionalidades encontramos:

  • Nativo: Tokenization, Summarization, LexRank, Biased LexRank, Document Clustering, Document Indexing, PageRank, Biased Pagerank, Web Graph Analysis, Bioinformatics Text Analysis, Political Science Text Analysis, Network Building, Power Law Distribution Analysis, Network Analysis and Computation (Watts-Strogatz Clustering Coefficient, Cosines, Random Walks), Tf, Idf
  • Importado: Stemming, Sentence Segmentation, Web Page Download, Web Crawling, XML Parsing, XML Tree Building, XML Writing

Casi nada y lo llevaba colgando, que decía mi abuelo :-) ya no hay excusa para no probar los algoritmos más conocidos de IR y ver como funcionan.

Los responsables del proyecto son:

  • Project design: Dragomir R. Radev
  • Main implementers: Anthony Fader, Mark Hodges, and Dragomir R. Radev
  • Additional code by: Timothy Allison, Michael Dagitses, Aaron Elkiss, Gunes Erkan, Scott Gifford, Mark Joseph, Samuela Pollack, and Adam Winkel.
27 de Octubre de 2006

El gigante de la búsqueda de empleo en Internet ha desarrollado un prototipo de buscador para su portal usando Lucene, y por lo que han dejado ver hasta ahora les está quedando bastante bien. Cada día hay más desarrollos comerciales que usan Lucene, el cual se está posicionando frente a otras opciones como las librerías para IR más usadas de Internet para la implementación de buscadores verticales. ¿A qué esperáis para probarlo?

Páginas: 1 2 3 >>