hoy OJO mira los buscadores … mañana los buscadores mirarán OJO
SEO
First Tuesday
OJO
12 de Abril de 2007

Me ha gustado mucho el artículo de Rogelio sobre la patente que han concedido a Google en Estados Unidos, porque, tal y como afirma y como recuerdo yo mismo, eListas ya tenía un sistema muy similar (por no decir igual) un par de años antes de que Google la solicitase.

La patente es la del sistema de introducir anuncios en boletines, correos y demás, al más puro estilo Adwords, y, como lo llamaban en eListas, los MiniBanners

En fin, la patente registrada por Google dice tal que Serving content-targeted ADS in e-mail, such as e-mail newsletters

Content-targeted ads are served with e-mail. A unique content identifier (”CUID”) is included in the content. A client device passes the CUID to an ad server in a an ad request. The ad server uses the CUID to identify previously registered content for determining content-relevant ads. Current information may be used when choosing and/or ordering ads. Thus, ads can be chosen and generated when the user “opens” the e-mail. An ad image may display ads in the document. Ad impression information may be encoded in a unique identifier, returned along with the ad image. The ad image and unique identifier may be provided to a client device. This unique identifier and an image map click position may be returned to the ad server upon ad selection. The ad server may use the returned information to determine the selected ad.

1 de Diciembre de 2006

Antes de nada voy a comentaros la situación actual del proyecto Nutch.es.

Por un lado, estamos unas cuantas personas en el equipo que planteamos el proyecto y trabajamos en él para impulsar Nutch en España. La idea es la de, en una primera fase, trabajar y desarrollar mejoras sobre nutch.org y la fuente que proporciona (para esto necesitamos gente que quieta aportar conocimientos Java) y por otro documentación en español sobre como aplicar Nutch.

Por otro, la idea es la de montar un servidor Nutch (por el lugar y la conectividad no parece haber problema, aunque se aceptan sugerencias) y que este buscador que montemos se utilice para rastrear determinadas páginas en español. En una primera fase montaríamos un buscador de blogs (al puro estilo Google, y no Technorati) y más adelante, ya veremos. La forma de añadir los blogs será mediante SiteMaps, ya que estableceremos un sistema de lectura de este tipo de ficheros.

Pero, para poder montar toda esta infraestructura necesitamos un mínimo de infraestructura. Como ya comenté ahora estamos trabajando “de alquiler” en máquinas propias y personales y si decidimos hacer algo “decente” necesitamos algo mejor. Por ello nos haría falta alguien que quisiera ceder una máquina con las siguientes características, y, lógicamente tendría una compensación como colaborador del proyecto.

Las características de la máquina son simples:

  • Intel Core Duo (1 procesador de doble núcleo)
  • 4GB RAM
  • 500 GB de disco duro
  • tarjeta de red 100 Mb

Por el resto de cosas, nada especial… es decir, no hace falta que el disco esté en RAID ni nada similar, no hace falta ninguna tarjeta gráfica (vaya, la ha de llevar, pero si es mala, pues es mala, porque no se usará), ni pantalla, ni teclado, ni ratón ni nada por el estilo…

Si alguien está interesado en colaborar con el proyecto puede ponerse en contacto conmigo en javier (a) ojointernet.com y vemos lo que podemos hacer.

Tags:
27 de Noviembre de 2006

Nutch y OJOLa verdad es que hoy estoy muy contento de poder presentar el proyecto nutch.es.

Hace unas semanas, hablando con José Agüera, comenzamos un cruce de correos que llevaron a lanzar una propuesta de buscador basado en Nutch para hacer experimentos SEO, y ahora nos hemos puesto las pilas para lanzar la primera página en español sobre este motor de búsqueda de código abierto.

Aunque aún no tenemos mucha información, estamos preparando mucha documentación y se van añadiendo algunos “expertos” al proyecto. Así que, si te interesa compartir tus experiencias como desarrollador o porque en vuestra empresa o sitio lo habéis implementado, sois bienvenidos si queréis contar vuestras experiencias

Además, estamos haciendo experimentos en un servidor de prueba (pronto tendremos un “maquinón”), sí que hay varios buscadores en la red que funcionan con Nutch, y una comparativa Google-Nutch.

En fin, OJO también ha querido hacer una presentación del momento, y se ha vestido de gala ;)

Tags:
3 de Noviembre de 2006

Llevo una tarde de los más tonta, distraído con cualquier cosa menos con lo que me tengo que distraer, y no será porque no tengo curro. El caso es que se me ha ocurrido lo siguiente:

Os propongo un reto, casi todos los que hay por aquí tienen un weblog o similar sobre temas de SEO, ¿Que os parece si compitierais por posicionar vuestros blogs sobre SEO en un buscador?.

Hasta aquí nada nuevo bajo el sol. Pero hay una diferencia, ¿Que os parece si ese buscador fuera completamente transparente? tendríais acceso completo al código fuente, a todos los algoritmos y a una explicación de como ha sido ponderado cada término para cada consulta accesible vía web al momento. Esto ya cambia un poco, ¿verdad?

¿De que va esto?, muy sencillo he montado un buscador basado en Nutch en mi servidor y me ofrezco a crawlear e indexar a todo aquel con un blog sobre SEO o similar que me lo pida. Una vez haya terminado de crawlear a todos comenzara el “concurso”, pactaremos entre todos cuales son las consultas más interesantes a posicionar y a por ellas. El buscador re-crawleara las webs participantes una vez al día (más o menos) y la duración del concurso la podemos pactar entre todos o dejarlo abierto.

Condiciones para participar: Mandadme un correo a jose.aguera@gmail.com con la URL que queréis que visite el crawler y con la palabra [NUTCH] en el asunto del mensaje y tener un blog sobre SEO, SEM o similares.

Premio: Lo que aprendáis, que ya es bastante y un buscador sobre SEO que jamás, repito JAMÁS, llevará publicidad y será transparente y sin mácula para que hagáis todos los experimentos y pruebas que queráis :-)

Como veis faltan cosas por definir así que acepto todo tipo de consejos, críticas y/o preguntas sobre esto.

Otra cosa más, aunque pongo el post en OJObuscador (gracias por dejarme escribir aquí, chicos), en principio ellos no están en el ajo, para que nadie diga que si esto lo monta fulano o lo monta mengano. En todo caso lo monto yo, que curro en la Complutense, y todo aquel que se quiera apuntar, ya que esto está abierto a todo el mundo. Si alguien quiere participar como organizador (esto no implica poner dinero, sino currar en temas de implementación y/o diseño del buscador), lo cual excluiría a su blog del concurso por razones obvias, que me lo diga que me vendrás de perlas, eso si, nada de susceptibilidades ni mal rollo, lo que veis es lo que hay, para cualquier pregunta al respecto ya sabéis donde estoy.

La idea es poner al servicio de la comunidad de SEO’s una herramienta que sirva para aprender como funcionan los buscadores, pero no por ingeniería inversa como se hace con Google o Yahoo!, sino viéndole las tripas y comprendiendo desde abajo como funcionan. El buscador implementará un algoritmo similar a Pagerank y funciones de ponderación de términos similares a las de los grandes buscadores.

¿Quien se apunta?

Tags:
9 de Agosto de 2006

Otro video sobre Google, en este caso nos hablan sobre los desafíos de montar un buscador que no sólo depende de los algoritmos de búsqueda, sino también de como puede escalar su arquitectura para asumir el tráfico y la enorme cantidad de datos que se van almacenando a lo largo del tiempo. Video del 2004 muy, muy interesante donde tenemos una descripción de MapReduce (La herramienta que implementa el sistema distribuido de ficheros de Google).

Y ya, aprovechando que hablamos de MapReduce no puedo dejar de recomendar a los que les interesen estos temas que después de ver el video le echen un vistazo a la implementación libre de MapReduce que está haciendo la gente de Nutch, y que se llama Hadoop.

Search is one of the most important applications used on the Internet and poses interesting challenges in computer science. Providing high-quality search requires understanding across a wide range of computer science disciplines. In this program, Google Fellow Jeff Dean describes some of these challenges, discusses applications Google has developed, and highlights systems they’ve built, including GFS, a large-scale distributed file system, and MapReduce, a library for automatic parallelization and distribution of large-scale computation. He also shares observations derived from Google’s Web data.

http://www.researchchannel.org/prog/displayevent.asp?rid=2459

Fuente: SIG-IR Resources (Videos IR Talks)