De un tiempo a esta parte no hago más que escuchar que fulano o mengano ha sacado un buscador. Cada vez que leía o escuchaba la noticia me iba corriendo a ver el “nuevo” buscador para estudiar que ofrece, como ordena, que tamaño estimado tiene el índice, etc. En cada una de esas ocasiones me he encontrado con que el nuevo buscador no era otra cosa que una capa de búsqueda sobre Google, Yahoo!, Live o Ask donde no había nada más que alguna funcionalidad rollo Web 2.0 que reordena de forma más o menos dudosa los resultados de alguno de los cuatro grandes.
No me voy a meter en detalles sobre lo complicado que es a nivel algorítmico mezclar los resultados de varios buscadores y/o modificar su orden en función a determinados parámetros, tan sólo decir que no basta con cambiar el orden de los resultados obtenidos de Google usando información externa, ya que si esta información (por ejemplo votos de usuarios) no está integrada en el algoritmo que calcula el ranking final, lo único que se consigue es estropear los resultados. Sobre esto hay bastante escrito y está más que demostrado en la literatura de IR, pero apelo a vuestra fe para no extenderme en exceso
Aún así, independientemente de aspectos tecnológicos, desde mi punto de vista nadie que haga un buscador basado en los resultados de otro buscador puede decir que tiene un buscador, el buscador lo tiene Google, o Yahoo! o Live, y si un día cambian el modo de acceso o modifican el API te quedaste sin buscador como yo me quedé sin abuelo.
Para “tener” un buscador debes “tener” un índice propio, un crawler propio y un algoritmo de recuperación propio, si no, es que no tienes un buscador.
Creo sinceramente que todas estas iniciativas no aportan mucho, es más creo que no aportan nada, por lo menos a mi, ya que provocan una falsa sensación de diversidad y de multiplicidad de opciones cuando realmente no la hay, ya que seguimos buscando en los mismos sitios, Google, Yahoo!, Live y Ask. De todas formas me gustaría saber vuestra opinión al respecto, ya que no deja de sorprenderme la proliferación de este tipo de buscadores últimamente y lo mismo se me está escapando algo ¿realmente son útiles? ¿los usa alguien?
Muy interesante.
José Ramón:
Muy buena reflexión, a decir verdad creo que es el primer artículo tuyo que he logrado comprender :), y es que soy el peor informático del mundo.
Yo aún recuerdo cuando salio Vivismo (luego renombrado como http://clusty.com/ )
Me encantaba la funcionalidad de los clusters o agrupaciones de resultados en temáticas.
Eso es algo que ninguno de los “grandes” ha lanzado, supongo que es por la cantidad de recursos que necesita o por la veocidad de respuesta…
Ultimamente lo que utilizo es Technorati (si. ya se que no anda muy fino).
Con esto quiero decir que aún hay nichos que no estan copados por GYM, y quizás surjan iniciativas que nos sorprendan.
De hecho, como muchos saben, a mi me gusta mucho el concepto de http://www.kratia.com , ya que usa los resultados de Live.com pero solo como “base” y luego reordena en funcion de “humanos”.
Pára terminar me quedo con una frase que siempre dicen en Google, y es que su competencia quizás este ahora mismo en un garaje desarrollando algo nuevo, que este basado en uno u otro creo que es lo de menos.
En cuanto al ejemplo de Kratia, me viene de perlas, ya que creo que no se puede defender un buscador democrático con el índice de otro. En ese caso la democracia a marca Live, no Kratia, lo que no esté en el índice de Live jamás será recuperado por Kratia, aunque fuera el contenido potencialmente más votado de la web. La limitación en este caso es evidente y pese a que la idea de Kratia reconozco que me gusta mucho, su implementación sobre un buscador tradicional no me parece la mejor y creo que es la gran diferencia entre Kratia y el propuesta del creador de la Wikipedia sobre un buscador democrático.
En fin, que le vamos a hacer, me vuelvo al garaje
Bueno, realmente hay diversidad: no te olvides de hakia.com, que es un nuevo buscador que entiende (más o menos) la semántica del lenguaje del usuario, en vez de tener que poner esas molestas “palabras clave”. Y dentro de un tiempo saldrá powerset.com , que también reconocerá la semántica del usuario.
Opciones hay, yo veo que vos las buscás, pero hay otra gente que no cambiaría Google por nada porque son “ciberconservadores” (que NO es tu caso).
Ojalá Powerset salga al mercado pronto y le de un sacudón a los otros buscadores para que se pongan al día.
Por otro lado, Google, le dedica tanto tiempo a su buscador, que se olvida de actualizar todas las aplicaciones “on-line” y offline que dejaron abierta y en beta: Docs&Spreadsheets (las hojas de calculo no tienen ni macros, ni filtros, ni gráficos), Gmail (que ni siquiera tiene un acceso directo a los contactos en su ventana de redacción y ni siquiera se puede abrir una cuenta sin invitación, y ya está por cumplir 3 años),Google Talk (entre las “delicias del día”: no se puede conectar en “offline”, carece de videoconferencia, etc), y aparte la bosta de Google Pages, que hace 70 millones de años que dice “new features” y la única “new feature” que le agregaron, se la agregaron hace varios meses. DESPERTATE, GOOGLE!!!
Hola Jose Ramón
Sin entrar a valorar el contenido del articulo (aunque si te digo que estoy muy deacuerdo con algunas cosas) permiteme hacer una “agregacion” a tu lista.
Noxtrum si tiene indice propio, y es más, pienso que a estas alturas, está muy correcto (pero claro, que voy a decir).
Un saludo
Que me dices de Seadir.com, eso si es un buscador jejeje con un indice propio ordenado por categorías , un crawler propio, un algoritmo de recuperación propio, creado con software libre y lo mejor de todo es FREE (En todos los sentidos).
Hay cierta diversidad, Hakia, Powerset, Chacha, Noxtrum, pero todos están años luz en estadísticas de uso de los cuatro grandes. De hecho normamente lo que ocurre con estos buscadores (que levante la mano el que opine lo contrario) es que entramos una o dos veces el día que nos hablan de ellos, los probamos durante un rato y no volvemos jamás. ¿Que debe tener un buscador para captar a los usuarios desde la primera visita?.
Recuerdo que cuando empece a usar Google la primera vez que busqué dije “COÑO! que bien busca esto, va a volver a usar Altavista clavijo” y desde entonces he usado Google y marginalmente alguno de los otros cuatro.
En mi opinión la respuesta a la pregunta que hago más arriba es la siguiente: Para que un buscador capte a los usuarios desde la primera visita tiene que ofrecer unos resultados sensiblemente más relevantes que el resto de los buscadores, y lo demás son detalles secundarios que no fidelizan a los usuarios. Creo precisamente que ese fue el gran error de concepto de Noxtrum (con todo mis respetos y desde la distancia) mucha alianza pero poca innovación, mucho marketing pero poca ingeniería. Sin ánimo de ofender, no se puede tener un buscador que compita con Google usando Fast.
DUQUE, buen intento, se ve que todavía le falta curro, pero desde luego hay que reconocerle que tiene buena pinta. Te paso una referencia que te puede venir de perlas para sacar ideas para el buscador:
Baeza-Yates, R. A. and Ribeiro-Neto, B. 1999 Modern Information Retrieval. Addison-Wesley Longman Publishing Co., Inc.
http://www.ischool.berkeley.edu/~hearst/irbook/
Yo aprendí mucho con este libro y me evitó cometer muchos errores, espero que te sea útil, es un clásico.
Jose Ramon:
Totalmente de acuerdo con el ejemplo de Kratia. NO tiene indice propio, pero:
¿realmente el indice importante?
Para mi el indice se ha convertido en un commodity, cualquiera de los 3 grandes tiene un indice parecido (algunos son mas grandes y otros se refrescan mas).
¿Crees que seria un elemento diferencia para Kratia tener un indice propio?
Yo creo que aislarse de lo que significa recolectar 5.000 Millones de documentos (y sobre todo de actualizarlos) es algo a favor de usar otro indice, asi puede centrarse en lo diferencial de su producto, que en este caso es añadirle la funcionalidad social o “2.0″.
Ismael:
Importa el tamaño del índice y el subconjunto de la Web que representa. No creo que los índices de Yahoo, Google y Live sean tres subconjuntos equivalentes de la Web. Si diera lo mismo un índice que otro, todos los buscadores serían iguales y no es así, no es sólo una diferencia de cómo se ordenan los resultados.
yo creo que el tamaño sí que importa
De hecho apostaría a que son más parecidos los algoritmos de ranking y ponderación de términos de los TRES grandes que sus índices, y de hecho creo que una de las principales ventajas de Google sobre Yahoo y sobre Live es que tienen el índice más antiguo y sobretodo mucho más depurado de los tres, con lo que consiguen por ejemplo que su algoritmo de análisis de enlaces funcione mejor, ya que el grafo representado por su índice es más representativo del conjunto de la Web.
Otro ejemplo es Technorati, donde creo que su principal valor reside en contar con un índice propio sobre blogs mucho más depurado y extenso que el de los grandes buscadores, orientado a un tipo documental concreto que son los posts, lo cual le ha situado en el mercado y le ha permitido resistir el embate de Google Reader y cia.
Bueno, yo no veo nada malo en utilizar el índice de búsqueda de un tercero, no todo el mundo tiene los recursos necesarios para crear uno (aunque seas un genio programando, necesitas una gran cantidad de recursos) y por eso encuentro útil utilizar índices de terceros, hablo sobre todo en mi caso airfind un metabuscador social, desde un principio dejo claro que es un metabuscador, que me nutro de otros, aunque los usuarios pueden indexar su página, quitando así la limitación de “Y si google no tiene tu página…”.
Jose R:
) pero para mi no importan las diferencias de tamaño entre Google, Yahoo y Live.
El tamaño si que importa (es evidente
La gran diferencia es: tamaño indexable vs web oculta
Yo creo que lo que los buscadores tienen no debe ser mas de un 5% de la información que podria estar accesible.
La web oclta es enomre, y no me refiero solo a Bibliotecas Gigantes, simplemente incluyendo las paginas amarillas y blancas se est aperdiendo una informacion valiosisima.
Si incluimos toda la informacion local que pueden tener los ayuntamientos, diputaciones, etc…
Imagina lo relevante que seria una de “Jose” en un buscador asi:
Aparte de los telefonos de Paginas Blancas de todos los JOSE, te sacaria todos los autonomos/empresas que incluyesen JOSE en su nombre y toda la informacion de pueblos de España con la palabra JOSe en el nombre del pueblo, fiesta comarcal, etc…
Yo creo que si alguien crea esos subconjuntos de web oculta y sindica el resto de cualquier buscador seria una seria alternativa
El punto fuerte de technoarti para mi no es su indice (que tb lo es), sino la frescura, cosa que es inversamente proporciona al tamaño.
No hay nada mas decepcionante que al buscar Antena 3 te aparezca la parrilla del mes pasado
P.D.- Ya no escribo mas que al final Tomy y Javir nos echan del blog.
En mi opinión el problema es que nunca se usa el índice de un tercero, ya que no se tiene acceso directo al índice, si no que se usan los resultados de un tercero. Eso quiere decir que la forma en que se han recuperado y sobretodo ordenado los resultados es completamente desconocida para aquel que recibe los resultados, lo cual supone que mezclar varios conjuntos de resultados obtenidos de distintos buscadores o modificar los resultados obtenidos con información nueva no es trivial y normalmente provoca una degradación de los resultados finales.
Por poner un ejemplo:
Supongamos que tenemos lo siguiente:
lista A de resultados donde hemos usado la frecuencia de aparición de los términos TF (Term Frecuency) en los documentos para ordenar los resultados, de forma que aparecen en las primeras posiciones de nuestro ranking aquellos documentos que contienen los términos originales de la consulta con una frecuencia más alta.
lista B de resultados donde hemos usado TF dividido por 1+TF es decir TF/1+TF con el objetivo de que la importancia de los términos en función de su frecuencia no crezca de forma lineal. Al hacer esto conseguimos decir que un término que aparece 10 veces en un documento no es 10 veces más importante que uno que aparece sólo una vez, como ocurre en el caso de la lista A, sino solamente 0.90 veces más importante, lo cual se aproxima más a la realidad.
Aún conociendo que hemos utilizado criterios distintos sobre la frecuencia de los términos en los documentos para la ordenación es muy difícil juntar la lista A de resultados con la lista B ya que la aparición de las mismas palabras en los mismos documentos con la misma frecuencia no significa lo mismo en las dos listas.
Ahora suponed que encima ni siquiera conocemos cuales han sido los criterios de ordenación, como ocurre en el caso de los metabuscadores, la cosa se complica aún más, ¿no?
Esta es la razón por la cual los metabuscadores, aunque intuitivamente parecian una buena idea en el pasado, nunca llegaron a tener éxito, ya que no existe una forma de mezclar distintas listas de resultados obtenidas mediante algoritmos de ordenación distintos sin degradar seriamente la relevancia de los resultados, y es la razón por la que yo opino que no se puede modificar los resultados obtenidos de un buscador con información externa, ya que al hacer esto sin conocer la naturaleza matemática de los algoritmos que se han utilizado para ordenar, y por lo tanto sin conocer como debemos modificarlos para que consideren información nueva lo único que conseguimos es cargarnos el ranking que ha devuelto el buscador.
Lo mismo se me escapa algo, y la gente que ha desarrollado metabuscadores he encontrado una solución que yo no conozco, pero en principio por lo que yo sé esto funciona así.
P.D: Al final me puse pesado, ves Ismael, la cabra siempre tira al monte
Jose:
no se si conoces, pero Markus Franz un colega de la asociación SuMa-eV en Alemania, hizo (a los 17 añitos, ahora tiene 19!)la re-ingenieria de Metager.de, que es de la Univesidad de Hannover.
Su metabuscador http://www.Metager2.de toma los resultados de GYM, se los descarga, descarga los contenidos de las páginas, los analiza, re-ordena y entrega el listado en 1,2 segundos.
Al descargar y re-analizar las páginas, elimina: contenidos duplicados, dialers, páginas con keywords-stuffing, texto oculto, cloacking y enlaces rotos.
La tecnología es Apache, Linux, Python y PHP.
Ismael, Jose Ramón, estais equivocaos. En Kratía cualquiera puede enviar URLs, y esa es una funcionalidad que está desde el primer día. Yo sé que Javier Casares dió de alta la URL http://www.ojobuscador.com para la búsqueda “google” en Kratia.
Kratia SI que tiene índice propio, cuando haces una búsqueda, abajo te aparece un enlace que pone: “Añadir una URL a esta búsqueda”
El índice se crea de 2 maneras, a través del api, y a través de los envíos de los usuarios.
De hecho, gracias a esos envíos de los usuarios el buscador podría ser 100% operativo sin necesidad de contar con un “grande” que provea de resultados, ni con un crawler, con lo que envían los usuarios bastaría.
A mi me gusta mucho Exalead, más que Yahoo, Ask, Noxtrum o Live. Casi tanto como Google!
Algunas preguntilas que me corroen al leerte: ¿como ordenas los resultados? ¿sólo con los votos? ¿Que tamaño tiene el índice creado por los usuarios hasta el momento? ¿porqué no usas un crawler? desvelanos algunos de tus secretos en exclusiva para Ojobuscador
José Aguera, podrías reconocer tu error y rectificar, es lo mínimo.
Por otro lado, no pienso desvelarte secretos. Bastantes he desvelado ya para que ahora el mérito se lo lleve Jimmy Wales.
:-O relajate chaval, Kratia tiene un índice, ¿ok?
Bueno, yo tengo claro que Google es el mejor motor de búsquedas actuales para la red superficial. Podríamos hablar de él como buscador fabricante de sus resultados.
Yo entiendo que existen otros “maquetadores de resultados” o buscadores distribuidores de resultados, que pueden ser mayoristas (ofrecen resultados para toda la web) o minoristas (ofrecen resultados personalizados).
Hasta ahora lo más común era que nos comieramos los resultados al por mayor, casi venidos directamente de fabrica, es decir, de Google o los otros 3 grandes. Pero pienso que necesitamos en muchas ocasiones de estos “maquetadores” de resultados, y ante esa falta nuestras busquedas siguen siendo una mierda. Porque de eso hablamos, de buscar para recuperar la información. Lo demás a mi me parece secundario.
Y si para encontrar me es útil para encontrar un buscador personalizado que yo mismo me cree con Rollyo, Swicki o CSE, pues genial.
Tal vez no posea un buscador (pues soy un simple distribuidor), pero tengo una herramienta que sabe de que fuente beber para encontrar.
eso si tú no tienes un buscador, lo tiene Microsoft jajaja (pensaste que escaparías, eh?) tomate la vida con más humor hombre, no seas tan digno
Nacho: en eso estoy completamente de acuerdo contigo, si te sirve entonces no hay más que hablar. Pero una de las cosas que yo intentaba averiguar con este post es si realmente se usan esto pseudo-buscadores o maquetadores de resultados, por qeu yo reconozco que no los he usado en mi vida y me gustaría saber si alguien los usa realmente.
Si hablamos de metabuscadores en general, se usan y mucho, sólo hace falta ver DogPile o Snap.com entre otros, claro que no llegan al nivel de los tres grandes, pero ahí están haciendo su labor.
La verdad es que no tengo datos sobre el uso de los metabuscadores, aunque por ejemplo en ojobuscador han salido sólo 4 noticias sobre metabuscadores desde que se creo (javi, corrigeme si me equivoco) algo bastante significativo.
Lo mismo meto la pata pero a mi me da que los metabuscadores se usan más bien poco ¿alguien conoce algún sitio donde se puedan obtener los datos e uso de los metabuscadores más importantes? Sergio, tu que sabes del tema, ¿en que te basas para decir que se usan mucho?
Todo depende del concepto de “mucho y poco”… si se hacen 1.000 millones de consultas en Google al día y 1 millón en los metabuscadores, eso es mucho o poco?
Me baso en los rankings de visita, como para valorar muchos sitios, estilo Alexa y demás, por ejemplo Snap.com o Dogpile.com son muy conocidos, sobre todo en EEUU, sólo hace falta ver como por ejemplo TechCrunch ha publicado varias notas de ambos y otros blogs famoso han hecho lo mismo. Quizás también dependa mucho de donde hablemos, aquí en España pues todo es diferente… y los metabuscadores se usan bastante, el que usa Terra (Google), Orange, Ya.com…
Son cosas que no se pueden medir a no ser que ofrezcan estadísticas, pero guiándome por factores externos, creo que sí son populares, está claro que no como Google… ¿Qué hay más popular que Google?, pero en cierto nivel lo son, otra cosa que a título personal no te gusten.
Como podriamos definirlos entonces, yo tengo un google co-op que busca en x tipo de sitios que me interesa. Como defino si no es un buscador?
Puedo generar un informe de los metabuscadores más usados, y así salimos de dudas. ¿ok?
Tardaré un mes más o menos en obtener la información.
Necesito una lista de metabuscadores: ixquick, metacrawler, buscamultiple, mamma, dogpile, profusion, starting point, search.com, Monster Crawler, Ipselon, snap, airfind, kratia, clusty, gennio ¿alguno más?
Como decía Jack el destripador, “vamos por partes”
En primer lugar quiero aclarar que mi intención con este post no ha sido la de herir susceptibilidades, ni meterme con kratia ni con airfind ni con niguno de los proyectos a los que la gente dedica su tiempo y su esfuerzo. Sí me reservo el derecho de opinar sobre esos proyectos al igual que cualquiera puede opinar sobre los míos con total libertad, ya que si no discutimos y cuestionamos en este foro distintos aspectos sobre los buscadores ya me direis donde lo podemos hacer. Siempre sigo la máxima de que todas las personas son respetables pero no todas las ideas lo son, y eso es lo que he querido hacer aquí, poner a prueba conceptos sobre lo que tengo serias dudas de lo que aportan a la Web tanto desde un punto de vista técnico como desde un punto de vista social, pero in pretender que estas opiniones se conviertan nunca en un ataque personal hacia nadie. Así pues después de estas apologizes vamos al tema
Sergio: He buscado los dos metabuscadores que mencionas en Alexa y la verdad es que tampoco es que sean para tirar cohetes. Snap, que es el que más me ha gustado tiene un ranking de tráfico de 3665, lo cual no me parece mucho la verdad, por ejemplo barrapunto tiene un ranking de 2664. Dogpile si parece que anda un poco mejor ya que tiene un ranking de 1415 pero vamos tampoco me parece la bomba la verdad. Reconozco que es la primera vez que busco algo en Alexa y que nunca me he preocupado por estas cosas así que lo mismo estoy malinterpretando los datos, si es así decídmelo con toda libertad, pero creo yo que es significativo que páginas como la del periódico El Mundo tenga un ranking de 246 y que las de los metabuscadores se vayan tan atras (siempre entre comillas lo de atrás). Aún con todo tampoco parece que Alexa sea un medio superfiable, pero ya que lo citabas me ha picado la curiosidad y eso es lo que me he encontrado. Paraece que tiene otros dos tipos de rankings, y es curioso comparar la web de El Mundo, por ejemplo, con los metabuscadores, ya que por lo que parece estos salen perdiendo bastante.
De todas formas creo que la mejor solución para hablar de este tema con conocimiento de causa es aceptar la generosa oferta de cuvuelos sobre un estudio de metabuscadores.
cuvuelos: Lo del informe me parece una idea genial, a mí por lo menos me resultaría muy interesante un estudio como ese, y estoy seguro de que no sería el único
Roberto: en mi opinión el término propuesto por Nacho Gallego de “maquetadores de resultados” me parece muy adecuado, no es muy cómodo, pero la verdad es que me parece muy preciso.
Ya no es sólo cuestión si está muy arriba o abajo en ranking, si no si son negocios rentables y reciben financiación, que tanto Snap como Dogpile (Infospace, la empresa que lo gestiona junto a otros metabuscadores) reciben dinero, no todo se resume en visitas o cuanta gente lo usa, que es importante, pero no hace falta que todos los sitios tengan la opsición de Google… no todo es estar en el puesto número 1.
ahí tienes toda la razón, si hay un empresa detrás y no ha quebrado por algo será.
Gracias por el debate, lo hablado hasta aquí me ha servido para cuestionarme lo que hago, algo que siempre me viene bien para seguir aprendiendo. Saludos.
[...] otro día escribí un post sobre si realmente es posible llamar buscador a cualquier cosa que tire del API de los grandes [...]
Recordemos que José habla desde el punto de vista de ciencias de la computación, creo que deberia poner un post clarificando mas las cosas ya que siempre encuentro alugnos post y comentarios que confunden y mezclan todo en un solo termino como el famoso SEO. Saludos