hoy OJO mira los buscadores … mañana los buscadores mirarán OJO
anúnciate

posicionamiento en buscadores
First Tuesday
OJO
14 de Febrero de 2007
La increible historia de FAST

Ahora que está tan de moda hablar de Quaero, Exalead y los buscadores europeos, no me puedo resistir a enlazar este excelente artículo de opinión publicado hace unos años por Ricardo Baeza-Yates (Yahoo! Research) en la revista Informática donde, en mi opinión se ve como los europeos perdimos la gran oportunidad de tener nuestro propio Google:

La increible historia de FAST por Ricardo Baeza-Yates

Después de leer el texto de Baeza-Yates y por lo que he ido viendo estos últimos años, el aparente retraso en el desarrollo de tecnologías de búsqueda europeas, no tiene tanto que ver con la calidad de nuestra investigación, que está al nivel de los EE.UU. y Asia, sino con las reducidas posibilidades de encontrar inversión y financiación en este campo que existe en toda Europa y particularmente en España.

¿Cuántos FAST’s más vamos a perder? ¿Cuántos nos podemos permitir perder? Yo creo que son preguntas que cualquier político y empresario europeo centrado en temas de IT debería plantearse hoy en día.

Tags: ,

10 de Febrero de 2007
Agent Rank: nueva patente de Google

Google ordena los resultados en base al contenido que aparece en páginas individuales o en URL’s específicas. Pero el contenido puede ser de diferentes autores, quienes tienen diferentes niveles de control sobre el contenido. Por ejemplo, un blog puede tener entradas escritas por diferentes autores, comentarios de usuarios y publicidad sobre la cual el “dueño” del blog no tiene control directo.

Un foro puede tener muchos autores respondiendo a un post inicial y también puede contener publicidad.

Imaginad un sistema que en lugar de rankear el contenido por página, divide dichas páginas y observa pequeñas cantidades de contenido y lo asocia a “firmas digitales”. Los creadores de contenido podrían recibir puntuaciones, que influenciaría los rankings de las páginas donde aparece su contenido, o de las cuales son dueños, editan o recomiendan.

Esto hace la nueva patente de Google llamada Agent Rank.

Leer el post completo en Search Engine Land.

Tags: ,

9 de Febrero de 2007
¿Por qué es difícil tener tu propio buscador?

El otro día escribí un post sobre si realmente es posible llamar buscador a cualquier cosa que tire del API de los grandes buscadores. El caso es que hoy, revisando antiguas lecturas me he encontrado con este artículo que explica lo complicado que es desarrollar un buscador y que creo que es un buen complemento para aquella discusión.

Why Writing Your Own Search Engine is Hard
ACM Queue vol. 2, no. 2 - April 2004
by Anna Patterson, Stanford University

¿Pensáis que hoy en día es más fácil o que los problemas que plantea la autora siguen vigentes? Yo lo veo bastante actual y a decir verdad, creo que la afirmación que he oído en algún sitio de que la tecnología es, a día de hoy, tan sólo una commodity a la hora desarrollar un buscador me parece bastante aventurado.

Tags:

28 de Enero de 2007
El nuevo sistema de link análisis de Google

Mientras, sorprendentemente, la aparente desactivación del “Google Bombing” no aparece como lo más buscado ni lo más escrito en Technorati, pese a estar despertando todo tipo de pasiones, he aquí una recopilación de las teorías que se están barajando, en cuanto cómo funcionaría este nuevo sistema de análisis de enlaces de Google:

  • De la patente de Google “Indexación en sistemas de recuperación de la información basada en frases relacionadas“, sugerido por Bill Slawski:
    [0153] Este enfoque tiene el beneficio de prevenir por completo ciertos tipos de manipulación de páginas web, con el objetivo de alterar los resultados para una búsqueda. Los buscadores usan un algoritmo de ranking que se basa en el número de enlaces que apuntan a un documento dado, y para rankear dicho documento es posible “bombardearlo” mediante la creación artificial de una gran cantidad de páginas con las palabras seleccionadas que luego enlazan al documento en cuestión. Como resultado, cuando se busca ese texto, la página bombardeada aparece, aún cuando de hecho la página tiene poco o nada que ver con el texto de los enlaces. Al importar el “bit vector” relacionado del documento en cuestión URL1 en la frase A, el “bit vector” de la frase relacionada al documento URL0 elimina la confianza en el sistema de búsqueda, pero solamente en la relación entre frase A en la URL0 apuntando a la URL1, como un indicador del significado, o URL1 al texto de la frase.

  • Google Blogoscoped dice:
    Parte de la respuesta puede encontrarse en algún análisis de redes. Me puedo imaginar que los Googlebombs tienen algún criterio en común, como que siempre utilizan el mismo texto en los enlaces (cosa que también comparten con algunas no-bombas), pero también se perciben como “puentes” de redes que sino estarían desconectadas. Con qué razón podrían un alto número de redes (vecindarios, comunidades) que no están estrechamente conectadas con una otra red mediante enlaces generales, de repente aparecen relacionados con su red opuesta? Para usar el ejemplo “failure”: por qué la red websites de los demócratas norteamericanos irían a enlazar todos juntos contra su red opuesta, la de los repúblicanos?

  • También le he preguntado a José Ramón Pérez Agüera de la Univesidad Complutense y que será ponente en el Congreso OJObuscador 2.0 sobre temas de IR open-source para SEOs:
    Tomy Lorsch: ¿Tu crees que ahora “re-analizan” los millones de enlaces que tienen indexados en busca de bombas? ¿O es que manualmente ponen una palabra, tipo “miserable failure” para que el sistema analice si para esa palabra hay enlaces bomba?
    José Ramón Pérez Agüera: Re-analizar lo enlaces no creo, eso es muy costoso. Yo, desde mi “ignorancia” creo que han podido implementar una serie de heurísticas para que a partir de todos los casos de bombings que han tenido hasta ahora puedan intentar preveer cuando se lo están haciendo. Esto querría decir que el bombing como se ha hecho hasta ahora podría funcionar peor, pero que en el momento en que se cambia la forma de hacer bombing se lo van a volver a tragar de lleno.
    Tomy Lorsch: Yo pienso lo mismo. Entonces, ¿es una decisión “editorial” (manual) seleccionar que palabras quieren “controlar” como si fuesen semillas (seeds) para analizar si se tratan de bombas? ¿Hay una decisión editorial y otra algoritmica?
    José Ramón Pérez Agüera: Supongo que será un algoritmo supervisado. Es decir se entrena el algoritmo sobre una serie de reglas o ejemplos establecidos manualmente y a partir de ahí el algoritmo aprende y funciona de forma automática. Es una aproximación típica de machine learning, pero no te puedo asegurar que sea eso lo que han hecho. El bombing ataca la base de su algoritmo de ranking, que es el PageRank, la única forma real de no tragarse un bombing bien hecho, es no usar algoritmos basados en análisis de grafos. No hay otra, ya que el bombing se aprovecha de la base matemática misma que hay detrás de PageRank. Si no han dejado de usar PageRank no pueden decir que el bombing ya no les afecta, creo yo.

Resumiendo
Google dice que no es 100% efectivo y que algunas “bombas” podrían no estar desactivadas. De hecho en numerosos blogs y foros aparecen palabras en otros idiomas que aún siguen vigentes como bombas. ¿Será qué el nuevo sistema de análisis no re-analiza los millones de billones de enlaces de la web en busca de bombas?

Cuando se dice que esto ha sido manual, no es que nadie de Google se meta en sus servidores a borrar manualmente nada, sino que ha sido un retoque manual del algoritmo para ciertas palabras y que dichas palabras sí fueron seleccionadas a mano. Vale, sí, que luego el análisis de si se trata efectivamente de una bomba o no, es algorítmico, no hay duda alguna. De otra manera no sería escalable y como bien sabemos, todo lo que no sea escalable no es rentable.

De todas formas y como me dice Ricardo Baeza-Yates de Yahoo! sobre esto: “No tengo opinión, no se puede adivinar que cambios se hicieron en el algoritmo.”

Tags: ,

28 de Enero de 2007
Búsquedas difíciles en los buscadores

A veces cuando haces una búsqueda los resultados no son muy relevantes. Cuando no recibes los resultados que esperabas de un buscador de internet o intranet, ¿es por qué el buscador no es muy bueno, o por qué no hay demasiada información indexada en la web o en la intranet que contiene el contenido relacionado a la búsqueda?

Un nuevo pedido de patente discute como los buscadores podrían identificar búsquedas difíciles, donde podría no haber contenido suficiente sobre el tema. El proceso descrito provee a los usuarios sugerencias de búsquedas que podrían darle una respuesta a la pregunta que estaban buscando o que posibilita a los buscadores esforzarse en indexar contenidos para esos “agujeros” de contenido.

La mejor introducción al pedido de patente es probablemente un par de páginas de IBM que discuten los esfuerzos de los investigadores que inventaron el proceso:

El pedido de patente:

Detection of missing content in a searchable repository

Inventado por Andrei Z. Broder, David Carmel, Adam Darlow, Shai Fine, Elad Yom-Tov
Asignado a IBM
US Patent Application 20070016545
Publicado el 18.1.2007
Presentado el 14.7.2005

Traducción autorizada por Bill Slawski para OJObuscador.
Versión completa original en inglés: Difficult Queries and Identifying Missing Content in Search Engines

Tags:

4 de Diciembre de 2006
Conferencia sobre lenguaje figurativo

Tal como comentan en este blog sobre minería de datos, el día de mi cumpleaños :) es decir, el próximo 26 de abril, tendrá lugar la conferencia FigLang2007 en Nueva York.

¿Por qué es importante entender el lenguaje figurativo? Existen una serie de recursos en el discurso natural de los humanos, tales como la metáfora, la personificación y muchos otros que afectan la forma en que transmitimos significado, como es el humor, ironía, sarcasmo, etc. Sin dudas, el reconocimiento del lenguaje natural es el próximo paso que tienen que conquistar los motores de búsqueda.

OpinMind fue de los primeros que conozco que se han metido en el tema para lograr buscar entre blogs que estén a favor o en contra de un determinado tema.

En FigLang2007 se intentará debatir sobre procesos para interpretar automática y semánticamente los contenidos y significados del lenguaje figurativo.

Tags:

1 de Diciembre de 2006
Reseña de Google’s PageRank and Beyond

Con muy buen tino me recordaba Fran de Xeoweb que ya me estaba columpiando con mi promesa de hacer una reseña de este libro:

Google’s PageRank and Beyond:
The Science of Search Engine Rankings
Amy N. Langville and Carl D. Meyer

Continuar leyendo

Tags:

30 de Noviembre de 2006
HITS: Porque no sólo de Pagerank vive el SEO

Existen un montón de explicaciones sobre el Pagerank en la Web. Sin duda para mi una de las más claras es esta:

http://pr.efactory.de/

Sin embargo, no es el único algoritmo de ranking sobre análisis de enlaces que existe, ni siquiera nació solo, sino que en el mismo año que Brin y Page presentaban su Pagerank, 1998, Jon Kleinberg, premio Fields de matemáticas e investigador de IBM por aquellas fechas, presentaba HITS, un algoritmo similar a Pagerank pero con algunas particularidades que veremos a continuación.

Continuar leyendo

Tags:

20 de Noviembre de 2006
Uso de Lucene por Technorati

Aprovechando que el Pisuerga pasa por Valladolid y que Technorati saca sus versiones locales creo que es importante recordar que nuestro buscador favorito de blogs usa Lucene como base de su software de búsqueda.

Lucene powers search in surprising places–in discussion groups at Fortune 100 companies, in commercial issue trackers, in email search from Microsoft, in the Nutch web search engine (that scales to billions of pages). It is used by diverse companies including Akamai, Overture, Technorati, HotJobs, Epiphany, FedEx, Mayo Clinic, MIT, New Scientist Magazine, and many others. fuente:http://www.manning.com/hatcher2/

De hecho tienen a uno de sus desarrolladores en plantilla, Otis Gospodnetić, y hace poco pedían gente con conocimientos de Lucene para trabajar con ellos. Seguro que de todo esto nos podrá hablar en detalle Hector García en el congreso de OJObuscador.

Tags: ,

1 de Noviembre de 2006
Google compra Jotspot & Pedido de patente Wiki

La noticia ayer por la mañana, en el blog de Google, es que Google ha adquirido Jotspot.

He estado trabajando con Jotspot wikis en un par de proyectos internos, y realmente lo disfruto. Fue una excelente elección de Google y el programa provee una herramienta adicional para integrarse con Google Docs & Spreadsheets. Hay algunas cosas que se solapan con lo que ofrecen los dos servicios, pero la suma del equipo de Jotspot a Google hará que esos programas funcionen aún mejor.

La inscripción en el sitio se ha cerrado por el momento mientras adaptan sus servicios a la arquitectura de Google, pero parece que una vez que esten de vuelta, Google no cobrará por su uso.

Hay una sección de Preguntas Frecuentes que tratan el tema de la compra de Jotspot y encontré un pedido de patente que fue llenado por Joe Kraus y Graham Spencer de Jotspot, Inc.

Autoría colaborativa de páginas web
Inventado por Joe Kraus y Graham Spencer
US Patent Application 20060235984
Publicado el 19 de Octubre 2006
Entregado el 31 de Enero de 2006

Abstracto

Páginas web colaborativas permiten que cada página en un website sea editable por un autor y por otros que el autor les de acceso. Las páginas web pueden enviar y recibir correos. Los usuarios pueden adjuntar archivos a las páginas.

Algunas de las funcionalidades descriptas en el pedido de patente:

* Páginas editables

* Edición WYSIWYG

* Email a páginas

* Adjuntar archivos a páginas

* Indización de todo el texto

* Control de revisión

* Ingreso de datos con formularios

* Tablas dinámicas y calendarios

* Composición de datos (datos de mulitples fuentes, p.e. resultados de búsqueda de Google y feeds de noticias)

* El sistema tiene construida una Plataforma de Aplicaciones

* Costumizar y modificar páginas fácilmente

Los fundadores de Jotspot, también han sido fundadores de Excite.com

Graham Spencer ha publicado por lo menos un par de patentes mientras trabajaba en Excite:

Sistema y método para buscar en bases de datos múltiples y distribuidas, compartiendo de forma seleccionada información local en relación a los términos de la búsqueda.
Patente 5,826,261
Otorgada el 20 de Octubre de 1998

Sistema de recuperación de información y método con implementación de una arquitectura de búsqueda extendible.
Patente. 5,577,241
Otorgada el 19 de Noviembre de 1996

Traducción autorizada por Bill Slawski para OJObuscador
Versión original en inglés: Google Acquires Jotspot, Inc. & Wiki Patent Application

Tags: ,

28 de Octubre de 2006
CLAIRLIB

Leo en la lista de SIGIR esta noticia sobre el lanzamiento de CLAIRLIB

El grupo de Lingüística Computacional y Recuperación de Información de la Universidad de Michigan, CLAIR (Computational Linguistics And Information Retrieval) group, presenta Clair library, unas librerías escritas en perl que pretenden simplificar tareas generales de Natural Language Processing (NLP), Information Retrieval (IR) y Lexical Network Analysis.

Entre sus funcionalidades encontramos:

  • Nativo: Tokenization, Summarization, LexRank, Biased LexRank, Document Clustering, Document Indexing, PageRank, Biased Pagerank, Web Graph Analysis, Bioinformatics Text Analysis, Political Science Text Analysis, Network Building, Power Law Distribution Analysis, Network Analysis and Computation (Watts-Strogatz Clustering Coefficient, Cosines, Random Walks), Tf, Idf
  • Importado: Stemming, Sentence Segmentation, Web Page Download, Web Crawling, XML Parsing, XML Tree Building, XML Writing

Casi nada y lo llevaba colgando, que decía mi abuelo :-) ya no hay excusa para no probar los algoritmos más conocidos de IR y ver como funcionan.

Los responsables del proyecto son:

  • Project design: Dragomir R. Radev
  • Main implementers: Anthony Fader, Mark Hodges, and Dragomir R. Radev
  • Additional code by: Timothy Allison, Michael Dagitses, Aaron Elkiss, Gunes Erkan, Scott Gifford, Mark Joseph, Samuela Pollack, and Adam Winkel.

Tags:

27 de Octubre de 2006
Prototipo del buscador de Monster con Lucene

El gigante de la búsqueda de empleo en Internet ha desarrollado un prototipo de buscador para su portal usando Lucene, y por lo que han dejado ver hasta ahora les está quedando bastante bien. Cada día hay más desarrollos comerciales que usan Lucene, el cual se está posicionando frente a otras opciones como las librerías para IR más usadas de Internet para la implementación de buscadores verticales. ¿A qué esperáis para probarlo?

Tags:

20 de Octubre de 2006
Amanda Spink: investigadora de búsquedas

Cuando comienzas a leer papers sobre como los usuarios interactuan con los buscadores, y cuales son las palabras que utlizan, te topas constántemente con Amanda Sping. Ella ha escrito una cantidad de papers sobre el tema que nos proporcionan interesantes detalles.

Christina Wodtke le ha hecho una entrevista recientemente en Boxes and Arrows llamada “Long Tails and Short Queries” Habla de algunos comportamientos complejos de búsqueda, que se estan conviertiendo en “lugares comunes”, como la búsqueda de diferentes topicos durante una misma sesión de búsqueda. A esto se lo identifica como “multitasking search”.

También nos muestra un interesante punto sobre la longitud de las cajas de búsqueda y dice que veriamos frases de búsqueda con más palabras, si las cajas de búsqueda fuesen más largas. (via Gwen de Internet News).

Algunos trabajos excelentes de Amanda Spink, que merecen un vistazo:

* Del E-Sex al comercio: cambios en la búsqueda web (pdf) - discute cambios en las búsquedas a lo largo del tiempo, de búsquedas de usuarios colecionadas por Excite en 1997, 1999 y 2001.

* Hacia una perspectiva evolucionaria del comportamiento humano con la información. Un estudio exploratorio. (pdf) - un vistazo a diferentes comporamientos con la información de varios individuos del pasado, tales como Da Vinci, Napoleo Bonaparte, Charles Darwin, Giacomo Casanova, Booker T. Washington, Sigmund Freud y otros.

* Comportamiento humano con la información: integrando diversos enfoques y usod de la información. (pdf) Este difiere en que no trata de figuras historicas o cosas que ellos hayan escrito, pero por lo contrario explora el campo de “Human Information Behavior” y una cantidad de estudios sobr eel tema.

Otras entrevistas recientes e interesantes

Entrevistas con internet marketers:

* Entrevista con Lee Odden, por Neil Patel
* Todd Malicoat entrevistado, por Darren McLaughlin
* Entrevista con Chris Pirillo, por Lee Odden

¿Cuánto pueden tener en común un SEO de Novosibirsk, Rusia y un SEO de Boulder, Colorado? Ambos comparten una dedicación y un compromiso por la calidad en diseño y comunicación, al mismo tiempo que SEO, como se puede observar en las entrevistas que se han hecho el uno al otro:

* Entrevista con Steven Bradley (vangogh)
* Entrevista con el blogger invitado Yuri Filimonov

Entrevistas del mundo del search:

* Entrevista con Eric Case de Google
* Bill Gates entrevista al hijo del Presidente de Nigeria (via Valley Wag)

Traducción autorizada por Bill Slawski para OJObuscador.
Versión original en inglés: Search Query Researcher Amanda Spink

Tags:

19 de Octubre de 2006
Las 7 edades de la Recuperación de la Información

Interesante lectura el artículo de Javier Martinez Las siete edades de la Recuperación de la Información

Para seleccionar esos siete períodos, Lesk se basa en un texto de la obra de teatro ‘As you like it’ (Acto 2º, Escena 7ª), escrita por el dramaturgo inglés William Shakespeare hacia 1599. El melancólico Jaques, asistente del exiliado Duque Mayor (el protagonista de la obra), compara la vida con una obra de teatro, coloca en el catálogo las siete etapas del crecimiento: infante, escolar, amante, soldado, justiciero, pantalonero y segunda niñez. Kennet Branagh está a punto de estrenar una versión cinematográfica de esta obra. He aquí, resumidas y con algún comentario añadido, las siete etapas de la recuperación de la información.

Tags:

19 de Octubre de 2006
Google bucea en la web invisible

La mayoría de la información en la web está bajo la superficie, inaccesible para los buscadores. Un whitepaper de Brightplanet, publicado en Julio de 2001, explora cuanta información disponible podría estar oculta bajo la web pública.

Google cuenta en profundidad, como podrían indexar y rankear la información localizada en secciones de la “web profunda”, en un pedido de patente publicado las semana pasada:

Buscando entre contenidos que son accesibles via formularios web
Inventado por Alon Y. Halevy, Jayant Madhavan, y David H. Ko
US Patent Application 20060230033
Publicado el 12 de Octubre de 2006
Entregado el 5 de Abril de 2006

Extracto

El presente invento provee de un sistema, que facilita la búsqueda en contenido que es accesible via formularios web. Durante este proceso, el sistema recibe una búsqueda conteniendo palabras claves. Seguidamente, el sistema analiza la búsqueda para crear un una búsqueda estructurada. El sistema luego ejecuta una búsqueda basandose en la búsqueda estructurada en una base de datos que contiene entradas, que describen los formularios. A continuación, el sistema ordena los formularios y utliza los rankings y las entradas de la base de datos asociada, para facilitar la búsqueda en el contenido que es accesible via formularios.

Mi impulso para leer la patente, fue considerar que razones existen para que muchos sitios oculten información, para la cual se necesita acceso con clave, y fui tan lejos que me he preguntado si Googlebot podría registrarse en esos sitios con el nombre de Goglebot; preguntas que surgieron de este extracto:

Los buscadores traducionales no tienen la capacidad de buscar entre datos que estan ocultos tras formularios web. Como consecuencia, un gran tamaño de datos posiblemente no pueda ser accedido por los buscadores tradicionales.

Lo que se necesita es un método y un aparato que facilite la búsqueda eficiente en información que está oculta trás formularios web.

Descripción general

Algunas de las cosas que he observado de la patente:

1. Cómo se encuentran los formularios que pueden ser indexados, incluyendo How forms are found on the web that can be indexed, incluyend crawling, submisión manual y otros métodos posibles.

2. Qué tipo de información es coleccionada e indexada sobre las páginas en las que se encuentra formularios.

3. Cómo se colecta información sobre el contenido de los formularios, incluyendo cuando se usa declaraciones “get”; y completando formualrios para extraer luego la información que resulta de esos formularios.

4. Recolección de meta-datos sobre la fuente del formulario, tales como el tipo de fuente, la “ubicación geográfica más relevante a la fuente” y quizá un pagerank para la fuente.

5. Recolección de meta-datos sobre el formulario mismo, como el tipo de formulario, ubicación geográfica más relevante de los objetos recuperados, campos, que campos requieren ser rellenados obligatoriamente, y posiblemente un mapeo entre los campos y clases de propiedades asociacos a esos campos.

6. Cómo rankear un formulario, incluyendo:
-aproximando un valor de page-rank basado en los enlaces entrantes de la página del formulario,
-valores de las palabras claves, basados en la relevancia del texto de la página
-un valor ontológico, basado en la relevancia de la clase ontológica de la búsqueda, para una búsqueda asociada con la página,
-un valor para el formulario, basado en la habilidad del formulario para responder a una búsqueda, y/o;
-un valor para la ubicación, basado en la distancia entre la ubicación más relevante para la página asociada con el formulario, desde ubicaciones identificadas en la búsqueda.

Tipos de información recolectadas sobre los formularios

1. Campos en el formulario-para cada uno de los campos:
- el nombre del parámetro (usado para llamar algunos server-side scripts)
- el texto visible del campo que puede ser leido por el humano
- tipos de campos (text, select box, radio button, o checkbox), y;
- valores ejemplares del campo (ejemplo, opciones en un select box)

2. El tipo de formularo-Los tipos de objetos que se obtienen al completar el formulario, como libros, hoteles, restaurantes. Una fuente puede tener varios formularios, que pueden relacionarse con deferentes clases de objetos. Por ekemplo, los diarios a veces tienen formularios para mirar casas, trabajos y autos en venta.

3. Ubicación geográfica: la ubicación geográfica especifica de los objetos recupersdos utilizando el formulario. Un hote, l por ejemplo, puede estar asociado a una dirección.

4. Campos obligatorios: qué campos son obligatorios para submitir el formulario. Puede exisitir más de una combinación.

5. Los tipos de informaciones obtenidos luego de completar el formulario exitosamente. Son descriptos como “Search Ontology” (búsqueda ontológica).

6. Schema mapping: el mapeto entre campos de un formulario y la búsqueda ontológica. Por ejemplo, un campo podría requerir el código postal, o la ciudad o estado.

7. Palabras clave adicionales: pueden ser palabras adicionales que describem el formulario.

Conclusión

Hay un núnmero de estrategias usadas en este documento para entregarle resultados a un usuario que busca en una gran base de datos. En general, estas estrategias intentan entender la fuente de la información, los formularios utilizados y cómo funcionan, información asociada con cada campo de cada formulario, contenido que puede ser recuperado ejecutando los formularios, cómo rankear la información que devuelve el formulario, y la ubicación asociada con la información, de ser necesario.

Si tienes interés en como se puede indexar la “web invisible”, esta patente muestra algunas estrategias para lograr ese objetivo. El coinventor, Dr. Halevy, describe en un paper que ha escrito llamado “Why Your Data Won’t Mix”, algunos de los problemas que impiden indexar tal variedad de información, organizada en diferentes maneras, basadas en reglas de negocio que no anticipan la necesidad de indexar de los buscadores.

En dicho documento, describe algunas de las estrategias implementadas para crear exitosamente www.everyclassified.com, que agrega contenido de miles de fuentes diferentes y de más de 5 mil mapeos semánticos de formularios web, en categorias comúnes de anuncios clasificados. Su empresa, Transformic Inc., que fue adquirida por Google probablemente en Septiembre de 2005, fue la creadora de everyclassified.com.

Traducción autorizada por Bill Slawski para OJObuscador.
Versión original en inglés: Google Diving into Indexing the Deep Web

Tags:

Páginas: 1 2 >>