hoy OJO mira los buscadores … mañana los buscadores mirarán OJO
SEO
First Tuesday
OJO
10 de Febrero de 2007

Google ordena los resultados en base al contenido que aparece en páginas individuales o en URL’s específicas. Pero el contenido puede ser de diferentes autores, quienes tienen diferentes niveles de control sobre el contenido. Por ejemplo, un blog puede tener entradas escritas por diferentes autores, comentarios de usuarios y publicidad sobre la cual el “dueño” del blog no tiene control directo.

Un foro puede tener muchos autores respondiendo a un post inicial y también puede contener publicidad.

Imaginad un sistema que en lugar de rankear el contenido por página, divide dichas páginas y observa pequeñas cantidades de contenido y lo asocia a “firmas digitales”. Los creadores de contenido podrían recibir puntuaciones, que influenciaría los rankings de las páginas donde aparece su contenido, o de las cuales son dueños, editan o recomiendan.

Esto hace la nueva patente de Google llamada Agent Rank.

Leer el post completo en Search Engine Land.

28 de Enero de 2007

A veces cuando haces una búsqueda los resultados no son muy relevantes. Cuando no recibes los resultados que esperabas de un buscador de internet o intranet, ¿es por qué el buscador no es muy bueno, o por qué no hay demasiada información indexada en la web o en la intranet que contiene el contenido relacionado a la búsqueda?

Un nuevo pedido de patente discute como los buscadores podrían identificar búsquedas difíciles, donde podría no haber contenido suficiente sobre el tema. El proceso descrito provee a los usuarios sugerencias de búsquedas que podrían darle una respuesta a la pregunta que estaban buscando o que posibilita a los buscadores esforzarse en indexar contenidos para esos “agujeros” de contenido.

La mejor introducción al pedido de patente es probablemente un par de páginas de IBM que discuten los esfuerzos de los investigadores que inventaron el proceso:

El pedido de patente:

Detection of missing content in a searchable repository

Inventado por Andrei Z. Broder, David Carmel, Adam Darlow, Shai Fine, Elad Yom-Tov
Asignado a IBM
US Patent Application 20070016545
Publicado el 18.1.2007
Presentado el 14.7.2005

Traducción autorizada por Bill Slawski para OJObuscador.
Versión completa original en inglés: Difficult Queries and Identifying Missing Content in Search Engines

28 de Enero de 2007

Una nuevo pedido de patente de Google para servir publicidad en dispositivos móviles provee una idea de la posible apariencia de los anuncios y que tipo de funcionalidades podrían incluirse en ellos.

Anuncios Google

Podría ser posible enviar mensajes de texto (SMS) a los anunciantes.

Anuncios Google

Bajar un cupon para utilizar en una compra.

Anuncios Google

Se podrían mostrar imágenes del producto en el anuncio.

Anuncios Google

Un botón de llamada o enlace al website del vendedor podría ser parte del anuncio.

Las imágenes son solo ilustrativas de algunas apariencias posibles de la publicidad para móviles y su función. El pedido de patente provee más detalles:

Dispatch system to remote devices
Inventado por Elad Gil, Shumeet Baluja, Maryam Kamvar, Cedric Beust
US Patent Application 20070022442
Publicado el 25.1.2007
Entregado el 21.7.2005

Un método y sistema para presentar contenido promocional a usuarios de un dispositivo de comunicación que abarca la recepción de información desde un dispositivo de comunicación, donde la información está relacionado con el dispositivo de comunicación, e identifica un resultado relacionado con la información que es capaz de ser presentado en una pluralidad de formatos en el dispositivo de comunicación y que selecciona dinámicamente un formato para el resultado de una variedad de formatos y lo presenta en el formato seleccionado para mostrarlo en el dispositivo.

Traducción autorizada por Bill Slawski para OJObuscador
Versión original en inglés: What Google Advertisments on Mobile Phones Might Look Like

Tags:
5 de Diciembre de 2006

Esta mañana se le ha otorgado a Google una nueva patente. El sistema intenta facilitar la búsqueda de documentos relevantes en otros idiomas, para búsquedas en las que el “anchor text” de los enlaces es muy importante. Se presentó en el 2001, por lo que no es algo realmente muy nuevo.

Vale la pena leerla si te interesa cómo algunas páginas pueden aparecer en los resultados, en casos en los que el idioma de la página y el de la búsqueda sean diferentes.

Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
Inventado por Luis Gravano y Monika H. Henzinger
Otorgado a Google
US Patent 7,146,358
Otorgado el 5 de Diciembre de 2006
Presentado el 28 de Agosto de 2001

Resúmen

El sistema ejecuta traducciones entre idiomas. El sistema recibe una búsqueda en un idioma y la traduce para encontrar posibles resultados en el segundo idioma. El sistema también localiza documentos que pueda ayudar con la traducción, mediante:

(1) la localización de documentos en el primer idioma que contienen referencias que coinciden con las palabras de búsqueda e identifican documentos en el segundo idioma;

(2) la localización de documentos en el primer idioma que contienen referencias que coninciden con las palabras de búsqueda y refieren a otro documento en el primer idioma e identifican documentos en el segundo idioma que contienen referencias a otros documentos; ó

(3) la localización de documentos en el primer idioma que coinciden con las palabras de búsueda e identifican documentos en el segundo idioma que hacen referencia a documentos en el primer idioma.

El sistema puede utilizar el idioma del segundo documento para eliminar ambigüedades de las posibles traducciones e identificar alguna de las posibles traducciones.

Traducción autorizada por Bill Slawski para OJObuscador.
Original en inglés: Using Anchor Text to Find Documents in Other Languages

Tags:
1 de Noviembre de 2006

Uno de los miembros de los foros Cre8asite tiene un par de sitios llenos de imágenes de lugares. Es un fotógrafo talentoso, a parte de ser un habilidoso webmaster, y las fotos que tiene en su sitio son buenisimas. Además ha puesto las imágenes bajo licencia de Creative Commons.

Gracias a la licencia, ha autorizado a otros a utilizar sus imágenes en sus sitios para uso no comercial, con enlaces a sus sitios. También ha tenido pedidos de gente que quiere utilizar sus imágenes para usos comerciales. Ya que las imágenes le pueden interesar a gente con interés en conocer más de lo que ofrece, tener enlaces a sitio le provee de tráfico a sus páginas de gente que posiblemente puedan convertirse en clientes.

La belleza de las licencias Creative Commons , es que le informan a otros que pueden posiblemente utilizar el material creado por otros bajo las condiciones expresadas en las licencias. No se trata de dañar los derechos de otros o de una ley de derechos de autor, sino que comunican de manera fácil, los posibles usos del material. La página de los Creative Commons muestran como utilizar una licencia y provee de muchos ejemplos.

Google y Creative Commons

El 26 de Octubre, un equipo de Creative Commons fue a dar una charla en Google.
Con la compra de YouTube, tiene sentido que Google aprenda más sobre derechos de autor y licencias. Creative Commons los ha ido a visitar para ver si podrían obtener ayuda de Google, asi como también intercambiar información sobre lo que esta haciendo la organización de Creative Commons. ¿Qué puede significar esto para los que usan Google?

El principal orador fue Mike Linksvayer (enlace a su blog personal), quien es Chief Techincal Officer de Creative Commons. Su presentación fue parte de los Google Tech Talk - Yahoo creó una buscador para encontrar material CC. Más tarde Google hizo lo mismo y, como la sección de ayuda sobre Derechos de Uso explica, fue incorporado en la búsqueda avanzada.

Los buscadores de Yahoo y Google están disponibles en la página de búsqueda de los Creative Commons y también incluye una búsqueda de Flickr y blip.tv (atención, el audio comienza en blip.tv automáticamente)

Infraestructura de metadatos

1. Las licencias originales de Creative Commons incluyen comentarios en RDF, XML y HTML.

2. Para encontrar algo mas efectivo e interoperable, decidieron no crear su porpia metadata, para encontrar alguna otra cosa disponible.

3. Hay algunos problemas al utilizar comentarios, como:

* son sensibles de spam,
* no se actualizan cuando se actualiza la página y;
* puede ser dificil para que la gente aprenda a usarlos.

4. Los Microformatos fueron creados el último año y también los consideraron. Podrían ser útiles, pero tienen algunas limitaciones también, como ser que están al nivel de la página, por lo que podrían no ser de ayuda, en caso de tener imágene so vídeos en una misma página que no compartan la misma licencia que el resto de los contenidos.

5. Quieren tener información sobre los metadatos en la página misma, para que sea más fácil para la gente usarlos y verlos, por lo que sería más flexible.

6. Comenzaron a explorar RDFa. Los Creative Commons tienen algunas páginas wiki sobre el tema RDFa. Mike Linksvayer comentó que hay algunos problemas con esto, como ser que esta desarrollados para XHTML 2, que nadie usa. Ejemplos en http://rdfa.info. Mike también dijo en su presentación que RDFa continua siendo muy viable y usable, más allá de las ataduras a XHTML 2.

Se recomienda en el vídeo el trabajo de Ben Adida sobre interoperabilidad y metadatos. Es interesante ver el documento: Construyendo Metadatos Interoperables (pdf)

¿Por qué hablar con Google?

1. La organización de Creative Commons está interesada en recibir feedback e ideas sobre metadatos y microformatos que podrían se aplicadas a imágenes, vídeos, audio y otro tipo de objetos en páginas.

2. Metadatos embebidos no funcionan bien:

* No se pueden ver en una página web,
* Se usan poco;
* no se puede confiar, porque no sabes quien lo puso.

El mejor tipo de metadatos, son metadatos que se refieren a una página web especifica via una URL, por lo que la gente puede visitar esa página web.

3. Adobe esta usando metadatos que podrían ser una mejora con respecto a los metadatos en el código.

Traducción autorizada por Bill Slawski para OJObuscador
Versión completa y original en inglés: Building Links with Creative Commons

1 de Noviembre de 2006

La noticia ayer por la mañana, en el blog de Google, es que Google ha adquirido Jotspot.

He estado trabajando con Jotspot wikis en un par de proyectos internos, y realmente lo disfruto. Fue una excelente elección de Google y el programa provee una herramienta adicional para integrarse con Google Docs & Spreadsheets. Hay algunas cosas que se solapan con lo que ofrecen los dos servicios, pero la suma del equipo de Jotspot a Google hará que esos programas funcionen aún mejor.

La inscripción en el sitio se ha cerrado por el momento mientras adaptan sus servicios a la arquitectura de Google, pero parece que una vez que esten de vuelta, Google no cobrará por su uso.

Hay una sección de Preguntas Frecuentes que tratan el tema de la compra de Jotspot y encontré un pedido de patente que fue llenado por Joe Kraus y Graham Spencer de Jotspot, Inc.

Autoría colaborativa de páginas web
Inventado por Joe Kraus y Graham Spencer
US Patent Application 20060235984
Publicado el 19 de Octubre 2006
Entregado el 31 de Enero de 2006

Abstracto

Páginas web colaborativas permiten que cada página en un website sea editable por un autor y por otros que el autor les de acceso. Las páginas web pueden enviar y recibir correos. Los usuarios pueden adjuntar archivos a las páginas.

Algunas de las funcionalidades descriptas en el pedido de patente:

* Páginas editables

* Edición WYSIWYG

* Email a páginas

* Adjuntar archivos a páginas

* Indización de todo el texto

* Control de revisión

* Ingreso de datos con formularios

* Tablas dinámicas y calendarios

* Composición de datos (datos de mulitples fuentes, p.e. resultados de búsqueda de Google y feeds de noticias)

* El sistema tiene construida una Plataforma de Aplicaciones

* Costumizar y modificar páginas fácilmente

Los fundadores de Jotspot, también han sido fundadores de Excite.com

Graham Spencer ha publicado por lo menos un par de patentes mientras trabajaba en Excite:

Sistema y método para buscar en bases de datos múltiples y distribuidas, compartiendo de forma seleccionada información local en relación a los términos de la búsqueda.
Patente 5,826,261
Otorgada el 20 de Octubre de 1998

Sistema de recuperación de información y método con implementación de una arquitectura de búsqueda extendible.
Patente. 5,577,241
Otorgada el 19 de Noviembre de 1996

Traducción autorizada por Bill Slawski para OJObuscador
Versión original en inglés: Google Acquires Jotspot, Inc. & Wiki Patent Application

21 de Octubre de 2006

Digamos que hacemos negocios en las afueras del estado de Washington y queremos anunciar en Google usando la palabra “apple” (manzana). Si mi negocio fuese de ordenadores, podría tener algunos problemas (Apple Computers, Inc). Si estuviese considereando vender musica, también podría tener problemas (Apple Records). Si vendiese otra cosa, quizás no tendría problemas. Al menos eso esperaría.

La situación de la ley respecto a la responsabilidad de un buscador que permite a sus anunciantes el uso de marcas registradas de terceros es en el mejor de los casos, poco clara. Incluso teniendo en cuenta un reciente fallo en favor de Google (ver post de Erico Goldman Google gana juicio sobre keywords Rescuecom vs. Google). La corte no puede decidirse si la compra de keywords constituye utilización de marca registrada en el caso Home vs. Humble Abode, en cual la corte del Distrito de New Jersey decidió que “la publicidad con keywords es un uso en el comercio”.

Marcas registradas, AdWords y un pedido de patente de Google

Este verano he escrito un articulo titulado “Proceso automatizado de aprobación de anuncios”, que indagaba en un proceso automatizado de revisión de AdWords, extraído de una pedido de patente de Google. Este determina si acepta o rechaza anuncios, o si requiere revisión humana por posible violación de la política de Google, incluyendo posbiles usos no autorizadas de marcas de tereceros en palabras o frases.

En octubre del año pasado, otro pedido de patente de Google observa las juridiccciones donde los anuncios pueden ser mostrados, y la situación de la ley en cada una de esas áreas, para determinar si un anuncio puede o no ser mostrado en esos lugares, lo que incluye palabras que podrían estar protegidas. También consideraba mostrar “disclaimers” legales junto a los anuncios en algunas jurisdicciones.

La semana pasada, se ha publicado otra patente de Google que trata del uso de un sistema automatizado para la aceptación o rechazo de anuncios que utilizan marcas:

Filtrado automatico de contenido basado en derechos de propiedad intelectual
Inventado por Rose Anne Hagan, Kulpreet Singh Rana
US Patent Application 20060230457
Publicado el 12 de Octubre de 2006
Presentao el 31 de Marzo de 2005

Abstracto

Los sistemas y métodos escanean automaticamente contenido, como anuncios publicitarios, para un listado de palabras y frases que podrían no estar permitidas en el contenido. Las palabras y/o frases podrían incluir marcas registradas. En esta implementación, los anunciantes podrían ser escaneados en busca de presencia de marcas registradas.

IP Screening

IP en el titulo de esta sección se refiere a “Propiedad Intelectual” y no a “Internet Protocol”.

Se provee de una técnica para escanear automáticamente el contenido antes de que se muestre los anuncios a los consumidores, lo que puede involucrar la comparación del texto del anuncio con respecto a una “watchlist” de palabras y frases de marcas registradas.

También puede considerar otros criterios, como:

* Problemas que hayan sido reportados por el mismo anunciante en el pasado
* Una base de tados externa que podría contener información de marcas registradas
* Un listado de anunciados “cuestionados” o direcciones IP
* Otro tipo de signos que indiquen una violación

Anuncios sospechosos

Si el anuncio supera la prueba de la “watchlist” significaría que el anuncio será aceptado. Pero, las palabras utilizadas podrían estar en la “watchlist” y podrían aún ser aceptadas bajo algunas condiciones, o rechazadas. Ejemplos:

* El anunciante podría tener permiso para utilizar las palabras
* El anunciante podría ser propietario o agente del propietario de la marca

En cualquiera de estos casos, se tendría que verificar que el anunciantes es propietario o agente o tiene permiso.

Si el anunciante no tiene permiso, se le pedirá que cambie en anuncio. Si no quieren hacerlo, podrían requerir otra revisión. Una opción disponible en esa instancia, es que el anunciante podría ser una representación de algun tipo, por lo cual creen tener permiso por ley para el uso, o de otra forma legal o autorizado.

El buscador podría contactar al propietario de la marca, como parte de la verificación.

Otras razones por las cuales una palabra puede ser aceptada

El uso de la palabra podría estar “fuera” del alcance de la marca. El ejemplo de “apple” que mencioné al principio, es un uso de la aplicación de la patente. Un vendedor de manzanas debería tener permiso de utilizar la palabra “apple” en su anuncio.

Diferentes estándares legales pueden ser aplicados en diferentes lugares, por lo que el uso de la marca en un anuncio puede ser aceptado en algunos lugares pero no en otros.

Conclusión

Este proceso no pareciera ser tan novedoso o poco obvio, por lo que puede dificultar que le sea otorgada la patente a Google. La idea de automatizar el proceso cobra sentido desde la perspectiva del buscador, ya que puede facilitar el filtrado de anuncios para identificar aquellos que potencialmente pueden causar problemas.

Lo que complica la situación es que no hay un base de datos central de marcas e incluso aquellas personas que poseen bajo la misma ley de marcas, pueden tener derechos para proteger dichas marcas.

Traducción autorizada por Bill Slawski para OJObuscador.
Versión original en inglés: Google Patent Filing Looks at Trademarks and Adwords

20 de Octubre de 2006

Cuando comienzas a leer papers sobre como los usuarios interactuan con los buscadores, y cuales son las palabras que utlizan, te topas constántemente con Amanda Sping. Ella ha escrito una cantidad de papers sobre el tema que nos proporcionan interesantes detalles.

Christina Wodtke le ha hecho una entrevista recientemente en Boxes and Arrows llamada “Long Tails and Short Queries” Habla de algunos comportamientos complejos de búsqueda, que se estan conviertiendo en “lugares comunes”, como la búsqueda de diferentes topicos durante una misma sesión de búsqueda. A esto se lo identifica como “multitasking search”.

También nos muestra un interesante punto sobre la longitud de las cajas de búsqueda y dice que veriamos frases de búsqueda con más palabras, si las cajas de búsqueda fuesen más largas. (via Gwen de Internet News).

Algunos trabajos excelentes de Amanda Spink, que merecen un vistazo:

* Del E-Sex al comercio: cambios en la búsqueda web (pdf) - discute cambios en las búsquedas a lo largo del tiempo, de búsquedas de usuarios colecionadas por Excite en 1997, 1999 y 2001.

* Hacia una perspectiva evolucionaria del comportamiento humano con la información. Un estudio exploratorio. (pdf) - un vistazo a diferentes comporamientos con la información de varios individuos del pasado, tales como Da Vinci, Napoleo Bonaparte, Charles Darwin, Giacomo Casanova, Booker T. Washington, Sigmund Freud y otros.

* Comportamiento humano con la información: integrando diversos enfoques y usod de la información. (pdf) Este difiere en que no trata de figuras historicas o cosas que ellos hayan escrito, pero por lo contrario explora el campo de “Human Information Behavior” y una cantidad de estudios sobr eel tema.

Otras entrevistas recientes e interesantes

Entrevistas con internet marketers:

* Entrevista con Lee Odden, por Neil Patel
* Todd Malicoat entrevistado, por Darren McLaughlin
* Entrevista con Chris Pirillo, por Lee Odden

¿Cuánto pueden tener en común un SEO de Novosibirsk, Rusia y un SEO de Boulder, Colorado? Ambos comparten una dedicación y un compromiso por la calidad en diseño y comunicación, al mismo tiempo que SEO, como se puede observar en las entrevistas que se han hecho el uno al otro:

* Entrevista con Steven Bradley (vangogh)
* Entrevista con el blogger invitado Yuri Filimonov

Entrevistas del mundo del search:

* Entrevista con Eric Case de Google
* Bill Gates entrevista al hijo del Presidente de Nigeria (via Valley Wag)

Traducción autorizada por Bill Slawski para OJObuscador.
Versión original en inglés: Search Query Researcher Amanda Spink

19 de Octubre de 2006

La mayoría de la información en la web está bajo la superficie, inaccesible para los buscadores. Un whitepaper de Brightplanet, publicado en Julio de 2001, explora cuanta información disponible podría estar oculta bajo la web pública.

Google cuenta en profundidad, como podrían indexar y rankear la información localizada en secciones de la “web profunda”, en un pedido de patente publicado las semana pasada:

Buscando entre contenidos que son accesibles via formularios web
Inventado por Alon Y. Halevy, Jayant Madhavan, y David H. Ko
US Patent Application 20060230033
Publicado el 12 de Octubre de 2006
Entregado el 5 de Abril de 2006

Extracto

El presente invento provee de un sistema, que facilita la búsqueda en contenido que es accesible via formularios web. Durante este proceso, el sistema recibe una búsqueda conteniendo palabras claves. Seguidamente, el sistema analiza la búsqueda para crear un una búsqueda estructurada. El sistema luego ejecuta una búsqueda basandose en la búsqueda estructurada en una base de datos que contiene entradas, que describen los formularios. A continuación, el sistema ordena los formularios y utliza los rankings y las entradas de la base de datos asociada, para facilitar la búsqueda en el contenido que es accesible via formularios.

Mi impulso para leer la patente, fue considerar que razones existen para que muchos sitios oculten información, para la cual se necesita acceso con clave, y fui tan lejos que me he preguntado si Googlebot podría registrarse en esos sitios con el nombre de Goglebot; preguntas que surgieron de este extracto:

Los buscadores traducionales no tienen la capacidad de buscar entre datos que estan ocultos tras formularios web. Como consecuencia, un gran tamaño de datos posiblemente no pueda ser accedido por los buscadores tradicionales.

Lo que se necesita es un método y un aparato que facilite la búsqueda eficiente en información que está oculta trás formularios web.

Descripción general

Algunas de las cosas que he observado de la patente:

1. Cómo se encuentran los formularios que pueden ser indexados, incluyendo How forms are found on the web that can be indexed, incluyend crawling, submisión manual y otros métodos posibles.

2. Qué tipo de información es coleccionada e indexada sobre las páginas en las que se encuentra formularios.

3. Cómo se colecta información sobre el contenido de los formularios, incluyendo cuando se usa declaraciones “get”; y completando formualrios para extraer luego la información que resulta de esos formularios.

4. Recolección de meta-datos sobre la fuente del formulario, tales como el tipo de fuente, la “ubicación geográfica más relevante a la fuente” y quizá un pagerank para la fuente.

5. Recolección de meta-datos sobre el formulario mismo, como el tipo de formulario, ubicación geográfica más relevante de los objetos recuperados, campos, que campos requieren ser rellenados obligatoriamente, y posiblemente un mapeo entre los campos y clases de propiedades asociacos a esos campos.

6. Cómo rankear un formulario, incluyendo:
-aproximando un valor de page-rank basado en los enlaces entrantes de la página del formulario,
-valores de las palabras claves, basados en la relevancia del texto de la página
-un valor ontológico, basado en la relevancia de la clase ontológica de la búsqueda, para una búsqueda asociada con la página,
-un valor para el formulario, basado en la habilidad del formulario para responder a una búsqueda, y/o;
-un valor para la ubicación, basado en la distancia entre la ubicación más relevante para la página asociada con el formulario, desde ubicaciones identificadas en la búsqueda.

Tipos de información recolectadas sobre los formularios

1. Campos en el formulario-para cada uno de los campos:
- el nombre del parámetro (usado para llamar algunos server-side scripts)
- el texto visible del campo que puede ser leido por el humano
- tipos de campos (text, select box, radio button, o checkbox), y;
- valores ejemplares del campo (ejemplo, opciones en un select box)

2. El tipo de formularo-Los tipos de objetos que se obtienen al completar el formulario, como libros, hoteles, restaurantes. Una fuente puede tener varios formularios, que pueden relacionarse con deferentes clases de objetos. Por ekemplo, los diarios a veces tienen formularios para mirar casas, trabajos y autos en venta.

3. Ubicación geográfica: la ubicación geográfica especifica de los objetos recupersdos utilizando el formulario. Un hote, l por ejemplo, puede estar asociado a una dirección.

4. Campos obligatorios: qué campos son obligatorios para submitir el formulario. Puede exisitir más de una combinación.

5. Los tipos de informaciones obtenidos luego de completar el formulario exitosamente. Son descriptos como “Search Ontology” (búsqueda ontológica).

6. Schema mapping: el mapeto entre campos de un formulario y la búsqueda ontológica. Por ejemplo, un campo podría requerir el código postal, o la ciudad o estado.

7. Palabras clave adicionales: pueden ser palabras adicionales que describem el formulario.

Conclusión

Hay un núnmero de estrategias usadas en este documento para entregarle resultados a un usuario que busca en una gran base de datos. En general, estas estrategias intentan entender la fuente de la información, los formularios utilizados y cómo funcionan, información asociada con cada campo de cada formulario, contenido que puede ser recuperado ejecutando los formularios, cómo rankear la información que devuelve el formulario, y la ubicación asociada con la información, de ser necesario.

Si tienes interés en como se puede indexar la “web invisible”, esta patente muestra algunas estrategias para lograr ese objetivo. El coinventor, Dr. Halevy, describe en un paper que ha escrito llamado “Why Your Data Won’t Mix”, algunos de los problemas que impiden indexar tal variedad de información, organizada en diferentes maneras, basadas en reglas de negocio que no anticipan la necesidad de indexar de los buscadores.

En dicho documento, describe algunas de las estrategias implementadas para crear exitosamente www.everyclassified.com, que agrega contenido de miles de fuentes diferentes y de más de 5 mil mapeos semánticos de formularios web, en categorias comúnes de anuncios clasificados. Su empresa, Transformic Inc., que fue adquirida por Google probablemente en Septiembre de 2005, fue la creadora de everyclassified.com.

Traducción autorizada por Bill Slawski para OJObuscador.
Versión original en inglés: Google Diving into Indexing the Deep Web

17 de Octubre de 2006

Tienes intéres en conocer los aspectos técnicos del funcionamiento de un buscador? Pues hoy he dado con una presentación powerpoint que da algunas ideas sobre el network que opera tras Ask.com

La presentación forma parte de una conferencia que ha tenido lugar del 29 de mayo al 1 de Junio en Hong Kong, durante la Primer Conferencia
Internacional sobre Sistemas Escalables de Informació (Infoscale).

Mirando los temas que se han tratado en la sección técnica del programa, parece que los ponentes involucrados han entregado detalles interesantes sobre el funcionamiento de un sistema de información a gran escala.

El ponente principal fue Tao Yang, quien es Chief Scientist y Senior Vice President de Ask.com. Su presentación fue sobre Búsqueda en Internet a Gran Escala, en Ask.com, y es se lo conoce como co-intentor del algoritmo de búsqueda Expertrank (Teoma).

Su presentación va desde una introducción de la empresa y sus productos, el sistema Expertrank, y los desafios que enfrenta Ask para construir un sistema de información escalable. La descripción del Expertrank es interesante para entender el sistema de ranking que tiene Ask.

Traducción autorizada por Bill Slawski para OJObuscador
Versión original en inglés: Infrastructure and Expertrank at Ask.com

Páginas: 1 2 >>