facebook
twitter
feed
OJO
artículo de Tomy Lorsch publicado el 28 de Enero de 2007...

Mientras, sorprendentemente, la aparente desactivación del “Google Bombing” no aparece como lo más buscado ni lo más escrito en Technorati, pese a estar despertando todo tipo de pasiones, he aquí una recopilación de las teorías que se están barajando, en cuanto cómo funcionaría este nuevo sistema de análisis de enlaces de Google:

  • De la patente de Google “Indexación en sistemas de recuperación de la información basada en frases relacionadas“, sugerido por Bill Slawski:
    [0153] Este enfoque tiene el beneficio de prevenir por completo ciertos tipos de manipulación de páginas web, con el objetivo de alterar los resultados para una búsqueda. Los buscadores usan un algoritmo de ranking que se basa en el número de enlaces que apuntan a un documento dado, y para rankear dicho documento es posible “bombardearlo” mediante la creación artificial de una gran cantidad de páginas con las palabras seleccionadas que luego enlazan al documento en cuestión. Como resultado, cuando se busca ese texto, la página bombardeada aparece, aún cuando de hecho la página tiene poco o nada que ver con el texto de los enlaces. Al importar el “bit vector” relacionado del documento en cuestión URL1 en la frase A, el “bit vector” de la frase relacionada al documento URL0 elimina la confianza en el sistema de búsqueda, pero solamente en la relación entre frase A en la URL0 apuntando a la URL1, como un indicador del significado, o URL1 al texto de la frase.

  • Google Blogoscoped dice:
    Parte de la respuesta puede encontrarse en algún análisis de redes. Me puedo imaginar que los Googlebombs tienen algún criterio en común, como que siempre utilizan el mismo texto en los enlaces (cosa que también comparten con algunas no-bombas), pero también se perciben como “puentes” de redes que sino estarían desconectadas. Con qué razón podrían un alto número de redes (vecindarios, comunidades) que no están estrechamente conectadas con una otra red mediante enlaces generales, de repente aparecen relacionados con su red opuesta? Para usar el ejemplo “failure”: por qué la red websites de los demócratas norteamericanos irían a enlazar todos juntos contra su red opuesta, la de los repúblicanos?

  • También le he preguntado a José Ramón Pérez Agüera de la Univesidad Complutense y que será ponente en el Congreso OJObuscador 2.0 sobre temas de IR open-source para SEOs:
    Tomy Lorsch: ¿Tu crees que ahora “re-analizan” los millones de enlaces que tienen indexados en busca de bombas? ¿O es que manualmente ponen una palabra, tipo “miserable failure” para que el sistema analice si para esa palabra hay enlaces bomba?
    José Ramón Pérez Agüera: Re-analizar lo enlaces no creo, eso es muy costoso. Yo, desde mi “ignorancia” creo que han podido implementar una serie de heurísticas para que a partir de todos los casos de bombings que han tenido hasta ahora puedan intentar preveer cuando se lo están haciendo. Esto querría decir que el bombing como se ha hecho hasta ahora podría funcionar peor, pero que en el momento en que se cambia la forma de hacer bombing se lo van a volver a tragar de lleno.
    Tomy Lorsch: Yo pienso lo mismo. Entonces, ¿es una decisión “editorial” (manual) seleccionar que palabras quieren “controlar” como si fuesen semillas (seeds) para analizar si se tratan de bombas? ¿Hay una decisión editorial y otra algoritmica?
    José Ramón Pérez Agüera: Supongo que será un algoritmo supervisado. Es decir se entrena el algoritmo sobre una serie de reglas o ejemplos establecidos manualmente y a partir de ahí el algoritmo aprende y funciona de forma automática. Es una aproximación típica de machine learning, pero no te puedo asegurar que sea eso lo que han hecho. El bombing ataca la base de su algoritmo de ranking, que es el PageRank, la única forma real de no tragarse un bombing bien hecho, es no usar algoritmos basados en análisis de grafos. No hay otra, ya que el bombing se aprovecha de la base matemática misma que hay detrás de PageRank. Si no han dejado de usar PageRank no pueden decir que el bombing ya no les afecta, creo yo.

Resumiendo
Google dice que no es 100% efectivo y que algunas “bombas” podrían no estar desactivadas. De hecho en numerosos blogs y foros aparecen palabras en otros idiomas que aún siguen vigentes como bombas. ¿Será qué el nuevo sistema de análisis no re-analiza los millones de billones de enlaces de la web en busca de bombas?

Cuando se dice que esto ha sido manual, no es que nadie de Google se meta en sus servidores a borrar manualmente nada, sino que ha sido un retoque manual del algoritmo para ciertas palabras y que dichas palabras sí fueron seleccionadas a mano. Vale, sí, que luego el análisis de si se trata efectivamente de una bomba o no, es algorítmico, no hay duda alguna. De otra manera no sería escalable y como bien sabemos, todo lo que no sea escalable no es rentable.

De todas formas y como me dice Ricardo Baeza-Yates de Yahoo! sobre esto: “No tengo opinión, no se puede adivinar que cambios se hicieron en el algoritmo.”

  1. el 28 de Enero de 2007, Pedro Perles ha dicho...

    Puede que José Ramón tenga razón, si no recuerdo mal cuando estudié Técnicas de Inteligancia Artificial en la Facultad recuerdo que elaboramos un algoritmo que era capaz de aprender gestos a través de imágenes… cuantas más imágenes tenía relacionadas con un gesto más se aprendia a diferenciarlo.

    Si Google usa el mismo sistema de aprendizaje algorítmico aplicado a las GoogleBombas, y si es verdad que no reanaliza los links indexados, lo lógico es que este se perfeccione conforme los webmaster elaboran las Bombas e incluso que detecte algunos de los cambios que elaboran los Webmaster para engañar a Google.

  2. el 29 de Enero de 2007, cuvuelos ha dicho...

    Yo creo que tendrá un sistema de alarmas, y luego de manera manual se comprobará si es Bombing. Veo muy arriesgado para un buscador que el sistema sea automático el control de un factor como Google Bombing. Dudo que sea 100% fiable.

  3. el 28 de Agosto de 2007, sesli chat ha dicho...

    very good. thanks

Rellena el formulario para poder comentar...

XHTML permitido:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>