hoy OJO mira los buscadores … mañana los buscadores mirarán OJO
OJO

21 de Abril de 2008

El robot de búsqueda de Microsoft, MSNBot, ha mejorado alguna de sus funcionalidades sobretodo en lo que respecta a la no-saturación de los servidores haciendo caso a la cabecera Crawl-delay que ayuda a definir el tiempo que ha de pasar entre la indexación de una y otra página.

En este caso, el robot va a seguir la directiva en el fichero robots.txt:

  • Crawl-delay: 5
    Espera 5 segundos entre página y página (lento)
  • Crawl-delay: 10
    Espera 10 segundos entre una y otra (muy lento)
28 de Marzo de 2008

Desde el panel de Google Webmaster Tools se ha añadido una nueva herramienta que facilitará la ayuda a los webmasters que quieran crear su fichero robots.txt.

La herramienta permite crear unos ficheros sencillos que permitan indexar o blouqear todo, o más complejos indicando los robots deseados y que permisos se les da a cada uno de ellos.

Generador de robots.txt

28 de Febrero de 2008

Desde ahora ya es posible centralizar todos los Sitemaps de un sitio web en otra URL diferente a la original gracias a una mejora en el protocolo y que ya aplican tanto Google, como Yahoo! o también Windows Live.

Hasta ahora no se había aplicado este sistema por la imposibilidad de comprobar que la información aplicada fuera cierta, pero se hará gracias a la posibilidad de indicar el Sitemap en el robots.txt.

22 de Febrero de 2008

Hay muchas formas de hacer enlaces que no se indexan y a los que no se les ha de añadir el microformato nofollow que los buscadores tratan cada uno a su manera.

Un sistema sencillo podría ser el de usar el propio Google como sistema:

http://www.google.com/url?sa=D&q=http://www.ojobuscador.com/

Otro sistema, menos sencillo pero igual de efectivo es el de crear un fichero programado que recoja un parámetro de la URL y filtrarlo por robots.txt.

Fichero:

/redireccion.php?url=http://www.ojobuscador.com/

robots.txt:

User-Agent: *
Disallow: /redireccion.php

De esta forma sencilla podremos poner enlaces que no tengan ningún tipo de alteración pero que no serán seguidos por los robots al estar filtrados por los robots.txt.

28 de Enero de 2008

Estaba revisando unos artículos de Google y Yahoo! en el que comentan el soporte al “X-Robots-Tag“, unas cabeceras que se pueden enviar desde el servidor sin necesidad de utilizar el robots.txt o los meta-tags.

En la actualidad podemos usar los robots.txt de una forma sencilla… se crea el fichero de texto robots.txt en la carpeta raiz del dominio o subdominio y se introducen datos para los robots de búsqueda:

User-Agent: *
Disallow: /administracion/
Allow: /administracion/fichero.html

Otra forma de conseguirlo es mediante los meta tags correspondientes a robots:

<meta name="all" content="noindex,follow,noarchive">

Y finalmente está este nuevo método X-Robots-Tag, que permitiría hacer cosas ya a nivel programación (por ejemplo en PHP):

header("X-Robots-Tag: noindex, follow", true);

o a nivel servidor web:

<FilesMatch "\.(pdf)$">
Header set X-Robots-Tag "index, noarchive"
</Files>

Diferentes formas para hacer lo mismo, cada una con sus ventajas y sus inconvenientes…

16 de Febrero de 2004

Cuando 10.000 ordenadores en paralelo se pasan el día visitando 3.000.000.000 de localizaciones Web, a veces los resultados son una hoja de cálculo con la lista de empleados y sus direcciones. A veces el listado incluye sus tarjetas de crédito o cualquier otro contenido altamente confidencial.

Existen muchos “hackers” que se han especializado en utilizar las herramientas legales de los buscadores como Google para encontrar secretos en cualquier resquicio que los haya. Basta con una mala configuración del fichero robot.txt que Google lee antes de visitar la web en concreto para que, sin ningún objetivo criminal, avance hasta nuestro mismísimo “centro de información confidencial” y, de forma completamente involuntaria, agregue a sus millones de páginas indexadas en ese momento, una que tiene información de lo más sensible.

Yahoo News, afirma que se han encontrado, buscando de forma adecuada en Google, listados de barcos de la marina de EE.UU. con sus localizaciones más secretas, listados de personas con sus cartillas de la seguridad social y detalles sobre sus ingresos anuales…

De repente, Internet es como un gigantesco palacio del pasado, con recovecos que pocos conocen y con muy pocos guardias que cuiden las joyas esparcidas por sus habitaciones. Cualquier experto, ladrón o simple curioso avanzado, podrá entrarnos hasta la cocina y llevarse el jamón que teníamos preparado para la cena. Aunque, el símil, dado que se trata de contenidos digitales, no sea quizás el más adecuado ya que, en la Web, aunque se lleven la información, siempre nos queda el original.

Esto último, que podría parecer una ventaja, es por el contrario, un grave inconveniente ya que, puede suceder, que a menos que aparezca en otro lugar público, la información sea mal utilizada sin que nunca lleguemos a saber que alguien nos la había robado.

A veces, un simple defecto de forma o un programa mal revisado, puede ser la puerta de un hacker hacia nuestra información más íntima. Las empresas de seguridad están creciendo por doquier. No nos extraña.

Por Baquia