Interesante artículo sobre la codificación y uso del fichero robots.txt, sobretodo ahora que se está preparando el lanzamiento de muchos IDN en dominios internacionales.
Codificación del robots.txt (codificación del fichero)
En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:
Codificación del robots.txt (codificación del contenido)
En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:
Teniendo en cuenta esto y que la especificación de Internet dice que las direcciones URL han de estar en US-ASCII, tenemos un problema con elementos latinos como la ñ o ç que se salen de la especificación, y ya no hablemos de los no-latinos, como π o я.
¿Qué hacer en estos casos?
Si tu dirección URL dispone de alguno de estos caracteres que se salen de los 128 del US-ASCII, no se pueden utilizar directamente, sino que hay que pasarse a la “Codificación Porcentual“. Este sistema convierte cada uno de los caracteres en un hexadecimal, de forma que el crecimiento es mayor.
De esta forma, tendríamos que:
http://www.domain.com/папка/
debería usar un robots.txt con el siguiente texto:
Disallow: /%D0%BF%D0%B0%D0%BF%D0%BA%D0%B0/
y no el siguiente
Disallow: /папка/
Yandex ha comenzado a aplicar una técnica novedosa en el fichero de robots.txt, un sistema que Yahoo! Site Explorer ya permitía desde su panel pero no de forma sencilla para que los buscadores lo puedan interpretar.
En la ayuda para webmasters han incluido un capítulo en el que se detalla como poder corregir aquellos sitios en los que las direcciones web tienen parámetros variados, pudiendo sustituirlos por uno fijo. Este caso se da en muchos sitios de afiliados, por ejemplo, llevando a cabo muchos contenidos duplicados.
La idea es indicar en el fichero una línea que detecte la dirección / fichero que permite esos parámetros. Si tenemos alguna web con cosas como:
www.site.ext/some_dir/get.php?ref=site1&id=123
www.site.ext/some_dir/get.php?ref=site2&id=123
www.site.ext/some_dir/get.php?ref=site3&id=123
En este caso, vemos que el parámetro “ref” se repite, pero el resultado de la página sería el mismo, ya que la directiva la marca el “id”. De esta forma indicaríamos en nuestro fichero de robots:
Clean-param: ref /some_dir/get.php
Con esto le decimos que el “ref” de la URL “/some_dir/get.php” se puede repetir… o mejor dicho, que “no lo tenga en cuenta”.
Además, podemos llevar estos casos al extremo:
Clean-param: abc /forum/showthread.php
Este caso es el anterior: el parámetro “abc” no contará en cualquier URL que sea “/forum/showthread.php”.
Clean-param: sid&sort /forum/*.php
En este caso, no contarán ni el parámetro “sid” ni el parámetro “sort” en una URL que tenga el formato “/forum/*.php”.
Clean-param: someTrash&otherTrash
En este caso no contará, en cualquier URL del sitio, el parámetro “someTrash” ni el “otherTrash”.
Ahora, la cuestión es que esto sólo funciona en el motor de búsqueda Yandex… ¿lo comenzarán a aplicar el resto de buscadores y se convertirá en un estándar internacional?
Google ha lanzado un artículo en el que hace un resumen de las directivas de los ficheros robots.txt además de algunas explicaciones sobre los posibles filtros a través de los meta-tags.
Entre algunos de los elementos están:
robots.txt
Meta-tags
Otros de Google
Otros de Microsoft
Otros de Yahoo!
ACTUALIZACIÓN: Esta actualización de las directivas viene por un acuerdo entre “los grandes” como han hecho todos.
El robot de búsqueda de Microsoft, MSNBot, ha mejorado alguna de sus funcionalidades sobretodo en lo que respecta a la no-saturación de los servidores haciendo caso a la cabecera Crawl-delay que ayuda a definir el tiempo que ha de pasar entre la indexación de una y otra página.
En este caso, el robot va a seguir la directiva en el fichero robots.txt:
Desde el panel de Google Webmaster Tools se ha añadido una nueva herramienta que facilitará la ayuda a los webmasters que quieran crear su fichero robots.txt.
La herramienta permite crear unos ficheros sencillos que permitan indexar o blouqear todo, o más complejos indicando los robots deseados y que permisos se les da a cada uno de ellos.

Desde ahora ya es posible centralizar todos los Sitemaps de un sitio web en otra URL diferente a la original gracias a una mejora en el protocolo y que ya aplican tanto Google, como Yahoo! o también Windows Live. Hasta ahora no se había aplicado este sistema por la imposibilidad de comprobar que la información [...]
Continuar leyendo Sitemaps cross-domain
Hay muchas formas de hacer enlaces que no se indexan y a los que no se les ha de añadir el microformato nofollow que los buscadores tratan cada uno a su manera. Un sistema sencillo podría ser el de usar el propio Google como sistema: http://www.google.com/url?sa=D&q=http://www.ojobuscador.com/ Otro sistema, menos sencillo pero igual de efectivo es [...]
Continuar leyendo Enlaces que no se indexan
Estaba revisando unos artículos de Google y Yahoo! en el que comentan el soporte al “X-Robots-Tag“, unas cabeceras que se pueden enviar desde el servidor sin necesidad de utilizar el robots.txt o los meta-tags. En la actualidad podemos usar los robots.txt de una forma sencilla… se crea el fichero de texto robots.txt en la carpeta [...]
Continuar leyendo X-Robots-Tag
Cuando 10.000 ordenadores en paralelo se pasan el día visitando 3.000.000.000 de localizaciones Web, a veces los resultados son una hoja de cálculo con la lista de empleados y sus direcciones. A veces el listado incluye sus tarjetas de crédito o cualquier otro contenido altamente confidencial. Existen muchos “hackers” que se han especializado en utilizar [...]
Continuar leyendo Cuidado con su fichero robot.txt