facebook
twitter
feed

Qué comentan tus amigos

OJO
artículo de publicado el 9 de noviembre de 2009 y con 1 comentario...

Interesante artículo sobre la codificación y uso del fichero robots.txt, sobretodo ahora que se está preparando el lanzamiento de muchos IDN en dominios internacionales.

Codificación del robots.txt (codificación del fichero)

En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:

  • ANSI (Windows-1252)
  • Unicode
  • UTF-8

Codificación del robots.txt (codificación del contenido)

En la actualidad el fichero robots.txt da soporte a las siguientes codificaciones:

  • ANSI (Windows-1252): 8 bits
  • ASCII: 7 bits
  • ISO-8859-1: 8 bits
  • UTF-8: 8 bits

Teniendo en cuenta esto y que la especificación de Internet dice que las direcciones URL han de estar en US-ASCII, tenemos un problema con elementos latinos como la ñ o ç que se salen de la especificación, y ya no hablemos de los no-latinos, como π o я.

¿Qué hacer en estos casos?

Si tu dirección URL dispone de alguno de estos caracteres que se salen de los 128 del US-ASCII, no se pueden utilizar directamente, sino que hay que pasarse a la “Codificación Porcentual“. Este sistema convierte cada uno de los caracteres en un hexadecimal, de forma que el crecimiento es mayor.

De esta forma, tendríamos que:

http://www.domain.com/папка/

debería usar un robots.txt con el siguiente texto:

Disallow: /%D0%BF%D0%B0%D0%BF%D0%BA%D0%B0/

y no el siguiente

Disallow: /папка/

artículo de publicado el 28 de enero de 2009 y con ningún comentario...

Yandex ha comenzado a aplicar una técnica novedosa en el fichero de robots.txt, un sistema que Yahoo! Site Explorer ya permitía desde su panel pero no de forma sencilla para que los buscadores lo puedan interpretar.

En la ayuda para webmasters han incluido un capítulo en el que se detalla como poder corregir aquellos sitios en los que las direcciones web tienen parámetros variados, pudiendo sustituirlos por uno fijo. Este caso se da en muchos sitios de afiliados, por ejemplo, llevando a cabo muchos contenidos duplicados.

La idea es indicar en el fichero una línea que detecte la dirección / fichero que permite esos parámetros. Si tenemos alguna web con cosas como:

www.site.ext/some_dir/get.php?ref=site1&id=123
www.site.ext/some_dir/get.php?ref=site2&id=123
www.site.ext/some_dir/get.php?ref=site3&id=123

En este caso, vemos que el parámetro “ref” se repite, pero el resultado de la página sería el mismo, ya que la directiva la marca el “id”. De esta forma indicaríamos en nuestro fichero de robots:

Clean-param: ref /some_dir/get.php

Con esto le decimos que el “ref” de la URL “/some_dir/get.php” se puede repetir… o mejor dicho, que “no lo tenga en cuenta”.

Además, podemos llevar estos casos al extremo:

Clean-param: abc /forum/showthread.php

Este caso es el anterior: el parámetro “abc” no contará en cualquier URL que sea “/forum/showthread.php”.

Clean-param: sid&sort /forum/*.php

En este caso, no contarán ni el parámetro “sid” ni el parámetro “sort” en una URL que tenga el formato “/forum/*.php”.

Clean-param: someTrash&otherTrash

En este caso no contará, en cualquier URL del sitio, el parámetro “someTrash” ni el “otherTrash”.

Ahora, la cuestión es que esto sólo funciona en el motor de búsqueda Yandex… ¿lo comenzarán a aplicar el resto de buscadores y se convertirá en un estándar internacional?

artículo de publicado el 3 de junio de 2008 y con ningún comentario...

Google ha lanzado un artículo en el que hace un resumen de las directivas de los ficheros robots.txt además de algunas explicaciones sobre los posibles filtros a través de los meta-tags.

Entre algunos de los elementos están:

robots.txt

  • Disallow
  • Allow
  • $
  • *
  • Sitemaps

Meta-tags

  • NOINDEX
  • NOFOLLOW
  • NOSNIPPET
  • NOARCHIVE
  • NOODP

Otros de Google

Otros de Microsoft

  • Crawl-Delay

Otros de Yahoo!

  • Crawl-Delay
  • NOYDIR
  • Robots-nocontent

ACTUALIZACIÓN: Esta actualización de las directivas viene por un acuerdo entre “los grandes” como han hecho todos.

artículo de publicado el 21 de abril de 2008 y con 1 comentario...

El robot de búsqueda de Microsoft, MSNBot, ha mejorado alguna de sus funcionalidades sobretodo en lo que respecta a la no-saturación de los servidores haciendo caso a la cabecera Crawl-delay que ayuda a definir el tiempo que ha de pasar entre la indexación de una y otra página.

En este caso, el robot va a seguir la directiva en el fichero robots.txt:

  • Crawl-delay: 5
    Espera 5 segundos entre página y página (lento)
  • Crawl-delay: 10
    Espera 10 segundos entre una y otra (muy lento)
artículo de publicado el 28 de marzo de 2008 y con ningún comentario...

Desde el panel de Google Webmaster Tools se ha añadido una nueva herramienta que facilitará la ayuda a los webmasters que quieran crear su fichero robots.txt.

La herramienta permite crear unos ficheros sencillos que permitan indexar o blouqear todo, o más complejos indicando los robots deseados y que permisos se les da a cada uno de ellos.

Generador de robots.txt

artículo de publicado el 28 de febrero de 2008 y con ningún comentario...

Desde ahora ya es posible centralizar todos los Sitemaps de un sitio web en otra URL diferente a la original gracias a una mejora en el protocolo y que ya aplican tanto Google, como Yahoo! o también Windows Live. Hasta ahora no se había aplicado este sistema por la imposibilidad de comprobar que la información [...]

Continuar leyendo Sitemaps cross-domain

artículo de publicado el 22 de febrero de 2008 y con 5 comentarios...

Hay muchas formas de hacer enlaces que no se indexan y a los que no se les ha de añadir el microformato nofollow que los buscadores tratan cada uno a su manera. Un sistema sencillo podría ser el de usar el propio Google como sistema: http://www.google.com/url?sa=D&q=http://www.ojobuscador.com/ Otro sistema, menos sencillo pero igual de efectivo es [...]

Continuar leyendo Enlaces que no se indexan

artículo de publicado el 28 de enero de 2008 y con ningún comentario...

Estaba revisando unos artículos de Google y Yahoo! en el que comentan el soporte al “X-Robots-Tag“, unas cabeceras que se pueden enviar desde el servidor sin necesidad de utilizar el robots.txt o los meta-tags. En la actualidad podemos usar los robots.txt de una forma sencilla… se crea el fichero de texto robots.txt en la carpeta [...]

Continuar leyendo X-Robots-Tag

artículo de publicado el 16 de febrero de 2004 y con ningún comentario...

Cuando 10.000 ordenadores en paralelo se pasan el día visitando 3.000.000.000 de localizaciones Web, a veces los resultados son una hoja de cálculo con la lista de empleados y sus direcciones. A veces el listado incluye sus tarjetas de crédito o cualquier otro contenido altamente confidencial. Existen muchos “hackers” que se han especializado en utilizar [...]

Continuar leyendo Cuidado con su fichero robot.txt