Robots.txt: el protocolo de exclusión de robots

¿Qué es el protocolo de exclusión de robots y para qué sirve?

El protocolo lo que intenta regular es el uso de las arañas. Recordaros que las arañas son programas que van por Internet buscando información y llevándolo a una base datos.

Pues bien, a principios de los años noventa empezó a haber un problema en Internet con esas arañas pues había un montón de arañas navegando por Internet. Entonces se decidió que las arañas que eran legales, las que provenían desde buscadores o que estaban buscando información, pero no para hacer ningún mal a nadie, y que estaban pues simplemente navegando por Internet recabando información, se decidió que deberían seguir el protocolo de exclusión de robots.

Este protocolo implica que cuando una de estas arañas llega a nuestra página Web se compromete a buscar instrucciones especialmente creadas para ellas en una página que se llama robots.txt en nuestro sitio Web.

¿Qué hace una araña cuando llega a nuestro sitio Web?

Cualquier araña que llegue a nuestro sitio Web, lo primero que hace es buscar si tenemos creada esta página: robots.txt.

Si la encuentra, la lee, y si no la encuentra genera un error 404 en el servidor. En ese caso no pasaría nada y seguiría indexando pues entiende que no hay ninguna prohibición y que deseamos que indexe.

¿Cómo funciona exactamente este protocolo?

Entraremos en la página: robotstxt.org

En esta página podemos ver todas las instrucciones si clicamos donde pone: the robots.

Ahí podemos ver todas las instrucciones que pueden darse a robots. Aquí encontrarás más información, también si entras en la Wikipedia y buscas protocolode exclusión de robots encontrarás esta página que está muy bien creada, con muchos ejemplos de información que podemos dar a los robots. Veamos algunos.

Primer ejemplo: User agent*disallow quiere decir que no hay nada que esté prohibido, que permite que se visite todo.
Segundo ejemplo: User agent*disallow/ quiere decir que prohíbe a todos los agentes robots leer el contenido de nuestro sitio Web. En ese caso tendríamos contenido en el sitio Web que no aparecería en ningún buscador porque hemos prohibido el paso a las arañas.

Algunos ejemplos

Entramos en el sitio Web de nuestra Universidad, en la UVIC, y aquí escribimos /robots.txt y esto nos muestra un fichero aquí con la información. Cuando veas hashtags delante quiere decir que son comentarios, éstos sólo son comentarios, luego pone useragent* que vuelve a decir all a todos los agentes, crowl delay 10 que es la velocidad, aquello ves de 10 en diez, no vayas rápido y luego le dice en directorios disallow todo el directorio de includes, el de miscelánea, el de módulos, el de scripts, el de temas, etcétera y le va diciendo todo lo que no pueden indexar.
Entramos en mi sitio Web montsepenarroya.com y tecleamos detrás del puntocom, /robots.txt y aquí encontramos esta página, dónde pone user agent*, de nuevo quiere decir a todos los user agent crowl delay 60, es a esta velocidad indexad de 60 en 60, esto me lo crea automáticamente mi WordPress. Las páginas Web que utilizan un gestor de contenidos estándar tipo WordPress, Drupal, Joomla… normalmente estos gestores de contenidos crean automáticamente esta página no hace falta, por tanto, preocuparse por cómo se crea, de todas maneras comprueba que en tu sitio Web esté creada.
Entramos en Bookking, por ejemplo, y tecleamos robots.txt veremos una gran lista de sitemaps y luego más información. Fíjate que aquí se le incluye a los robots, a las arañas, donde encontrarán nuestros sitemap.

Esta, es otra forma de tener una indexación rápida; ya vimos en el vídeo dedicado a cómo indexarse rápidamente que debemos darnos de alta en Google webmasters e indicarle a Google webmasters dónde están nuestros sitemap. Ésta es otra forma de poder indicar a las arañas donde encontrarán nuestro sitemap para que puedan indexar rápidamente todo el contenido de nuestro sitio Web. Pero sigamos bajando, aquí tienen useragent psbot disallow todo o sea no quieren que este agente robot vea nada, este de aquí de Turnitinbot, tampoco quieren que vea nada el Npbot, tampoco quieren que vea nada. En cambio tenemos aquí hay Yandex direct que si quieren que vean. Observa cómo podemos poner el nombre de la araña o poner como veíamos antes el asterisco. Asterisco quiere decir que la información es para todas las arañas y cuando se pone un nombre de ‘la araña’ es para esa en concreto: tiene prohibido entrar en las diferentes zonas del sitio Web que se muestran.
Tripadvisor. Fíjate en el comentario que sale al principio decía: Hi there, if you are sniffing around this file, and you are not a robot, we’re looking to meet curious folks as yourself. Nos dice: si estás por aquí y éstas curioseando alrededor de este documento, y no eres un robot, nos interesas, envía tu currículum al email tal…fíjate que es una oferta de trabajo o sea que cuando termines este curso aquí tienes la primera oferta de trabajo. Ellos lo que entienden es que ninguna, ninguna persona que no sea un experto en SEO va a mirarse este fichero y por lo tanto si tú estás mirando este fichero es que sabes de qué va el SEO, y por lo tanto les interesas y te piden que les envíes tu currículo, tu currículo pues ya puedes hacerlo.

Nota: Lo que me gustaría ahora es que parases este vídeo un momento y te dedicases a entrar a unos cuantos sitios Web tecleando tras su dirección, tras su url/robots.txt y vayas viendo diferentes maneras de dar instrucciones a los robots.

¿Cómo crear este documento?

Hay dos formas de crear este documento:

Sin tener que hacer nada nuestro gestor de contenidos nos lo va a crear. Si tu Web está hecha con WordPress, Joomla, Drupal no te preocupes seguramente automáticamente lo ha creado y ya lo tienes colgado solo tienes que entrar en tu Web. Teclear la url/barra robots.txt y ver que te sale. Si no sale nada, si sale un error 404 es que el documento no está creado. Si sale una página en blanco puede ser que eso sea robots.txt pero que esté en blanco, no pasaría nada, quiere decir que no hay información para las arañas, pero no pasaría nada.
Sí, no, nos lo hace automático nuestro gestor de contenidos, lo podemos hacer nosotros mismos con cualquier editor de contenidos, serviría un blog de notas, serviría un Word, cualquier editor serviría. Entonces, crearíamos este documento, escribiríamos (es mejor copiarlo de alguna parte), el nombre del robot que no queremos que nos vea o pondremos user agent all* y qué parte no queremos que se vea. Si queremos que se vea toda la Web, yo creo que es mejor dejarlo en blanco en todo caso, sí, escribir que al sitemap lo va a encontrar en tal sitio, para que si alguna araña que no es Google, entra y no estamos indexados en su buscador pues lo encuentra rápido y lo indexe, pero yo creo que es lo único que haría.

Más información:

La encontrarás en robotstxt.org y la encontrarás también en Wikipedia.

Ayudas y demás cosas

Buscar este blog