Como crear y configurar los robots.txt

Como crear y configurar los robots.txt
Imprimir este artículo

Si desconoces para qué sirve el fichero robots.txt te lo voy a explicar a groso modo, El robots.txt es un archivo de texto que dicta unas recomendaciones para que todos los crawlers y robots en buscadores analicen los contenidos Web.

Un crawler es un robot de una (Empresa, buscadores) que acceden a los archivos de nuestras páginas web para buscar información, para luego poder añadirlas en los buscadores. También son llamados arañas, spiders, bots o indexadores…

Por ejemplo uno de los más famosos es, Googlebot que es el nombre del crawler del buscador más usado en todo el mundo en la actualidad, Google.

También existen otros como:

  • Googlebot-Image, robot indexador de imagenes del buscador de Google.
  • Googlebot-News, robot indexador de noticias para Google News.
  • Bingbot, crawler de indexación del buscador Bing
  • Mediapartners-Google, que es el crawler que se encarga de revisar los anuncios de Google Adsense.
  • Slurp, crawler de indexación del antiguo buscador Yahoo!
  • Scooter, del clásico buscador Altavista.

Estos son algunos pero existen muchísimos mas. Si establecemos un control en nuestro robots.txt, podremos conseguir una serie de beneficios:

  • Impedir acceso a robots determinados: Puede parecer contradictorio, pero algunos crawlers no son nada beneficiosos. Algunos robots no son de buscadores, e incluso algunos robots no se llevan bien entre ellos XD.
  • Reducir la sobrecarga del servidor: Podrás controlar el flujo de algunos robots. Algunos de ellos son una verdadera amenaza para nuestro servidor ya que mandan muchas peticiones y saturan nuestro servidor.
  • Prohibir zonas: Nos puede interesar tener disponible una zona en nuestra web, que sea accesible para algunos, pero que no aparezca en buscadores y de este modo esconderla a los usuarios que no tengan que verla.
  • Eliminar contenido duplicado: Uno de los casos más importantes, que casi siempre es olvidado por los webmasters. Es eliminar la duplicidad de contenido, los buscadores eso lo puntuaran, y ara que aumentemos el flujo de visitas a nuestra Web.
  • Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots y ayudarlos a indexar nuestras páginas, artículos, noticias etc…

Creación del fichero robots.txt

¿Y entonces, que hay que hacer? Es muy sencillo.

Sólo tenemos que crear un fichero de texto robots.txt y comenzar a escribir en él. Partiré del siguiente ejemplo donde permitimos la entrada a todos los crawlers.

User-agent: *
Disallow:
En User-agent debemos introducir el nombre del robot, y a continuación las rutas donde queremos prohibir que acceda este robot. Vamos a mostrar algunos ejemplos:

  • Disallow: / prohibe la entrada a todo la Web.
  • Disallow: /foro/ prohibe la entrada a los documentos del directorio de nuestro foro. Tambien podemos anular del mismo modo la entrada a un directorio ( carpeta ) para que no puedan ver sus contenidos.
  • Disallow: permite la entrada a todo el sitio.

En algunos casos suele utilizarse la palabra Allow en vez de disallow. Pero por definición es correcta, es conveniente no utilizar esta palabra ya que algunos crawlers no entienden la palabra Allow.

Podemos crear varios Disallow bajo un mismo User-agent, pero no podemos utilizar varios User-agent encima de un Disallow. Veamos un ejemplo:

# Crawler de Bing
User-agent: bingbot
Disallow: /links.html
Disallow: /private/
Disallow: /photos/
Este código impide al crawler del buscador de Bing (Microsoft) acceder a la página links.html, y las carpetas private y photos (y todo su contenido) de nuestro sitio.

Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el crawler.

Opciones avanzadas: Comodines

Es posible ir acumulando reglas para distintos crawlers, formando un robots.txt más largo y completo. Cada vez que escribamos un User-agent deberemos dejar una linea en blanco de separación. Además, existe una ligera adaptación que permiten usar comodines ($ y *) en las rutas en algunos crawlers (sólo Googlebot y Slurp):

User-agent: Slurp
Disallow: /*.js$
Disallow: /2006/*
Disallow: /2007/*
Disallow: /articulos/*/pagina/*
Se está indicando al robot de Yahoo, que no indexe los ficheros que terminen en .js (javascript), direcciones que empiecen por 2007 o 2006 (fechas), ni artículos con la palabra pagina (paginado de comentarios). Estos casos pertenecen a la idea de no indexar contenido duplicado.

En la mayoría de los blogs, puedes acceder a un mismo artículo por las direcciones:

  • blog.com/articulo/titulo, la dirección principal.
  • blog.com/2007/04/, el archivo del mes.
  • blog.com/articulo/titulo/feed, feed RSS del artículo.
  • blog.com/articulo/titulo/pagina/2, pagina 2 de comentarios.

En este caso todo es contenido duplicado, una de las razones más importantes de penalización para un buscador, a no ser, que te las ingenies para que sólo sea accesible desde una dirección. A la hora de ver los resultados te asombrarás lo bien que estarás quedando ante los ojos de Google, por ejemplo.

Hay que tener mucho cuidado con usar cosas como Disallow: /pagina o Disallow: /*pagina, puesto que en lugar de bloquear lo que queríamos, terminen bloqueando direcciones como /paginas-para-amigos/ o /decorar-mi-pagina

Reducir la frecuencia del rastreo

Si nos ponemos a revisar las estadísticas, también puedes observar que a veces algunos crawlers no paran de revisar nuestro sitio, y no paramos de recibir peticiones a nuestro servidor. Existe una manera de tranquilizar a los robots:

User-agent: noxtrumbot
Crawl-delay: 30

De este modo le decimos al robot de noxtrum que tiene que esperar 30 segundos entre cada petición. Crawl-delay puede que no lo soporte todos los crawlers así que ojo. Bing y Google si lo soportan sin ningún problema.

El Sitemap muy importante

Es importante incluir un mapa del sitio en nuestro robots.txt de la siguiente forma:

Sitemap: http://www.tuweb.com/sitemap.xml

En RobotsTXT.org podrás encontrar documentación oficial si quieres profundizar y en esta búsqueda de Google encontrarás muchos robots.txt de ejemplo, incluso robots.txt optimizados para tu web. Tambien puede serte de ayuda este validador de robots.txt.

Tambien deberemos echar mano al fichero .htaccess, pero eso ya es otra historia…

Espero que con este artículo tengáis más claro cómo funciona los robots y los crawlers.

 

  Article "tagged" as:
  Categories:
Ver más artículos

Sobre el artículo Autor

blizmarketing

Ver más artículos