Desarrollo web

¿Cómo aprovechar el robots.txt para mejorar tu SEO?

Usar bien el archivo robots.txt es fundamental para tener tu web correctamente indexada en las bases de datos de los motores de búsqueda ya que este archivo te permite tener cierto control sobre qué contenidos pueden o no ser indexados. Pero ¿qué es?, ¿cómo crearlo?, ¿dónde se coloca? Te damos algunas pistas sobre este archivo.

¿Qué es el robots.txt y para qué sirve?

Para encontrar nuevas webs o actualizar información de las que ya existentes en sus bases de datos, los motores de búsqueda utilizan mecanismos (softwares) conocidos como Robots, Spiders o Crawlers que barren constantemente internet buscando nuevas páginas o revisitando otras para actualizar la información.

Para ayudar a los motores a indexar la información de tu web puedes (y debes) utilizar dos pequeños archivos en formato texto para orientarlos y ayudarles a obtener la información con más facilidad; el robots.txt y el Sitemap.

El robots.txt es un archivo de texto plano con algunas reglas que funciona como un filtro para los robots y hace que puedas controlar los permisos de acceso a determinadas páginas o carpetas de tu web. Es el primer archivo que consultará el robot y todos los robots acreditados respetan las directivas del archivo robots.txt.

El contenido del archivo robots.txt

La configuración del robots.txt es importante porque:

  • Ayuda a indexar mejor tu web el contenido de tu página con lo que mejora tu posicionamiento.
  • Impide el acceso a determinados robots además de limitar la información que quieres mostrar, de forma que los datos personales privados no puedan ser encontrados.
  • Reducen la sobrecarga del servidor. Algunos robots se dedican a hacer muchas peticiones que pueden saturar el servidor y provocar que la navegación por la página sea más lenta.

Para orientar los robots, existen algunas reglas que debes seguir. Los comandos principales para un archivo robots.txt simple utiliza varias reglas:

  • User-agent: identifica para qué mecanismo de rastreo son las instrucciones que se incluyen
  • Disallow: informa qué páginas no deben ser analizadas por los rastreadores.
  • Allow: informa qué páginas deben ser analizadas por los rastreadores.
  • Sitemap: muestra la localización del sitemap de tu web, importante para que los rastreadores encuentren las nuevas entradas.
  • Crawl-delay: indica al robot el número de segundos que debe esperar entre cada página. Es muy útil para reducir la carga del servidor. El tiempo recomendado es de 5-10 segundos, desde dinahosting siempre recomendamos 10 segundos.

También puedes utilizar comodines:

  • Asterisco (*): vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por «directorio» serían «/directorio*/»
  • Dólar ($): indica el final de un URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .inc se utilizaría «/.inc$».

Funcionamiento

Ejemplos:

Un ejemplo de robots.txt básico:

User-Agent: *
Disallow: /nombrecarpeta/
Sitemap: http://tudominio.com/sitemap.xml

Ejemplo de un archivo robots.txt más complejo:

1. User-agent: *
2. Disallow: /admin/
3. Disallow: /cgi-bin/
4. Disallow: /imagenes/
5. Disallow: /tecnologia/
6. Allow: /tecnologia/computadoras
7. Crawl-delay: 10
8. User-agent: googlebot
9. Disallow: /categorias/
10. Disallow: /plantillas/
11. Sitemap: http://www.tudominio.com/sitemap.xml

Explicaciones:

  • Línea 1: indica que las líneas posteriores (líneas 3 a 6) serán indexadas y seguidas por todos los robots de todos los motores de búsqueda.
  • Líneas 2 a 5: indican qué carpetas no serán indexadas para todos los robots
  • Línea 6: indica que aunque la carpeta «tecnologia» no debe ser indexada, la subcarpeta computadoras sí puede ser leída
  • Línea 7: indica que los robots tienen que esperar 10 segundos entre cada acceso
  • Línea 8: indica que a partir de esa línea las reglas solo son para el Googlebot
  • Líneas 9 y 10: carpetas que solo Googlebot no puede visitar
  • Línea 10: especifica la carpeta donde se encuentra el sitemap y el nombre del archivo

Incluir comentarios en el robots.txt

Si eres una persona metódica y quieres incluir comentarios en tu robots solo tienes que usar (#) de esta forma:

#La regla servirá para todos los robots
User-agent: *
#Mi archivo de contraseñas ultra-secretas que nadie puede saber
Disallow:/ultrasecreto.html
#Bloqueando mi carpeta llena de fotos ;p
Disallow:/micarpeta/

Cosas que debes tener en cuenta

  • Debe existir solo un robots.txt para cada web y este debe estar en el directorio raíz
  • El robots.txt no es una forma de seguridad
  • Robots.txt no hace que una página sea eliminada del índice de los motores de búsqueda si ya ha sido indexada
  • Los robots de búsqueda solo siguen lo que has especificado en tu robots.txt
  • Los robots son sensibles a las mayúsculas y minúsculas
  • La información de tu robots.txt es pública y cualquiera puede acceder a ella tecleandohttp://tudominio.com/robots.txt

Importante: Si utilizas una sección específica para un robot, éste ignorará los comandos de la sección global. Ah, y cuidado con dejarte el robots.txt de desarrollo al pasarlo a producción puedes perjudicar el posicionamiento de TODO tu contenido.

Recuerda: si ayudas a los motores de búsqueda, contribuyes a una mejor indexación del contenido de tu página, y en consecuencia, a traer más visitas a tu web.

Ejemplo explicado para robots.txt perfecto para WordPress

User-agent: *                Indicamos que estas reglas son aplicables a todos los buscadores
Disallow: /cgi-bin/         Indicamos que no indexen programas que pudiese haber en cgi-bin
Disallow: /wp-admin/    Indicamos que no indexen la carpeta de administración
Disallow: /wp-includes/   Indicamos que no indexen las librerías que utiliza WordPress
Disallow: /wp-content/plugins/   Indicamos que no indexen los plugins, que pueden contener html en ellos
Disallow: /wp-content/cache/      Indicamos que no indexen la caché
Disallow: /wp-content/themes/   Indicamos que no indexen los temas instalados
Disallow: /trackback/            Indicamos que no indexen los trackback (avisos entre blogs)
Disallow: /feed/                    Indicamos que no indexen el feed – listado de artículos
Disallow: /comments/           Indicamos que no indexen los comentarios
Disallow: /category/*/*   Indicamos que no indexen las subcategorias (si es que están bajo “category”)
Disallow: */trackback/          Indicamos que no indexen subdirectorios de trackback
Disallow: */feed/                  Indicamos que no indexen subdirectorios de feed
Disallow: */comments/          Indicamos que no indexen subdirectorios de comentarios
Disallow: /*?                         Indicamos que no indexe búsquedas, que incluyen el símbolo ?
Allow: /wp-content/uploads/ Idicamos que indexe todos los ficheros que hemos subido al blog: imágenes, vídeos, etc.

El ejemplo perfecto para WordPress

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Disallow: /humans.txt
Disallow: /cgi-bin
Crawl-delay: 20
User-agent: Yandex
Disallow: /

Conclusión

Los motores de búsqueda utilizan robots para recorrer toda la web, indexando todo o casi todo el contenido disponible. El robots.txt funciona principalmente con reglas de negación ya que por norma todas las páginas están accesibles a los robots.

El Protocolo de Exclusión de Robots es utilizado en muchas tareas de SEO ya que evita la duplicación de contenido, permite o no la indexación de contenido de los webspiders, ocultar contenido y otras tareas.

Fíjate si es útil un robots.txt que hasta en la web de la Casa Real han personalizado su robots.txt para ayudar a los buscadores 😉

User-agent: *
Disallow:
Disallow: /_*/
Disallow: /ES/FamiliaReal/Urdangarin/
Disallow: /CA/FamiliaReal/Urdangarin/
Disallow: /EU/FamiliaReal/Urdangarin/
Disallow: /GL/FamiliaReal/Urdangarin/
Disallow: /VA/FamiliaReal/Urdangarin/
Disallow: /EN/FamiliaReal/Urdangarin/
Sitemap: http://www.casareal.es/sitemap.xml

Vía | Dinahosting & Ramonyago

,
Entrada anterior
Error con PDF adjuntos (corruptos) en Thunderbird
Entrada siguiente
Windows Update no puede buscar actualizaciones porque el servicio no se está ejecutando

No se han encontrado resultados.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Rellena este campo
Rellena este campo
Por favor, introduce una dirección de correo electrónico válida.
Necesita estar de acuerdo con los términos para continuar

Menú