Es necesario editar el archivo robots.txt de tu sitio web. Si aún no lo has hecho te diremos que es muy sencillo si ya tienes instalado el plugin WordPress SEO by Yoast y muy necesario. Por un lado, las arañas de los motores de búsqueda dedican un tiempo determinado al rastreo de tu web. Si facilitas el trabajo a los motores de búsqueda indicando qué páginas deben rastrear y cuáles no, éstos te lo agradecerán con un mejor posicionamiento. Por otro lado, hay algunas páginas que no se pueden rastrear (páginas de registro, carrito de compra, etc) que también debes bloquear su rastreo. A continuación te vamos a contar cómo funciona el archivo robots.txt y cómo puedes editarlo.
El archivo robots.txt (también llamado protocolo para la exclusión de los robots), es un pequeño archivo de texto con extensión .txt, que se crea y se sube a un sitio web para decirle a los motores de búsqueda qué contenidos pueden rastrear y cuáles no.
Es un archivo público, es decir, cualquier usuario puede verlo añadiendo a la url de la web: /robots.txt. Aquí te mostramos un ejemplo:
Se utiliza este archivo para indicar a los rastreadores o arañas de los buscadores qué apartado no deben entrar a rastrear e indexar de una página web. En él, puedes especificar de manera sencilla, los directorios, subdirectorios, URLs o archivos de tu web que no deberían ser rastreados o indexados por los buscadores.
Este archivo también se utiliza para para indicarle a Google (y al resto de buscadores) cuál es el sitemap de la web, incluyendo su URL en el archivo.
El principal motivo por el que debes editar el archivo robots.txt es el «presupuesto de rastreo» que el Googlebot (el bot del motor de búsqueda de Google) otorga a una web. Si tienes muchas páginas, a Googlebot le llevará mas tiempo rastrearlas, lo que tendrá efectos negativos en tu ranking. Básicamente, el presupuesto de rastreo es «el número de URLs que el Googlebot puede y quiere rastrear». Necesitas ayudar al Googlebot a rastrear las páginas más valiosas de tu web en el menor tiempo de rastreo posible.
Algunos CMS como WordPress generan este archivo automáticamente y es posible que incluyan como indexables partes que no deberían ser rastreadas, y al contrato. Por lo tanto, es muy importante que aprendas a editar el archivo robots.txt de tu web.
También es posible que los motores de búsqueda no puedan rastrear ciertas partes de tu web por estar encriptadas como las secciones de registro, carrito de compra, pasarela de pago, etc. Si tu web está conectada con Google Search Console, Google te enviará un email informándote de los posibles errores de cobertura de la web. Debes editar el archivo robots.txt e introducir comandos disallow (no rastrear) de las url que estén generando para solucionar estos problemas de cobertura. ,
Así mismo, como afirma Neil Patel en este post, (uno de los profesionales SEO más reconocidos en el mundo), el archivo robots.txt es un método muy sencillo para mejorar el SEO de una Web y que muchos desaprovechan por desconocimiento.
Ahora que ya sabes porqué es importante editar este archivo, vamos a ver cómo editarlo fácilmente.
Introduce la url de tu web con la extensión /robots.txt en tu navegador. Por ejemplo:
Pueden pasar varias cosas:
Si encuentras un archivo, lo más probable es que se haya creado automáticamente (suele pasar si trabajas con WordPress). Si encuentras un archivo vacío o un error 404, necesitarás solucionarlo.
Si utilizas WordPress puedes editar el archivo robots.txt desde plugin SEO by Yoast, sin necesidad de abrir un documento en texto plano, escribir código y subirlo a tu servidor.
Dentro del dashboard de WordPress debes ir a SEO – Herramientas – Herramientas Yoast SEO. Hacer clic en «Editor de Archivos». Ahí aparecerá un recuadro en blanco para que añadas el código del archivo robots.txt, que se guardará desde ahí sin necesidad de acceder a tu servidor de hosting.
En este tutorial de Google puedes aprender mucho más sobre la edición de archivos robots.txt y todos los comandos que podrías utilizar. Los más comunes son: Allow: (permitir que se rastree) Disallow: (no permitir rastreo), Noindex: (no indexar) Nofollow: (no seguir leyendo)
También puedes copiar y pegar ésta que es la más sencilla:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Este es un ejemplo de un archivo robots.txt de una tienda online. Como ves, no se permite el rastreo de algunos apartados como: pedidos, cesta de la compra, favoritos, datos personales, registro… Son apartados a los que no pueden tener acceso los motores de búsqueda, evitando errores de cobertura
User-agent: * Disallow: /login Disallow: /mis_pedidos.php Disallow: /mis_favoritos.php Disallow: /datos_personales.php Disallow: /cambiar_password.php Disallow: /cesta.php Disallow: /guardar_favoritos.php Disallow: /entra_registrate.php Disallow: /*?i= Disallow: /resp_popup_footer.php Disallow: /ajax/ Disallow: /usuario/*
La herramienta Probador de robots.txt muestra si el archivo robots.txt bloquea el acceso de los rastreadores web de Google a URL concretas del sitio web. Por ejemplo, puedes utilizar esta herramienta para probar si el rastreador Googlebot-Image puede rastrear la URL de una imagen que quieres bloquear de la Búsqueda de Imágenes de Google.
Puedes enviar una URL al Probador de robots.txt. La herramienta funciona igual que funcionaría el robot de Google para revisar tu archivo robots.txt
y verifica que la URL se haya bloqueado correctamente.
Las extensiones de Google Chrome son una herramienta muy útil para personalizar nuestra experiencia de…
ChatGPT ha llegado para quedarse y aunque la herramienta de IA (inteligencia artificial) aún tiene…
Tanto si tienes un negocio físico como online, necesitas aprender a posicionarte en Internet y…
Si utilizas Google Analytics para medir el tráfico de tu web, necesitas pasar a Google…
ChatGPT es un chat de inteligencia artificial que se puede integrar en múltiples plataformas…
El escritorio virtual es un sistema informático que no se ejecuta en el ordenador, PC,…
Ver comentarios
Visita este foro de programación para obtener ayuda