¿Qué es el crawl budget y cómo optimizarlo en tu web?

10min

Abordamos un asunto importante en el mundo del posicionamiento SEO que aplica a cualquier sitio web, desde los pequeños a los más grandes. Se trata del crawl budget, un aspecto que puede afectar a la visibilidad de tu página web en buscadores y cómo éstos indexan sus páginas web.

Índice

¿Qué es el crawl budget?

El crawl budget es sencillamente la tasa de páginas de un sitio que un motor de búsqueda está dispuesto a rastrear en un periodo de tiempo. En español, el término vendría a significar presupuesto de rastreo en español. Este presupuesto es directamente proporcional a la autoridad del dominio del sitio web, siendo mayor si la página es más importante, pero también puede estar afectado por la frecuencia de actualización de su contenido.

Importancia del crawl budget en SEO

En el mundo del SEO es esencial entender el crawl budget porque de él depende mucho cómo los buscadores se van a relacionar con el sitio web. Vamos a ver los puntos más importantes para conocer su relevancia.

Cómo influye el crawl budget en la visibilidad de tu sitio web

El crawl budget influye directamente en la visibilidad de los sitios web ya que es necesario que el buscador rastree las páginas para poder añadirlas a su base de datos. Mayor relevancia de un sitio web implica mayor frecuencia de rastreo y también más posibilidades de aparecer en las búsquedas.

Impacto del crawl budget en la indexación de contenido

Si tienes un crawl budget bajo es posible que no todas las páginas de tu sitio se rastreen, lo que afectará a la indexación. A medida que el crawl budget aumenta el buscador puede dedicar más tiempo a rastrear el sitio, por lo que habrá mayor probabilidad que indexe su contenido o revisen las actualizaciones de las páginas.

¿Cómo funciona el crawl budget?

Los algoritmos con los que trabajan los buscadores no están publicados, por lo que no es posible ofrecer datos sobre su funcionamiento a ciencia cierta. Sin embargo, por las charlas impartidas por el equipo de Google y artículos que vienen publicando, podemos deducir en líneas generales cómo funciona. Básicamente, como hemos dicho, es un indicador del tiempo que un buscador puede pasar recorriendo un sitio web. Por tanto, un crawl budget alto es siempre más deseable que uno bajo, dado que es ideal que el buscador pueda tomarse el necesario tiempo para recorrer el sitio y publicar su contenido en forma de enlaces en sus páginas de resultados.

Factores que influyen en el crawl budget

Los aspectos peso tienen en el presupuesto de rastreo son los siguientes.

  • Autoridad del sitio web: Los sitios con mayor autoridad generalmente tendrán asignado un crawl budget más alto.
  • Frecuencia de actualización del contenido: Además, los sitios que actualizan su contenido con regularidad pueden recibir más atención de los motores de búsqueda, en forma de un crawl budget mayor.

Cómo optimizar el crawl budget

A medida que ganamos autoridad podemos ir recibiendo más crawl budget. La autoridad se obtiene a medida que el sitio va ganando relevancia. Podemos incrementar la relevancia mediante tareas de link building, gracias a los enlaces entrantes hacia nuestro sitio.

La relevancia es, por tanto, muy importante para conseguir que aumente nuestro presupuesto de rastreo. Pero no solamente se trata de ser mejor considerados por el buscador sino también tener un sitio debidamente optimizado para que nuestro crawl budget actual, sea el que sea, se use de forma más óptima. Así que vamos a ver cómo podemos optimizar el crawl budget que tengamos asignado,

Auditoría de la estructura de tu sitio web

Para que nuestro sitio sea más indexable es importante que tenga una estructura clara y sea fácil de navegar para los motores de búsqueda. Si esto ocurre estaremos optimizando el tiempo que el rastreador ocupa recorriendo el sitio.

Una buena estructura del sitio web es aquella que tiene una jerarquía bien definida, con enlaces que permiten la navegación por las páginas de manera sencilla, sin tener que hacer demasiados clics y sin que existan páginas huérfanas o demasiado alejadas de la home.

Optimización del archivo robots.txt

También podemos mejorar el uso que hace el motor de búsqueda de nuestro presupuesto de rastreo mediante la debida configuración del archivo robots.txt. Por ejemplo, podremos definir qué partes del sitio no queremos que sean indexadas o recorridas, para evitar que se desperdicie el crawl budget asignado en recorrer en contenido irrelevante o duplicado.

Gestión de la velocidad de carga

Si cuidamos la velocidad de carga del sitio también conseguiremos que la velocidad de rastreo sea más alta, ya que el buscador podrá visitar más páginas en menos tiempo. Por tanto, sitios que cargan rápidamente ofrecen potencialmente mayores tasas de optimización del presupuesto de rastreo.

Priorización del contenido más relevante en tu sitio web

Intenta siempre que el buscador sea capaz de entender cuál es el contenido más importante de tu sitio web, para que sea rastreado con mayor regularidad. Esto lo puedes conseguir con una estructura de enlaces, haciendo que más páginas tengan links hacia los contenidos importantes. También lo puedes definir mediante la prioridad de los enlaces expresada en el sitemap.

Además, en lo que respecta al contenido debemos intentar siempre que sea de calidad. Contenido copiado de otras web, contenido de baja calidad o spam hará que el crawl budget se desperdicie y evitará que Google u otros motores lleguen al contenido que importa de verdad.

Eliminación de contenido duplicado y no indexable

El contenido duplicado puede consumir tu crawl budget reduciendo las posibilidades de que el buscador indexe aquellas páginas más relevantes. Por tanto, es importante eliminarlo en la medida de lo posible o evitar que se rastree desde el robots.txt. Recuerda también usar técnicas como canonical para declarar qué páginas son las principales, si es que no puedes eliminar completamente tu contenido duplicado.

Herramientas recomendadas para monitorizar tu crawl budget

Veamos ahora algunas de las herramientas que podemos recomendar para monitorizar cómo los rastreadores interactúan con tu contenido. 

Google Search Console

Google Search Console es la herramienta que proporciona Google para conocer el grado de indexación y los posibles problemas que pueda tener tu sitio cuando es recorrido por la araña. Es la herramienta que sustituye a las antiguas «Webmaster Tools» y resulta completamente gratuita para cualquier sitio web. Para poder usarla simplemente tienes que verificar la propiedad del sitio siguiendo las instrucciones que te presentan una vez entras por primera vez.  

Screaming Frog SEO Spider

Esta aplicación es un crawler en sí misma. Screaming Frog SEO Spider, por tanto, recorre los sitios web y detectar posibles problemas que puedan presentar en términos de SEO. Será muy útil ayudarnos a resolver problemas con nuestro sitio web y conseguir optimizar el tiempo que Google dedica a rastrearlo.

Deepcrawl o Lumar

Deepcrawl, conocido actualmente como Lumar, es una plataforma avanzada de rastreo web que ofrece informes detallados sobre la estructura de tu sitio. Puede detectar, problemas técnicos que impidan que los rastreadores interactúen con tu contenido. También es capaz de monitorizar tu sitio web y enviar alertas en caso que se detecten problemas en cualquier momento.

Sitebulb

Sitebulb es una herramienta de auditoría SEO que funciona tanto como aplicación web como aplicación de escritorio. Una vez puesta en marcha rastrea el sitio web y proporciona numerosos detalles destacables para su optimización en buscadores.

Botify

Botify es una herramienta orientada a marcas que quieran monitorizar su visibilidad en buscadores. Proporciona una auditoría técnica de SEO con análisis de datos en tiempo real, que también se combina con informes sobre la indexación del contenido en Google.

Cómo Google gestiona el crawl budget

Como hemos dicho antes, no es posible saber a ciencia cierta cómo Google gestiona el crawl budget de un sitio web, ya que su forma de funcionamiento específico no está publicada en Internet. No obstante, por la información publicada por el propio buscador, sabemos que Google gestiona el presupuesto de rastreo de manera dinámica, ajustando la frecuencia y profundidad del rastreo para cada sitio según la relevancia que tiene, su autoridad, las actualizaciones que tenga el sitio y su rendimiento.

Googlebot es el rastreador de Google y asigna más recursos a sitios que considera importantes, intentando también gastar el crawl budget en las páginas  más relevantes, de modo que éstas sean rastreadas e indexadas con mayor probabilidad.

Mecanismos de gestión del crawl budget

Google establece algunos parámetros para la gestión del crawl budget en los sitios web.

El Crawl Rate Limit establece el límite de velocidad de rastreo, que es la cantidad máxima de peticiones que Googlebot realiza a tu servidor en un periodo de tiempo determinado.Nosotros podemos ajustar de un modo general cómo Googlebot puede usar nuestro sitio en el archivo robots.txt configurando un retardo entre página y página rastreada con una configuración como esta:

crawl-delay: 5

Sin embargo, es importante saber que esta configuración podría hacer que tu crawl budget sea desaprovechado, porque en el tiempo asignado a tu sitio podrá recorrer menos páginas.

Por otra parte tenemos el Crawl Demand, que define la demanda del rastreo que puede ajustarse dependiendo de lo interesante que sea el sitio (deducido en función de las personas que acceden al contenido), o de la frecuencia con la que se actualiza.

Por último, tenemos el parámetro Crawl Scheduling que define la programación del rastreo, algo que define Google de manera interna.

Consejos avanzados para optimizar el crawl budget

Para optimizar el crawl budget de tu sitio web puedes tener en cuenta algunos consejos avanzados:

  • Usa sitemaps: con ello conseguirás que Google localice más fácilmente tu contenido y aumentarán las posibilidades de que lo indexe.
  • Evita errores soft: ocurren cuando el servidor responde con el código de estado de HTTP 200 OK cuando realmente es una página no encontrada. Asegúrate de que cuando una página no exista en tu servidor el robot de rastreo reciba un código HTTP 404.
  • Redirecciona correctamente las URL que han cambiado de dirección, con códigos de HTTP 301 para las redirecciones permanentes, de modo que Google no pierda el tiempo con la dirección antigua nunca más.
  • Usa etiquetas canonicals para marcar cuál es la página que el buscador debe tener en cuenta cuando hay contenido repetido o muy similar.
  • Monitoriza continuamente tu sitio web, especialmente a través de la herramienta Search Console, ya que te puede informar de los problemas de rastreo de tu sitio web.
Alberto Blanch

Productos relacionados: