Indexación y rastreo con Robots.txt y la etiqueta META ROBOTS

Cuando tratamos de evitar que los motores de búsqueda indexen y/o rastreen algunas partes de nuestras páginas podemos indicárselo utilizando el archivo ROBOTS.TXT o bien en la etiqueta <META name=»robots»…> de cada página.

Es bastante habitual que ambos recursos generen confusión e incluso se utilicen indistintamente la meta-etiqueta o el fichero para ‘bloquear’ nuestras páginas ante los motores de búsqueda.

Existe, sin embargo, una gran diferencia a la hora de utilizar las etiquetas META ROBOTS o el fichero robots.txt que vamos a tratar de aclarar en este artículo.

Diferencia entre Indexación y Rastreo

A menudo esta confusión tiene su origen en que se trata de ‘bloquear’ a los robots de los motores de búsqueda sin entender bien la diferencia entre dos conceptos clave a la hora de hacerlo: indexación y rastreo.

Indexación

Cuando hablamos de indexación estamos hablando de que Google incluya o no la página en el indice que tendrá en cuenta para mostrar en las SERP.

Rastreo

Cuando hablamos de rastreo estamos hablando de permitir o no que las arañas de Google sigan o no los enlaces que tenemos en una página web en concreto.

Así que, veamos que ocurre con ambos términos cuando utilizamos una y otra opción.

Utilizando robots.txt

Cuando ponemos disallow en el archivo robots.txt estamos diciéndole a Google que no puede indexar ni rastrear las páginas o directorios que le indicamos.

Al leer el fichero robots.txt de nuestro site, Google comprende que hay ciertas páginas a las que no debe acceder. Es decir, que lo que cortamos es el acceso.

Obviamente, si no accede a una página (o un conjunto de páginas) no las indexará, pero tampoco conocerá su contenido y, por lo tanto será siempre incapaz de rastrear los enlaces que en ellas se encuentren.

Utilizando la etiqueta META «robots»

Cuando utilizamos las etiquetas <META name=»robots»…> podemos especificar que una página en concreto se indexe (o no) y así se incluya en las SERP, y/o que se rastree (o no) y que así las ‘arañas’ de Google (o de otro motor de búsqueda) sean capaces de seguir los enlaces de la página.

En el primer caso la indexación o no indexación la controlaremos utilizando los parámetros «index» y «noindex» de la etiqueta.

El rastreo lo permitiremos o bloquearemos utilizando «follow» y «nofollow»

Así tendremos 4 combinaciones posibles utilizando estos dos parámetros:

<meta name»robots» content=»index, follow»>

Permite tanto el rastreo como la indexación de la página. Si la omitimos el efecto será el mismo, por lo que su uso no tiene mucho sentido.

<meta name»robots» content=»index, nofollow»>

Permite la indexación de la página (por lo que será susceptible de aparecer en las SERP) pero no permite el rastreo de los enlaces que esta contiene y, por lo tanto, no traspasará el link juice de nuestra página.

Esta será la mejor opción si no podemos controlar la relevancia de los enlaces de la página. Un claro ejemplo será en aquellos casos en los que el contenido de la página (al menos en gran parte) lo generan los usuarios.

<meta name»robots» content=»noindex, follow»>

Con esta etiqueta conseguiremos bloquear la indexación de la página y, por lo tanto la aparición en los resultados de búsqueda. Sin embargo estamos permitiendo el rastreo de los enlaces que en la página se contienen y traspasando link juice.

<meta name»robots» content=»noindex, nofollow»>

Esta es la opción más restrictiva de las cuatro puesto que evita tanto el rastreo como la inclusión en los índices de los motores de búsqueda.

En realidad, el efecto es el mismo que si utilizamos disallow en el fichero robots.txt

¿Cúando utilizo cada opción?

La etiqueta META es la mejor opción

Cuando queremos que se indexe pero no se rastreen los enlaces, o bien que no se indexe pero si se sigan los enlaces de la página, la única opción será utilizar la etiqueta <META name=»robots»…>.

El archivo robots.txt es la mejor opción

Si queremos bloquear tanto la indexación como el rastreo lo mejor será indicarle a Google que no acceda a la página mediante el archivo robots.txt. Así le evitamos tener que leer cada página para encontrar la etiqueta META y comprender que hacer con ella.

(Ahorrarle trabajo a Google siempre es una buena idea. Al final le ‘caeremos’ mejor si le ahorramos dinero y seguramente nos devuelva el favor.)

¿Ninguna?

Por último, y aunque pueda parecer una obviedad, si vamos a permitir la indexación y el rastreo la mejor opción es no hacer nada. ¿para qué vamos a escribir ese código si no tendrá efecto alguno?

De hecho, refiriéndose a las etiquetas META Robots, John Mueller publicó el 20 de septiembre de 2022 un vídeo en el que lo dejaba bien claro: «no son necesarias». Salvo que haya algo concreto que quieras que no indexe o rastree, utilizarlas es una tontería. No lo digo yo, lo dice el Webmaster Trends Analyst de Google.

¿Y tu? ¿Te habías planteado antes cual de estas opciones utilizar o lo hacías por ‘inercia’?

Derechos de imagen: El robot es de una imagen original de danjaeger