El fichero robots.txtes un archivo de texto que dicta unas recomendaciones de indexacióny de comportamiento para los crawlerso los robots de los motores de búsqueda(¡ojo! recomendaciones, no obligaciones). Estos crawlers quieren indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo.
El inconveniente brota cuando quieres evitar que ciertas páginas se incluyan en sus índices, ¿Qué haces entonces? Tienes 2 opciones. La primera es usar una etiqueta singular en cada página(véase Meta Robots) o usar un archivo centralizado para controlar la entrada. Esta última opción es la de robots.txt que es la que vamos a ver en profundidad.
Qué es un fichero robots.txt
El Protocolo de Exclusión de Robotso Robots Exclusion Protocol o bien REP es una serie de estándares web que regulan el comportamiento de los robotsy la indexación de los motores de búsqueda. El REP consiste en lo siguiente:
- El REP original data dey fue extendido en, definiendo las directrices de rastreo del robots.txt. Algunas motores de búsqueda aguantan extensiones como los patrones URI (wild cards).
- Ense definen las indicaciones de indexación (etiquetas REP) para su empleo en los elementos meta de los robots, también conocidos como
etiqueta meta robots. Los motores de búsqueda también aceptan etiquetas REP auxiliares con la «X-Robots-Tag». Los webmasters pueden incorporar estas etiquetas REP en la cabecera HTTP de los recursos que no sean HTML como documentos PDF o bien imágenes. - El microformato «rel-nofollow» aparece enpara acotar cómo los motores de búsqueda deben manejar los enlaces donde hay uncontiene el valor «nofollow».
Etiquetas de exclusión de robots
Si charlamos de una, las etiquetas REP (noindex, nofollow, unavailable_after) dirigen ciertas tareas de los indexadores y en algunos casos (nosnippet, noarchive, NOODP) incluso motores de consultas en el monento de la ejecución de una consulta de búsqueda. Aparte de las indicaciones para los rastreadores, cada motor de búsqueda interpreta estas etiquetas REP de forma diferente.
Por ejemplo, Google elimina los listados de URLs únicas y referencias OPD de suscuando un recurso está etiquetado con «noindex», sin embargo Bing muestra esas referencias externas a direcciones URL como prohibidas en sus resultados de búsqueda. Como las etiquetas REP pueden ser incorporadas en los elementos META de contenidos X/HTML, así como en las cabeceras HTTP de cualquier objeto web, el acuerdo es que contenidos con la etiqueta «X-Robots-Tags» deberían inutilizar o cancelar las indicaciones en conflicto que se hallen en los elementos META.ç
Las directrices de los indexadores implementadas como microformatosinvalidarán la configuración de página para determinados elementos HTML. Por poner un ejemplo, cuando la etiqueta «X-Robots-Tag» de una página dice «follow» (no hay valor «nofollow»), la directriz rel-nofollowde un elemento A (link) se sobrepone.
Aunque robots.txt carece de indicaciones para indexadores, es posible establecer estas indicaciones para conjuntos de URIs con el scripts en el servidor actuando al mismo nivel web que apliquan a «X-Robots-Tags» para solicitar recursos. Este método requiere conocimientos de programación y una buena comprensión de los servidores web y el protocolo HTTP.
Google y Bing tanto entienden 2 expresiones regulares que se pueden utilizar para identificar las páginas o subcarpetas que unquiere excluir de su página web. Estos dos caracteres son el asterisco (*) y el signo de dólar ( dólares americanos ).
- * – Que es un comodín que representa cualquier secuencia de caracteres
- $ – Que coincide con el final de la URL
El fichero robots.txt es público. Cualquiera puede ver qué secciones ha bloqueado un administrador web de su servidor (mira mi). Esto quiere decir que si un posicionamiento web tiene información de usuario privada a la que no quiere dejar acceder a nadie (y menos públicamente), debe utilizar un método más seguro como la protección con contraseña para mantener a raya a los curiosos que deseen ver qué páginas confidenciales no quiere que se indexen.
Para qué sirve un archivo robots.txt
Como ya sabrás, los robots o arañas son unos programas que emplean los buscadores web para rastrear la web. Cuando llegan a tu página web, la primera cosa que hacen es buscar el archivo robots.txt y dependiendo de lo que diga en él, continúan en tu página web o bien se marchan a otra. Puedes entender el fichero robots.txt como una lista de robots no aceptados, la que te permite restringir el acceso a tu página web selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres rechazar el acceso, también.
Más en concreto, puedes utilizar el archivo robots.txt para lo siguiente:
- Evitar que ciertas páginas y directorios de tu página web sean accesibles a los buscadores
- Bloquear el acceso a ficheros de código o bien utilidades
- Impedir la indexación de contenido copiado en tu lugar, como copias de prueba o bien versiones para imprimir
- Indicar la localización delo mapa del lugar en XML
No obstante, hay un par de cosas que debes tomar en consideración sobre robots.txt:
- Algunos robots pueden
ignorarlas instrucciones contenidas en este fichero, singularmente robots maliciosos o bien malware - El fichero es público, lo que quiere decir que cualquiera puede verlo con sólo teclear /robots.txt
- Por tanto, si piensas usar robots.txt para ocultar información privada, precisas buscar otra opción alternativa.
Cómo producir el fichero robots.txt
Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. Sólo precisas crearlo cuando deseas impedir que ciertas páginas o directorios de tu lugar aparezcan en los resultados de búsqueda. Generar el archivo es sencillísimo, basta con crear un documento de texto con el nombre “robots.txt” y subirlo a la raiz de tu dominio (/robots.txt), que es el sitio donde los los buscadores aguardan localizarlo.
Lo más fácil es crearlo a mano, a través de el bloc de notas o bien cualquier aplicación similar, aunque si eres de los que prefiere herramientas, la de SeoBook cumple con su cometido.
Un fichero robots.txt básico puede ser:
Lo que hacen estas instrucciones es rechazar el acceso al directorio “privado” a todos los motores de búsqueda. Para ello, primero se indica que la orden va dirigida a todos los robots (Usuario-agent: *) y por último se detalla el directorio desautorizado (Disallow: /privado/).
Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un acuerdo universal cuya sintaxis debes seguir:
- Sólo puedes usar los comandos tolerados (aunque ciertos buscadores web entienden comandos auxiliares)
- Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
- Cada conjunto User-agent/Disallow debe estar separado por una línea en blanco
- Puedes incluir comentarios a través de la almohadilla o símbolo de hash (#)
Los comandos más importantes son:
User-agent: Indica qué tipo de robot debe cumplir con las directivas que se señalen a continuación. Disallow: Rechaza el acceso a un directorio o página concreta. Allow: Funciona al revés que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede emplear para sobrescribir la directiva Disallow parcial o bien plenamente. Sitemap: Señalar la senda donde se encuentra un mapa del lugar en XML. Crawl-delaypresupuesto web almeria >: Indica al robot el número de segundos que debe aguardar entre cada página. Puede ser útil en casos en los que se precisa reducir la carga del servidor.
Adicionalmente, como comentaba más arriba, puedes usar 2 caracteres para acrecentar o reducir la concordancia:
Asterisco(*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/” Dólar($ ): Señala el final de una URL. Por ejemplo, para señalar cualquier fichero que acabe con la extensión .php se utilizaría “/*.php dólares americanos ”.
Restricciones más comunes
Con los comandos y comodines se puede crear todo género de restricciones. Sin embargo, no es buena idea ser creativo con el fichero de robots, ya que puedes terminar bloqueando algo que no quieres.
En este sentido, es mejor ceñirse a las restricciones más comunes, como son:
- Incluir todos y cada uno de los robots – User-agent: *
- Especificar el robot de Google – Usuario-agent: Googlebot
- Especificar el robot de Bing – Usuario-agent: Bingbot
- Denegar todo el sitio – Disallow: /
- Denegar un directorio – Disallow: /directorio/
- Denegar directorios que comienzan por “algo” – Disallow: /algo*/
- Denegar una página – Disallow: /pagina-web.htm
- Denegar directorios y páginas que empiezan por “algo” – Disallow: /algo
- Denegar la extensión .gif – Disallow: /*.gif$
- Permitir un subdirectorio – Allow: /directorio/subdirectorio/
- Señalar el mapa del sitio – Sitemap: /sitemap.xml
Un ejemplo de robots.txt para WordPress
Para ayudarte a entender mejor el funcionamiento del archivo robots.txt me gustaría enseñarte un caso real. Se trata del mismo archivo que utilizo en este weblog, de ahí que sea un ejemplo orientado a Wordpress.
No obstante, debes saber que este archivo quizá NO sea ideal para tí a pesar de usar WordPress. Según el caso, es posible que necesites añadir limitaciones, quitarlas, o bien emplear la etiqueta meta robots. No hay un archivo robots.txt universal, tenlo en cuenta.
Recientemente he actualizado mi archivo robots.txt como sigue (sin los números de línea):
Ahora me gustaría explicarte cada línea:
- Línea 1 – Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
- Línea 2 – Rechazo el acceso a todos directorios y páginas que comienzan por “wp-”, propios de la instalación de WordPress.
- Línea tres – Rechazo el acceso al directorio que utilizo para redirecciones (no tienes por qué tenerlo).
- Línea cuatro – Permito el acceso al directorio de archivos adjuntos, puesto que en la línea 2 lo había desacreditado.
- Línea 5 – Indico la senda donde se halla el mapa XML de mi página web.
Te aconsejo que cuando crees tu archivo compruebes que hace lo que esperas de él. Ten en cuenta que un simple fallo puede impedir el acceso a los buscadores web y causar la pérdida de todos tus rankings. La comprobación es facil de hacer con las Herramientas para Administradores web de Google, en Rastreo > URL bloqueadas.
Chuleta para principiantes
Te voy a enseñar múltiples opciones, y tu escoge la que más te convenga:
- Bloquear todos y cada uno de los rastreadores web de todo el contenido
- Bloquear un rastreador web específica desde una carpetita específica
- Bloquear un rastreador web específica de una página web específica
- Permitir que un rastreador web específica para visitar una página web específica
- En la mayoría de los casos, meta robots con parámetros «noindex, follow» deben ser empleados como una
forma de restringir el rastreo o bien la indexación - Es esencial señalar que
los rastreadores maliciosos son propensos a ignorar totalmente robots.txty, como tal, este protocolo no es buen mecanismo de seguridad - Sólo
1 línea«Disallow:» está permitida para cada URL - Cada
subdominiode un dominio raíz emplea archivos robots.txt separados - Google y Bing admiten
dos caracteres de expresiones regularesespecíficos para la exclusión de patrones (* y $ ) - El nombre del fichero robots.txt es
sensible a las mayúsculas. Utiliza «robots.txt», no «Robots.TXT» - Los espacios no se admiten para separar parámetros de consulta. Por poner un ejemplo, «/categoría/ /producto» no sería detectado por el archivo robots.txt
¿Ya sabes cómo crear tu archivo robots.txt?
Hola, qué tal tengo un inconveniente, mi web estaba posicionada en google, pero después de un año renové el diseño y todo cambio, ahora también posicionada, cuando busco algo sobre mi empresa, me aparecen los enlaces antiguos, como podría hacer para que ya no salgan pues son bastantes. Gracias Hola Adrian, pero los contenidos antiguos siguen publicados o bien has hecho redirecciones? Si sólo has cambiado el diseño pero no has hecho redirecciones y sigue campaña sem seo smo , hasta el momento en que Google no indexe de nuevo los cambios saldrán. Saludos!
Contenido de calidad, casi siempre y en toda circunstancia me voy rapidamente de todos y cada uno de los articulos de internet, en un caso así me lo lei todo, solo te falto un detalle, digamos que encontre un nuevo software de scrapeo o similar Hola Ricardo 😊 Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. Ciertamente, Internet es «el sitio de todos» y por esta razón, no siempre hallamos calidad y verdad. Con respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se van actualizando y, poco a poco, yo también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el blog. ¡Saludos!
Amo tus contenidos. Son fáciles de comprender, prácticos, concisos y me resultan muy útiles. Entro en uno y ya entonces no puedo parar por el hecho de que todo me interesa jeje Gracias por compartir tu experiencia y conocimiento. Un abrazo y que sigas sumando éxitos. Gracias Ingrid, Me alegra que te gusten mis contenidos y que sean de tu interés. Igualmente muchos éxitos! Saludos :)
Tus artículos son estupendos, mas echo en falta vídeos sobre los mismos. Si pudieses hacerlos seria fantástico. Gracias, por tu aportación Hola Teresa, Es algo que tengo pendiente, mas para hacer vídeos precisas algo muy importante: tiempo, y es algo que, por desgracia, no tengo. Quizás con el tiempo, ya veremos… gracias.
Hola, qué tal tengo un inconveniente, mi web estaba posicionada en google, pero luego de un año renové el diseño y todo cambio, ahora también posicionada, cuando busco algo sobre mi empresa, me aparecen los enlaces antiguos, como podría hacer para que ya no salgan porque son bastantes. Gracias
Hola Adrian, pero los contenidos viejos prosiguen publicados o bien has hecho redirecciones? Si sólo has modificado el diseño mas no has hecho redirecciones y prosigue publicado, hasta que Google no indexe nuevamente los cambios saldrán. Saludos!
Hola Adrian, mas los contenidos viejos prosiguen publicados o bien has hecho redirecciones? Si sólo has cambiado el diseño mas no has hecho redirecciones y sigue publicado, hasta el momento en que Google no indexe nuevamente los cambios saldrán. Saludos!
Contenido de calidad, casi siempre me voy rapidamente de todos y cada uno de los articulos de internet, en un caso así me lo lei todo, solo te falto un detalle, afirmemos que encontre un nuevo software de scrapeo o similar
Hola Ricardo 😊 Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. Efectivamente, Internet es «el lugar de todos» y por este motivo, no siempre hallamos calidad y verdad. Respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se van actualizando y, poco a poco, también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el blog. ¡Saludos!
Hola Ricardo 😊
Te agradezco tu comentario y me alegra saber que percibes así mis contenidos. Ciertamente, Internet es «el sitio de todos» y por este motivo, no siempre hallamos calidad y verdad. Con respecto a tu puntualización, te agradezco el detalle. Naturalmente la red y sus funcionalidades se van actualizando y, poco a poco, también voy poniendo al día mis guías para ofrecer a los lectores los mejores resultados. Espero verte de vuelta por el blog.
¡Saludos!
Amo tus contenidos. Son fáciles de entender, prácticos, breves y me resultan muy útiles. Entro en uno y ya luego no puedo parar por el hecho de que todo me interesa jeje Gracias por compartir tu experiencia y conocimiento. Un abrazo y que prosigas sumando éxitos.
Gracias Ingrid, Me alegra que te gusten mis contenidos y que sean de tu interés. Igualmente muchos éxitos! Saludos :)
Gracias Ingrid,
Me alegra que te agraden mis contenidos y que sean de tu interés. Igualmente muchos éxitos! Saludos :)
Tus artículos son estupendos, mas echo en falta vídeos sobre los mismos. Si pudieses hacerlos seria fantástico. Gracias, por tu aportación
Hola Teresa, Es algo que tengo pendiente, pero para hacer vídeos precisas algo muy importante: tiempo, y es una cosa que, desgraciadamente, no tengo. Quizás con el tiempo, ya veremos… gracias.
Hola Teresa,
Es algo que tengo pendiente, pero para hacer vídeos necesitas algo muy importante: tiempo, y es una cosa que, desgraciadamente, no tengo. Quizás con el tiempo, ya veremos… gracias.
|