Kaspian

Moderador
Equipo de administración
¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo de texto plano que puedes crear con un simple bloc de notas con el nombre robots.txt (de ahí su nombre).
Este archivo contiene la información que leerán las arañas de los buscadores con el fin de rastrear las partes de la web que este archivo les permita.
Algunos robots hacen lo que les da la gana así que más que permitir, el archivo robots.txt recomienda qué páginas visitar para rastrearlas o indexarlas.

¿Para qué sirve el robots.txt?
Cuando un bot entra en nuestra web, lo primero que hace es mirar si existe el archivo robots.txt y, si así es, lo analiza para saber qué partes de la web puede o debe rastrear y qué partes están bloqueadas para él.
Digamos que el archivo robots.txt contiene las zonas de la web no permitidas para que estos bots no pasen por ahí y las rastreen.
Por lo tanto, este archivo te permite seleccionar qué partes de tu sitio web tienen acceso “restringido” para estos bots. Incluso puedes restringir el acceso solo para un tipo de bot. Ya lo veremos.
En resumen, el archivo robots.txt sirve para:
  • Bloquear el acceso de los buscadores a ciertas páginas y directorios de tu web.
  • Denegar a los bots el acceso a archivos de tu sitio.
  • No permitir el acceso a tu web a unos bots determinados.
  • Impedir que se indexe contenido duplicado (páginas duplicadas, por ejemplo) o páginas que tengas de prueba.
  • Prohibir el rastreo de URLs que hayas eliminado y que ahora reporten el error 404.
  • Disminuir los recursos gastados del servidor (algunos bots consumen muchos recursos).
  • Facilitar la indexación de tu web indicando el directorio de tu mapa del sitio o sitemap XML.
A pesar de esto y como ya expliqué antes, debes saber que hay algunos bots (sobre todo los ilegales y maliciosos) que se pasan por alto este archivo.
No olvides que este archivo es público y lo puedes ver en muchísimas webs poniendo /robots.txt al final de su dominio. Así que, por tu bien, ni se te ocurra usarlo para ocultar información privada a los buscadores o cosas por el estilo, porque cualquiera que se meta en tu robots.txt podrá ver qué URLs estás intentando bloquear a los bots.

Cómo crear el archivo robots.txt en WordPress
Crear el robots.txt para WordPress es muy fácil: abre un bloc de notas y guárdalo con el nombre robots.txt. Solo tendrás que subirlo al directorio raíz de tu dominio a través del cPanel o por un cliente FTP como Filezilla.
También puedes crearlo con el plugin Yoast SEO, tan solo debes ir a la sección de “Herramientas” >> “Editor de archivos” y crear o modificar tu archivo robots.txt.
Más adelante veremos qué debe contener este archivo.
Por regla general, en todas las instalaciones de WordPress ya viene este archivo creado, aunque bastante simple.
El archivo robots.txt de WordPress tendrá por defecto un aspecto parecido a este:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Recuerda:
Para saber si tienes el archivo creado solo tendrás que introducir
/robots.txt al final de tu dominio. Por ejemplo:
www.tudominio.net/robots.txt.
Cabe destacar que este archivo no es obligatorio. Pero sí es bastante recomendado sobre todo si quieres mejorar el seo de tu sitio web.
Veamos
a continuación qué parametros y configuraciones tienes que tener en
cuenta para crear el archivo robots.txt para WordPress.


Parámetros y comandos aceptados en el robots.txt
Los comandos del archivo robots.txt son pocos y muy sencillos.
Estos parámetros fueron fijados por el robots exclusion protocol o Estándar de exclusión de robots
en español. La sintaxis que debemos utilizar está basada en este
protocolo y hay que aplicarla bien si no queremos equivocarnos al crear el archivo robots.txt.
Además de los comandos, debes tener en cuenta estas reglas:
  • No utilices otros comandos diferentes a los permitidos.
  • Distingue
    mayúsculas, minúsculas, signos de puntuación y espacios. Presta
    atención al escribir los comandos y al nombrar el archivo.
  • Puedes utilizar la almohadilla (#) seguida de una frase para escribir comentarios.
  • Deja una línea en blanco para separar los grupos de comandos que utilices por User-agent.
Estos son los parámetros principales para utilizar en el robots.txt:
  • User-agent: especifica a qué tipo de robots van dirigidos los comandos que pongas a continuación. Aquí tienes una lista de todos los User-agent que hay.
  • Disallow: Bloquea el acceso del User-agent (el bot) al directorio o url que pongas.
  • Allow: Lo
    contrario de Disallow. Permite el acceso a la url o al directorio que
    indiques. Normalmente se utiliza para permitir el acceso a una parte más
    específica del directorio que se haya bloqueado en el Disallow.
  • Sitemap: Sirve para indicar a los bots dónde se encuentra el sitemap o mapa del sitio XML del sitio web.
  • Crawl-delay:
    Se utiliza para indicar un tiempo de retardo (en segundos) entre cada
    página que el bot rastree. Se suele utilizar para evitar consumos
    exagerados de recursos. No todos los crawlers (bots) harán caso a este
    comando.
Además de todo esto, existe dos caracteres extra que se usan como comodines:
  • El asterisco (*): Se utiliza como comodín para indicar “todos”. Se usa mucho en User-agent: *, para todos los bots; o /*/ para indicar todos los directorios.
  • El símbolo del dólar ($):
    Este símbolo se usa en las extensiones de los archivos y sirve para
    especificar cualquier archivo que acabe con dicha extensión. Por
    ejemplo: /*.css$ para indicar todos los archivos acabados en .css.
Solucionar recursos bloqueados en Google Search Console
Hace tiempo que Google informó que bloquear el acceso a los archivos CSS y Javascripts en el robots.txt es perjudicial para el SEO y empezó a enviar mensajes desde Google Search Console informando de este error si tenías bloqueado este tipo de archivos.
Por ello, aquí te explico cómo desbloquear recursos CSS y JS. Abre el archivo robots.txt y copia y pega lo siguiente:

User-agent: Googlebot
Allow: /*.css$
Allow: /*.js$
Como ya vimos, estos comandos indican al robot de Google que tiene el acceso permitido a todos los recursos CSS y JS.

Cómo configurar el archivo robots.txt para WordPress
Vamos a lo que todo el mundo busca.
¿Existe el robots.txt perfecto para WordPress?
La respuesta es un rotundo NO.
Cada página web tiene páginas diferentes y necesidades distintas.
Es imposible poner el robots.txt perfecto para cada página ya que es algo que hay que mirar web por web.
Pero lo que sí puedo hacer es explicar el mejor archivo robots.txt para WordPress de manera general y que funcionará en todas las webs.
Ya verás que es bastante similar al que tengo yo en esta web. Recuerda que puedes verlo poniendo /robots.txt al final del dominio.
Así que al lío.
A continuación tienes el mejor archivo robots.txt estándar para cualquier web de WordPress. También puedes añadir otros comandos para bloquear algo en particular de tu web.
Recuerda
que si ya tienes un robots.txt solo tienes que descargarte por FTP o
desde el cPanel el archivo robots.txt que viene por defecto. Una vez lo
tengas, ábrelo y modifícalo por lo siguiente:
#Primer Bloque, impedimos que se rastree carpetas de WordPress, el feed,
#los comentarios, las búsquedas, las etiquetas...
User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login
Disallow: /wp-admin
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: *?replytocom
Disallow: /tag/*/page/
Disallow: /tag/*/feed/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /*?s=
Disallow: /*/*/*/feed.xml
Disallow: /?attachment_id*
Disallow: /search

#Segundo Bloque
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$

#Sitemap, puedes añadir más de uno
Sitemap: http://www.tudominio.com/sitemap.xml
En el primer bloque especificamos que, para todos los bots (User-agent: *), se permita el acceso al AJAX (se recomienda permitir el acceso) y se deniegue a directorios que no nos interesa que los rastreen, como las páginas internas del WordPress, páginas de búsquedas, etiquetas, comentarios, etc.
En el segundo bloque desbloqueamos los recursos CSS y JS tal y como vimos anteriormente.
Por último, añadimos la URL de nuestro archivo XML sitemap para indicar a los robots dónde está todo lo que deberían rastrear.
Para saber si tienes un sitemap y cuál es su URL solo tendrás que ir a Google Search Console e ir a Rastreo >> Sitemaps.
Si no lo tienes creado, te recomiendo el plugin Yoast SEO para crear sitemaps. Además, aquí tienes mi guía de configuración de Yoast SEO.
PD: Te recomiendo la guía del sitemap para saber todo lo necesario sobre los mapas de sitio y cómo mejorar el SEO.

El probador de robots.txt de Google Search Console
Una vez hayas conseguido crear el archivo robots.txt y guardarlo en el directorio raíz de tu web, queda comprobar que esté todo bien y los robots puedan acceder perfectamente al resto de la web.
Para ello nos volvemos a dirigir a Google Search Console, y entramos en Rastreo >> Probador de robots.txt.
En este punto debería salir lo que habías puesto dentro del robots.txt.
Si no es así dale al botón de enviar y vuelve a darle al botón de enviar del paso 3 que pone Solicita a Google la Actualicación.
Ahora solo queda darle al botón rojo que pone probar y si todo está correcto, este botón se cambiará por un mensaje que pone PERMITIDO.

Conclusiones sobre el archivo robots.txt
Ya hemos visto que el archivo robots.txt nos ayuda a recomendar a los crawlers qué páginas indexar en Google (u otro navegador) o qué zonas de nuestra web no queremos que sean rastreadas.
No obstante, también hay otras formas alternativas de impedir la indexación de cualquier página como las metaetiquetas robots y el atributo “noindex”.
No quería dejar este artículo sin tocar este tema, y es que si bien el archivo robots.txt es muy importante, para páginas específicas se puede usar el noindex.
Usar el noindex es la forma más correcta de impedir la indexación en ciertas páginas. El robots.txt se utiliza más para impedir rastrear ciertos directorios, archivos y páginas que hayas borrado y no puedas acceder de ninguna otra forma.
Con el plugin Yoast SEO puedes añadir “noindex” a las páginas que necesites simplemente yendo a la zona de edición en WordPress de la página en cuestión y seleccionando “noindex” en el apartado para ello del plugin Yoast SEO.
 
Last edited by a moderator:

Matthew

Newfag
¿donde hay que ubicar el archivo robot.txt?
Gracias y un saludo.

El robots.txt (ojo con el nombre, debe ir así, en plural) tienes que subirlo por FTP o a través del gestor de archivos de tu panel del hosting y colocarlo en la raíz de la web, en el mismo directorio en el que están las carpetas wp-admin, wp-content y wp-includes.
 
Last edited by a moderator:

Fursac

Newfag
tengo el problema de este robot, cuando coloco mi dominio en google me indica lo siguiente :
No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.
hice el archivo lo subido pero no se si lo hice bien porque el problema sigue saliendo
 

Kaspian

Moderador
Equipo de administración
tengo el problema de este robot, cuando coloco mi dominio en google me indica lo siguiente :
No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.
hice el archivo lo subido pero no se si lo hice bien porque el problema sigue saliendo

No has puesto bien el robots.txt en google search console.

Acabo de pasarme por el robots.txt de tu sitio web y lo tienes todo en disallow.

Normal que te dé ese error.

Sigue paso a paso la guía para subir el robots.txt a tu Google Search Console, o modifícalo desde el plugin Yoast SEO.
 

elcero

Newfag
Estaba buscando en Google, para saber más sobre el Robots TXT, di con varios artículos de gran interés realmente. Encontré la publicación de una persona, donde hablaba que había optimizado dicho Robots TXT para Wordpress a nivel SEO. ¡Realmente, no tenía nada en el Robots TXT y entonces accedí a colocar éste que les comparto!

HTML:
#Ponemos todos los sitemaps

Sitemap: http://www.tuweb.com/sitemap.xml
Sitemap: http://www.tuweb.com/sitemap.xml.gz
Sitemap: http://www.tuweb.com/sitemap-image.xml
Sitemap: http://www.tuweb.com/sitemap-video.xml

#Dejamos al robot de publicidad de google que entre hasta la cocina para evitar problemas con la publicidad en paginaciones, búsquedas, etc…

User-agent: Mediapartners-Google
Allow: /

#Desindexamos todo lo que empiece por wp- a excepción de la carpeta uploads

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-

#Desindexamos cualquier tipo de búsqueda y cualquier ruta que pueda llevar el parámetro ? en la url

Disallow: /*?
Disallow: /search/

#Desindexamos cualquier archivo que termine con la extensión .php .js .inc .css

Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

#Desindexamos carpetas de logs, estadísticas y scripts

Disallow: /cgi-bin/
Disallow: /stats/
Disallow: /logs/

#Desindexamos todas las paginaciones

Disallow: /page*/

#Desindexamos posibles páginas con contenido duplicado o que no nos interesan, entre ellas los archivos, los comentarios, las páginas de autor y las tags

Disallow: /comments/
Disallow: /archives/
Disallow: /author/
Disallow: /tag/

#Desindexamos los feeds, trackbacks y attachments

Disallow: /feed*/
Disallow: /trackback*/
Disallow: /attachment*/
 

Giorgina

Newfag
me ha quedado una duda con respecto a incluir los sitemaps, yo los hago desde SEo by Yoast y como tengo hasta un máximo de 1000 entradas por mapa, tengo varios. mi pregunta es cómo incluir varios? Se repite la sintaxis Sitemap: http ://www. tudominio. com/ sitemap.xml por cada uno, se los separa con espacio?
 

Kaspian

Moderador
Equipo de administración
Hola Giorgina, se pueden poner tantos sitemaps como quieras.
Por ejemplo.

Sitemap: url del sitemap1
Sitemap: url del sitemap2
Sitemap: url del sitemap3
etc…
 

Ichi

Newfag
Tengo este problema con mi web, cuando pongo la url en el buscador de Google me sale esto: No hay información disponible sobre esta página

eh puesto la url del robots.txt para ver mi web como esta y sale esta correcto

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

cual puede ser la causa de que no salga en el buscador de google? ayuda plisss
 

hal9000

Newfag
Las causas pueden ser muchas. Por ejemplo que sea una web nueva o que la tengas todo en noindex.

Prueba a poner en Google site:tudominio sin las tres www a ver si sale algo (por ejemplo site:bloggers.com)

Lo que saldrá es lo que está indexado en Google. Si no sale nada puede ser porque tengas todo puesto en noindex o porque la web sea muy nueva.
 

Ichi

Newfag
si efectivamente la web es nueva pero el domino lleva años y tiene muchos backlink

como puedo saber si esta todo en noindex?
como es nueva eso quiere decir que poco a poco se ira indexando? con el tiempo y con el contenido que se cree?
 

hal9000

Newfag
Entonces será porque es nueva, no te preocupes que con el tiempo indexará.

De todas formas asegúrate que en los ajustes > lectura de tu WordPress tienes DESactivada la casilla de visibilidad de los motores de búsqueda.
 

Ichi

Newfag
Si esta desactivada en Visibilidad en los motores de búsqueda, eso quiere decir que si se va indexar con el tiempo
 

Lorena

Newfag
necesito ayuda para mi sitio y es al buscarlo en google en la descripción sale lo mismo “No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.” y quiero que aparezca mi descripción de WordPress. Busque muchas soluciones y no funcionan, espero que me ayudes por favor.
 

Kaspian

Moderador
Equipo de administración
Puede ser porque has bloqueado tu sitio desde el archivo robots o a lo mejor has marcado las casilla de “Disuade a los motores de búsqueda de indexar este sitio” en ajustes – lectura de WordPress.
 

Lorena

Newfag
ya desmarque la casilla y tengo un plugin e igual sigue apareciendo el mensaje de “No hay descripciones de este resultado disponibles debido al archivo robots.txt de este sitio.” en la descripción de mi web, en mi archivo robots.txt solo tengo
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Por favor ayudame a que aparezca mi descripción
 

MPA

Newfag
e intentado indexar con Google search console pero nada. Muchos contenidos de mi blog no están indexados por google una faena.
No entiendo como con el comando “site:” google dice que solamente tengo 14 contenidos indexado cuando tengo más de 40 post en el blog.
 

Kaspian

Moderador
Equipo de administración
Algo pasa ahí, no es normal. Hay algo de contenido duplicado, prueba a quitar el comienzo repetido de todos los títulos del blog y también las descripciones que tienes duplicadas y envía de nuevo toda la web a google con el search console (explorar como google)
 
Thread starter Similar threads Forum Replies Date
gocipa1223 OFF Topic 0
serpas OFF Topic 1
G OFF Topic 0

Similar threads

Arriba