Site wordpress url bloquée par robots.txt

Nouveau WRInaute
Bonjour à tous,

Je viens vers vous car après avoir suivi les procédures de google et celles proposées par ci par là sur le web je n'ai toujours pas réussi à régler le problème.

J'ai été chargé de la construction sous wordpress d'un blog commerçant pour un ami, pendant le temps de la mise en place nous avons décidé de mettre en mode privé pour que les visiteurs ne le trouve pas sur google dans un premier temps.

Maintenant que le site est terminé nous avons décoché cette option ( sous wp réglage ---> vie privé ) mais après une semaine
rien ne change si je fais une recherche sur google de url il me dit que celle-ci est bloqué par un robots.txt

J'ai donc créé un fichier robots.txt au quel j'ai mi ce ci

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /*wp-login.php*
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /author
Disallow: /contact/
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /login/
Disallow: /wget/
Disallow: /httpd/
Disallow: /i/
Disallow: /f/
Disallow: /t/
Disallow: /c/
Disallow: /j/
Disallow: /*.php$
Disallow: /*?*
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*?
Allow: /wp-content/uploads # alexa archiver User-agent: ia_archiver
Disallow: / # autoriser le robots google image à rechercher toutes les images User-agent: Googlebot-Image Disallow: /wp-includes/

Allow: /*

Bien entendu dans outils pour webmaster le sitemap est refusé de part ce problème.

J'espère vraiment trouver une solution car le site n'a même pas raison d'être si google ne le prend pas en compte

Merci de pour votre lecture et participation :)
 
WRInaute accro
Pourquoi avoir tous ces réglages dans le robots.txt ? Ce n'est absolument pas ce qu'il y a dans le fichier par défaut de wordpress ce me semble. De plus, il y a beaucoup de règles inutiles (notamment le Allow, vu que c'est le comportement par défaut)...
 
Nouveau WRInaute
Oui j'avoue que c'est un robots.txt que j'ai trouvé sur un site donné par un indien lol ..

Blague à part je n'arrive toujours pas à régler le problème.

Ps à l'origine il n'y a pas de de robots.txt dans wordpress il me semble ...
 
WRInaute passionné
Georges van luik a dit:
Ps à l'origine il n'y a pas de de robots.txt dans wordpress il me semble ...
En fait si, mais il n'est pas physiquement présent sur ton FTP. S'il n'y a pas de fichier robots.txt, Wordpress en génère un virtuel.
Par contre, je ne rejoins que partiellement l'avis de UsagiYojimbo. Ton fichier robots.txt n'est pas si mal. C'est une bonne idée d'interdire l'indexation de :
Code:
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes 
Disallow: /wp-login.php
Disallow: */trackback
Disallow: */feed
Disallow: */comments
 
WRInaute accro
Oui, je n'ai pas dit que toutes les règles étaient mauvaises. Mais il y en a beaucoup trop, que je trouve particulièrement inutiles pour un WP.

Reste que si tu testes une url dans Google Webmaster Tools, si elle est bloquée, il t'indique quelle ligne du robots.txt la bloque.
 
Nouveau WRInaute
Merci pour vos réponses, je viens de tester dans google toutes les url du blog et il n'y a que le nom de domaine qui est bloqué par le robots.txt .
J'ai eu beau chercher dans webmaster tools quelle ligne bloquait je n'ai pas trouvé et le sitemap est toujours refusé si un personne avait une procédure à me filer cela serait bien sympa car j'avoue être perdu sur ce coup là ...
 
WRInaute passionné
Une première chose à vérifier, c'est si dans le Google Webmaster Tools (rubrique "État de santé > URL bloquées") la dernière version de ton fichier robots.txt est affichée. Google peut mettre quelque heures (à 1 ou 2 jours) pour répercuter les changements effectuées sur ton fichier robots.txt. Mais comme indiqué sur la page en question, tu a la possibilité de "Modifier pour tester les changements" si jamais le fichier n'est pas à jour.

Par la suite, en spécifiant l'URL que tu souhaite tester et en cliquant sur "Test", dans la partie "Résultats du test" > "Google Bot", tu pourras voir la ligne qui autorise ou refuse l'accès :
Autorisé par la ligne 10 : Allow: /*
Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes.
 
Nouveau WRInaute
Merci beaucoup pour le coup de main,

Dans le résultat du test j'ai justement une réponse qui ne m'aide pas

Résultats du test
URL Googlebot Googlebot-Mobile
http://extensions-plumes-fournisseur.fr/
Autorisé
Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes.
Autorisé
Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes.

Est ce normal que c'est identifié comme répertoire ?
Le test dit que l'adresse est autorisé mais cela ne se voit pas quand je teste l'url dans google j'ai toujours la phrase me disant que cette url est bloquée par un robots.txt, faut il attendre ?
 
WRInaute passionné
Oui c'est normal, car tu a soumis l'URL suivante : http://extensions-plumes-fournisseur.fr/
... qui n'est ni plus ni moins que la racine de ton site (c'est à dire ton "répertoire principal").

Donc le retour du Google Webmaster Tools semble OK.
Il faudrait que tu test avec des URL internes.

Mais effectivement il y a un problème avec ton robots.txt (à la vue de la commande site:).
Soit c'est Google qui ne la pas encore pris en compte (ça peut prendre un certains temps), soit ton robots.txt est invalide.
Je te poste celui d'un de mes WordPress (sait on jamais) :

Code:
User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /author
Allow: /*

User-agent: Googlebot-Image
Disallow:
Allow: /*

User-agent: Mediapartners-Google*
Disallow:
Allow: /*
 
Nouveau WRInaute
PB robot.txt google
le Mer Mar 27, 2013 19:36

Bonjours, avant tout je tiens a preciser que je ne suis ni un pro ni un developpeur mais j uste un passioné et jai un soucie un pe similaire

pour la premiere fois un de mes site wordpress a des soucies sur google , lorsque je tape l adresse du site (page d acceuil)
voila ce que j ai : La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

je precise que j ai bien cocher "rendre le site accessible au moteur de recherche dans les reglzages. En plus les autres pages aparaisse bien , jai fouillé un peut pour me renseigner et jai comparé le contenu de la page "monsite/robots.txt" avec celle d un autre de mes site qui na pas ce pb et le contenue est identique (User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/),

un ami ma conseillé de patienté et que ca aller ce regler tout seul, mais rien

la s arrete mes faible competenses, pouvez vous venir a mon secours ?
merci a vous
 
Nouveau WRInaute
yes , je vien de regarder c bon !!! ;) (il fallait juste etre patien)

merci bcp a toi d avoir pris du temps

ps tu as un lien a me donner pour configurer seo by host (genre pour les nuls) ?

encore merci
 
Nouveau WRInaute
Bonjour,
Je cherche à savoir pourquoi mon site http://www.diaolbags.com n'est à référencé avec google. Il à été développé avec WP mais depuis plus de 1 mois je n'arrive pas à le référencer.
J 'ai installé un fichier robots.txt à la racine du site, j'ai inscris et utilisé webmaster tool afin d’optimisé son référencement.
Voici le contenu du fichier robots.txt :
User-Agent: *

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Allow: /*
User-agent: Googlebot-Image
Disallow:
Allow: /*
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Sitemap: http://www.diaolbags.com/sitemap.xml


Je ne comprend pas ou je pêche. Quelqu'un a t'il une solution ?
 
WRInaute accro
Autorise déjà le moteur de recherche à indexer le site, ca sera un bon début :

Code:
<meta name='robots' content='noindex,nofollow' />

Réglages > Lectures, la case Discourage search engines from indexing this site doit être décochée.
 
Nouveau WRInaute
Je te remercie pour ta demarche. Je viens de modifier la ligne de commande dans l'admin de WP. Je pense avoir le retour dans 2 jours.
Merci encore.
 
Olivier Duffez (admin)
Membre du personnel
dans ton robots.txt :
supprime la ligne Disallow: ../certif/
(ou bien enlève "..")

supprime toutes les lignes Allow: /*
supprime les lignes avec instruction vide telles que Disallow:

ta page d'accueil n'a pas changé depuis mars ? (indiqué dans sitemap)
as-tu des messages dans GWT concernant le crawl, l'indexation, ton sitemap ou ton robots.txt ?
as-tu des bons liens pointant vers ton site ?

il reste des pages en noindex, par exemple http://www.diaolbags.com/boutique-2/
 
Nouveau WRInaute
Bonjour,

http://www.geekpress.fr/wordpress/astuce/fichier-robots-txt-optimise-wordpress-503/
voilà un robots.txt optimisé pour WordPress, bien sûr ce n'est pas la "sainte" parole, c'est une base à adapter à sa convenance.
 
Discussions similaires
Haut