Messages: 205

Enregistré le: 13 Avr 2006

Message le Lun Mar 20, 2017 5:20

Bonjour,

mon site en SPIP à la particularité de mettre en disallow sur le robot.txt le repertoire /local/ où se trouve les images. Bravo...Selon des topics, ce fichier crée des erreurs d'indéxation car il y a des fichiers vignettes notamment et les préconisations sont de créer un sitemap avec de images. On a crée cela et je l'ai communiqué hier sur la console. Donc pensez vous que cela permet de contourner ce disallow pour google, et du coup cela bloque les autres robots. Je ne sais pas trop quoi faire. :roll:
Haut
10 Réponses
Messages: 12199

Enregistré le: 23 Nov 2005

Message le Lun Mar 20, 2017 7:15

Le plus simple (et le plus fiable) serait plutôt d'ajouter une règle supplémentaire dans le robots.txt :

Allow: /local/cache-vignette/
Haut
Messages: 205

Enregistré le: 13 Avr 2006

Message le Mer Mar 22, 2017 19:09

Merci, beaucoup effectivement, on a travaillé le sitemap comme écrit sur ce thread: http://forum.spip.net/fr_259234.html
Le souci, c'est que j'ai passé le sitemap aussi via la console avec arbo et images mais sur le sujet, je ne sais pas toujours comment gérer le robots.txt pour éviter les 404. Le côté allow est évoqué au début reponse #1 mais plus confirmé par la suite alors qui fait autorité? Actuellement je suis toujours en disallow sur /cache/. Avec tous ces algos, on est un peu parano. :mrgreen:
Haut
Messages: 12199

Enregistré le: 23 Nov 2005

Message le Mer Mar 22, 2017 23:28

http://robots-txt.com/ressources/robots-txt-allow/
Haut
Messages: 205

Enregistré le: 13 Avr 2006

Message le Jeu Mar 23, 2017 7:00

Ah ben... Je reste sans voix. Atemi! Merci.
Haut
Messages: 205

Enregistré le: 13 Avr 2006

Message le Jeu Mar 23, 2017 15:48

Petit réajustement, car j'ai pas bien saisi.
on dit justement sur le thread de SPIP, qu'il ne faut surtout pas autoriser l'indexation du repertoire /local/ (on ne peut pas dire à google de répertorier des images qui disparaissaient à chaque vidage du cache)
c'est pour cela que qu'on suivi et appliqué le sitemap de ORSAL (cf le lien ci dessus)
On a garde le
User-agent: *
Disallow: /local/

On a placé au dessous des lignes la commande
Sitemap: http://www.monsite.com/sitemap.xml

Est ce suffisant (est ce que la ligne sitemap:.... autorise les robots directement à crawler le sitemap ou on a inclus les images) ? c'était ma question, en fait ou il faut forcer par une commande du type

allow: /sitemap.xml

Puisque que vous nous indiquez ce lien de tuto.
Merci
Haut
Messages: 12199

Enregistré le: 23 Nov 2005

Message le Jeu Mar 23, 2017 15:54

Non, tu dois autoriser l'accès au dossier qui contient les vignettes.

Du coup tu dois remplacer :

Code: Tout sélectionner
Disallow: /local/


Par

Disallow: /local/
Allow : /local/cache-gd2/
Allow : /local/cache-vignettes/


Et ajuster de manière à autoriser au cas par cas les dossier de /local/ qui sont destinés à être indexés.
Haut
Messages: 205

Enregistré le: 13 Avr 2006

Message le Ven Mar 24, 2017 16:39

Parfait, merci beaucoup, je vois çà en sus du sitemap.
Haut
Messages: 12199

Enregistré le: 23 Nov 2005

Message le Ven Mar 24, 2017 20:33

NB pour plus tard : tu peux tester tes règles de robots.txt depuis Google Search Console, en vérifiant avec des url lesquelles passeraient ou non.
Haut
Messages: 205

Enregistré le: 13 Avr 2006

Message le Lun Mar 27, 2017 8:44

Ok, merci, je vais caler cet allow, je présume qu'il y a dans la réponse: une expérience SPIP? Dans ce cas, j'ai un petit souci de saut de balises plus difficile à régler qu'il n'y parait. Un avais est bien venu. Merci
Haut
Messages: 12199

Enregistré le: 23 Nov 2005

Message le Lun Mar 27, 2017 9:33

Pour ça, comme indiqué sur la réponse qui a été faite sur l'autre sujet, il faut mettre les mains dans le cambouis, ou plutôt dans le dossier squelettes.

Et oui, j'ai eu pour le moins l'habitude du dit CMS, mon ancienne boîte étant (il ya 5/6 ans) particulièrement axée sur ce dernier. Mais je ne pratique plus :)
Haut