Forte chute pages explorées googlebot

WRInaute passionné
c'est pas à cause d'une durée de chargement de chaque page plus élevée ?
 
S
StefouFR
Guest
Bonjour,

Chez moi le site est rapide.

Par contre un conseil, supprime ton fichier robots.txt car dans l'état il ne sert à rien, voir il peut être négatif.

Ensuite sur le site tu as énormément de noindex, cela peut venir de la.

Tu n'as aucun sitemap.xml apriori. Pour ce genre de site c'est dommage.
 
WRInaute discret
Bonjour,

merci pour ces remarques, je vais donc supprimer le fichier robot.txt

J'ai trouvé une piste en y pensant cette nuit, je soupçonne justement le serveur de pomper trop de ressource quand il génère le sitemap.xml (cela se passe la nuit)
En effet il n'y a plus de fichier depuis 1 semaine car j'ai migré sur un autre serveur il faut que je réactive la chose

Juste pour information vous utilisez quel système pour la génération du sitemap ?

merci

David
 
WRInaute accro
Je ne supprimerais pas robots.txt mais je mettrais un fichier vide à la place
Et j'ajouterai également un fichier favicon.ico à la racine pour éviter les erreurs 404

Pour la chute des visites de googlebot ça peut venir qu'il a remarqué que les mises à jour n'étaient plus régulières ou alors ça peut venir de l'ancienneté du site. S'il a plus de 5 ans j'ai l'impression que google passe moins souvent sur ce genre de sites car il doit considérer que les pages ne sont plus trop d'actualité.

Est-ce que tu as constaté une chute des visites ou une perte de pages indexées dans l'index de google ?
 
WRInaute accro
david_WRI a dit:
Juste pour information vous utilisez quel système pour la génération du sitemap ?

notepad à la mimine

Et si je devais les générer en automatique je le ferais lors des mises à jour de la base en allant balayer la base lors d'une insertion ou d'une suppression et pas en balayant le site page par page
 
WRInaute accro
david_WRI a dit:
Juste pour information vous utilisez quel système pour la génération du sitemap ?
en général, tu sais comment sont générées les pages par rapport à la bdd, donc créer un sitemap par rapport à ces règles n'est pas dur à faire
 
WRInaute discret
Merci pour vos informations à tous

J'ai ajouté un favicon, vidé le robot.Txt

Pour le crawler, j'utilise un logiciel de mon côté, xml-sitemap de tête

J'espère que ça va reprendre rapidement l'indexation :)
 
S
StefouFR
Guest
Je ne comprends pas ce robots.txt vide expliqué plus haut par indigene, cela équivaut au meta robots index,follow qu'on voit parfois. Complètement inutile.

Un conseil supprime tout simplement le robots.txt s'il est vide ou si tu autorises tout ! Le seul cas où tu pourrais le laisser alors que tu autorises tout cela sera pour indiquer ton sitemap.xml, même si dans GWT on peut l'indiquer. C'est vraiment le seul cas "utile".

Pour le favicon ce n'est pas bête, mais le problème ne vient pas de là.

Le sitemap.xml je le génère aussi en manuel avec notepad comme indigene.
 
WRInaute discret
StefouFR a dit:
Je ne comprends pas ce robots.txt vide expliqué plus haut par indigene, cela équivaut au meta robots index,follow qu'on voit parfois. Complètement inutile.

Un conseil supprime tout simplement le robots.txt s'il est vide ou si tu autorises tout ! Le seul cas où tu pourrais le laisser alors que tu autorises tout cela sera pour indiquer ton sitemap.xml, même si dans GWT on peut l'indiquer. C'est vraiment le seul cas "utile".

Pour le favicon ce n'est pas bête, mais le problème ne vient pas de là.

Le sitemap.xml je le génère aussi en manuel avec notepad comme indigene.
Hmmm je supprime ou pas alors ce fichier robot.txt ? :lol:

Pour le sitemap j'ai énormément de page, à la mano ça être un peu long :oops:
 
WRInaute accro
Il me semble avoir déjà lu à plusieurs reprises qu'il vaut mieux un fichier robots.txt vide que pas de fichier robots.
Comme quoi :wink:
 
WRInaute accro
noren a dit:
vaut mieux un fichier robots.txt vide que pas de fichier
Pour éviter la 404 que ces gros neuneux de bots font générer 20 fois par jour pour voir si tu as pas changé d'avis ... En tous cas c'est pour ça que les miens sont vides mais présents.

david_WRI a dit:
Pour le crawler, j'utilise un logiciel de mon côté, xml-sitemap de tête
Et pour éclairer tes toilettes tu construit une centrale nucléaire dans le jardin ? Je me demande parfois si les gens ont une vague notion de leur éco responsabilité dans la vie ... Non seulement ton sitemap c'est pour le flan d'un point de vue SEO, mis a part prévenir plus vite de l’apparition d'une page tous les 10 jours mais si c'est juste pour ça tu peux largement ajouter une url a la mano a chaque fois que tu publie des fois que tu ne sache pas faire une requête sur une base de données ...

ça me fait penser a GG qui te présentent 10 pages de résultat intermédiaire le temps que tu tape ta requêtes tout ça ... Comment va tu faire quand très bientôt tu n'aura plus les moyens de te payer tout ce gaspillage de ressources ?
 
WRInaute discret
zeb a dit:
noren a dit:
vaut mieux un fichier robots.txt vide que pas de fichier
Pour éviter la 404 que ces gros neuneux de bots font générer 20 fois par jour pour voir si tu as pas changé d'avis ... En tous cas c'est pour ça que les miens sont vides mais présents.

david_WRI a dit:
Pour le crawler, j'utilise un logiciel de mon côté, xml-sitemap de tête
Et pour éclairer tes toilettes tu construit une centrale nucléaire dans le jardin ? Je me demande parfois si les gens ont une vague notion de leur éco responsabilité dans la vie ... Non seulement ton sitemap c'est pour le flan d'un point de vue SEO, mis a part prévenir plus vite de l’apparition d'une page tous les 10 jours mais si c'est juste pour ça tu peux largement ajouter une url a la mano a chaque fois que tu publie des fois que tu ne sache pas faire une requête sur une base de données ...

ça me fait penser a GG qui te présentent 10 pages de résultat intermédiaire le temps que tu tape ta requêtes tout ça ... Comment va tu faire quand très bientôt tu n'aura plus les moyens de te payer tout ce gaspillage de ressources ?
Au vu de ta réponse et le ton utilisé, tu sembles supérieur à tout le monde.

Je maîtrise parfaitement SQL, j'ai utilisé xml-sitemap pour un gain de temps et éviter à avoir développer une solution car j'ai énormément de boulot, j'ai une quarantaine de pages nouvelles chaque jour, je me vois mal ajouter tous les jours une url à la mano.
Si c'est juste une question de latence entre le moment où ma page est publiée et son indexation, en effet, je me fou du sitemap, surtout que je fais en sorte que les nouvelles pages soient au maximum sur un niveau 2
 
WRInaute accro
david_WRI a dit:
Je maîtrise parfaitement SQL, j'ai utilisé xml-sitemap pour un gain de temps
un gain de temps ? faire crawler l'intégralité d'un site pour trouver les nouvelles pages et supprimer du sitemap celles n'existant plus, tu appelles cela un gain de temps ? :roll:
 
WRInaute accro
+1 Leonick. Ca dépend l'outil utilisé, dans mon framework ça met moins de temps à coder que de crawler tout le site.
 
WRInaute discret
spout a dit:
+1 Leonick. Ca dépend l'outil utilisé, dans mon framework ça met moins de temps à coder que de crawler tout le site.
Il n'y pas que le temps de développement, il faut comprendre comment sont structuré les fichiers sitemaps, j'estime à 1 jour de développement que je n'ai malheureusement pas pour le moment
 
WRInaute discret
spout a dit:
X-Powered-By: PHP/5.4.4-14 :)
Trollface.jpg
 
WRInaute accro
david_WRI a dit:
Il n'y pas que le temps de développement, il faut comprendre comment sont structuré les fichiers sitemaps,
c'est sur qu'en lisant les consignes de gg
google a dit:
pour les sitemaps Web de base (sitemaps contenant exclusivement des URL de pages Web, mais ne contenant ni images, ni vidéos, ni autres données spécifiques), vous pouvez transmettre à Google un simple fichier texte en indiquant une URL par ligne.
ça laisse augurer une extrême complexité de création :mrgreen:
 
WRInaute discret
Vous devriez passer plus de temps à aider les autres internautes du forum qu'à essayer de comprendre pourquoi j'ai estimé à 1 jour le développement d'un script de génération d'un sitemap xml

Merci à ceux qui m'ont aidé en tout cas !
 
WRInaute accro
david_WRI a dit:
Si c'est juste une question de latence entre le moment où ma page est publiée et son indexation
C'est exactement ça plus un retour d'info dans GWT qui n'a d’intéressant que son côté hightech dans des conversations de salon (bref du vent).

david_WRI a dit:
j'ai utilisé xml-sitemap pour un gain de temps
Mauvais calcul tu met le serveur a genoux et vue le nombre de pages qui étaient crawlées jusque mi avril on peut supposer un site volumineux (30k crawlé par jour pour 500k pages sur le site chez moi) donc ton système met une grosse patate au serveur a chaque passage. Si de plus pour par faire chier le monde tu fais tourner ça de nuit (juste quand les bots décides de passer pendant la période calme de ton serveur) tu as toute les chances de générer pas mal de pages lentes voir inaccessibles. Dans ce cas les bots lâchent l'affaire rapidement.

Mais le vrai souci c'est que ça semble brutal et quasi complet ça laisse donc à penser qu'il pourrait y avoir un problème plus vicieux mais là je voie pas.
 
WRInaute accro
Mettre un fichier robots.txt vide à la racine du site n'a rien à voir avec Google. Pour Google c'est en effet complètement inutile.
C'est seulement par rapport au serveur Apache.
Car tous les crawlers vont commencer à accéder au fichier robots.txt pour voir s'il en existe un et s'il n'est pas là ça génère une erreur 404 au niveau du serveur et c'est pas propre.
Pour le favicon.ico s'est exactement pour les mêmes raisons : éviter une erreur 404 au niveau du serveur.
 
WRInaute accro
+1 indigene c'est effectivement ce que je tentais d'expliquer ... mieux vaux un fichier vide qu'une 404
 
WRInaute accro
oui, excusez-moi, je répondais à un post de la première page et je n'avais pas vu qu'il y avais déjà toute une page 2 qui parlait de ça.

Pour ce qui est de la chute subite des visites des bots ça ne serait pas du à l'age du site ?

Quand un site est assez ancien google pense qu'il doit contenir de nombreuses pages qui ne sont plus trop d'actualité, surtout s'il a repéré que ces pages ne bougent jamais en terme de contenu, il décide alors de les visiter moins souvent pour s'intéresser plus particulièrement aux pages récentes. Mais la chute des passages du bot ne doit pas jouer sur le nombre de visiteurs sauf si c'était justement des vieilles pages qui apportaient beaucoup de visiteurs.

Sans un tel système ça serait toujours les mêmes sites qui seraient toujours en tête des serps mais il faut un peu de renouvellement dans les résultats.
 
WRInaute discret
Merci encore pour vos précisions

Le site doit avoir a un peu plus de 3 ans (le domaine le double), et oui certaines pages ne bougent pas beaucoup

Au niveau trafic ça n'a visiblement pas impacté
 
WRInaute accro
david_WRI a dit:
Au niveau trafic ça n'a visiblement pas impacté
moi c'est ça qui m'intéresse : à quoi ça sert que gg pompe des ressources au serveur en crawlant des pages tous les jours, alors qu'elles n'ont eu aucune modification sur les 6 derniers mois (voire plus) ?
 
WRInaute discret
Leonick a dit:
david_WRI a dit:
Au niveau trafic ça n'a visiblement pas impacté
moi c'est ça qui m'intéresse : à quoi ça sert que gg pompe des ressources au serveur en crawlant des pages tous les jours, alors qu'elles n'ont eu aucune modification sur les 6 derniers mois (voire plus) ?
C'est peut être aussi une erreur de ma part, mon sitemap n'était pas optimisé : je ne me suis pas occupé des attributs de fréquence des pages, est-ce que du coup Google en tenait compte et a fini par "comprendre" que finalement c'était pas très pertinent ce que j'avais mis ?
 
WRInaute accro
la pondération que l'on indique dans le sitemap, j'ai de forts doutes que gg l'utilise, car je pense que la majorité des webmasters doit la mettre au maximum
de plus, si une url apparait dans le sitemap mais n'est liée nulle part ailleurs, gg passera la voir, éventuellement elle sera dans l'index (avec beaucoup de chances) mais pour qu'elle apparaisse dans les serp, là, ça serait une autre difficulté.
perso, le sitemap ne me sert que pour connaitre le ratio des pages crawlées dans GWT, pas pour les faire crawler
 
WRInaute accro
Le truc choquant (visible sur la capture d'écran) c'est quand même la chute très brutale du nombre de pages visités ... c'est énorme.
 
Discussions similaires
Haut