Sitemap crawler pour pré-mise en cache

Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics


Julia41
WRInaute passionné
WRInaute passionné
 
Messages: 1765
Inscription: 31 Aoû 2007

Sitemap crawler pour pré-mise en cache

Message le Sam Aoû 21, 2010 15:23

Bon, un petit script que j'ai développé pour des besoins persos, ça peut vous servir, l'idée est que quand vous supprimez votre cache, il faut le reconstruire en se baladant sur le site, et si vous avez 20K de pages à parcourir c'est long.

Bon, il vous faut un dédié, c'est en bash:
Code: Tout sélectionner
#!/bin/bash
SMA="URL de votre sitemap.xml"
SMB="un autre sitemap"
SLEEP=0.6 # Pause entre chaque crawl
# C'est parti :
for i in `curl $SMA | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
do
        wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
        echo "$i" >> /var/log/precache.log
        sleep $SLEEP;
done
## L'autre sitemap sinon vous virez ça
for i in `curl $SMB | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
do
        wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
        echo "$i" >> /var/log/precache.log
        sleep $SLEEP;
done
rm /tmp/precache.tmp


Voilà, pour du memcache, c'est plutôt pas mal, perso je le lance après chaque purge de mon cache.


Leonick
WRInaute accro
WRInaute accro
 
Messages: 19598
Inscription: 8 Aoû 2004

Re: Sitemap crawler pour pré-mise en cache

Message le Sam Aoû 21, 2010 16:59

une reco


milkiway
WRInaute accro
WRInaute accro
 
Messages: 4910
Inscription: 3 Fév 2004

Re: Sitemap crawler pour pré-mise en cache

Message le Mar Mar 29, 2011 0:34

Merci Julia41 mais quelle utilité par rapport à une solution wget ? Et par rapport à un wget -i avec une liste d'URL ?


Julia41
WRInaute passionné
WRInaute passionné
 
Messages: 1765
Inscription: 31 Aoû 2007

Re: Sitemap crawler pour pré-mise en cache

Message le Mar Mar 29, 2011 0:41

milkiway a écrit:Merci Julia41 mais quelle utilité par rapport à une solution wget ? Et par rapport à un wget -i avec une liste d'URL ?

Aucun, mais je pense que la plupart des membres de WRI (référencement) auront un sitemap plutôt qu'une liste d'URL.
Ca permet de :
je génère mon sitemap par xx méthodes à minuit. Je lance le script à minuit 10.


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par les experts Google Analytics de Ranking Metrics.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités