Sitemap crawler pour pré-mise en cache

WRInaute passionné
Bon, un petit script que j'ai développé pour des besoins persos, ça peut vous servir, l'idée est que quand vous supprimez votre cache, il faut le reconstruire en se baladant sur le site, et si vous avez 20K de pages à parcourir c'est long.

Bon, il vous faut un dédié, c'est en bash:
Code:
#!/bin/bash
SMA="URL de votre sitemap.xml"
SMB="un autre sitemap"
SLEEP=0.6 # Pause entre chaque crawl
# C'est parti :
for i in `curl $SMA | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
do
        wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
        echo "$i" >> /var/log/precache.log
        sleep $SLEEP;
done
## L'autre sitemap sinon vous virez ça
for i in `curl $SMB | grep "<loc>" | cut -d ">" -f 2 | cut -d "<" -f 1`;
do
        wget $i -nv -O /tmp/precache.tmp >> /var/log/precache.log;
        echo "$i" >> /var/log/precache.log
        sleep $SLEEP;
done
rm /tmp/precache.tmp

Voilà, pour du memcache, c'est plutôt pas mal, perso je le lance après chaque purge de mon cache.
 
WRInaute accro
Merci Julia41 mais quelle utilité par rapport à une solution wget ? Et par rapport à un wget -i avec une liste d'URL ?
 
WRInaute passionné
milkiway a dit:
Merci Julia41 mais quelle utilité par rapport à une solution wget ? Et par rapport à un wget -i avec une liste d'URL ?
Aucun, mais je pense que la plupart des membres de WRI (référencement) auront un sitemap plutôt qu'une liste d'URL.
Ca permet de :
je génère mon sitemap par xx méthodes à minuit. Je lance le script à minuit 10.
 
Discussions similaires
Haut