[LOGICIEL] Générateur de sitemap

WRInaute discret
Bonjour,

J'ai crée un mini logiciel de création de sitemap avec détéction du fichier robots.txt. Le logiciel détecte vos pages et vous les met en forme. Vous pouvez spécifier les répertoires en + du robots.txt à ne pas indéxer.

Le logiciel vous permet aussi de voir vos erreurs 404 et indiquent dans quel fichier elles se trouvent. Vous pouvez exporter votre fichier sitemap.xml à la fin de parcourt de vos pages.

Voilà, si vous voyez des fonctionnalités manquantes ou des petits bugs n'hésitez pas

Le lien : http://www.blanchon-vincent.fr/portfolio/python/generateur-sitemap/

Edit : L'exécutable pour mac est disponible ainsi que l'export XML.

Merci d'avance
 
WRInaute discret
Oui je vais regarder ça.
Merci

Comment tu gère tes erreurs 404 ? Parce que si je tape une url farfelue, il me retourne pas d'erreur et prend la page d'acceuil, et comme tu as des erreurs 404 dans ton site, ça fausse l'algorithme. Tu as quoi dans ton .htaccess ?
 
WRInaute discret
D'accord c'est ce qui me semblait. J'ai corrigé ça, c'est mis à jour. Je te mettrais un petit lien de mon site dans les news pour te remercier de tes tests et de ta patience :)
 
WRInaute discret
Le logiciel inscrit maintenant le nombre d'url trouvées et permet l'export du fichier en un fichier 'sitemap.xml' :)

Les téléchargements fait avant 10h05 peuvent télécharger la nouvelle version :)
 
WRInaute discret
Je comprends pas trop l'interet de ce type de générateur

Le seul avantage que je vois au sitemap c'est :
- pouvoir lister des pages pas accessible aux moteurs (sinon ils les trouvent eux-même),
- ajouter une hypothétique "importance de page",
- et enfin spécifier la date de mise à jour de page.

Pour moi, soit je fais pas de sitemap, soit je joue franchement le jeu à fond.

Et pour moi dans l'ordre :
- ca veut dire qu'on a mal construit sont site => le repenser
- ca sert franchement à rien ou à vraiment pas gd chose dixit google lui-même
- là je sais pas, j'ai lu que ca informait les moteurs mais ne changeait pas leur urls "déjà dans le pipe"


Sinon toujours une bonne initiative de se lancer dans ce genre de dev techniquement interressant :)
 
WRInaute discret
manthoR a dit:
Je comprends pas trop l'interet de ce type de générateur

Le seul avantage que je vois au sitemap c'est :
- pouvoir lister des pages pas accessible aux moteurs (sinon ils les trouvent eux-même),
- ajouter une hypothétique "importance de page",
- et enfin spécifier la date de mise à jour de page.

Pour moi, soit je fais pas de sitemap, soit je joue franchement le jeu à fond.

Et pour moi dans l'ordre :
- ca veut dire qu'on a mal construit sont site => le repenser
- ca sert franchement à rien ou à vraiment pas gd chose dixit google lui-même
- là je sais pas, j'ai lu que ca informait les moteurs mais ne changeait pas leur urls "déjà dans le pipe"


Sinon toujours une bonne initiative de se lancer dans ce genre de dev techniquement interressant :)

Je suis comme toi, le sitemap ne sert à rien (à part pour ceux qui contruisent mal leur site ...), seulement pour Google voit le sitemap d'un bon oeil, il lui permet de voir les nouvelles urls plus rapidement. Donc c'est toujours bien d'en faire un pour le référencement.

Après si tu ne vois pas l'utilité du générateur tu n'es pas obligé de le télécharger ...
 
WRInaute accro
Bon ben alors je continue:

Les liens présents dans le code source sous forme de commentaires HTML sont suivis par ton outil :) Et c'est assez courant dans des sites de trouver des parties placées entre commentaires <!-- blabalblablablabal -->. mais bon c'est pour pinailler:)
 
WRInaute discret
nickargall a dit:
Bon ben alors je continue:

Les liens présents dans le code source sous forme de commentaires HTML sont suivis par ton outil :) Et c'est assez courant dans des sites de trouver des parties placées entre commentaires <!-- blabalblablablabal -->. mais bon c'est pour pinailler:)

Très bien très bien ça va être vite fait ça :)
 
WRInaute accro
Et autre chose : les URL comportant le signe + ne sont pas correctement interprétées. Pas de bol, c'est un séparateur valide dans une URL :)
 
WRInaute discret
outil interessant
manque quelque sparametrages
comme le choix pour enregistrer le fichier echemin et nom
mais c'est pour pinailler

c'est du bon boulot :)
 
Nouveau WRInaute
Il ne fait pas la différence entre un fichier et un répertoire lorsqu'il interprète le fichier robot.txt, il inscrit le répertoire complet dans la partie "ne pas indéxer".

J'ai l'impression qu'il tourne en boucle, ci-dessous un extrait
Code:
http://www.voyage-australie-nz.com/index.php/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/index.php?page=voyage
Il fait ça sur une partie, et à chaque boucle il rajoute "/galerie" et je suis obligé de l'arrèter

en espérant que ça aide
 
WRInaute discret
mtgt a dit:
Il ne fait pas la différence entre un fichier et un répertoire lorsqu'il interprète le fichier robot.txt, il inscrit le répertoire complet dans la partie "ne pas indéxer".

J'ai l'impression qu'il tourne en boucle, ci-dessous un extrait
Code:
http://www.voyage-australie-nz.com/index.php/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/galerie/index.php?page=voyage
Il fait ça sur une partie, et à chaque boucle il rajoute "/galerie" et je suis obligé de l'arrèter

en espérant que ça aide


Merci, lors de mes tests j'avais eu ce problème je pensais l'avoir réglé, je vais regarder ça et le corriger.
 
WRInaute discret
Bonjour,
J'ai testé sur plusieurs sites mais sur mes CMS xoops ou joomla, cela s'arrête à la première url... les autres sites ça fonctionne.
 
WRInaute discret
nath70 a dit:
Bonjour,
J'ai testé sur plusieurs sites mais sur mes CMS xoops ou joomla, cela s'arrête à la première url... les autres sites ça fonctionne.

Pouvez vous me donner une url de site où il s'arrête à la première url ?

Une mise à jour du générateur sera disponible en fin de semaine.
 
WRInaute discret
nath70 a dit:
Bonjour,
J'ai testé sur plusieurs sites mais sur mes CMS xoops ou joomla, cela s'arrête à la première url... les autres sites ça fonctionne.

Bonjour
Pour xoops, est-ce que cela ne viendrait pas du module Protector qui bloquerait le logiciel car je pense qu'il prend cela pour une attaque.

Si vous avez bien Protector, il faut le désactiver puis faire votre SiteMap et ensuite réactiver le module.

Bonne après-midi :wink:
 
Nouveau WRInaute
Bien

Bonjour,

Félicitations !
Un petit bouton pour stopper le scan serait le bienvenu et empêcherait de fermer le logiciel à "la sauvage" pour stopper le scan.
Pour le site que j'ai scanné, le logiciel va compter triple certains des liens avec tri par javascript :
- Le lien classique
- lien avec tri descendant
- lien avec tri ascendant

Alors qu'il s'agit d'une seule et même page.

De plus, il m'a permis de détecter des liens morts (internes).

Enfin, ce serait le top du top si le logiciel pouvait créer un sitemap de sitemap en fonction des dossiers.
Et si on pouvait customiser une feuille de style pour le sitemap, ce serait le nirvana !
(Exemple : adonfff(DOT)com/sitemap.xml)
 
WRInaute discret
Re: Bien

Adonfff a dit:
Bonjour,

Félicitations !
Un petit bouton pour stopper le scan serait le bienvenu et empêcherait de fermer le logiciel à "la sauvage" pour stopper le scan.
Pour le site que j'ai scanné, le logiciel va compter triple certains des liens avec tri par javascript :
- Le lien classique
- lien avec tri descendant
- lien avec tri ascendant

Alors qu'il s'agit d'une seule et même page.

De plus, il m'a permis de détecter des liens morts (internes).

Enfin, ce serait le top du top si le logiciel pouvait créer un sitemap de sitemap en fonction des dossiers.
Et si on pouvait customiser une feuille de style pour le sitemap, ce serait le nirvana !
(Exemple : adonfff(DOT)com/sitemap.xml)

Le bouton stop ainsi que plusieurs améliorations ont été inclues. D'autres à venir.

Dernière MAJ : 15 Octobre 2008
 
Discussions similaires
Haut