Génération du sitemap

WRInaute discret
Hello

Pendant longtemps j'ai utilisé quelques lignes de scripts php intégrées dans mes pages qui écrivent dans une bdd les requettes de mon site, ça me permettait de faire du tracking et même d'obtenir que mes visiteurs me fabriquent eux-même le sitemap utile pour Google.

Depuis quelques mois j'ai abandonné cette technique car le tracking de mes pages m'a permis de constater le nombre de requêtes farfelues générées, voire de tentatives d'injection sql ou de javascript. Je bloque les mauvais paramètres à l'exécution, mais la requête est enregistrée car le php ne génère pas d'erreur 404 quand ce sont des valeurs qui sont incohérentes (et en + je tiens à savoir ce qui se passe et qui tente...) mais du coup les règles pour nettoyer tout ça et faire un sitemap propre étaient devenues trop lourdes.

J'ai cru trouver en yoodamap une bonne solution, simple et rapide, mais en creusant un peu et en croisant les requêtes de mon tracking avec les accès effectués par yoodamap (facile, j'ai une ip fixe) je constate qu'il ne tient pas compte des répertoires :

C'est à dire que -http://www.exemple.fr/ex2/test.php sera visité comme -http://www.exemple.fr/test.php donc page inexistante, donc rien dans le sitemap. Il trouve bien les liens (tous sont vus) mais mal explorés.

Quelqu'un a déjà rencontré et résolu ce soucis ?

J'ai testé pas mal d'autres logiciels mais entre les usines à gaz la simplicité de yooda me convenait bien.

Merci
 
WRInaute discret
Parce que la BDD ne contenait pas QUE les pages du sites, mais TOUTES les demandes de pages, y compris les robots, les tentatives de hack etc...

Au bout de quelques années, non seulement la base devenait très grosse, mais je devais passer un temps de plus en plus long pour adapter mon script de génération et filtrer tout l'indésirable.

Bref, comme il n'y a pas souvent de nouvelles pages, tout au + 10 par mois, un coup de yoodamap et seule la réalité en sort, sauf que le bug décrit me bloque maintenant...
 
WRInaute accro
oui mais ton contenu est bien dans une bdd ? tu sais donc comment sont créé les url des pages de ton site, non ?
 
WRInaute discret
Pas vraiment : il y a une partie statique mais avec des morceaux de php dedans, le tout url rewrité, il y a une galerie photo (phpwebgallery) elle même url rewrité...

Je me contentais grâce à quelques lignes de php d'enregistrer les urls demandées mais comme je l'ai dit, entre les urls fantaisistes, les tentatives de hack (passages de paramètres bidons) et la taille de la base qui devenait gigantesque, je ne conserve plus que les 3 ou 4 derniers mois, rien d'exploitable dans ce contexte.

C'est pourquoi à choisir je préfère un script extérieur (même lent, je le lance la nuit) avec possibilité de filtrage et d'exclusion et qui ne cherche que les <a href= en repartant de propre à chaque fois.
 
Discussions similaires
Haut