Insertion de flux rss dans une BD

Consultez la formation au référencement naturel Google de WebRankInfo / Ranking Metrics


rudddy
WRInaute accro
WRInaute accro
 
Messages: 1711
Inscription: Mer Aoû 01, 2007 19:00

Insertion de flux rss dans une BD

Message le Mar Juin 17, 2008 13:11

Bonjour,

Je voudrais continuer la discussion http://www.webrankinfo.com/forums/viewtopic_94828.htm

Je suis bloqué techniquement :

j'aimerais récupérer plusieurs flux rss de mes différents sies (et d'autres encore : une dizaine en tout) et les intégrer à ma BD. j'ai plusieurs interrogations :
1- à quelle fréquence parser chaque flux pour intégrer les nouveaux articles à ma BD ?
2- au moment où je reparse le flux, comment savoir quels articles ont déjà été intégrés à ma BD et lesquels non afin de ne pas avoir des articles en double ?

précisions : je suis en php/mysql


merci de votre aide


Mitsu
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 210
Inscription: Lun Déc 18, 2006 22:19

Message le Mar Juin 17, 2008 13:29

Ce que tu peut faire c'est tout ajouter dans ta table, ensuite tu fait un petit ménage, tu supprime toutes les entré en double quoi en comparant les différentes colonne.

En ce qui concerne la fréquence ça dépend de tes site si t'as un article par semaine ça sert à rien de faire tourné ton script toutes les heure par contre si t'a un article toutes les minutes la forcément faut faire tourné ton script souvent.

Sinon si tes sites sont sur le même serveur tu peut faire en sortent que des que tu poste un article ça le fout direct en double dans ton autre table pour chacun de tes sites.


rudddy
WRInaute accro
WRInaute accro
 
Messages: 1711
Inscription: Mer Aoû 01, 2007 19:00

Message le Mar Juin 17, 2008 13:47

Mitsu a écrit:Ce que tu peut faire c'est tout ajouter dans ta table, ensuite tu fait un petit ménage, tu supprime toutes les entré en double quoi en comparant les différentes colonne.

En ce qui concerne la fréquence ça dépend de tes site si t'as un article par semaine ça sert à rien de faire tourné ton script toutes les heure par contre si t'a un article toutes les minutes la forcément faut faire tourné ton script souvent.

Sinon si tes sites sont sur le même serveur tu peut faire en sortent que des que tu poste un article ça le fout direct en double dans ton autre table pour chacun de tes sites.


merci de ta réponse : non : mes sites sont sur différents serveurs

sinon comment aire le tri sur les colonnes car ma BD va grossir et donc, le ti va être au bout d'un certain temps très long ...

pour info voici ma table :

id
datetime (index)
source (index)
tire
description
catégorie
lien


Mitsu
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 210
Inscription: Lun Déc 18, 2006 22:19

Message le Mar Juin 17, 2008 15:56

Tu fait le tri après chaque insertion, dans ton script qui tourne par exemple une fois par jour

Tu as une étape ou tu insert le contenu dans ta base de donné et juste après tu fait un tri ou tu divise toute les entré en double, tu regard les entré ou le titre et la description sont identique et tu vire ce qui y a en trop.


rudddy
WRInaute accro
WRInaute accro
 
Messages: 1711
Inscription: Mer Aoû 01, 2007 19:00

Message le Mar Juin 17, 2008 15:57

Mitsu a écrit:Tu fait le tri après chaque insertion, dans ton script qui tourne par exemple une fois par jour

Tu as une étape ou tu insert le contenu dans ta base de donné et juste après tu fait un tri ou tu divise toute les entré en double, tu regard les entré ou le titre et la description sont identique et tu vire ce qui y a en trop.


le jour ou j'aurais 10 000 entrées, ce ne sera pas trop lourd de faire une comparaison de tous les titres et descriptions ?


Mitsu
WRInaute occasionnel
WRInaute occasionnel
 
Messages: 210
Inscription: Lun Déc 18, 2006 22:19

Message le Mar Juin 17, 2008 16:04

10 000 n'est pas si énorme que ça cela dit pour faire plus propre tu peu enregistrer dans un différent fichier tes donné (un qui affiche toutes les entrés, tu ajoute les entré a la fin du document et nom au début pour celui la), tu récupere ce fichier et t'insere tout dans ta bdd comme avec le fichier xml et sur une autre table tu sauvegarde l'endroit ou tu es dans le fichier (c'est un nombre qui dit à quel caractere tu es dans le fichier) ensuite quand tu relis le fichier tu li à partir de ce nombre, ainsi tu ne prend que ce qu'il y a de nouveau.


Formation recommandée sur ce thème :

Formation Référencement naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :



Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités