Comment palier à l'absence de mises à jour de contenu ?

WRInaute discret
Bonjour à tous,

Je suis entrain de sortir un projet plutôt ambitieux : 1 domaine et ses 24 sous-domaines, correspondant chacun à une région française, le tout étant un annuaire de tous les professionnels.

Au total, une dizaine de millions de pages devraient être ainsi indexées sur l'ensemble du réseau. Mais j'ai un soucis : une fois les fiches des pros indexées, je ne vois vraiment pas comment mettre mon site à jour ! Et je sais que le postage fréquent de nouveaux textes est primordial, aujourd'hui plus que jamais.

Que me conseillez-vous? Je pourrais indexer mes pages peu à peu, mais je finirais par rencontrer le soucis une fois l'indexation terminée. Chaque fiche contient un texte, dont les phrases sont mélangées aléatoirement à chaque refresh, mais le sens du texte est bien gardé (phrases indépendantes). Mais bon, Google finira bien par comprendre qu'il ne s'agit pas là de réels textes uniques.

J'ai pensé greffer à chaque sous-domaine un petit blog, par exemple d'actu de la région concernée (car impossible de rester dans le thème "annuaire téléphonique", il n'y a rien à dire sur le sujet :lol: ). Mettre 24 plateformes à jour chaque jour me semble cependant un peu indigeste.

Adepte de l'autoblogging, j'ai également pensé indexer du flux rss, mais c'est pareil le texte ne sera pas unique.

Que feriez-vous à ma place? L'important nombre de pages suffira t'il à ce que l'absence de mises à jour ne soit pas (trop) pénalisée?

Merci d'avance !
 
WRInaute passionné
du semi-autoblogging avec transformation du contenu avec vérification de la cohérence, grammaire, orthographe avant publication.
 
WRInaute discret
WebRankInfo a dit:
tu as une dizaine de millions de pages à contenu unique, inédit ?
Non, pas exactement.

Mais comme je reprend énormément d'infos que ne reprennent aucun autre site (pas même les pages jaunes), ces textes semblent s'indexer comme s'ils étaient uniques. Bien sûr, Google risque de tilter devant le même squelette rédactionnel de chacune de ces pages, mais en y regardant de plus près, ça peut je pense passer pour de l'unique.

En fait, à part une adresse et un numéro de téléphone, un bloc de texte reprend également d'autres éléments (et les phrases sont mélangées en gardant le sens, comme expliqué dans mon post initial).

De plus, théorie purement personnelle, pour les sites tel que le mien (annuaire téléphonique/adressse) ou comme ceux des paroles de chansons, Google ne pénalise t'il pas moins le contenu déjà trouvé sur d'autres sites en raison de l'impossibilité ou de la quasi-impossibilité pour le webmaster de sortir du texte initial ?
 
WRInaute discret
Koxin-L.fr a dit:
... un nouveau réseau "pages jaunes"...

Oubli.

Rod
Décidément, comme on se retrouve :lol:
Pourquoi es-tu si aigri? Ai-je demandé un avis sur le projet?

Je vis très bien de mes réseaux de sites web, et ce depuis suffisamment longtemps pour savoir dans quoi investir mon temps aujourd'hui. Et si tu t'étais un peu renseigné sur la question, tu aurais compris qu'il y a ceux qui recherchent directement leur info en se rendant sur pagesjaunes.fr, et ceux qui tapent leur recherche de type "activité+ville" dans Google.

Ces derniers ne voient (presque) jamais les pages jaunes ressortir. Le trafic de longue traîne commence déjà à arriver peu à peu, et le projet semble à la hauteur de mes espérance.

J'ai de nombreux sites à fort trafic dans des domaines ultra-concurrentiels, là où d'énormes groupes sont largement premiers depuis des années, ce qui ne m'empêche pas de tirer mon épingle du jeu et d'acquérir de nombreux visiteurs sur ces marchés, toujours avec la longue traîne.

Si j'avais écouté tous les mecs comme toi qui m'avaient dit que je ne pourrais pas rencontrer de succès avec les sites que je lançais, sous prétexte qu'ils en connaissent le leader, je ne ferai pas tourner ma boite aujourd'hui, ça c'est clair ! :D
 
Olivier Duffez (admin)
Membre du personnel
triphop59182 a dit:
Chaque fiche contient un texte, dont les phrases sont mélangées aléatoirement à chaque refresh, mais le sens du texte est bien gardé (phrases indépendantes). Mais bon, Google finira bien par comprendre qu'il ne s'agit pas là de réels textes uniques.
Peut-être même qu'il peut le repérer encore plus vite. Disons que le tirage aléatoire de phrases, ça ne fait pas hyper sérieux, non ?

Et pour les internautes ? si le contenu que tu proposes est de très haute qualité, alors ça pourrait passer. Mais à te lire (vouloir indexer 10 millions de pages sans réel contenu inédit), ne sois pas étonné qu'on ait des doutes, c'est une réaction normale vu le peu d'infos qu'on a de ton projet.

Au fait, question naïve : ça s'achète ces informations sur les millions d'entreprises françaises ? et comment sont-elles mises à jour ?

@biddybulle : j'ai du mal à voir comment la création automatique de millions de textes peut apporter une haute valeur ajoutée aux internautes. Pourrais-tu préciser comment ?
 
WRInaute accro
WebRankInfo a dit:
Pourrais-tu préciser comment ?
Je pense qu'il fait allusion a une forme de spinning qui est l'unique solution que je connaisse (perso) pour produire un contenu tiré d'une grosse base de données en évitant un peut la similarité entre les pages. Il me semble aussi que la publication différée soit aussi un possible avantage pour faire digérer le contenu progressivement.
 
WRInaute discret
WebRankInfo a dit:
triphop59182 a dit:
Chaque fiche contient un texte, dont les phrases sont mélangées aléatoirement à chaque refresh, mais le sens du texte est bien gardé (phrases indépendantes). Mais bon, Google finira bien par comprendre qu'il ne s'agit pas là de réels textes uniques.
Peut-être même qu'il peut le repérer encore plus vite. Disons que le tirage aléatoire de phrases, ça ne fait pas hyper sérieux, non ?

Et pour les internautes ? si le contenu que tu proposes est de très haute qualité, alors ça pourrait passer. Mais à te lire (vouloir indexer 10 millions de pages sans réel contenu inédit), ne sois pas étonné qu'on ait des doutes, c'est une réaction normale vu le peu d'infos qu'on a de ton projet.

Au fait, question naïve : ça s'achète ces informations sur les millions d'entreprises françaises ? et comment sont-elles mises à jour ?

@biddybulle : j'ai du mal à voir comment la création automatique de millions de textes peut apporter une haute valeur ajoutée aux internautes. Pourrais-tu préciser comment ?
Les phrases sont indépendantes, voici un exemple, une page interne se décompose comme suit :

NOM DU PRO
Adresse
Num 1
Num 2
Num mobile
Email
Site web

Et ensuite le texte, qui est un mélange de phrases "indépendantes", ce que j'entends par indépendantes, c'est qu'on peut les mélanger en gardant le sens, mais ce texte est discrètement intégré dans un onglet "détail" (visible par les moteurs de suite par contre) :

Phrase 1 : L'adresse de NOM DU PRO est ADRESSE.
Phrase 2 : Vous pouvez joindre NOM DU PRO sur le numéro de téléphone NUM 1.
Phrase 3 : Pour contacter NOM DU PRO, vous pouvez envoyer un email sur EMAIL ou sur NUM 1.

C'est pourquoi leur mélange donne lieu à un texte crédible. Ce n'est pas une bonne idée ce random de phrases alors ? Je ne sais pas, c'est la première fois que je tente cette forme de content spinning.

Quant à mes sources pour choper toutes ces infos, je préfère les taire, mais comme il s'agit d'informations publiques, disons que j'ai parcouru la France entière en vélo, et que j'ai récupéré chaque renseignement :)
 
WRInaute accro
C'est beaucoup trop léger comme spin pour tromper Google. ça reste la même structure de phrase, la même "pauvreté" du texte.
 
WRInaute discret
Marie-Aude a dit:
C'est beaucoup trop léger comme spin pour tromper Google. ça reste la même structure de phrase, la même "pauvreté" du texte.
Tu veux dire par là que mélanger ou ne pas mélanger est pareil ou que la création d'un texte type à partir des infos de base est inutile ?
 
WRInaute accro
je pense qu'elle veux dire que si tu as une dizaine de données a introduire dans 10 ou 20 "contextes de phrase" ça sera trop léger pour passer le filtre de contenu similaire.

Pour ce genre de truc ou j'ai aussi une certaine exp, le truc le plus efficace a été les listes de caractéristiques (car mes fiches présentent de grandes disparités de caractéristiques) qui dans ton cas vont être impossibles. Reste donc le texte spinné mais il faut penser a avoir autant de mot a introduire que de mots d'enrobage sachant que vue le nombre de fiches que tu présente il faudra prévoir un enrobage de mégalo pour être viable.

Après c'est très dépendant de ton nombre de champs a mixer et si tu souhaite nous en dire le nombre on pourra peut être avancer un peut mieux. Là dans l'exemple que tu donne (7 données a mixer) tu va au tas direct. pas que ce soit pas rentable mais ton nombre de fiche indexées et non considéré comme similaires va être apocalyptique.
 
Olivier Duffez (admin)
Membre du personnel
je confirme, ce n'est pas avec du spinning sur ces données que le projet peut fonctionner.
quant à la source des données, si j'ai bien compris ce n'est pas forcément tout à fait légal...
 
WRInaute discret
WebRankInfo a dit:
je confirme, ce n'est pas avec du spinning sur ces données que le projet peut fonctionner.
quant à la source des données, si j'ai bien compris ce n'est pas forcément tout à fait légal...
Je pense que le projet fonctionnera, avec ou sans spinning, maintenant si ce dernier est inutile aux yeux des moteurs, alors autant l'éviter effectivement. C'est pas de la prétention, mais bon qui ne crois pas à un projet qu'il lance ? :wink:

Je ne sais pas trop si ma source est légale, mais suis sûr que les autres annuaires ont fait comme moi, et le fait qu'il s'agisse d'informations publiques me rassure un peu. Après légal ou pas, je suis malheureusement de ceux qui attendent les menaces officielles pour s'arrêter !
 
Olivier Duffez (admin)
Membre du personnel
des informations publiques ça veut dire quoi pour toi ? la liste des professionnels listés sur les pages blanches, accessibles au public, ne sont pas libres de droits par exemple.

j'arrête là car je vois qu'on n'est pas sur la même longueur d'onde.
 
WRInaute accro
triphop59182 a dit:
Je suis entrain de sortir un projet plutôt ambitieux : 1 domaine et ses 24 sous-domaines, correspondant chacun à une région française, le tout étant un annuaire de tous les professionnels.
comme bon nombre de sites de ce type qui se sont pris des (grosses) claques par gg ces dernières années : ils avaient commencé par des sous-rep, gg les a détecté. Ils sont passés par des sous-rep, gg les a détecté. Ils ont ensuite pris des ndd différents, pour certains ça passe encore, mais d'autres se sont encore repris des claques par gg.
Attention, au niveau de l'aspiration des données, certaines données sont sciemment erronées ainsi la faute sera facile à prouver devant les tribunaux. Ne pas oublier que les base de données sont protégées par le droit sui generis
 
Discussions similaires
Haut