URGENT : <meta name="robots" content="noindex,follow" /> et Google m'indexe mes pages !

WRInaute accro
Bonjour,

Catastrophe 8O mon trafic se prend une raclée et je me rends compte qu'en parallèle, il indexe toute ma version mobile qui contient pourtant :
Code:
<meta name="robots" content="noindex,follow" />
Ma balise robots n'est pas bonne ?

Comment arrêter le massacre ?

Merci
 
WRInaute discret
Oui j'ai l'impression que c'est pas une totale garantie, google fait un peu ce qu'il veut (comme toujours...).

A mes yeux la balise est bonne...

Je connais un gros site qui a des pages qui sont en noindex,nofollow, auxquelles on ne peut accéder que par de liens nofollow, ET bloquées par robots.txt, et qui sont quand meme indexées...
 
WRInaute accro
A vrai dire, je n'avais aps réfléchi un instant au "follow" mais je pense que quand on ne veut pas du tout indexer une page ni la lister dnas les SERP, il doit falloir ajouter un nofollow ?
Je viens de le faire j'attends vos avis.

En tout cas j'en ai tiré quelques conclusions...
 
WRInaute discret
Normalement le follow n'a rien à voir avec l'indexation ou pas. INDEX il indexe, NOINDEX il n'indexe pas. Ensuite la différence c'est juste qu'en FOLLOW il va voir les liens présents sur la page (et fait passer le link juice), en NOFOLLOW il s'arrête là (et le link juice aussi)... Enfin c'est la théorie.

J'avais lu quelque part une interview de matt cutts qui disait de privilégier le noindex,follow. Comme ça la page qu'on ne veut pas indexer ne l'est pas, par contre le link juice continue de "couler" vers les pages liées, sinon il est perdu.
 
WRInaute passionné
ton noindex tu l'avais dès la création de ta page ? ou tu viens de le rajouter ?

si au départ ta page n'était pas en noindex, google va mettre du temps à comprendre, pour accélérer la désindexation c'est simple, envoi un code 404 à google quand il visite cette page. sinon tu risque d'attendre longtemps
 
WRInaute accro
milkiway a dit:
il indexe toute ma version mobile qui contient pourtant :
Code:
<meta name="robots" content="noindex,follow" />
Ma balise n'est pas bonne ?
Ta balise est bonne. Que Google ne la respecte pas serait nouveau.

Peux-tu regarder le code source de la page telle qu'elle est en cache chez Google et vérifier que tu y retrouves ta balise quelque part entre <head> et </head> et qu'il n'y a pas d'autre balise <meta name="robots" ...> ou <meta name="googlebot" ...> dans la page ?

Jean-Luc
 
WRInaute accro
Hé bin décidément que de conclusions à tirer de cet exercice. Le noindex était là depuis le début.
Je viens d'ajouter la règle au robot.txt
30 minutes après, plus une seule page indexée.
 
WRInaute accro
milkiway a dit:
Je viens d'ajouter la règle au robot.txt
30 minutes après, plus une seule page indexée.
Cela ne peut être qu'une coïncidence. Le contenu de robots.txt influence le crawl, mais n'a aucun impact direct sur les SERP.

Jean-Luc
 
Nouveau WRInaute
J'avais aussi déjà vu ca sur un autre site que si ce n'était pas déclaré dans le fichier robots alors il était possible que des pages soient tout de même indexées.

Par contre il me semble qu'il y a quelque chose pour ca dans l'outil webmaster tools de Google ou ont peux lui dire de ne pas scanner certaines url.
 
WRInaute accro
Bonjour

D'expérience (en tout cas de ce que j'ai constaté sur plusieurs sites depuis quelques années), Google agit "par excès". Sous-entendu, lorsqu'une page est par exemple filtrée via le robots.txt MAIS présente dans le sitemap, alors elle est indexée.

En fait, dès lors qu'il trouve un indicateur "valable" pour l'indexation, il indexe !

L'idéal :
- absence impérative de la page dans le sitemap.xml (sur ce point on peut parfois avoir de mauvaises surprises, notamment avec les générateurs de sitemaps...)
- balise robots en "noindex,follow" dans la page
- filtrage via robots.txt

Sinon, il y a un risque d'indexation potentielle... Pas la peine de mettre les liens internes pointant sur la page en "nofollow", ça ne gêne pas (expérience faite sur plusieurs boutiques en ligne).

J'agis également de la sorte lorsqu'il s'agit de variantes de pages existantes avec des paramètres dans l'URL (typiquement avec pagination ou tri, dans des pages catégories de boutiques en ligne) sauf que je rajoute en sus une balise "rel canonical" pointant vers l'URL sans paramètres.
 
WRInaute accro
cedric_g a dit:
Sous-entendu, lorsqu'une page est par exemple filtrée via le robots.txt MAIS présente dans le sitemap, alors elle est indexée.
je ne crois pas, car j'ai quelques "erreurs" signalées par GWT sur le fait que des url sont dans le sitemap et sont bloquées par robots.txt
 
WRInaute accro
Oui, elles ressortent en erreur, mais je puis t'assurer que j'en ai eu qui étaient fut un temps indexées (c'était l'un des principaux problèmes de Prestashop dans sa version 1.0 car le module générateur de sitemap, bugué, générait un sitemap.xml avec des URL fonctionnelles mais erronées d'un point de vue "pratique" : bonjour le duplicate !)

Ceci étant dit, je n'ai jamais pris le temps de faire le test "scientifique" de la chose (je l'ai juste constaté sur une bonne dizaine de boutiques !)
 
WRInaute accro
Leonick a dit:
cedric_g a dit:
Sous-entendu, lorsqu'une page est par exemple filtrée via le robots.txt MAIS présente dans le sitemap, alors elle est indexée.
je ne crois pas, car j'ai quelques "erreurs" signalées par GWT sur le fait que des url sont dans le sitemap et sont bloquées par robots.txt
Idem, j'ai une url absente du sitemap, ajoutée dans le robots.txt et supprimée via GWT depuis le 14/05/2009.
Pourtant Google m'affiche toujours
Votre demande a été refusée, car l'administrateur du site n'a pas utilisé le fichier robots.txt ou les balises META destinés à nous empêcher d'indexer ou d'archiver cette page.

Prenez contact avec l'administrateur du site ou sélectionnez une autre option de suppression dans l'outil de demande de suppression de page Web.
 
Nouveau WRInaute
Bonjour, je remonte ce vieux post, parce que je n'arrive pas à désindexer un site : cas de figure suivant :
  • - Site en préprod, plusieurs des utilisateurs finaux travaillent sur des tests de fonctionnalité en live, à quelques semaines de la publication du site.
  • - Il s'agit d' une refonte, donc pour éviter que Google n'y comprenne plus rien entre l'ancien et le nouveau site, ou me fasse des histoires de duplicate... je crois plus sain d'éviter qu'il le référence
  • - Sans que je comprenne comment, il s'est retrouvé très vite indexé en partie, alors qu'il n'y a aucun lien qui le relie au web.
  • - J'ai donc placé une balise meta noindex, nofollow sur toutes les pages, suivant en cela les recommandations de grand chef sioux :
    Pour empêcher tous les robots d'indexer une page de votre site, placez la balise Meta suivante dans la section <HEAD> de cette page : <meta name="robots" content="noindex"> Pour empêcher uniquement les robots de Google d'indexer une page de votre site (et pas les autres robots), utilisez la balise suivante : <meta name="googlebot" content="noindex"> Lorsque nous détectons la balise Meta noindex sur une page, nous supprimons totalement cette page de nos résultats de recherche, même si d'autres pages ont établi des liens pointant vers elle. source

Après qq jours nada, rien ne bouge. Bien sûr j'aurais dû bloquer en amont avec robots.txt, mais c'est trop tard ! Et je ne peux plus configurer le robots.txt avec un disallow, sinon il ne verra plus la balise meta noindex...
Que faire ???
 
WRInaute accro
Demander la suppression du répertoire / sous domaine dans GWT
et la seule protection efficace à 100% c'est de bloquer les access par .htaccess / .htpassword
 
Nouveau WRInaute
Merci. Demander la suppression du repertoire dans GWT impactera -t'il seulement (si ça marche) le domaine provisoire (type nsxxxxxx.ovh.net) ou cela risque t'il d'avoir un impact sur le "vrai" nom de domaine, une fois que j'aurai fait la bascule ? :?
 
Nouveau WRInaute
Je confirme que toutes les pages du domaine ont disparu des SERP dans les 24h suivant ma demande de suppression.
Powerful ! 8)
 
Nouveau WRInaute
bonjour,
je suis nouveau sur ce forum et suis aussi novice dans le domaine des nouvelles technologies. Je suis face à une situation difficile à gérer. Je m’explique. J'ai créé un blog puis suite à des problèmes j'ai décidé de retirer tous mes fichiers de mon blog mais je n'ai supprimé celui-ci définitivement.
Mon problème aujourd'hui est que de nombreux fichiers notamment format word et pdf sont toujours accessibles sur Google. J'ai supprimé le URL par le biais de outils webmarter mais les fichiers sont toujours là et ça m'agace. Quelqu’un pourrait-il m'aider s'il vous plait ?
cordialement bonne fête de foin d'année.
dyk27
 
Nouveau WRInaute
Bonsoir,
Mon blog aujourd'hui est vide !
J'ai enlevé tous mes fichiers. Mais ces derniers apparaissent encours dans les résultats de recherche Google sous la forme de data et doc. On arrive même à les télécharger !
 
WRInaute accro
faut demander la suppression complète de ton site dans GWT. Par contre, pour l'avoir vécu, y! ne faisait rien et gardait les pages dans son index, même quand on envoyait un code 410. Je ne sais pas comment bing fait
 
Nouveau WRInaute
Meric pour la réponse. Je suis désolé pour le doublon. Je n'ai pas bien lu les consignes.
Par contre comment peut-on demander la suppression de ces pages tout en garant mon site vide ?
Aussi c'est quoi le GWT ?
Désolé je débute.
Merci
 
Nouveau WRInaute
bonjour,
Voici ce que donne ma page avant d'introduire une URL à bloquer . Ma question : où puis-je introduire mon URL à bloquer s'il vous plait Quelle est la procédure.
bonne journée. Dyk7


User-Agent: *
Allow: /
Disallow: /contact
Disallow: /mail/subscribe
Disallow: /mail/valid-*

#
# this technically isn't valid, since for some godforsaken reason
# sitemap paths must be ABSOLUTE and not relative.
#
Sitemap: /sitemap.xml
 
WRInaute accro
Tu remplaces

Code:
Allow: /

par

Code:
Disallow: /

GWT : Google Webmaster Tools. Il faut que tu valides ton site sur cet outil pour en demander la suppression sur Google.
 
Nouveau WRInaute
bonjour, merci d'avoir répondu à ma demande.
J'ai procédé comme tu me le recommandes mais le résultat est le suivant :

ligne 11 : Sitemap: /sitemap.xml URL de sitemap non valide ; syntaxe incompréhensible

je ne comprend pas pourquoi ?

Je ne desespere pas en comptant sur votre aide !
merci

cordialement
 
WRInaute accro
Tu modifies le robots.txt de manière remplacer :

Code:
User-Agent: *
Allow: /
Disallow: /contact
Disallow: /mail/subscribe
Disallow: /mail/valid-*

#
# this technically isn't valid, since for some godforsaken reason
# sitemap paths must be ABSOLUTE and not relative.
#
Sitemap: /sitemap.xml

par

Code:
User-Agent: *
Disallow: /

Sur le domaine à supprimer.
 
Nouveau WRInaute
j'ai vraiment un point qui manque ,
le résultat est le même, voici le résultat :
http://monblog./
Bloqué par la ligne 2 : Disallow: /
Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes.
Autorisé
Identifié comme répertoire ; certains fichiers peuvent être soumis à des restrictions différentes.


Faut-il envoyer un Sitemap: /sitemap.xml ?

je ne vois pas ce que je dois faire de plus !

merci
 
Nouveau WRInaute
comme demandé voici mon blog.

http://hgbelkadi.overblog.com/

Je vous rappelle que je souhaite faire disparaitre tous mes anciens ficher qui sont toujours indexés par Google soit au format pdf, html ou word en cache ! Je ne comprend pas le méthode pour vraiment effacer tout. Merci de votre aide.
 
WRInaute accro
ça risque d'être dur, voire impossible, car il parait probable que overblog utilise des serveurs caches, donc même quand tes fichiers seront supprimés, ils continueront à être accessibles par les différents serveurs cache.
Si les fichiers ne sont pas référencés par des ref générées par overblog mais uniquement avec les noms que tu as donné aux fichiers, une solution consisterait à écraser ces fichiers par des documents vierges (doc, pdf, etc...) qui remplaceront ainsi ceux en cache
 
Nouveau WRInaute
Quelle solution me préconisez-vous pour les supprimer, les "écraser"...j'ai écrit deux courriers postaux à overblog, mais pas de réponse pour le moment !!!! au secours !
Merci et bon réveillon !
 
Nouveau WRInaute
bonjour,
mon blog est actuellement vide, aucun fichier existant ; j'ai tout supprimé. Il ne reste que des fichiers sur le web soit en cache ou en pdf, word que je n'arrive pas à supprimer !
 
WRInaute accro
"soit en cache ou en pdf, word"

Pour le cache c'est juste une question de patience

Pour les autres fichiers, j'en ai vu quelques uns. Tu peux faire quelque chose en envoyant un courrier AR à overblog en parlant de problèmes de droits d'auteurs, et en donnant la liste exacte des fichiers.

Ou au pire, tu envoies une plainte DMCA à Google en demandant la suppression des résultats de recherche
 
Nouveau WRInaute
Voici la réponse obtenu par l'équipe Google suite à mes demande suppression :
P.S : je signale que j'ai créé un compte webmaster et j'ai demandé la suppression des URL. La suppression est prise en compte ("fichiers supprimés") mais les fichier demeure visible sur le moteurs de recherches


Bonjour

Merci de votre réclamation ci-jointe.
Nous ne pouvons que vous confirmer que Google Inc. n'exerce qu'un simple rôle d'indexation des liens existants sur Internet. Pour mettre efficacement fin au référencement de la page Web litigieuse, il vous appartient donc d’agir directement à l’encontre de l’éditeur ou de l’hébergeur du site concerné, afin de solliciter le retrait du contenu en cause.

Une fois la page litigieuse supprimée du site en cause, la copie en cache de la page concernée pourra rester accessible sur Google (ainsi que sur les autres moteurs de recherche) jusqu'à la prochaine exploration de ce site par les moteurs. Afin d'accélérer la suppression de ce cache, nous vous conseillons de compléter le formulaire en ligne, accessible à l'adresse: https://www.google.com/webmasters/tools

Bien Cordialement,

L'Équipe Google
 
Nouveau WRInaute
J'ai demandé la suppression de fichier via DMCA : voici le message obtenu :


Suppression d'un contenu portant atteinte aux droits d'auteur

Tableau de bord de suppression de contenus –
3 URL en attente

Je tente tout mais pour le moment rien de concret.

dyk27
 
WRInaute accro
comme je disais au dessus : pour accélérer la mise à jour (et donc la suppression) de données en serveur cache, il faut fournir un fichier plus récent. Donc il faut remettre du contenu vide (mais pas de taille zéro, donc mets des espaces) plus récent pour que le serveur cache fasse (normalement) la mise à jour
 
Nouveau WRInaute
bonjour et meilleurs vœux à tous,

Euh pardon, mais peux-tu me dire la procédure pour fournir un fichier pus récent ? Dois remettre des fichiers sur mon blog (aujourd'hui vide ! ) pour que les fichiers anciens soient supprimés ?
Comment puis-je faire cette manipulation sachant que j'ai supprimé ces fichier de mon blog et aussi demandé leur suppression par le biais de mon compte webmaster ?
Merci de votre
dyk27
 
WRInaute accro
dyk27 a dit:
Euh pardon, mais peux-tu me dire la procédure pour fournir un fichier pus récent ? Dois remettre des fichiers sur mon blog (aujourd'hui vide ! ) pour que les fichiers anciens soient supprimés ?
oui et avec le même nom. Si c'est possible, sinon ça ne sert à rien de faire ces pages
 
Nouveau WRInaute
bonsoir!
si je comprend bien, je dois m'adresser principalement à OVERBLOG par une lettre AR !
Impossible de les contacter par mail car il ne réserve le contact que pour la version Prenium (version payante) !
Par téléphone, pareil, pas de réponse si on est pas prenium. En somme c'est du racket !
merci de votre aide
 
Nouveau WRInaute
je confirme qu' OVERBLOB renomme mes fichiers déjà supprimés.

Ont-ils le droit ?

Comment peut-on arriver à mettre fin à cette pratique ?

Merci
 
WRInaute accro
Oui ils ont le droit, toutes les grandes plateforme de blog le font (vous ne croyez quand même pas que les noms de vos fichiers sont uniques ? )

Pour faire supprimer vos fichiers, faites une lettre AR. C'est tout.
 
Nouveau WRInaute
Marie-Aude a dit:
Oui ils ont le droit, toutes les grandes plateforme de blog le font (vous ne croyez quand même pas que les noms de vos fichiers sont uniques ? )

Pour faire supprimer vos fichiers, faites une lettre AR. C'est tout.

Merci overblog...
A l'ère des nouvelles technologies, de la 4G et j'en passe, je suis condamné à revenir aux méthodes du XIXe siècle pour faire une requête ! Merci Overblog.
Au final il aurait gagné sur toute l aligne. Il m’a gâché mes vacances et en plus, je dois envoyer une lettre avec AR sans être certain d’avoir une réponse personnalisée.
Visiblement ils ne répondent qu'aux personnes qui sont en mode prenium !!!! Moi qui pensais que la société des privilèges fut abolie il y a bien longtemps (fin du XVIIIe siècle). Et bien, non ! La preuve je l'ai eu téléphone aujourd'hui : overblog vous informe qu'aucune suite ne sera donnée à votre appel. Cette ligne téléphonique est réservée qu'au détenteurs de la version prenium.
 
WRInaute accro
Bein oui mais en optant pour un système auto-hébergé où on a pas la main de A à Z, forcément à un moment ça coince...

Investir dans un nom de domaine et un hébergement à soi reste la première règle quand on crée un site internet.
 
Nouveau WRInaute
UsagiYojimbo a dit:
Bein oui mais en optant pour un système auto-hébergé où on a pas la main de A à Z, forcément à un moment ça coince...

Investir dans un nom de domaine et un hébergement à soi reste la première règle quand on crée un site internet.

Oui mais si on est pas professionnel dans les nouvelles technologies ou de la vente en ligne..., je ne vois l'utilité d'investir dans un nom de domaine. Chacun son métier. Mon blog eétait au départ consacré à des exrcices en histoire et géographie, je ne gagne pas d'argent là dessus. Mais ce n'est pas pour autant qu'on doit se laisses faire sous pretexte que la toile c'est la jungle. Être hébergé par un site (ex. EVERBLOG) n'implique pas à mon sens un droit sur mes documents personnels, à moins que cela ne soit indiqué dans une clause avec des un *aux caractères 3.

Bref, je viens d'envoyer ma lettre avec AR pour que OVERBLOG retire les fichiers de ses serveur. Je dois à présent patienter jusqu’à quand ? Qui sait ! En, attendant, il sont visibles et téléchargeables malgré des demandes multiples (courriers postaux prioritaires).
 
WRInaute accro
En fait la situation est un peu plus compliquée qu'il n'y parait... en tant qu'hébergeur, Over-blog a des obligations vis à vis de la loi française, et notamment une conservation d'historique sur ses serveurs pendant un certain temps, même des contenus supprimés par les utilisateurs

C'est pour cela qu'il est écrit au paragraphe 7 des conditions générales d'utilisation
Ainsi à la suppression du Blog par son propriétaire ou par OverBlog, les données concernant le créateur du Blog et les utilisateurs du Blog ayant posté des commentaires ne sont pas définitivement supprimés, elles seront conservées selon la durée prévue par la loi.

De plus, à l'article 10 il est dit

En s’inscrivant au service OverBlog, l'utilisateur autorise la société OverBlog si elle le souhaite à diffuser partiellement ou intégralement le contenu ou des éléments de son Blog, notamment sur la plateforme www.over-blog.com.

De plus, il est inexact de dire que les documents que tu avais téléchargé sur ton blog sont toujours indexés et accessibles par Google.

Les quelques documents qui sont encore indexés par Google (un .pdf et un .odt) ne sont plus accessibles : il y a une belle page vide quand on clique sur le lien apparaissant dans la page des résultats.

Ce qui est encore accessibles, ce sont quelques documents insérés dans des articles encore visibles via le cache de Google, et dont le lien dans l'article est curieux : un lien direct vers un des serveurs de données d'Over-Blog, et pas le lien vers le document.

Ce lien n'est PAS le type de lien inséré de façon standard quand on rajoute un document dans un article.

Over-blog peut donc, de façon tout à fait justifiée, te répondre qu'il n'est pas responsable du cache de Google, et que les documents supprimés ne sont plus accessibles.

Pour faire disparaitre une page vide du cache de Google, le plus simple est d'utiliser la technique d'Usaji-Yojimbo : faire repasser le robot de Google sur une page vide. Par exemple en faisant un lien vers cette page.
 
Nouveau WRInaute
Rapidement et à chaud, merci Marie-Aude pour l’intérêt porté à mes messages.
Je dois relire ligne par ligne ta réponse pour tout comprendre et par voie de conséquence, corriger mon amateurisme : supprimer définitivement mes fichiers.

Dyk27
 
Nouveau WRInaute
Ce qui est encore accessibles, ce sont quelques documents insérés dans des articles encore visibles via le cache de Google, et dont le lien dans l'article est curieux : un lien direct vers un des serveurs de données d'Over-Blog, et pas le lien vers le document

j'avoue, que je ne comprend tout dans ce passage !
Est-il possible d'avoir plus d'éléments et m'expliquer davantage s'il vous plait.
merci
 
Nouveau WRInaute
suite à ma plainte à Google voici la réponse reçu hier :


Bonjour,

Merci de votre réclamation ci-jointe.
Conformément au Digital Millennium Copyright Act, nous avons donné suite à votre notification pour atteinte aux droits d'auteur. D'ici quelques heures, les URL suivantes ne figureront plus dans les résultats de recherche Google :

http://data.over-blog-kiwi...etc
http://data.over-blog-kiwi...etc
http://data.over-blog-kiwi...etc

(j'ai supprimé la suite du lien afin d'éviter encore des problèmes d’indexation)

Si vous avez besoin d'une assistance supplémentaire, veuillez nous contacter en répondant directement à cet e-mail ou en utilisant nos formulaires en ligne à l'adresse http://support.google.com/legal.

Bien Cordialement,

L'Équipe Google

Le hic c'est que les 3 fichiers en question sont toujours téléchargeables !!!
Aucune changements noté

merci de votre aide
 
Nouveau WRInaute
UsagiYojimbo a dit:
Ils précisent bien qu'il faut attendre un peu et que ce n'est pas immédiat...


Merci UsagiYojimbo,


je patiente...mais ce qui m'étonne c'est que la quasi totalité (plus 100 fichiers) ont été supprimés à ma demande et que ces trois (qui me posent vraiment problème) sont toujours accessibles.
Est-ce un hasard où une manipulation informatique de ma part qui est à l'origine au moment de les mettre sur mon blog ?
Curieux comme le disait Marie-Aude plus haut .
merci
 
Nouveau WRInaute
Re UsagiYojimbo

Peux-tu s'il te plait me donner un lien où tu expliques pas-à-pas comment :

faire repasser le robot de Google sur une page vide. Par exemple en faisant un lien vers cette page.


Par avance, merci !
 
Nouveau WRInaute
Euh pardon Marie-Aude, mais je ne vais tout de même créer un nouveau blog ? Assez de problèmes comme ça ! ;)
 
Nouveau WRInaute
Bah, non ! Pas encore. Ça sera une première... et je ne plaisante pas. ;)
Je n'ai jamais porté de commentaires sur le web. J'ai toujours publié mes cours sur mon ancien blog pour me faciliter la vie, mais au final, c'est l'inverse qui s'est produit. Comme je le disais plus haut, je ne suis du métier même si être prof aujourd'hui implique la maîtrise des TICE.
Si tu as la possibilité de m'aider, je te serai reconnaissant. Car là, même si cela te semble simple, je ne sais pas comment faire. Merci
Sincèrement
 
WRInaute accro
Je me permet de monter ce sujet car j'aurais une petite question.

Mon soucis c’est que sur mes sites (sur lequel je travail actuellement) je liste le début des articles (une 20aine d'articles par page) aussi bien dans la section, la rubrique et dans 1 ou plusieurs tags, on retrouve donc le même petit "résumé" des articles sur plusieurs pages.

Minimum 3 fois :
-dans sa section
-dans sa rubrique
-dans l'article lui même
plus 1 à X fois de plus en fonction des tags associés.

La solution du noindex, follow pour la pagination (à partir de la page 2) est une bonne solution dans ce cas? la liste des articles présents dans les pages en noindex seront tout aussi bien référencés et aurons le même jus?

En gros est-ce que mettre une page en "noindex" ne fait rien perdre a tous les liens internes qui y figurent?
 
WRInaute accro
noren a dit:
Minimum 3 fois :
-dans sa section
-dans sa rubrique
-dans l'article lui même
plus 1 à X fois de plus en fonction des tags associés.

La solution du noindex, follow pour la pagination (à partir de la page 2) est une bonne solution dans ce cas?...
tu parle de deux choses différentes.
* le souci des pages en DC section avec rubrique et tags là faut choisir ce que tu veux indexer (et mettre le reste en noindex)
* le souci de la pagination et amha si par exemple tu décide de garder indexable les "sections" et pas les "rubriques" alors c'est tout en index et tout en noindex pour le reste mais faut pas faire une distinction sur la "profondeur" mais sur le "type"

le souci de DC entre ton extrait sur la page et les différents "index" c'est pas grave ... si tu veux l'éviter quand même faut prévoir un champ spécial ou un traitement approprié sur le contenu pour avoir un truc qui ne s'affiche pas dans la page mais dans les indexs.

Autre point qui m'intrigue c'est quoi la différence entre section et rubrique car pour moi c'est la même chose.
 
WRInaute accro
Disons qu'une section (catégorie) c’est par exemple : blog, dossiers, vidéos etc.
Et que ces sections sont donc composées en rubriques.

Lorsqu'on arrive sur la page d'index du blog on liste X articles par page avec un résumé pour chacun.
Mais ces mêmes articles appartiennent à une rubrique spécifique du blog ou du dossier etc. Donc on retrouvera ce même résumé dans les rubriques.
Et elles apparaitront également sur les pages des tags.

La solution que je voyais c’est d'indexer uniquement la page 1 (en tout cas pour les tags) et mettre en noindex les autres pages. Et je comptais également pour les tags ne pas mettre de résumer de l'article. Uniquement une image et le titre.
Mais j'espère qu'en mettant les pages 2 etc. en "noindex" pour les tags ca ne va pas faire perdre de jus aux articles qui y sont présents.

maintenant me reste à régler le DC entre les sections (catégories) et les rubriques. je pourrais éventuellement utiliser un résumé différent, l'un utilisant le début de l'article et l'autre le meta description....mais bon je sais pas trop.

Bon après faut prendre en compte que je mettrais certainement un très très court extrait : 20-30 mots.
Sachant que les articles feront facilement plus de 200-300 mots minimum.

Après ça me fait un peu ch*er de devoir créer un résumé exprès pour ces pages de listing. ça deviendrait vite lourd :?

Si je sais que mettre les pages de listing des articles en noindex ne pose aucun soucis sur le référencement des articles qui y sont inclus, ca me semble être une assez bonne solution.

J'aurais quand même un peu de DC avec les pages 1 vu qu'elles seraient toutes en "index" :roll:
 
WRInaute accro
noren a dit:
Disons qu'une section (catégorie) c’est par exemple : blog, dossiers, vidéos etc.
Et que ces sections sont donc composées en rubriques.
t'as du t'amuser a coder ça car dans le principe une section n'a rien de différent d'une rubrique qui elle peut contenir d'autres rubriques etc ... :D (récursivité)
Mais ces mêmes articles appartiennent à une rubrique spécifique du blog ou du dossier etc. Donc on retrouvera ce même résumé dans les rubriques.
la solution c'est de rien publier dans une section ou rubrique qui ne lui appartienne pas ou de le faire en ajax voir avec une technique classique anti DC (photo, frame).
Et elles apparaitront également sur les pages des tags.
les tags c'est tricard depuis longtemps :? et de toute façon conseillé "noindex".
La solution que je voyais c’est d'indexer uniquement la page 1 (en tout cas pour les tags) et mettre en noindex les autres pages.
ça changera rien pour le DC que tu auras en page 1.
je pourrais éventuellement utiliser un résumé différent, l'un utilisant le début de l'article et l'autre le meta description....mais bon je sais pas trop.
si le résumé c'est 2/3% du contenu de la page alors le Dc c'est de la légende urbaine tout comme celui énoncé sur les RS, mais si c'est 50% du contenu là c'est une autre histoire ...
Bon après faut prendre en compte que je mettrais certainement un très très court extrait : 20-30 mots.
Sachant que les articles feront facilement plus de 200-300 mots minimum.
300 mots s'est "short" comme norme.
Après ça me fait un peu ch*er de devoir créer un résumé exprès pour ces pages de listing. ça deviendrait vite lourd :?
préco WP ... pas idiot dans le fond.
Si je sais que mettre les pages de listing des articles en noindex ne pose aucun soucis sur le référencement des articles qui y sont inclus, ca me semble être une assez bonne solution.
les trucs a mettre en noindex c'est :
* les pages pauvres
* les pages de trie
* les pages de recherche (ça s'apparente a tes tags)
* les formulaires si il y en a plétore
* tout ce qui parle de wikipédia (humour)
J'aurais quand même un peu de DC avec les pages 1 vu qu'elles seraient toutes en "index" :roll:
Pas indexer les pages 2 et suite partout c'est pas bon, ce genre de page est viable car c'est une sommpe de petit texte pertinents normalement. Si tu dois avoir un truc qui a des suite faut l'indexer mais faut pas en avoir 36 identiques. Ton souci c'est "section et rubrique" tag j'en parle même pas c'est noindex dans tous les cas 1 ou pas (avis perso)

en revanche si ta section regroupe plusieurs rubriques et que tu liste les derniers articles de toutes tes rubriques c'est moins un souci car cette page sera un composite de X pages ... tout comme les indexs rubriques sont des composites de X articles mais les deux index section et index rubrique ne seront jamais identiques ...

perso j'ai des rubriques qui se présentent sous la forme d'une suite de lien avec la méta descriptions, méta description (on est tous flemmards) qui est souvent pour pas dire tous le temps la copie d'une phrase ou deux de l'article Bref mes indexes reprennent tous un contenu court dans l'article et, vois tu, quand je cherche cette phrase dans GG les deux pages sortent ;-) ... bref si ce DC était un souci je pense que je verrais même pas la queue d'un chat.
En revanche quand je met 2 phrases dans cette meta qui me sert d'extrait, l'article contien au moins 500 mots si ce n'est plus (voir parfois largement plus) ...

Je pense que le DC interne c'est une histoire de proportion si la moitié de ton contenu se trouve répété oui ça craint mais si la proportion de ce contenu répété ou que ce soit sur ton site c'est qques % c'est encore un fois pas la même histoire. Après te dire si c'est 2 10 ou 30 % la limite ??? ce que je sais c'est que l'univers SEO c'est 200 / 400 mots l'article et que sur cette base des sites on des soucis a se faire si ils ne gèrent pas bien le DC interne avec leur extraits ;-)
 
WRInaute accro
On est pas (encore) en train de squatter un topic pour une autre histoire là ? :D
 
WRInaute accro
zeb a dit:
t'as du t'amuser a coder ça car dans le principe une section n'a rien de différent d'une rubrique qui elle peut contenir d'autres rubriques etc ... :D (récursivité)

Non t'inquiete je gère ca avec ma table taxon et la recursivité ;) (parent_id) :mrgreen: Me suis justement un peu inspiré de WP
J'avais déjà fait un ou 2 topic sur mon problème avec les taxons. Concernant l'optimisation des requêtes notamment

D'ailleurs je gère également les tags et bien d'autres choses avec la table taxons. Très pratique :mrgreen:

Oui ma page index section regroupera tous les articles des rubriques de cette section, donc le % DC au niveau des pages sections et rubriques dans leur globalité seront toujours normalement faibles. C’est plus le fait de répéter plusieurs les mêmes petits résumés par ci par la qui me dérange :?

Question tags je compte pas en avoir des centaines (je ne suis pas fan des nuages de tags etc. je suis plutôt partisan de stags vraiment utiles). Une vingtaine tout au plus et assez complémentaires des rubriques. Disons qu'ils ressembleraient plus à des sous rubriques faisant l'objet de thèmes très recherchés mais qui n'auraient pas fait l'objet d'une rubrique en tant que telle :wink:
Et ça m’embête de pas indexer au moins la 1ere page de ces tags (pour le référencement) :| . Étant donné que j'en aurais assez peu je pensais donc que cette solution de ne pas mettre de résumé pour la page 1 (je mettrais quand un petit texte d'accueil) et mettre en noindex les pages suivantes étaient pas trop mal :?

Chiant ce panda, avant ces foutus algos c’est franchement pas le genre de question qu'on se posait (enfin moi en tout cas)

Bon je vais encore pas mal cogiter la dessus, faut que j'arrive à trouver le compromis ou que je me fasse à l'idée de sacrifier certaines pages pour le référencement. Dur dur j'aurais l'impression de perdre quelque chose

Non on squat pas vraiment on parle bien du noindex, follow :)

PS : je sais aps pourquioi mais j'ai l'impression que t'en veux au wiki :mrgreen:
 
Discussions similaires
Haut