Messages: 4994

Enregistré le: 3 Fév 2004

Message le Lun Avr 19, 2010 14:20

Bonjour,

Catastrophe 8O mon trafic se prend une raclée et je me rends compte qu'en parallèle, il indexe toute ma version mobile qui contient pourtant :
Code: Tout sélectionner
<meta name="robots" content="noindex,follow" />

Ma balise n'est pas bonne ?

Comment arrêter le massacre ?

Merci
Haut
73 Réponses
Messages: 184

Enregistré le: 23 Déc 2009

Message le Lun Avr 19, 2010 14:26

Oui j'ai l'impression que c'est pas une totale garantie, google fait un peu ce qu'il veut (comme toujours...).

A mes yeux la balise est bonne...

Je connais un gros site qui a des pages qui sont en noindex,nofollow, auxquelles on ne peut accéder que par de liens nofollow, ET bloquées par robots.txt, et qui sont quand meme indexées...
Haut
Messages: 4994

Enregistré le: 3 Fév 2004

Message le Lun Avr 19, 2010 14:27

A vrai dire, je n'avais aps réfléchi un instant au "follow" mais je pense que quand on ne veut pas du tout indexer une page ni la lister dnas les SERP, il doit falloir ajouter un nofollow ?
Je viens de le faire j'attends vos avis.

En tout cas j'en ai tiré quelques conclusions...
Haut
Messages: 184

Enregistré le: 23 Déc 2009

Message le Lun Avr 19, 2010 14:31

Normalement le follow n'a rien à voir avec l'indexation ou pas. INDEX il indexe, NOINDEX il n'indexe pas. Ensuite la différence c'est juste qu'en FOLLOW il va voir les liens présents sur la page (et fait passer le link juice), en NOFOLLOW il s'arrête là (et le link juice aussi)... Enfin c'est la théorie.

J'avais lu quelque part une interview de matt cutts qui disait de privilégier le noindex,follow. Comme ça la page qu'on ne veut pas indexer ne l'est pas, par contre le link juice continue de "couler" vers les pages liées, sinon il est perdu.
Haut
Messages: 4994

Enregistré le: 3 Fév 2004

Message le Lun Avr 19, 2010 14:32

C'est bien ce que je pensais mais force est de constater que la théorie a la vie dure...
Haut
Messages: 1457

Enregistré le: 29 Avr 2005

Message le Lun Avr 19, 2010 14:46

ton noindex tu l'avais dès la création de ta page ? ou tu viens de le rajouter ?

si au départ ta page n'était pas en noindex, google va mettre du temps à comprendre, pour accélérer la désindexation c'est simple, envoi un code 404 à google quand il visite cette page. sinon tu risque d'attendre longtemps
Haut
Messages: 3286

Enregistré le: 3 Mai 2004

Message le Lun Avr 19, 2010 14:56

milkiway a écrit:il indexe toute ma version mobile qui contient pourtant :
Code: Tout sélectionner
<meta name="robots" content="noindex,follow" />

Ma balise n'est pas bonne ?
Ta balise est bonne. Que Google ne la respecte pas serait nouveau.

Peux-tu regarder le code source de la page telle qu'elle est en cache chez Google et vérifier que tu y retrouves ta balise quelque part entre <head> et </head> et qu'il n'y a pas d'autre balise <meta name="robots" ...> ou <meta name="googlebot" ...> dans la page ?

Jean-Luc
Haut
Messages: 4994

Enregistré le: 3 Fév 2004

Message le Lun Avr 19, 2010 14:57

Hé bin décidément que de conclusions à tirer de cet exercice. Le noindex était là depuis le début.
Je viens d'ajouter la règle au robot.txt
30 minutes après, plus une seule page indexée.
Haut
Messages: 3286

Enregistré le: 3 Mai 2004

Message le Lun Avr 19, 2010 15:07

milkiway a écrit:Je viens d'ajouter la règle au robot.txt
30 minutes après, plus une seule page indexée.
Cela ne peut être qu'une coïncidence. Le contenu de robots.txt influence le crawl, mais n'a aucun impact direct sur les SERP.

Jean-Luc
Haut
Messages: 1457

Enregistré le: 29 Avr 2005

Message le Lun Avr 19, 2010 15:11

ma théorie ? les gens de google lisent WRI :lol:
Haut
Messages: 27

Enregistré le: 11 Mai 2009

Message le Lun Avr 19, 2010 15:20

J'avais aussi déjà vu ca sur un autre site que si ce n'était pas déclaré dans le fichier robots alors il était possible que des pages soient tout de même indexées.

Par contre il me semble qu'il y a quelque chose pour ca dans l'outil webmaster tools de Google ou ont peux lui dire de ne pas scanner certaines url.
Haut
Messages: 3620

Enregistré le: 18 Jan 2006

Message le Lun Avr 19, 2010 15:24

Bonjour

D'expérience (en tout cas de ce que j'ai constaté sur plusieurs sites depuis quelques années), Google agit "par excès". Sous-entendu, lorsqu'une page est par exemple filtrée via le robots.txt MAIS présente dans le sitemap, alors elle est indexée.

En fait, dès lors qu'il trouve un indicateur "valable" pour l'indexation, il indexe !

L'idéal :
- absence impérative de la page dans le sitemap.xml (sur ce point on peut parfois avoir de mauvaises surprises, notamment avec les générateurs de sitemaps...)
- balise robots en "noindex,follow" dans la page
- filtrage via robots.txt

Sinon, il y a un risque d'indexation potentielle... Pas la peine de mettre les liens internes pointant sur la page en "nofollow", ça ne gêne pas (expérience faite sur plusieurs boutiques en ligne).

J'agis également de la sorte lorsqu'il s'agit de variantes de pages existantes avec des paramètres dans l'URL (typiquement avec pagination ou tri, dans des pages catégories de boutiques en ligne) sauf que je rajoute en sus une balise "rel canonical" pointant vers l'URL sans paramètres.
Haut
Messages: 4994

Enregistré le: 3 Fév 2004

Message le Lun Avr 19, 2010 15:30

Je précise que je n'ai aucun sitemap sur le domaine en question.
Haut
Messages: 1457

Enregistré le: 29 Avr 2005

Message le Lun Avr 19, 2010 17:29

je t'ai dis : 404 et go ;)
Haut
Messages: 4994

Enregistré le: 3 Fév 2004

Message le Lun Avr 19, 2010 17:56

Non mais c'est déjà désindexé ;)
Haut
Messages: 22678

Enregistré le: 8 Aoû 2004

Message le Mar Avr 20, 2010 18:01

cedric_g a écrit:Sous-entendu, lorsqu'une page est par exemple filtrée via le robots.txt MAIS présente dans le sitemap, alors elle est indexée.
je ne crois pas, car j'ai quelques "erreurs" signalées par GWT sur le fait que des url sont dans le sitemap et sont bloquées par robots.txt
Haut
Messages: 3620

Enregistré le: 18 Jan 2006

Message le Mar Avr 20, 2010 20:06

Oui, elles ressortent en erreur, mais je puis t'assurer que j'en ai eu qui étaient fut un temps indexées (c'était l'un des principaux problèmes de Prestashop dans sa version 1.0 car le module générateur de sitemap, bugué, générait un sitemap.xml avec des URL fonctionnelles mais erronées d'un point de vue "pratique" : bonjour le duplicate !)

Ceci étant dit, je n'ai jamais pris le temps de faire le test "scientifique" de la chose (je l'ai juste constaté sur une bonne dizaine de boutiques !)
Haut
Messages: 4559

Enregistré le: 16 Avr 2006

Message le Mar Avr 20, 2010 21:59

Leonick a écrit:
cedric_g a écrit:Sous-entendu, lorsqu'une page est par exemple filtrée via le robots.txt MAIS présente dans le sitemap, alors elle est indexée.
je ne crois pas, car j'ai quelques "erreurs" signalées par GWT sur le fait que des url sont dans le sitemap et sont bloquées par robots.txt
Idem, j'ai une url absente du sitemap, ajoutée dans le robots.txt et supprimée via GWT depuis le 14/05/2009.
Pourtant Google m'affiche toujours
Votre demande a été refusée, car l'administrateur du site n'a pas utilisé le fichier robots.txt ou les balises META destinés à nous empêcher d'indexer ou d'archiver cette page.

Prenez contact avec l'administrateur du site ou sélectionnez une autre option de suppression dans l'outil de demande de suppression de page Web.
Haut
Messages: 30

Enregistré le: 4 Juil 2006

Message le Ven Oct 05, 2012 22:56

Bonjour, je remonte ce vieux post, parce que je n'arrive pas à désindexer un site : cas de figure suivant :
    - Site en préprod, plusieurs des utilisateurs finaux travaillent sur des tests de fonctionnalité en live, à quelques semaines de la publication du site.
    - Il s'agit d' une refonte, donc pour éviter que Google n'y comprenne plus rien entre l'ancien et le nouveau site, ou me fasse des histoires de duplicate... je crois plus sain d'éviter qu'il le référence
    - Sans que je comprenne comment, il s'est retrouvé très vite indexé en partie, alors qu'il n'y a aucun lien qui le relie au web.
    - J'ai donc placé une balise meta noindex, nofollow sur toutes les pages, suivant en cela les recommandations de grand chef sioux :
    Pour empêcher tous les robots d'indexer une page de votre site, placez la balise Meta suivante dans la section <HEAD> de cette page : <meta name="robots" content="noindex"> Pour empêcher uniquement les robots de Google d'indexer une page de votre site (et pas les autres robots), utilisez la balise suivante : <meta name="googlebot" content="noindex"> Lorsque nous détectons la balise Meta noindex sur une page, nous supprimons totalement cette page de nos résultats de recherche, même si d'autres pages ont établi des liens pointant vers elle. source

Après qq jours nada, rien ne bouge. Bien sûr j'aurais dû bloquer en amont avec robots.txt, mais c'est trop tard ! Et je ne peux plus configurer le robots.txt avec un disallow, sinon il ne verra plus la balise meta noindex...
Que faire ???
Haut
Messages: 18372

Enregistré le: 5 Juin 2006

Message le Ven Oct 05, 2012 23:17

Demander la suppression du répertoire / sous domaine dans GWT
et la seule protection efficace à 100% c'est de bloquer les access par .htaccess / .htpassword
Haut
Messages: 30

Enregistré le: 4 Juil 2006

Message le Dim Oct 07, 2012 13:11

Merci. Demander la suppression du repertoire dans GWT impactera -t'il seulement (si ça marche) le domaine provisoire (type nsxxxxxx.ovh.net) ou cela risque t'il d'avoir un impact sur le "vrai" nom de domaine, une fois que j'aurai fait la bascule ? :?
Haut
Messages: 18372

Enregistré le: 5 Juin 2006

Message le Dim Oct 07, 2012 13:31

Juste le domaine provisoire. Tu le déclare bien entendu comme un site à part dans GWT
Haut
Messages: 30

Enregistré le: 4 Juil 2006

Message le Dim Oct 07, 2012 14:20

Cool, merci Marie Aude, modo VIP, 7/7 et 24/24 même le dimanche !!! :P
Haut
Messages: 30

Enregistré le: 4 Juil 2006

Message le Lun Oct 08, 2012 15:02

Je confirme que toutes les pages du domaine ont disparu des SERP dans les 24h suivant ma demande de suppression.
Powerful ! 8)
Haut
Messages: 26

Enregistré le: 24 Déc 2013

Message le Mar Déc 24, 2013 17:51

bonjour,
je suis nouveau sur ce forum et suis aussi novice dans le domaine des nouvelles technologies. Je suis face à une situation difficile à gérer. Je m’explique. J'ai créé un blog puis suite à des problèmes j'ai décidé de retirer tous mes fichiers de mon blog mais je n'ai supprimé celui-ci définitivement.
Mon problème aujourd'hui est que de nombreux fichiers notamment format word et pdf sont toujours accessibles sur Google. J'ai supprimé le URL par le biais de outils webmarter mais les fichiers sont toujours là et ça m'agace. Quelqu’un pourrait-il m'aider s'il vous plait ?
cordialement bonne fête de foin d'année.
dyk27
Haut
Messages: 22678

Enregistré le: 8 Aoû 2004

Message le Mar Déc 24, 2013 18:36

enlève des fichiers du site web
Haut
Messages: 26

Enregistré le: 24 Déc 2013

Message le Mar Déc 24, 2013 19:10

Bonsoir,
Mon blog aujourd'hui est vide !
J'ai enlevé tous mes fichiers. Mais ces derniers apparaissent encours dans les résultats de recherche Google sous la forme de data et doc. On arrive même à les télécharger !
Haut
Messages: 22678

Enregistré le: 8 Aoû 2004

Message le Mar Déc 24, 2013 19:58

faut demander la suppression complète de ton site dans GWT. Par contre, pour l'avoir vécu, y! ne faisait rien et gardait les pages dans son index, même quand on envoyait un code 410. Je ne sais pas comment bing fait
Haut
Messages: 26

Enregistré le: 24 Déc 2013

Message le Mar Déc 24, 2013 20:13

Meric pour la réponse. Je suis désolé pour le doublon. Je n'ai pas bien lu les consignes.
Par contre comment peut-on demander la suppression de ces pages tout en garant mon site vide ?
Aussi c'est quoi le GWT ?
Désolé je débute.
Merci
Haut
Messages: 26

Enregistré le: 24 Déc 2013

Message le Sam Déc 28, 2013 12:05

bonjour,
Voici ce que donne ma page avant d'introduire une URL à bloquer . Ma question : où puis-je introduire mon URL à bloquer s'il vous plait Quelle est la procédure.
bonne journée. Dyk7


User-Agent: *
Allow: /
Disallow: /contact
Disallow: /mail/subscribe
Disallow: /mail/valid-*

#
# this technically isn't valid, since for some godforsaken reason
# sitemap paths must be ABSOLUTE and not relative.
#
Sitemap: /sitemap.xml
Haut