Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics


Vinyl
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 36
Inscription: 19 Mar 2009

Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Dim Jan 22, 2012 16:10

Bonjour,

Je travaille sur un site en construction et je m'aperçois que Google a indéxé des pages de ce site normalement inaccessible sauf en lien direct. J'ai plein d'autres dossiers sur mon serveur avec des sites en construction et ce n'est pas le cas.
J'en déduis qu'il y a un lien quelque part sur le web qui pointe vers ces pages. Peut-être mon client à fait un lien.

Je vais donc mettre un protection htpasswd + configurer robots.txt

Je n'arrive pas à trouver d’où vient le lien ? Vous avez une suggestion pour avoir cette information ?

Je me demande aussi : Le lien a été transmis pas mail sur une boîte GMAIL Est ce possible que Google ait indéxé les pages suite à ce mail ?

Merci.


zeb
WRInaute accro
WRInaute accro
 
Messages: 4560
Inscription: 5 Déc 2004

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Dim Jan 22, 2012 16:17

Vinyl a écrit:Je n'arrive pas à trouver d’où vient le lien ? Vous avez une suggestion pour avoir cette information ?

log du serveur avec recherche du "referer" foireux.


padadam22
WRInaute accro
WRInaute accro
 
Messages: 2707
Inscription: 23 Oct 2010

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Dim Jan 22, 2012 16:22

Si tes pages ne sont pas bloquées d'une certaine façon (noindex, htpsswd, etc...) cela n'a rien de surprenant, même sans lien ;)


Vinyl
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 36
Inscription: 19 Mar 2009

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Dim Jan 22, 2012 17:06

Merci pour vos réponses.

zeb a écrit:log du serveur avec recherche du "referer" foireux.


Merci, bonne idée. Je vais regarder les logs.

padadam22 a écrit:Si tes pages ne sont pas bloquées d'une certaine façon (noindex, htpsswd, etc...) cela n'a rien de surprenant, même sans lien ;)


J'avais déjà entendu parlé de ce type de problème mais c'est la première fois que je le constate. J'ai vu des pages du backoffice en construction dans l'index google !!

Est ce qu'un paramétrage du robots.txt est suffisant ?


zeb
WRInaute accro
WRInaute accro
 
Messages: 4560
Inscription: 5 Déc 2004

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Dim Jan 22, 2012 17:12

Vinyl a écrit:Est ce qu'un paramétrage du robots.txt est suffisant ?

Non la seule et unique solution c'est login plus mot de passe avec htaccess.
Sinon pour info tes barres d'outils du navigateur peuvent aussi être la cause du souci.


Vinyl
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 36
Inscription: 19 Mar 2009

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Dim Jan 22, 2012 17:45

Merci pour vos réponses.

J'ai donc mis en place une protection htpassword. C'est une procédure obligatoire maintenant pour mes sites en construction. J'ai été très imprudent de laisser mon site en "accès libre".

Quand tu dis que le robots.txt n'est pas suffisant. Comment faire dans les cas ou te ne veux pas que le moteurs indexe un dossier et que tu ne peux pas le protéger par htpassword. Je pense au dossier modules par exemple sur un site ecommerce comme prestashop . Récemment, j'ai eu un soucis. Le robots.txt était mal configuré et j'ai une une alerte envoyée par google comme quoi il y avait un risque de phishing (Phishing notification).

C'est du au fait que Google a indexé un fichier du module paypal qui contient une redirection.

J'ai paramétré le robots.txt comme ça :

Code: Tout sélectionner
Disallow: /modules/


C'est pas suffisant alors ?


zeb
WRInaute accro
WRInaute accro
 
Messages: 4560
Inscription: 5 Déc 2004

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Dim Jan 22, 2012 18:32

Vinyl a écrit:Quand tu dis que le robots.txt n'est pas suffisant. Comment faire dans les cas ou te ne veux pas que le moteurs indexe un dossier et que tu ne peux pas le protéger par htpassword. Je pense au dossier modules par exemple

Il faut faire la distinction en le crawl et l'indexation.

Dans le cas de ton site en cours de dev c'est le crawl + l'indexation qui pose un souci la seule solution viable est le htaccess.
Dans le cas d'un site en production il ne faut pas empêcher le crawl et l'indexation mais restreindre son champ d'action, là le fichier robots.txt est la bonne solution.


zeb
WRInaute accro
WRInaute accro
 
Messages: 4560
Inscription: 5 Déc 2004

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Dim Jan 22, 2012 18:34

J'ajoute qu'il va falloir surveiller les pages déjà indexées et voir si l'interdiction d'accès engendre la dés-indexation (pas certains)


Vinyl
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 36
Inscription: 19 Mar 2009

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Mar Jan 24, 2012 13:31

Merci Zeb pour toutes ces explications.

Effectivement, crawl et indexation sont 2 choses différentes.

Je vais surveiller.

Je viens aussi de demander la suppression des urls indexées avec GoogleWebmasterTools.
Je ne sais pas si c'est efficace.

Je viens de faire un fichier robots.txt

Juste pour avoir ton avis, c'est correct comme robots.txt :

Code: Tout sélectionner
User-agent: *
Allow: /

# Exclusion Dossiers
Disallow: /projets/dossier/
Disallow: /blog/administrator/


zeb
WRInaute accro
WRInaute accro
 
Messages: 4560
Inscription: 5 Déc 2004

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Mar Jan 24, 2012 14:02

Vinyl a écrit:Juste pour avoir ton avis, c'est correct comme robots.txt

Aucune idée j'utilise pas le robots.txt je fais toujours en sorte que tout ce qui est visible soit indexable (et du coup j'ai rien a masquer), néanmoins tu peux essayer, il y a un bon outil de test dans GWT qui te dis en fonction du contenu de ton fichier si une url est impactée ou pas.
De plus pour la petite histoire le fichier robots.txt est un très bon indicateur pour connaitre "les dessous" d'un site web donc j'aime pas trop.


Vinyl
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 36
Inscription: 19 Mar 2009

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Mar Jan 24, 2012 19:04

Pour infos, j'ai trouvé dans l'aide Google :

Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré, ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et, éventuellement, d'autres informations accessibles au public, notamment le texte d'ancrage des liens qui pointent vers le site ou le titre créé par l'ODP (Open Directory Project, www.dmoz.org) peuvent apparaître dans les résultats de recherche Google.


Pour empêcher totalement l'ajout du contenu d'une page à l'index Google, même si d'autres sites proposent des liens vers celle-ci, utilisez une une balise Meta noindex. Tant que Googlebot détecte la page, il prendra en compte la balise Meta noindex et empêchera l'ajout de la page à l'index Google.


Source :

https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449


zeb
WRInaute accro
WRInaute accro
 
Messages: 4560
Inscription: 5 Déc 2004

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Mar Jan 24, 2012 21:42

Vinyl a écrit:Pour infos, j'ai trouvé dans l'aide Google :
Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré, ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. ...

C'est un vicelard ce google :D

ni indexé, il est possible que nous indexions

En plus il est maître du contresens :D


Vinyl
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 36
Inscription: 19 Mar 2009

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Mer Jan 25, 2012 14:01

Oui, tu as vu, cette explication est finalement un peu floue.

Hier j'ai demandé la suppression de 3 url via GWT et aujourd'hui elles sont supprimées. Supprimées en 24h, très rapide !

En revanche, je vois encore une autre URL indésirables. Dans GWT, je vois que l'on peut demander la suppression d'un répertoire. C'est ce que je vais faire mais pour le répertoire, il est précisé :

Pour que sa suppression soit définitive, le contenu doit être bloqué par un fichier robots.txt


Encore ce robots.txt !

Et je suis de ton avis aussi :

De plus pour la petite histoire le fichier robots.txt est un très bon indicateur pour connaitre "les dessous" d'un site web donc j'aime pas trop.


C'est un bon moyen de connaitre les répertoires cachés d'un site web...


Vinyl
Nouveau WRInaute
Nouveau WRInaute
 
Messages: 36
Inscription: 19 Mar 2009

Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?

Message le Mer Jan 25, 2012 23:33

Juste pour infos, j'ai envoyé mon robots.txt pour pouvoir supprimer dans GWT le répertoire ou des pages indésirables étaient indexées.

Ce soir, je me reconnecte à GWT et j'ai des gros warning en rouge :

Des problèmes importants ont été détectés sur votre site
Une page importante est bloquée par un fichier robots.txt.


+ un gros message sur fond rouge :

Image

En fait, ça concerne justement une page à supprimer. Comme c'est embêtant de les supprimer une par une, j'ai décidé de supprimer le répertoire mais GWT prévient que pour un répertoire :

Pour que sa suppression soit définitive, le contenu doit être bloqué par un fichier robots.txt


donc ces avertissement n'ont pas lieu d'être... Enfin vaut mieux sans doute trop d’avertissement que pas assez... :roll:


Si vous avez aimé cette discussion, partagez-la sur vos réseaux sociaux préférés :

Formation recommandée sur ce thème :

Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.

Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.

Lectures recommandées sur ce thème :

  • Calculer le ratio de liens profonds
    Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés.
  • Bilan du référencement Google
    Cet outil vous donne un petit résumé de l'état de référencement de votre site dans Google.
  • Tester la validité d'un lien
    Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs).
  • Transformer des textes non cliquables en liens
    Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).


Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité