Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
14 messages
• Page 1 sur 1
Consultez la formation au REFERENCEMENT naturel Google de WebRankInfo / Ranking Metrics
-

Vinyl - Nouveau WRInaute

- Messages: 36
- Inscription: 19 Mar 2009
Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Bonjour,
Je travaille sur un site en construction et je m'aperçois que Google a indéxé des pages de ce site normalement inaccessible sauf en lien direct. J'ai plein d'autres dossiers sur mon serveur avec des sites en construction et ce n'est pas le cas.
J'en déduis qu'il y a un lien quelque part sur le web qui pointe vers ces pages. Peut-être mon client à fait un lien.
Je vais donc mettre un protection htpasswd + configurer robots.txt
Je n'arrive pas à trouver d’où vient le lien ? Vous avez une suggestion pour avoir cette information ?
Je me demande aussi : Le lien a été transmis pas mail sur une boîte GMAIL Est ce possible que Google ait indéxé les pages suite à ce mail ?
Merci.
Je travaille sur un site en construction et je m'aperçois que Google a indéxé des pages de ce site normalement inaccessible sauf en lien direct. J'ai plein d'autres dossiers sur mon serveur avec des sites en construction et ce n'est pas le cas.
J'en déduis qu'il y a un lien quelque part sur le web qui pointe vers ces pages. Peut-être mon client à fait un lien.
Je vais donc mettre un protection htpasswd + configurer robots.txt
Je n'arrive pas à trouver d’où vient le lien ? Vous avez une suggestion pour avoir cette information ?
Je me demande aussi : Le lien a été transmis pas mail sur une boîte GMAIL Est ce possible que Google ait indéxé les pages suite à ce mail ?
Merci.
-

Vinyl - Nouveau WRInaute

- Messages: 36
- Inscription: 19 Mar 2009
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Merci pour vos réponses.
Merci, bonne idée. Je vais regarder les logs.
J'avais déjà entendu parlé de ce type de problème mais c'est la première fois que je le constate. J'ai vu des pages du backoffice en construction dans l'index google !!
Est ce qu'un paramétrage du robots.txt est suffisant ?
zeb a écrit:log du serveur avec recherche du "referer" foireux.
Merci, bonne idée. Je vais regarder les logs.
padadam22 a écrit:Si tes pages ne sont pas bloquées d'une certaine façon (noindex, htpsswd, etc...) cela n'a rien de surprenant, même sans lien
J'avais déjà entendu parlé de ce type de problème mais c'est la première fois que je le constate. J'ai vu des pages du backoffice en construction dans l'index google !!
Est ce qu'un paramétrage du robots.txt est suffisant ?
-

zeb - WRInaute accro

- Messages: 4560
- Inscription: 5 Déc 2004
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Vinyl a écrit:Est ce qu'un paramétrage du robots.txt est suffisant ?
Non la seule et unique solution c'est login plus mot de passe avec htaccess.
Sinon pour info tes barres d'outils du navigateur peuvent aussi être la cause du souci.
-

Vinyl - Nouveau WRInaute

- Messages: 36
- Inscription: 19 Mar 2009
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Merci pour vos réponses.
J'ai donc mis en place une protection htpassword. C'est une procédure obligatoire maintenant pour mes sites en construction. J'ai été très imprudent de laisser mon site en "accès libre".
Quand tu dis que le robots.txt n'est pas suffisant. Comment faire dans les cas ou te ne veux pas que le moteurs indexe un dossier et que tu ne peux pas le protéger par htpassword. Je pense au dossier modules par exemple sur un site ecommerce comme prestashop . Récemment, j'ai eu un soucis. Le robots.txt était mal configuré et j'ai une une alerte envoyée par google comme quoi il y avait un risque de phishing (Phishing notification).
C'est du au fait que Google a indexé un fichier du module paypal qui contient une redirection.
J'ai paramétré le robots.txt comme ça :
C'est pas suffisant alors ?
J'ai donc mis en place une protection htpassword. C'est une procédure obligatoire maintenant pour mes sites en construction. J'ai été très imprudent de laisser mon site en "accès libre".
Quand tu dis que le robots.txt n'est pas suffisant. Comment faire dans les cas ou te ne veux pas que le moteurs indexe un dossier et que tu ne peux pas le protéger par htpassword. Je pense au dossier modules par exemple sur un site ecommerce comme prestashop . Récemment, j'ai eu un soucis. Le robots.txt était mal configuré et j'ai une une alerte envoyée par google comme quoi il y avait un risque de phishing (Phishing notification).
C'est du au fait que Google a indexé un fichier du module paypal qui contient une redirection.
J'ai paramétré le robots.txt comme ça :
- Code: Tout sélectionner
Disallow: /modules/
C'est pas suffisant alors ?
-

zeb - WRInaute accro

- Messages: 4560
- Inscription: 5 Déc 2004
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Vinyl a écrit:Quand tu dis que le robots.txt n'est pas suffisant. Comment faire dans les cas ou te ne veux pas que le moteurs indexe un dossier et que tu ne peux pas le protéger par htpassword. Je pense au dossier modules par exemple
Il faut faire la distinction en le crawl et l'indexation.
Dans le cas de ton site en cours de dev c'est le crawl + l'indexation qui pose un souci la seule solution viable est le htaccess.
Dans le cas d'un site en production il ne faut pas empêcher le crawl et l'indexation mais restreindre son champ d'action, là le fichier robots.txt est la bonne solution.
-

Vinyl - Nouveau WRInaute

- Messages: 36
- Inscription: 19 Mar 2009
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Merci Zeb pour toutes ces explications.
Effectivement, crawl et indexation sont 2 choses différentes.
Je vais surveiller.
Je viens aussi de demander la suppression des urls indexées avec GoogleWebmasterTools.
Je ne sais pas si c'est efficace.
Je viens de faire un fichier robots.txt
Juste pour avoir ton avis, c'est correct comme robots.txt :
Effectivement, crawl et indexation sont 2 choses différentes.
Je vais surveiller.
Je viens aussi de demander la suppression des urls indexées avec GoogleWebmasterTools.
Je ne sais pas si c'est efficace.
Je viens de faire un fichier robots.txt
Juste pour avoir ton avis, c'est correct comme robots.txt :
- Code: Tout sélectionner
User-agent: *
Allow: /
# Exclusion Dossiers
Disallow: /projets/dossier/
Disallow: /blog/administrator/
-

zeb - WRInaute accro

- Messages: 4560
- Inscription: 5 Déc 2004
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Vinyl a écrit:Juste pour avoir ton avis, c'est correct comme robots.txt
Aucune idée j'utilise pas le robots.txt je fais toujours en sorte que tout ce qui est visible soit indexable (et du coup j'ai rien a masquer), néanmoins tu peux essayer, il y a un bon outil de test dans GWT qui te dis en fonction du contenu de ton fichier si une url est impactée ou pas.
De plus pour la petite histoire le fichier robots.txt est un très bon indicateur pour connaitre "les dessous" d'un site web donc j'aime pas trop.
-

Vinyl - Nouveau WRInaute

- Messages: 36
- Inscription: 19 Mar 2009
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Pour infos, j'ai trouvé dans l'aide Google :
Source :
https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449
Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré, ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. Cela signifie que l'URL de la page et, éventuellement, d'autres informations accessibles au public, notamment le texte d'ancrage des liens qui pointent vers le site ou le titre créé par l'ODP (Open Directory Project, www.dmoz.org) peuvent apparaître dans les résultats de recherche Google.
Pour empêcher totalement l'ajout du contenu d'une page à l'index Google, même si d'autres sites proposent des liens vers celle-ci, utilisez une une balise Meta noindex. Tant que Googlebot détecte la page, il prendra en compte la balise Meta noindex et empêchera l'ajout de la page à l'index Google.
Source :
https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449
-

zeb - WRInaute accro

- Messages: 4560
- Inscription: 5 Déc 2004
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Vinyl a écrit:Pour infos, j'ai trouvé dans l'aide Google :Même si le contenu des pages bloquées par le fichier robots.txt n'est ni exploré, ni indexé, il est possible que nous indexions les URL de ces pages si nous les rencontrons sur d'autres sites Web. ...
C'est un vicelard ce google
ni indexé, il est possible que nous indexions
En plus il est maître du contresens
-

Vinyl - Nouveau WRInaute

- Messages: 36
- Inscription: 19 Mar 2009
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Oui, tu as vu, cette explication est finalement un peu floue.
Hier j'ai demandé la suppression de 3 url via GWT et aujourd'hui elles sont supprimées. Supprimées en 24h, très rapide !
En revanche, je vois encore une autre URL indésirables. Dans GWT, je vois que l'on peut demander la suppression d'un répertoire. C'est ce que je vais faire mais pour le répertoire, il est précisé :
Encore ce robots.txt !
Et je suis de ton avis aussi :
C'est un bon moyen de connaitre les répertoires cachés d'un site web...
Hier j'ai demandé la suppression de 3 url via GWT et aujourd'hui elles sont supprimées. Supprimées en 24h, très rapide !
En revanche, je vois encore une autre URL indésirables. Dans GWT, je vois que l'on peut demander la suppression d'un répertoire. C'est ce que je vais faire mais pour le répertoire, il est précisé :
Pour que sa suppression soit définitive, le contenu doit être bloqué par un fichier robots.txt
Encore ce robots.txt !
Et je suis de ton avis aussi :
De plus pour la petite histoire le fichier robots.txt est un très bon indicateur pour connaitre "les dessous" d'un site web donc j'aime pas trop.
C'est un bon moyen de connaitre les répertoires cachés d'un site web...
-

Vinyl - Nouveau WRInaute

- Messages: 36
- Inscription: 19 Mar 2009
Re: Pages indexées non voulu : Connaitre le lien ? Est-ce gmail ?
Juste pour infos, j'ai envoyé mon robots.txt pour pouvoir supprimer dans GWT le répertoire ou des pages indésirables étaient indexées.
Ce soir, je me reconnecte à GWT et j'ai des gros warning en rouge :
+ un gros message sur fond rouge :

En fait, ça concerne justement une page à supprimer. Comme c'est embêtant de les supprimer une par une, j'ai décidé de supprimer le répertoire mais GWT prévient que pour un répertoire :
donc ces avertissement n'ont pas lieu d'être... Enfin vaut mieux sans doute trop d’avertissement que pas assez...
Ce soir, je me reconnecte à GWT et j'ai des gros warning en rouge :
Des problèmes importants ont été détectés sur votre site
Une page importante est bloquée par un fichier robots.txt.
+ un gros message sur fond rouge :

En fait, ça concerne justement une page à supprimer. Comme c'est embêtant de les supprimer une par une, j'ai décidé de supprimer le répertoire mais GWT prévient que pour un répertoire :
Pour que sa suppression soit définitive, le contenu doit être bloqué par un fichier robots.txt
donc ces avertissement n'ont pas lieu d'être... Enfin vaut mieux sans doute trop d’avertissement que pas assez...
14 messages
• Page 1 sur 1
Formation recommandée sur ce thème :
Formation REFERENCEMENT naturel Google : apprenez une méthode efficace pour optimiser à fond le référencement naturel dans Google de façon durable... Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- [Resolu] Pages indexées non voulu
- connaitre le nombre de pages indexées
- Connaître les dernières pages indéxées
- Connaitre précisement le nombre de pages indexées
- Connaitre les pages non indexées dans Google
- Connaitre votre nombre réel de pages indexées !
- [Astuce] Connaître rapidement le nombre de pages indexées
- connaitre les pages de mon site indéxées par Google
- Lien ne lançant pas la fonction voulu :/
- Les pages déjà indexées qui n'ont plus de lien
Consultez la description détaillée des produits ou services de Google suivants : Google Sitemaps, Google PageRank, Google Dashboard Widgets for Mac, Googlebot
- Calculer le ratio de liens profonds
Cet outil vous permet de calculer le taux de liens profonds vers un site web. Un lien profond est un lien qui ne pointe pas vers la page d'accueil mais au contraire vers une page interne du site. Les sites dont l'essentiel du référencement vient de leurs inscriptions dans des annuaires ont un taux de liens profonds faible ; à l'inverse, les sites de référence ont souvent un taux de liens profonds plus important, signe que leur contenu a suscité de nombreux liens spontanés. - Bilan du référencement Google
Cet outil vous donne un petit résumé de l'état de référencement de votre site dans Google. - Tester la validité d'un lien
Cet outil vous permet de tester la validité d'un lien pour le référencement. Il vous indique la nature du lien (lien en dur, redirection bien gérée par les moteurs ou redirection mal gérée par les moteurs). - Transformer des textes non cliquables en liens
Cet outil vous permet de trouver des pages citant votre site mais ne faisant pas (encore) de lien. Il suffira parfois d'un simple mail pour transformer cette simple citation en lien (backlink).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité

