A propos de la syntaxe ´filetype:´ dans google
1 message • Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
A propos de la syntaxe ´filetype:´ dans google
Bonjour. Je reposte un article que j'avais posé dans les forums d'abondance il y a un peu plus de deux semaines. N'ayant pas eu de réponses (ce forum n'est pas tres actif) je me permets de le resoumettre ici. Etant en train de preparer un article plus complet sur le sujet, j'aimerais avoir l'opinion des membres du forum sur le sujet (si ils en ont une).
Je me penche donc en ce moment sur les spécificités de l'operateur 'filetype:' (ou 'ext:') de google. J´avais envie de pouvoir connaitre le nombre exact de fichiers d'un type spécifiques indexés par google. Par indexé, je prends en compte la totalité de la BDD de google : les fichiers reellement traités pour l´indexation (parceque reconnus par google. ou par une (mauvaise?) configuration du cote du serveur web annoncés comme étant du texte), et ceux qui ne sont que identifiés que par les pages qui pointent vers eux.
en regardant la doc de l´API de plus pres, on peut lire que le terme filetype: est de type ´prefix´. ( http://www.google.com/apis/reference.html )
les autres operateurs du meme type sont ´info:´, ´link:´, ´related:´, qui ne peuvent fonctionner avec aucun autre mot-clé, et ´cache:´, qui est a classé a part
si l´on fait une requete simple ´filetype:pdf´, sans ajouter de mots clés, google ne donne aucun resultat. Pas 0. Juste _rien_
En fait google ne doit pas traiter la requete, puisque possedant un terme de type prefix, il attend qu´on lui donne un complement.
L´astuce consiste ici a lui donner ce complement, mais en procedant a une EXCLUSION :
´hrm23lk´ ne produit aucun resultat.
-hrm23l filetype:pdf ( http://www.google.fr/search?num=100&q=- ... type%3Apdf )
et voila ! je peux donc supposer qu´il y a 47.900.000
pdf indexés par google.
en se penchant un peu sur les differents types de fichiers annoncés par google sur la page d´aide ( http://www.google.com/help/faq_filetypes.html ), qu´il crawl et indexe a peu pres tout et n´importe quoi. L´indexation reste superficielle si le type n´est pas reconnu, et si le fichier n´est pas composé que texte brut.
L´operateur filetype: prend en parametre une extension, plus qu´un type de fichier. d´ailleurs, on peut utiliser ´ext:´ a la place de filetype, le resultat est le meme, c´est plus realiste, et moins long a taper
J´ai recupéré sur un site une longue liste d´extensions connues et identifiées, traité les infos pour en faire une base de donnée correcte.
J´ai ensuite codé un petit agent qui, pour chaque extension de la bdd, va chercher sur google le nombre de pages pour la requete "ext:$ftype -hrm23l"
Voici les resultats obtenus pour 1151 extensions : http://www.tirnan0g.org/orbs/filetype_stat.htm
bien entendu, les resultats sont inexacts concernant le type de fichier relatif a une extension. Par exemple l´extension PY retourne 1.190.000 resultats, et est associé dans ce tableau au format des sauvegardes de messages yahoo. Evidemment, ca serait omettre le bon million de pages codées en python
A prendre avec des pincettes donc. Ou mieux, a nettoyer et completer. (fichiers plats et scripts donnés sur demande)
autres remarques : pour google, une extension semble etre ´tout ce qui est situé a la fin d´une url, parametres de scripts dynamiques exclus, et qui suit directement un point.
il n´y a pas de limitation a la taille de l´extension :´filetype:htaccess´ permet donc de filtrer les fichiers ´.htaccess´ croisés par google..
enfin, curieusement, le panels de caracteres possibles pour specifier l´extension est bien plus large que pour les autres operateurs !
il est donc possible de rechercher des curiosités, comme ´filetype:*´, qui produit bcp de listings de repertoires, ou bien ´filetype:~´, qui.. heu.. est juste bizarre..
ou ´+´, ou ´)´ ou ´$$$´. enfin vous voyez le topo
filetype et la recherche d´image..
meme principe sur le moteur d´image, voici les formats auxquels j´ai pu penser :
gif : 5,150,000
jpg : 4,800,000
png : 2,470,000
jpeg : 2,240,000
bmp : 37,000
tif : 33,900
on est tout de meme bien loin des 1,187,630,000 images indexees..
ya un truc.. "filetype:php -blalbla" ne produit aucun resultat, alors qu´on devrait voir apparaitre les images dynamiquements générées par du code php..
trouble tout ca..
enfin voila ce que j'ai collecté jusqu'a présent. J'aimerais savoir si vous avez des remarques a faire sur ce sujet, vos experiences personnelles etc...
merci d'avance
Je me penche donc en ce moment sur les spécificités de l'operateur 'filetype:' (ou 'ext:') de google. J´avais envie de pouvoir connaitre le nombre exact de fichiers d'un type spécifiques indexés par google. Par indexé, je prends en compte la totalité de la BDD de google : les fichiers reellement traités pour l´indexation (parceque reconnus par google. ou par une (mauvaise?) configuration du cote du serveur web annoncés comme étant du texte), et ceux qui ne sont que identifiés que par les pages qui pointent vers eux.
en regardant la doc de l´API de plus pres, on peut lire que le terme filetype: est de type ´prefix´. ( http://www.google.com/apis/reference.html )
les autres operateurs du meme type sont ´info:´, ´link:´, ´related:´, qui ne peuvent fonctionner avec aucun autre mot-clé, et ´cache:´, qui est a classé a part
si l´on fait une requete simple ´filetype:pdf´, sans ajouter de mots clés, google ne donne aucun resultat. Pas 0. Juste _rien_
En fait google ne doit pas traiter la requete, puisque possedant un terme de type prefix, il attend qu´on lui donne un complement.
L´astuce consiste ici a lui donner ce complement, mais en procedant a une EXCLUSION :
´hrm23lk´ ne produit aucun resultat.
-hrm23l filetype:pdf ( http://www.google.fr/search?num=100&q=- ... type%3Apdf )
et voila ! je peux donc supposer qu´il y a 47.900.000
pdf indexés par google.
en se penchant un peu sur les differents types de fichiers annoncés par google sur la page d´aide ( http://www.google.com/help/faq_filetypes.html ), qu´il crawl et indexe a peu pres tout et n´importe quoi. L´indexation reste superficielle si le type n´est pas reconnu, et si le fichier n´est pas composé que texte brut.
L´operateur filetype: prend en parametre une extension, plus qu´un type de fichier. d´ailleurs, on peut utiliser ´ext:´ a la place de filetype, le resultat est le meme, c´est plus realiste, et moins long a taper
J´ai recupéré sur un site une longue liste d´extensions connues et identifiées, traité les infos pour en faire une base de donnée correcte.
J´ai ensuite codé un petit agent qui, pour chaque extension de la bdd, va chercher sur google le nombre de pages pour la requete "ext:$ftype -hrm23l"
Voici les resultats obtenus pour 1151 extensions : http://www.tirnan0g.org/orbs/filetype_stat.htm
bien entendu, les resultats sont inexacts concernant le type de fichier relatif a une extension. Par exemple l´extension PY retourne 1.190.000 resultats, et est associé dans ce tableau au format des sauvegardes de messages yahoo. Evidemment, ca serait omettre le bon million de pages codées en python
A prendre avec des pincettes donc. Ou mieux, a nettoyer et completer. (fichiers plats et scripts donnés sur demande)
autres remarques : pour google, une extension semble etre ´tout ce qui est situé a la fin d´une url, parametres de scripts dynamiques exclus, et qui suit directement un point.
il n´y a pas de limitation a la taille de l´extension :´filetype:htaccess´ permet donc de filtrer les fichiers ´.htaccess´ croisés par google..
enfin, curieusement, le panels de caracteres possibles pour specifier l´extension est bien plus large que pour les autres operateurs !
il est donc possible de rechercher des curiosités, comme ´filetype:*´, qui produit bcp de listings de repertoires, ou bien ´filetype:~´, qui.. heu.. est juste bizarre..
ou ´+´, ou ´)´ ou ´$$$´. enfin vous voyez le topo
filetype et la recherche d´image..
meme principe sur le moteur d´image, voici les formats auxquels j´ai pu penser :
gif : 5,150,000
jpg : 4,800,000
png : 2,470,000
jpeg : 2,240,000
bmp : 37,000
tif : 33,900
on est tout de meme bien loin des 1,187,630,000 images indexees..
ya un truc.. "filetype:php -blalbla" ne produit aucun resultat, alors qu´on devrait voir apparaitre les images dynamiquements générées par du code php..
trouble tout ca..
enfin voila ce que j'ai collecté jusqu'a présent. J'aimerais savoir si vous avez des remarques a faire sur ce sujet, vos experiences personnelles etc...
merci d'avance
1 message • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par Julien Coquet, expert certifié officiellement par Google Analytics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Google Code Search : moteur de recherche de codes sources
- Google indexe le Flash
- Sortie d'un nouveau livre sur Google
- A propos des redirections "sauvages"
- Article sur le fichier .htaccess
- Le point sur Google en Janvier 2007
- Opérateurs de recherche avancée sur MSN
- Exalead améliore son interface
- A propos du Google Touch Graph...
- Formation Ranking Metrics à Marseille : 20-21-22 octobre 2009
- Google et la syntaxe
- syntaxe chez google
- syntaxe Google site map
- syntaxe des demandes du robot google
- Syntaxe des ndd et référencement Google
- Robots txt : syntaxe non comprise par Google
- Modifier la syntaxe d'une url : risqué dans Google ?
- A propos du positionnement google
- A propos de Google AdSense
- a propos de google news
- Question à propos de google
- Information à propos de Google !
- A propos de la redirection 301 et Google
- Question à propos de Google Map
- A propos des dirigeants de google ?
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités

le forum