MajesticSEO a découvert + de 1000 milliards de pages web
13 messages • Page 1 sur 1
Consultez la formation sur les stratégies de liens de WebRankInfo / Ranking Metrics
-

WebRankInfo - Administrateur du site

- Messages: 15905
- Inscription: Ven Avr 19, 2002 19:51
MajesticSEO a découvert + de 1000 milliards de pages web
Majestic SEO a annoncé avoir découvert 1,026,035,494,521 URL sur le web (et crawlé 127,719,208,045 d'entre elles)
c'est à peu près autant que Google !
rappelons tout de même que MajesticSEO ne récupère pas le texte mais seulement les liens et les anchor text.
Bravo à eux tout de même !!!
c'est à peu près autant que Google !
rappelons tout de même que MajesticSEO ne récupère pas le texte mais seulement les liens et les anchor text.
Bravo à eux tout de même !!!
Re: MajesticSEO a découvert + de 1000 milliards de pages web
Il est très simple de créer un script qui avale tous les liens d'une page web, puis qui les enregistre dans une table mysql, en allant les visiter.
Je dis très simple, pour m'être amusé à essayer ( avec succès hein ), mêmê si le plus dur est de faire du filtrage sur certains liens.
Après, pour enregistrer 1000 milliards de page, il doit falloir plusieurs serveurs
( c'est peu de le dire )
Je dis très simple, pour m'être amusé à essayer ( avec succès hein ), mêmê si le plus dur est de faire du filtrage sur certains liens.
Après, pour enregistrer 1000 milliards de page, il doit falloir plusieurs serveurs
Re: MajesticSEO a découvert + de 1000 milliards de pages web
@nervusdm pour indexer autant de contenu il ne faut pas seulement plusieurs serveurs. Il faut également une architecture adaptée.
Cela m'étonnerait beaucoup que le crawler de Magestic SEO soit développé en PHP.
Le problème n'est pas la simplicité technique de la chose. C'est d'avoir des outils suffisamment performants pour conserver une application "scalable" et pouvoir indexer de fortes doses de contenu tout en limitant les ressources système.
Cela m'étonnerait beaucoup que le crawler de Magestic SEO soit développé en PHP.
Le problème n'est pas la simplicité technique de la chose. C'est d'avoir des outils suffisamment performants pour conserver une application "scalable" et pouvoir indexer de fortes doses de contenu tout en limitant les ressources système.
-

WebRankInfo - Administrateur du site

- Messages: 15905
- Inscription: Ven Avr 19, 2002 19:51
Re: MajesticSEO a découvert + de 1000 milliards de pages web
il s'agit d'un crawler distribué qui utilise les machines perso des volontaires qui participent au projet
Re: MajesticSEO a découvert + de 1000 milliards de pages web
Pour mette un bémol à ce chiffre, j'ai testé la base de Majestic sur un site que je connais... il y avait pas mal d'URL dupliquées avec passage de variables sorties de l'espace, et des images considérées comme des pages.
Sachant aussi qu'ils annoncent connaitre plus de noms de domaines que l'Icann n'en gère... je crois que ces chiffres sont à prendre avec précautions.
Sachant aussi qu'ils annoncent connaitre plus de noms de domaines que l'Icann n'en gère... je crois que ces chiffres sont à prendre avec précautions.
-

WebRankInfo - Administrateur du site

- Messages: 15905
- Inscription: Ven Avr 19, 2002 19:51
Re: MajesticSEO a découvert + de 1000 milliards de pages web
pour moi cet outil fait partie des meilleurs, notamment de par sa couverture
au sujet des nombres de domaines, aurais-tu des sources à nous donner (pour l'ICANN et pour majesticseo) ?
au sujet des nombres de domaines, aurais-tu des sources à nous donner (pour l'ICANN et pour majesticseo) ?
- eric-joomla
- WRInaute occasionnel

- Messages: 190
- Inscription: Lun Sep 25, 2006 14:42
Re: MajesticSEO a découvert + de 1000 milliards de pages web
Même chose qu'Olivier
je trouve que l'outil de majestic seo est pas mal du tout
et surtout independant des moteurs de recherche
ce qui n'est pas la moindre performance
je trouve que l'outil de majestic seo est pas mal du tout
et surtout independant des moteurs de recherche
ce qui n'est pas la moindre performance
Re: MajesticSEO a découvert + de 1000 milliards de pages web
@nervusdm pour indexer autant de contenu il ne faut pas seulement plusieurs serveurs. Il faut également une architecture adaptée.
Cela m'étonnerait beaucoup que le crawler de Magestic SEO soit développé en PHP.
Le problème n'est pas la simplicité technique de la chose. C'est d'avoir des outils suffisamment performants pour conserver une application "scalable" et pouvoir indexer de fortes doses de contenu tout en limitant les ressources système.
Qu'importe soit le programme, mais je pense que la base de donnée est sql :p
Re: MajesticSEO a découvert + de 1000 milliards de pages web
MagicYoyo a écrit:Pour mette un bémol à ce chiffre, j'ai testé la base de Majestic sur un site que je connais... il y avait pas mal d'URL dupliquées avec passage de variables sorties de l'espace, et des images considérées comme des pages.
Sachant aussi qu'ils annoncent connaitre plus de noms de domaines que l'Icann n'en gère... je crois que ces chiffres sont à prendre avec précautions.
Tous ces chiffres sont à prendre de toute façon avec précaution, maintenant ca reste un outil vraiment intéressant et qui permettent de cerner 2-3 trucs dans la gestion de tes sites.
-

WebRankInfo - Administrateur du site

- Messages: 15905
- Inscription: Ven Avr 19, 2002 19:51
Re: MajesticSEO a découvert + de 1000 milliards de pages web
ça veut dire quoi "une idée" ?
lis http://www.webrankinfo.com/dossiers/outils/historique-backlinks-domaine ça peut t'aider
lis http://www.webrankinfo.com/dossiers/outils/historique-backlinks-domaine ça peut t'aider
13 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Netlinking (liens et référencement) : apprenez ce qu'est réellement un bon lien pour le référencement et surtout comment en obtenir. Formation animée par Olivier Duffez et Fabien Facériès, experts en référencement naturel.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- Les 1000 premiers followers de @webrankinfo sur Twitter
- Outil : analyse de l'historique des backlinks d'un domaine
- Google a répertorié 1000 milliards de pages sur le web !
- The Technology Behind Google
- La foire aux backlinks sur Google et Yahoo!
- Fin de l'API Google Search SOAP
- Protégez-vous contre le nofollow
- Le simulateur de vol de Google Earth
- Google API : guide de développement de l'API Google
- Google rachète Trendalyser de gapminder.org
- Analyse de la classe C (adresse IP)
Cet outil vous permet de vérifier si plusieurs sites sont hébergés sur la même classe C (adresse IP du serveur).
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 1 invité







le forum