[Google] Technique OCR pour indexer les fichiers PDF
4 messages • Page 1 sur 1
Consultez la formation à Google Analytics de WebRankInfo / Ranking Metrics
[Google] Technique OCR pour indexer les fichiers PDF
Google a publier un article concernant l'indexation des fichiers PDF et l'utilisation de système de type OCR (Reconnaissance optique de caractères) pour améliorer l'indexation des fichiers.
On peut voir quand même plus de 315 millions de fichiers PDF indexés sur Google.
Voir la commande filetype:pdf :
http://www.google.com/search?q=filetype%3Apdf
Les améliorations permettent d'avoir accès aux fichiers PDF au format HTML depuis les résultats de recherche Google.
Un des exemples officiel de Google : [repairing aluminum wiring]
Source et information : Official Google Blog : A picture of a thousand words ?
Qu'est l'OCR (Reconnaissance optique de caractères) : fr.wikipedia.org/wiki/OCR
On peut voir quand même plus de 315 millions de fichiers PDF indexés sur Google.
Voir la commande filetype:pdf :
http://www.google.com/search?q=filetype%3Apdf
Les améliorations permettent d'avoir accès aux fichiers PDF au format HTML depuis les résultats de recherche Google.
Un des exemples officiel de Google : [repairing aluminum wiring]
Source et information : Official Google Blog : A picture of a thousand words ?
Qu'est l'OCR (Reconnaissance optique de caractères) : fr.wikipedia.org/wiki/OCR
-

ecocentric - WRInaute accro

- Messages: 3577
- Inscription: Mar Fév 10, 2004 16:40
Google bosse aussi sur des projets Open Source dans l'OCR dans le cadre de Google Books (OCRopus , tesseract,...). Ya du boulot parce que les outils sont encore incomplets. Un petit tour d'horizon ici: http://www.robertviseur.be/page-news-cat-17.php (voir les articles avec OCR, dont qq tests de décodage de captchas ^^).
-

Rod la Kox - WRInaute accro

- Messages: 1812
- Inscription: Mar Juin 24, 2008 15:03
Vu que les spammers OCRizent les antispam, heureusement que GG sait le faire...
-

ecocentric - WRInaute accro

- Messages: 3577
- Inscription: Mar Fév 10, 2004 16:40
Rod la Kox a écrit:Vu que les spammers OCRizent les antispam, heureusement que GG sait le faire...
Je précise que je ne suis pas un spammeur; par contre, j'ai l'esprit joueur
4 messages • Page 1 sur 1
Formation recommandée sur ce thème :
Formation Google Analytics : en 2 jours, apprenez comment exploiter l'essentiel des possibilités de l'outil de mesure d'audience de Google. Formation animée par Julien Coquet, expert certifié officiellement par Google Analytics.
Tous les détails sur le site Ranking Metrics : programme, prix, dates et lieux, inscription en ligne.
Lectures recommandées sur ce thème :
- PDF Quick View : l'outil de Google pour voir les PDF
- Articles de R et D sur le PageRank, le SpamRank et le spam...
- Gmail Mobile : lire ses mails sur son mobile
- Description du Google File System (GFS)
- Contraintes d'emplacement du Sitemap
- Où placer son fichier Sitemap ? A la racine ?
- Parts de marché des moteurs de recherche aux Etats-Unis
- Yahoo Audio Search
- Revenus en hausse de 70% pour Google (T3 2006)
- Google Desktop pour Mac OS X
- Référencement de fichiers pdf dont l'url n'est pas en pdf
- Ne pas indexer les PDF
- Fichiers PDF
- Forcer GG à indexer une page html plutôt qu'un PDF
- Indexation de fichiers *.pdf
- pagerank et fichiers pdf
- outil de prévisualisation de fichiers PDF
- empêcher référencement fichiers PDF
- Permettre le telechargement de fichiers pdf
- indexation des fichiers PDF
- Interdire l'enregistrement de mes fichiers pdf
- Titres dans les fichiers pdf
- Indexation des fichiers PDF volumineux
Consultez la description détaillée des produits ou services de Google suivants : Gmail Mobile, Google Sites
Qui est en ligne
Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 0 invités



le forum