Pdf et duplicate content

HYPERTHAL · 11 Juin 2012

Bonjour,

Plusieurs questions autour du PDF.

Tout d'abord, un document uniquement présent sur un site au format pdf (téléchargeable) est-il indexé par Google ? Ou bien ne l'est-il pas ?

S'il l'est, le fait que son contenu soit dupliqué peut-il entraîner sa non-indexation ? ou une pénalisation du site ? Ou ne serait-ce que freiner le positionnement global du site ?

Comment remédier aux problèmes que poserait un pdf au contenu dupliqué?

Merci à vous,
H.

JanoLapin · 11 Juin 2012

oui,n un pdf en ligne est accessible aux bots, qui le décryptent (sauf de mémoire s'il est "vérouillé").

je ne vois pas en quoi cela peut te faire du DC avec le contenu de ton propre site (conccurrence entre deux pages? ). Après, avec celui d'un autre site, c'est évidemment différent.

Marie-Aude · 11 Juin 2012

Hello

Oui
Oui, non, non
en mettant le lien en noindex

HYPERTHAL · 11 Juin 2012

JanoLapin a dit:
oui,n un pdf en ligne est accessible aux bots, qui le décryptent (sauf de mémoire s'il est "vérouillé").

Merci à vous pour vos réponses. Mais comment fait-on pour verrouiller un pdf ?

Il semblerait en fait que le pdf n'est pas été indexé par google, alors qu'il n'y pas de balise "no index" dans le code source ? Y a-t-il une raison qui peut faire en sorte que le contenu du pdf n'est pas été indexé ?

JanoLapin · 11 Juin 2012

en fonction des outils que tu utilises:

* l'accès au pdf peut-être verrouillé, cad demandant un mot de passe.... c'est plus ou moins bien géré par les outils de création
* certains verrouillent le pdf tout en indiquant le mot de passe dans la page comprennant le lien
* il est possible -selon les outils- d'enregistrer certaines méta-informations dans un pdf.

bref: ça dépend ça dépasse....

C'ets d'ailleurs pour clea que la NSA s'est fendu la semaine dernière d'un document sur la façon de produire des pdf en toute sécurié.