Profitez des offres Memoirevive.ch!
XPDF : Extraire les images d’un PDF

 

Il y a quelques années, j’avais utilisé un logiciel nommé File Juicer en mode démo pour extraire des images d’un PDF. Il retirait chaque image et chaque texte pour en faire un fichier séparé. Il y a quelques jours, un collègue me demande de faire un diaporama à partir d’images qu’il a compilées. Ayant accepté un peu vite qu’il m’envoie ses images, je reçois à ma grande surprise un fichier PDF qui contient toutes les images. Je cherche un peu comment faire ça rapidement (il y en a quelques dizaines), je me tourne naturellement vers File Juicer et je constate qu’il coûte une douzaine d’euros. Certes, il les vaut, mais pour un usage ponctuel… 12 € ne se justifient pas. Quelques recherches plus tard… J’ai trouvé quelque chose qui devrait vous plaire (à condition de ne pas être allergique à la ligne de commande) : j’ai nommé XPDF ! La version mac se trouvant là. C’est un DMG classique qui s’installe à coups de doubles-clics.
Jusqu’ici, nous sommes en territoire connu. Attention, à partir de maintenant et sans trembler, ouvrons le Terminal.

Tapons ceci : pdfimages -j  (bien laisser un espace après le j)

1_1

Ensuite, glissons notre PDF à la suite (bien laisser un espace après le j) une première fois.

3_3

Enfin, glissons-le une seconde fois en prenant soin cette fois de retirer l’extension .pdf. Cela va servir à nommer vos fichiers images.

5_5

Et voici le résultat :

Avant :

2_2

Après :

6_6

 

Ce qui donne ceci en vidéo :

 

XPDF from Frédéric Ferrare on Vimeo.

Dans le lot des images, il se peut que certains se terminent par l’extension .ppm, en remplaçant par l’extension .jpg, cela fonctionne.

J’espère que ceci vous sera utile !

16 commentaires
2)
djtrance
, le 23.02.2015 à 09:24
[modifier]

Je n’aurais pas mieux dit que Macramé: un vrai petit utilitaire sympathique.

Par contre, je regrette vraiment le manque d’information de l’article: par exemple, concernant l’extraction des images, peut-on choisir le format (TIF, PNG, etc.) ou ne fait-il que des JPG? Les JPG issus de l’extraction sont-ils compressés (c’est un euphémisme…) selon un « standard » du logiciel?

Je veux dire par là, si on à un TIF 300 DPI dans le fichier, c’est un peu dommage de se retrouver avec un JPG à 72 DPI après extraction.

L’éditeur n’étant pas très bavard sur son site:

Xpdf is an open source viewer for Portable Document Format (PDF) files. (These are also sometimes also called ‘Acrobat’ files, from the name of Adobe’s PDF software.) The Xpdf project also includes a PDF text extractor, PDF-to-PostScript converter, and various other utilities.

Cela aurait sans doute mérité de pousser l’expérience un peu plus loin car de toute évidence, il ne fait pas que ça ;)

(même si oui d’accord, on peut penser que Radagast a juste voulu présenter 1 cas utile et pas un test « complet » du logiciel…)

3)
Radagast
, le 23.02.2015 à 09:55
[modifier]

Oui, c’était surtout un cas pratique. Pour les images, je pense qu’il extrait les images dans leur format d’origine.

4)
Radagast
, le 23.02.2015 à 10:25
[modifier]

pdfimages extracts the raw image data from the PDF file, without performing
any additional transforms. Any rotation, clipping, color inversion, etc. done
by the PDF content stream is ignored.
C’est bien ça : ce sont les images d’origine

5)
François Cuneo
, le 23.02.2015 à 13:01
[modifier]

J’ai trouvé quelque chose qui devrait vous plaire (à condition de ne pas être allergique à la ligne de commande)

Alors là… J’en suis!

Je dépenserai donc les 12 € lorsque cela sera nécessaire!:-)

7)
ThierryS
, le 23.02.2015 à 14:09
[modifier]

Concernant FileJuicer, que j’utilise assez souvent, il ne faudrait pas le cantonner à une extraction à partir de pdf uniquement
Il permet également une extraction à partir de fichiers Powerpoint, ce qui est très pratique pour un enseignant

d’autre part, il permet l’extraction de divers type de format

« file »

D’autres fonctions, comme la récupération de photos serait également possible mais je n’ai jamais testé

8)
cerock
, le 23.02.2015 à 15:55
[modifier]

mdr je n’avais pas besoin de lire les commentaire pour savoir que la réponse de François serait celle là ;)

Je n’ai jamais eu ce besoin, mais je garde l’astuce au fond de ma tête. Merci

P.S. Thierry, pour les powerpoint ou les fichier word, tu peux aussi l’ouvrir avec Pages (ou keynote) et les enregistrer. Il suffit ensuite d’aller sur le fichier, clique droite et afficher le contenu du paquet. Tu retrouveras tout tes fichiers ;)

10)
Radagast
, le 23.02.2015 à 16:32
[modifier]

cerock, j’ai l’impression que ça ne marche plus avec les fichiers enregistrés avec les dernières versions de Keynote.

11)
benoit
, le 23.02.2015 à 19:08
[modifier]

si vous êtes allergique à la ligne de commande et si vous en êtes l’heureux possesseur, Photoshop le fait directement.

13)
Radagast
, le 23.02.2015 à 21:52
[modifier]

Je ne sais pas mais chez moi ça ne me propose plus afficher le contenu du paquet pour Keynote et Pages.

14)
cerock
, le 24.02.2015 à 17:03
[modifier]

Alors je viens de refaire le test. C’est vrai qu’avec les nouveau fichier on ne peux plus parcourir le contenu du paquet. Par contre il est possible de le « dezipper » et on obtiens tous les fichier dans un dossier ;)