Découper un pdf avec pdftk: augmentation de taille!

josephtux · Août 24, 2023, 1:13pm

Bonjour,

voulant donner à Deepl un gros fichier pdf à traduire, celui-ci comportait trop de caractères.
J’ai donc voulu séparer ce gros pdf en 2 plus petits, à donner séparément à deepl.

J’ai voulu utiliser pdftk:
pdftk gros.pdf cat 1-500 output demigros1.pdf

ce qui donne un demi-fichier demigros.pdf, plus gros que le gros.pdf entier!

Cette fois deepl refuse car le fichier est trop gros!

J’ai ensuite tenté d’enlever la première page, et celà donne un fichier 2 fois plus gros!

ceci est du au fait que pdftk n’enlève pas les pages 501-end, mais sépare chaque page avant de les concaténer (commande cat).

Ghostscript, me semble-t-il, transforme les pages de texte en page d’image, donc incompatible avec cet usage. (et la qualité est trop dégradée pour obtenir une réduction suffisante des gros demi-fichiers pdf obtenus par pdftk)

Connaîtriez vous une méthode pour diviser en 2 un fichier pdf (qui contient surtout du texte à donner à Deepl) sans augmenter considérablement sa taille?

Je pourrais diviser le pdf en 4 ou 5 parties dans 4 ou 5 fichiers différents, mais je perds alors la possibilité (le droit) de donner d’autres fichiers à traduire à deepl avant 1 mois, (à moins de payer plus cher, ce que je cherche à éviter si possible…)

Bien entendu, il reste la solution d’extraire le texte du pdf, ce qui donnerait un fichier très léger, facile à découper, mais avec perte de toute la mise en page et des illustrations, donc un gros travail de recomposition (avec XeLaTeX par exemple).

Clochette · Août 24, 2023, 1:38pm

Tu ne lui à pas préciser la fin de ton demigros.pdf …

petit pense bête :

https://www.pdflabs.com/docs/pdftk-cli-examples/

dindoun · Août 25, 2023, 7:38am

pdfjam fait ça aussi
pdfjam annals\ of\ the\ icrp\ 134\ 2016.pdf '1-100'

MicP · Août 25, 2023, 7:10am

Bonjour

Une autre méthode, mais qui n’utilise pas pdftk
tu pourrais, par exemple depuis le Visionneur de documents Atril
demander l’impression dans un fichier d’une partie du document affiché :
imprimDsFichier

et tu n’auras plus qu’à indiquer les numéros de la première et de la dernière page que tu voudrais voir dans ton nouveau fichier pdf
que j’ai nommé, dans cette capture d’écran :
~/Documents/sortie.pdf

En utilisant un fichier source pdf contenant des images et du texte, j’ai « imprimé » de cette façon la moitié du nombre de ses pages dans un fichier pdf, et la taille du fichier pdf créé correspond bien à environ la moitié de celle du fichier source.

josephtux · Août 25, 2023, 7:33am

Bonjour,
La fin, c’est la page 500 de l’original. Je ne comprends pas votre remarque

MicP · Août 25, 2023, 7:54am

Dans la capture d’écran, j’avais demandé de n’imprimer (dans le nouveau fichier pdf à créer) que depuis la première page jusqu’à la page N°8 : 1-8

Si ton document fait 500 pages, tu n’auras qu’à spécifier de n’imprimer que de la première page jusqu’à la page N°250 en entrant dans la zone de saisie nommée Pages : 1-250

josephtux · Août 25, 2023, 8:02am

Bonjour,
pdfjam fait bien le travail attendu (avec un accroissement modéré de la taille totale):
Mon test avec atril fait pire que pdftk (et la durée de la génération du fichier suggère une méthode analogue à celle de pdfpk, page par page)

pgfmanual.pdf : 9,8M

avec pdftk:
pgfmanual sans page1: 18M

pgfmanual1.pdf: 13M
pgfmanual2.pdf: 5M

avec pdfjam:
pgfmanual-1.pdf: 5,5M
pgfmanual-2.pdf: 8 M

avec atril:
pgfmanual-1.pdf: 11 M
pgfmanual-2.pdf: 12 M

En outre, avec la commande suivante:

gs -dDetectDuplcateImages=true -dDetectDuplcateImages=true -sDEVICE=pdfwrite -sPAPERSIZE=a4 -r150x150 -dNOPAUSE -dQUIET -dBATCH -dSAFER -dPDFSETTINGS=/ebook -sOutputFile=pgfmanual-1-562-pdfjam_reduit.pdf -f pgfmanual-1-562-pdfjam.pdf (*)

le fichier obtenu réduit de 25% la taille du pdf, alors qu’avec pdftk, cette commande est inefficace, et avec le pdf d’atril (beaucoup plus gros) il ne fait gagner que 5%.

Le gagnant est donc pdfjam.

(*) commande d’un script personnel, avec l’option de qualité « e-book ».

Merci à tous les 3

Clochette · Août 25, 2023, 8:43am

Justement dans ta ligne tu ne précise pas de la façon voulue il me semble :

Hors tu ne précise pas la fin du pdf dans l’exemple fourni on omet la page 13 avec une fin de document à 14
pdftk in.pdf cat 1-12 14-end output out1.pdf

Après l’opération il est possible de compresser le contenu pour revenir à une taille acceptable.

Mais bon si pdfjam fonctionne autant continuer avec

josephtux · Août 25, 2023, 9:07am

Dans l’ exemple, il s’agit de concaténer les pages 1 à 12 puis 14 à la fin (ce qui revient à supprimer la page 13)

Dans mon application je supprime tout ce qui va de 561 à la fin, autrement dit je concatène les pages 1 à 560

le mot-clé end (dans 561-end) est juste un sucre syntaxique pour ne pas avoir à chercher le numéro de la dernière page concaténée.
Dans mon exemple (pgfmanual.pdf de 1321 pages)
561-end est la même chose que 561-1321

C’est d’ailleurs ce que j’ai utiliser pour supprimer la première page:
pdtftk pgfmanual.pdf cat 2-end output pgfmanual-sans-page1.pdf

Clochette · Août 25, 2023, 9:20am

Donc il te reste à finir le traitement par une compression pour revenir à la taille que tu souhaite je suppose si le contenu est bien celui attendu.

josephtux · Août 25, 2023, 9:39am

@Clochette
non,
la solution pdfjam me rends le service attendu (2 pdf de moins de 10M chacun).

J’ai juste ajouté les résultats de mes tests avec gs pour illustrer les possibilités différentes entre des pdf extraits ou reconstruits par pdftk, pdfjam ou atril, comparaison qui pourrait servir ailleurs.