Bonjour,
voulant donner à Deepl un gros fichier pdf à traduire, celui-ci comportait trop de caractères.
J’ai donc voulu séparer ce gros pdf en 2 plus petits, à donner séparément à deepl.
J’ai voulu utiliser pdftk:
pdftk gros.pdf cat 1-500 output demigros1.pdf
ce qui donne un demi-fichier demigros.pdf, plus gros que le gros.pdf entier!
Cette fois deepl refuse car le fichier est trop gros!
J’ai ensuite tenté d’enlever la première page, et celà donne un fichier 2 fois plus gros!
ceci est du au fait que pdftk n’enlève pas les pages 501-end, mais sépare chaque page avant de les concaténer (commande cat).
Ghostscript, me semble-t-il, transforme les pages de texte en page d’image, donc incompatible avec cet usage. (et la qualité est trop dégradée pour obtenir une réduction suffisante des gros demi-fichiers pdf obtenus par pdftk)
Connaîtriez vous une méthode pour diviser en 2 un fichier pdf (qui contient surtout du texte à donner à Deepl) sans augmenter considérablement sa taille?
Je pourrais diviser le pdf en 4 ou 5 parties dans 4 ou 5 fichiers différents, mais je perds alors la possibilité (le droit) de donner d’autres fichiers à traduire à deepl avant 1 mois, (à moins de payer plus cher, ce que je cherche à éviter si possible…)
Bien entendu, il reste la solution d’extraire le texte du pdf, ce qui donnerait un fichier très léger, facile à découper, mais avec perte de toute la mise en page et des illustrations, donc un gros travail de recomposition (avec XeLaTeX par exemple).