Ενώ γνωρίζουμε ήδη πώς να επεξεργαστούμε υπάρχοντα αρχεία PDF στο Ubuntu, υπάρχουν στιγμές που η απαίτηση είναι να χρησιμοποιηθούν όλες ή μερικές από τις εικόνες που περιέχονται σε ένα αρχείο PDF. Χειροκίνητη αντιγραφή-επικόλληση είναι σίγουρα μια επιλογή, αλλά δεν είναι μια εξοικονόμηση χρόνου ένα, ειδικά όταν το αρχείο PDF περιέχει μεγάλο αριθμό εικόνων.

Υπάρχει ένα εργαλείο, που μεταγλωττίζεται PDFImages, το οποίο κάνει την εξαγωγή εικόνας από αρχεία PDF ένα cakewalk. Σε αυτό το άρθρο θα συζητήσουμε αυτό το εργαλείο χρησιμοποιώντας εύκολα κατανοητά παραδείγματα. Σημειώστε ότι όλα τα παραδείγματα που χρησιμοποιούνται στο άρθρο ελέγχονται στο Ubuntu 14.04 LTS χρησιμοποιώντας την έκδοση 0.24.5 του εργαλείου.

Τι είναι το PDFImages;

Όπως έχει ήδη αναφερθεί, το PDFImages είναι ένα εργαλείο γραμμής εντολών που μπορείτε να χρησιμοποιήσετε για την εξαγωγή εικόνων από ένα αρχείο PDF. Η σελίδα μενού του εργαλείου λέει ότι διαβάζει το αρχείο εισόδου PDF, το ανιχνεύει και παράγει ένα Portable Pixmap (PPM), το Portable Pixmap (PBM) ή το αρχείο JPEG για κάθε εικόνα που συναντά στο αρχείο PDF.

Λήψη και εγκατάσταση

Εάν το εργαλείο δεν είναι ήδη εγκατεστημένο στο κιβώτιο του Ubuntu, μπορείτε να το κατεβάσετε και να το εγκαταστήσετε χρησιμοποιώντας την ακόλουθη εντολή:

 sudo apt-get να εγκαταστήσετε το poppler-utils 

Εκτός από τα PDFImages, το πακέτο "poppler-utils" περιέχει επίσης αρκετά βοηθητικά προγράμματα γραμμής εντολών για τη λήψη πληροφοριών από έγγραφα PDF, τη μετατροπή τους σε άλλες μορφές ή το χειρισμό τους.

Χρήση

Το εργαλείο γραμμής εντολών PDFImages, στην πιο βασική του μορφή, απαιτεί δύο επιχειρήματα: εισαγωγή αρχείου PDF και τη διαδρομή προς τον κατάλογο στον οποίο θέλετε να αποθηκεύσετε τις εικόνες στο εργαλείο. Για παράδειγμα, στην περίπτωσή μου προσπάθησα να βγάζω εικόνες από ένα αρχείο PDF με όνομα "christmas_story.pdf" και να τα αποθηκεύω σε έναν κατάλογο με όνομα "pdfimages".

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Λήψεις / pdfimages / 

Η παραπάνω εντολή παρήγαγε τα ακόλουθα αρχεία στον κατάλογο στόχων:

 ls / home / himanshu / Λήψεις / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm -004.ppm -005.ppm -006.ppm -007.ppm 

Όπως μπορείτε να δείτε στην παραπάνω έξοδο, το όνομα των αρχείων αρχίζει με παύλα (-) και ακολουθεί ένας αριθμός. Για όσους αναρωτιούνται γιατί το όνομα ξεκινάει με παύλα, το εργαλείο σάς δίνει την ευελιξία να προθέτετε οποιαδήποτε λέξη πριν από το παύλα, ώστε να μπορείτε να δημιουργήσετε προσαρμοσμένα ονόματα για τις εικόνες εξόδου. Μπορείτε να το κάνετε προσθέτοντας τη συγκεκριμένη λέξη στη διαδρομή του καταλόγου προορισμού ενώ εκτελείτε την εντολή.

Για παράδειγμα, πρόσθεσα τη λέξη "εικόνα" στη διαδρομή του καταλόγου προορισμού:

 pdfimages /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Λήψεις / pdfimages / εικόνα 

Και τα αρχεία εξόδου που παράγονται σε αυτή την περίπτωση φέρουν το ακόλουθο όνομα:

 ls / home / himanshu / Downloads / pdfimages / image-000.ppm image-001.ppm image-002.ppm image-003.ppm image-004.ppm image-005.ppm image-006.ppm image-007.ppm 

Αξίζει να σημειωθεί ότι αντίθετα από ό, τι λέει η σελίδα man του εργαλείου, παράγονται δύο εικόνες για κάθε εικόνα στο αρχείο PDF του οποίου το ένα είναι κενό ενώ το άλλο είναι χρησιμοποιήσιμο. Στην περίπτωσή μου, οι παράξενα αριθμημένες εικόνες ήταν κενές:

Αν μετακινηθείτε, μπορείτε επίσης να αλλάξετε τη μορφή αρχείου εικόνας εξόδου από "ppm" σε "jpeg", την οποία μπορείτε να κάνετε χρησιμοποιώντας την επιλογή -j . Λάβετε, ωστόσο, υπόψη ότι με αυτή την επιλογή αποθηκεύονται μόνο εικόνες σε μορφή DCT ως αρχεία JPEG - όλες οι μη DCT εικόνες αποθηκεύονται σε μορφή PBM / PPM ως συνήθως.

Μπορείτε επίσης να καθορίσετε ποιες σελίδες θέλετε να σαρώσει το εργαλείο. Με αυτόν τον τρόπο θα λάβετε μόνο εκείνες τις εικόνες στην έξοδο που υπάρχουν σε αυτές τις σελίδες. Για να ενεργοποιήσετε αυτήν την επιλογή, πρέπει να χρησιμοποιήσετε την επιλογή -f (ακολουθούμενη από τον αριθμό σελίδας) και -l (ακολουθούμενη από τον αριθμό της σελίδας) για να καθορίσετε τις αρχικές και τις τελικές σελίδες αντίστοιχα.

Για παράδειγμα, ήθελα το εργαλείο να εξάγει μόνο εικόνες που υπάρχουν στην πρώτη σελίδα του αρχείου PDF, οπότε χρησιμοποίησα την ακόλουθη εντολή:

 pdfimages -f 1 -l 1 /home/himanshu/Downloads/christmas_story.pdf / home / himanshu / Λήψεις / pdfimages / 

Και στον κατάλογο προορισμού δημιουργήθηκαν μόνο δύο εικόνες (συνολικά τέσσερα συμπεριλαμβανομένων των κενών):

 ls / home / himanshu / Λήψεις / pdfimages / -000.ppm -001.ppm -002.ppm -003.ppm 

συμπέρασμα

Το PDFImages είναι σίγουρα ένα εύχρηστο εργαλείο εάν η εργασία σας περιλαμβάνει την αντιμετώπιση αρχείων PDF και των εικόνων που περιέχουν και όπως ίσως έχετε παρατηρήσει μέχρι τώρα, είναι εύκολο να το μάθετε καθώς και απλό στη χρήση. Για να μάθετε περισσότερα σχετικά με το εργαλείο, επισκεφθείτε τη σελίδα του.