Η Κοινοπραξία World Wide Web (W3C) διαθέτει μια σειρά από δωρεάν εργαλεία που διατίθενται για τη σωστή δημιουργία και επεξεργασία αρχείων HTML και XML. Το πακέτο HTML-XML είναι ένα σύνολο απλών βοηθητικών προγραμμάτων για το χειρισμό αρχείων HTML και XML από τη γραμμή εντολών. Διατίθεται σε πολλές από τις διαφορετικές διανομές Linux και μπορεί να είναι χρήσιμη για όσους έχουν να επεξεργάζονται τακτικά αρχεία HTML ή XML.

Για να εγκαταστήσετε το πακέτο στο Ubuntu, χρησιμοποιήστε:

 sudo apt-get να εγκαταστήσετε html-xml-utils 

Υπάρχουν 31 εργαλεία σε αυτό το πακέτο, εδώ είναι μια περίληψη αυτού που μπορούν να κάνουν:

  • cexport - Δημιουργία headerfile των εξαγόμενων δηλώσεων από ένα αρχείο C
  • hxaddid - προσθέστε αναγνωριστικά σε επιλεγμένα στοιχεία
  • hxcite- αντικαταστήστε τις βιβλιογραφικές αναφορές από υπερσυνδέσμους
  • hxcite-mkbib - επεκτείνει τις αναφορές και δημιουργεί βιβλιογραφία
  • hxcopy- αντιγράψτε ένα αρχείο HTML ενώ διατηρείτε σχετικούς συνδέσμους
  • Στοιχεία και χαρακτηριστικά hxcount count σε αρχεία HTML ή XML
  • hxextract - εξαγωγή επιλεγμένων στοιχείων
  • hxclean - εφαρμόστε heuristics για να διορθώσετε ένα αρχείο HTML
  • hxprune - αφαιρέστε τα επισημασμένα στοιχεία από ένα αρχείο HTML
  • Το hxincl- επέκτεινε τα αρχεία HTML ή XML
  • hxindex - δημιουργήστε ένα αλφαβητικά ταξινομημένο ευρετήριο
  • hxmkbib - δημιουργία βιβλιογραφίας από πρότυπο
  • hxmultitoc - δημιουργήστε έναν πίνακα περιεχομένων για ένα σύνολο αρχείων HTML
  • hxname2id- μετακινήστε κάποια ID = ή NAME = από στοιχεία A στους γονείς τους
  • hxnormalize - όμορφη εκτύπωση ενός αρχείου HTML
  • hxnum - επικεφαλίδες ενότητας αριθμών σε ένα αρχείο HTML
  • hxpipe - να μετατρέψετε το XML σε μορφή ευκολότερη στην ανάλυση με Perl ή AWK
  • hxprintlinks- αριθμός συνδέσεων & προσθέστε πίνακα URLs στο τέλος ενός αρχείου HTML
  • hxremove- καταργήστε τα επιλεγμένα στοιχεία από ένα αρχείο XML
  • hxtabletrans- μεταφορά ενός πίνακα HTML ή XHTML
  • hxtoc - εισαγάγετε έναν πίνακα περιεχομένων σε ένα αρχείο HTML
  • hxuncdata - αντικαταστήστε τις ενότητες CDATA από οντότητες χαρακτήρων
  • hxunent - αντικαταστήστε τις προκαθορισμένες οντότητες χαρακτήρων HTML στο UTF-8
  • hxunpipe - μετατρέψτε την έξοδο του σωλήνα πίσω σε μορφή XML
  • hxunxmlns - αντικαταστήστε τα "παγκόσμια ονόματα" με τα προθέματα XML Namespace
  • hxwls - Λίστα συνδέσεων σε ένα αρχείο HTML
  • hxxmlns - αντικαταστήστε τα προθέματα του XML Namespace με "global names"
  • asc2xml, xml2asc- μετατροπή μεταξύ UTF8 και οντοτήτων
  • hxref - δημιουργούν παραπομπές
  • hxselect- στοιχεία εξαγωγής που ταιριάζουν με έναν επιλογέα (CSS)

Για να σας παρουσιάσουμε τη δύναμη αυτού του σετ εργαλείων, μπορείτε να δείτε μερικά παραδείγματα σχετικά με τον τρόπο με τον οποίο χρησιμοποιείτε μερικές από τις εντολές.

Η εντολή " hxnormalize " θα αναδιαμορφώσει ένα αρχείο HTML έτσι ώστε να είναι εύκολο να το διαβάσει και να μορφοποιηθεί ωραία. Για να δοκιμάσετε αυτήν την εντολή, θα δημιουργήσουμε ένα άσχημο HTML. Επιλέξτε και αντιγράψτε τις ακόλουθες γραμμές και επικολλήστε τις απευθείας σε ένα παράθυρο τερματικού.

 cat> test.html << __EOF__ 

Χαίρετε __EOF__

Αυτό θα δημιουργήσει ένα αρχείο που ονομάζεται test.html. Το HTML λείπει μερικές από τις ετικέτες κλεισίματος και είναι γραμμένο σε μία γραμμή. Η εντολή hxnormalize θα αναδιαμορφώσει το αρχείο και θα γράψει την όμορφη έκδοση στην τυπική έξοδο (stdout). Ακολουθεί ο τρόπος εκτέλεσης της εντολής:

 hxnormalize -e test.html 

Η σημαία "-e" λέει hxnormalize για να εισαγάγετε τυχόν ελλείπουσες ετικέτες κλεισίματος.

Μπορείτε επίσης να εκτελέσετε την εντολή σε μια ιστοσελίδα αντικαθιστώντας το "test.html" με μια διεύθυνση URL, για παράδειγμα:

 hxnormalize http://www.example.com 

Η εντολή hxwls θα αναλύσει ένα τοπικό αρχείο HTML ή έναν ιστότοπο και θα απαριθμήσει τους συνδέσμους μέσα στο HTML. Για παράδειγμα:

 hxwls http://www.example.com 

Εδώ είναι οι πρώτες γραμμές παραγωγής για την ιστοσελίδα Make Tech Easier:

Η εντολή hxtabletrans αλλάζει έναν πίνακα έτσι ώστε οι σειρές να γίνονται στήλες και οι στήλες να γίνονται σειρές.

Ας δημιουργήσουμε ένα αρχείο HTML με απλό πίνακα. Επιλέξτε και αντιγράψτε τις ακόλουθες γραμμές και, στη συνέχεια, επικολλήστε τις απευθείας σε ένα παράθυρο τερματικού.

 cat> table.html << __EOF__ 
ΚόρηΣιδηρουργός50
ΠαραμονήJackson94
__EOF__

Το αποτέλεσμα είναι ένα αρχείο που ονομάζεται table.html. Σε ένα φυλλομετρητή ιστού ο πίνακας θα φαινόταν έτσι:

ΚόρηΣιδηρουργός50
ΠαραμονήJackson94

Αν εκτελέσετε την εντολή hxtabletrans, τότε θα γράψει το μεταφερόμενο πίνακα στην τυπική έξοδο. Τα αποτελέσματα μπορούν να μεταφερθούν σε άλλο αρχείο όπως αυτό:

 hxtabletrans table.html> table2.html 

Το νέο αρχείο, table2.html, θα εμφανίσει τις στήλες Jill Smith και Eve Jackson, αντί σε σειρές όπως στο αρχικό. Ο πίνακας που προκύπτει θα είναι κάτι τέτοιο:

ΚόρηΠαραμονή
ΣιδηρουργόςJackson
5094

Οι περισσότερες από τις εντολές χρησιμοποιούνται με παρόμοιο τρόπο με τα παραπάνω παραδείγματα, δηλαδή πρέπει να καθορίσετε ένα αρχείο ή μια διεύθυνση URL που θα επεξεργαστεί και η έξοδος θα γραφτεί στο stdout. Δοκιμάστε να δοκιμάσετε τις διάφορες εντολές όπως θα τους φανεί χρήσιμο.

Αν έχετε οποιεσδήποτε ερωτήσεις σχετικά με τα βοηθητικά προγράμματα HTML-XML τότε μπορείτε να τα ρωτήσετε στα παρακάτω σχόλια και θα δούμε αν μπορούμε να βοηθήσουμε.