qad_doc2xml - Tutorial 1: Konvertierung eines Word-Dokuments in XML

 

Vorbereitung

Bevor Sie qad_doc2xml starten, werfen Sie ein Blick auf das zu konvertierende Word-Dokument (Ordner "\Examples\Tutorial1", Datei "Recipe1.doc"). Es handelt sich dabei um ein mit Formatvorlagen strukturiertes Word-Dokument (die Farben spielen keine Rolle, dienen nur zur besseren Übersicht).


Starten Sie qad_doc2xml und wählen Sie das Word Dokument

Ordner "\Examples\Tutorial1", Datei "Recipe1.doc". Wichtig: Bevor Sie qad_doc2xml starten, müssen Sie Word schließen, sonst erhalten Sie eine Fehlermeldung


Wählen Sie den Namen des neuen XML-Dokuments

z. B. "Recipe1.xml"


Bestimmen Sie das erste ("root") XML-Tag


Bestimmen Sie die Regeln für die Konvertierung

Legen Sie wie dargestellt für jede Word Absatz-Formatvorlage einen XML-Tag fest


DTD laden

Um die Konvertierungsregeln einfach eingeben zu können besteht die Möglichkeit, eine Liste aller Tags aus einer DTD zu laden (falls vorhanden). Wählen Sie "Get Taglist from DTD" und laden Sie die Datei "cookbook.dtd". In den Dropdown-Listen der Konvertierungsregeln sind jetzt die Tags diese DTD sichtbar.

Hinweis: Die DTD sollte nicht im Unix-Dateiformat gespeichert sein, sonst gibt es möglicherweise Probleme.


Erste Testkonvertierung

Klicken Sie auf die Taste "Convert" Nach erfolgreicher Konvertierung wählen Sie "View XML" (Ergebnis im Browser anzeigen) oder "View Code" (Ergebnis in Notepad anzeigen).

Das Ergebnis (siehe Screenshot) ist noch nicht sehr überzeugend:


Level festlegen

Mit Hilfe des Feldes "Level" können Sie die Gliederungsebenen (1 ist die höchste) des XML-Dokuments festlegen. Stellen Sie "Level" wie folgt ein:

Konvertieren Sie nun noch einmal das Dokument und vergleichen Sie das Ergebnis mit der ersten Konvertierung


Kleine Schönheitsfehler beheben

Das Ergebnis hat noch einige doppelte Informationen (vgl. Screenshot) die leicht entfernt werden können.

Klicken Sie in der Zeile "Ingredients" auf das weiße Textfeld "Special" Darauf öffnet sich ein zweites Fenster. Aktivieren Sie hier die Funktion "ingnore text ..."

Konvertieren Sie die Datei erneut und sehen Sie sich das Ergebnis an.


"Text in Child"

Noch nicht optimal gelöst ist die folgende Stelle:

Besser wäre wohl:

<Recipe>
<Name>Chicken Curry</Name>
<Course>Entreé</Course>
...
</Recipe>

Auch die ist mit qad_doc2xml möglich. Klicken Sie in der Zeile "Recipe" auf das weiße Textfeld "Special" Darauf öffnet sich ein zweites Fenster. Geben Sie hier bei "Text in Child" einfach "Name" an.

Führen Sie erneut eine Konvertierung durch.


Attribute

Sie können natürlich für jedes Tag beliebige Attribute festlegen. Klicken Sie in der Zeile "Überschrift 2" auf das weiße Textfeld "Special" Darauf öffnet sich ein zweites Fenster. Geben Sie hier folgendes ein:

Führen Sie eine Konvertierung durch. Das Ergebnis sollte so aussehen:


Text in Attribute

Eine Alternative zu dem "Text in Child" Beispiel wäre, "Chicken Curry" direkt als Attribut von <Recipe> zu setzen:

Auch dies ist möglich. Klicken Sie in der Zeile "Überschrift 2" auf das weiße Textfeld "Special" Darauf öffnet sich ein zweites Fenster. Ändern Sie hier folgendes:


Fett, Kursiv

qad_doc2xml erkennt auch folgende "harte" Formatierungen: Kursiv, Fett, Unterstreichung, Kapitälchen. Da dies den Konvertierungsprozess verlangsamt ist dies normalerweise deaktiviert. Aktivieren Sie diese Funktion (siehe Screenshot) und tragen Sie bei "Italics" und "Bold" folgendes ein:

Führen Sie erneut eine Konvertierung durch. Das Ergebnis sollte ungefähr so aussehen:

Hinweis: Sind Formatvorlagen ebenfalls fett bzw. kursiv, kann es hier zur "Verdopplung" von Tags kommen. Sie können in diesem Fall jedoch leicht in Word die Formatvorlagen ändern.


Konvertierungsregeln speichern

Sie können die von Ihnen erstellten Konvertierungsregeln speichern, um ähnliche Dokumente nach gleichem Muster zu konvertieren. Wählen Sie dafür die Schaltfläche "Save Ruleset"


Regeln laden

Schließen Sie qad_doc2xml und starten Sie es dann neu. Wählen Sie nun das Word-Dokument "Recipe2.doc", geben Sie als XML-Target "Recipe2.xml" an und laden Sie die zuvor gespeicherten Konvertierungsregeln ("Load Ruleset"). Ohne Einstellungen zu ändern können Sie nun das Dokument konvertieren.


Template verwenden

XML Dokumente haben in der Regel einen ausführlichen Head-Bereich. Auch diesen können Sie sich automatisch hinzufügen lassen. Sehen Sie sich die Datei "cookbook_template.txt" in einem normalen Editor an (z. B. dem Notepad). Sie können diese Datei vor und nach dem Bereich <!-- word text --> beliebig verändern. Geben Sie z. B. statt <Author>Herbert Meier</Author> Ihren Namen an.

Wechseln Sie jetzt wieder in qad_doc2xml. Klicken Sie auf die Schaltfläche "Select Templ." und wählen Sie die Datei "cookbook_template.txt",. Konvertieren Sie die Datei nochmals und sehen Sie sich das Ergebnis an. Die Zeile "<!-- word text -->" ist verschwunden, stattdessen finden Sie hier nun das Ergebnis der Konvertierung.


siehe auch Tutorial 2 (Konvertierung in XHTML) und Tutorial 3 (Konvertierung in XML/TEI)

<<Zurück