bei-ekke / HTML Tidy in Deutsch / Schnell Referenz / Versuch Word-Dokument zu einem "sauberen" HTML/XHTML


Versuch von einem Word-Dokument zu einem "sauberen" HTML/XHTML-Dokument

Fazit

Dem Autor ist es bisher noch nicht gelungen aus einer *.DOC eine gleich aussehende *.HTM* zu erstellen. Nicht mit HTML-Filter 2.1 für Office 2000 und auch nicht mit HTML Tidy in Deutsch oder in der Kombination beider, trotz der aus dem Internet hier zusammengetragen Empfehlungen.

Man kann sich gerade mal eine *.HTM*-Vorlage schaffen, um nicht bei "Null" beginnen zu müssen.

Das Word-Dokument

Das Word-Dokument sollte man unter Verwendung von Format-Vorlagen schreiben, d.h. eine Überschrift muss als Überschrift gekennzeichnet sein (nicht einfach nur größere Schrift, fett oder unterstrichen). Dazu klickt man die Überschriftzeile an, geht zur Option "Formatvorlage" unter "Format". Dort kann man selbst angeben, wie die Überschriften angezeigt werden sollen (Schriftgröße usw.). Hat man dies einmal getan, geht dies auch schneller: Unter "Ansicht / Symbolleisten" muß die Option "Format" aktiviert sein. So kann man schnell zwischen Standard und Überschriften wechseln.

Am Ende speichert man die Datei einmal als *.DOC wie gewohnt, um eine "Sicherheits"-Kopie zu erhalten. Zum anderen mal speichert man die Datei im HTML-Format ab über "Datei / als Webseite speichern".

Microsoft Word erzeugt beim Speichern als HTML-Datei ein sehr großes Dokument. Dies ermöglicht Word im HTML-Format verlustfrei zu speichern. Beim erneuten Öffnen ist wieder alles wie vor dem Speichern, was durchaus sinnvoll sein kann. Im Intranet macht es nichts aus, so große Dateien zu verwenden, im Internet wird das Öffnen einer solchen Webseite zur Qual, weil die Datei viele unnötige Informationen enthält. Mit HTML-Tidy lassen sich diese Word-HTML-Dateien schrumpfen. Diese geschrumpften Dateien verlieren bestimmte Word-Formatierungen.

Das "unsaubere" HTML-Dokument in "sauberes" HTML/XHTML umwandeln

Schaut man sich den Quelltext des in HTML gespeicherten Dokuments an, ist unschwer zu erkennen, dass dies kein "sauberer" HTML/XHTML-Code ist. Mit HTML Tidy und folgenden empfohlenen Optionen (alles in einer Zeile, nicht untereinander) ändert man das:

tidy.exe --bare yes
         --char-encoding ascii
         --clean yes
         --drop-empty-paras yes
         --drop-font-tags yes
         --drop-proprietary-attributes yes
         --enclose-text yes
         --fix-backslash yes
         --logical-emphasis yes
         --output-xhtml yes
         --word-2000 yes
         --wrap-asp yes
         --wrap-php yes
         --wrap-sections yes

Die fett hervorgehobenen Optionen sollten Sie unbedingt verwenden. Wenn nur HTML und nicht XHTML erzeugt werden solle, dann lassen Sie output-xhtml weg. Sehen Sie ruhig die anderen Optionen nach, ob Sie sie alle so auch wünschen.

Eine Demonstration

  1. tidyDemo2k.rtf in Word-2000 öffnen

  2. Dies unter tidyDemo2k.doc wieder speichern

  3. Alles Word-2000 schliessen und tidyDemo2k.doc öffnen

  4. Datei / Als Webseite speichern... / tidyDemo2k.htm / OK
    Word selbst zeigt bereits erste "Datenverluste".
    In einem Browser sieht die Datei aber immer noch anders aus.
    Es entstanden:
    .\tidyDemo2k-Dateien\header.htm == "fehlende" Kopf-/Fußzeile selbst im IE5
    .\tidyDemo2k-Dateien\filelist.xml == ???
    tidyDemo2k.htm == soll tidyDemo2k.doc entsprechen

  5. Word-2000 komplett schliessen und "filter" aufrufen:
    filter.exe -a -l -m -o -t -x tidyDemo2k.htm tidyDemo2k_f.htm
    Es entstanden: tidyDemo2k_f.htm und tidyDemo2k_f.css

  6. tidy.exe -f tidy_f.txt -cb -config tidyDemo.cfg -o tidyDemo2k_o.htm tidyDemo2k_f.htm
    Es entstand: tidyDemo2k_o.htm

Bis hier sind die Verluste von Stufe zu Stufe extrem. Dies brachte auch keine Besserung:
tidy.exe -f tidy_f.txt -cb -config tidyDemo.cfg -o tidyDemo2ko.htm tidyDemo2k.htm

  1. tidyDemo97.rtf in Word-97 öffnen

  2. Dies unter tidyDemo97.doc wieder speichern

  3. Alles Word-97 schliessen und tidyDemo97.doc öffnen

  4. Datei / Speichern unter... / Dateityp=HTML-Dokument(*.htm;*.html;*.htx) tidyDemo97.htm / OK
    Word selbst zeigt bereits erste "Datenverluste".
    Es entstand: tidyDemo97.htm == soll tidyDemo97.doc entsprechen

  5. Word-97 komplett schliessen und "filter" aufrufen:
    filter.exe -a -l -m -o -t tidyDemo97.htm tidyDemo97_f.htm
    Es entstand: tidyDemo2k_f.htm (konnten keine CSS exportiert werden)

  6. tidy.exe -f tidy_f.txt -cb -config tidyDemo.cfg -o tidyDemo97_o.htm tidyDemo97_f.htm
    Es entstand: tidyDemo97_o.htm

Bis hier sind die Verluste von Stufe zu Stufe extrem. Dies brachte auch keine Besserung:
tidy.exe -f tidy_f.txt -cb -config tidyDemo.cfg -o tidyDemo97o.htm tidyDemo97.htm

filter.exe ist aus der Installation von HTML-Filter 2.1 für Office 2000 bzw.
http://download.microsoft.com/download/office2000prem/msohtmf/2000/WIN98/DE/Msohtmf2.exe\msohtmf2.msi\Streams\Cabs.w1.cab\filter.exe.


Der Autor distanziert sich ausdrücklich vom Inhalt aller externen Links und Verweise.
Er übernimmt keine Gewähr oder Haftung für
Vollständigkeit, Richtigkeit, Aktualität oder etwaige Schäden.