bei-ekke / HTML Tidy in Deutsch / Schnell Referenz / Versuch Word-Dokument zu einem "sauberen" HTML/XHTML
Dem Autor ist es bisher noch nicht gelungen aus einer *.DOC eine gleich aussehende *.HTM* zu erstellen. Nicht mit HTML-Filter 2.1 für Office 2000 und auch nicht mit HTML Tidy in Deutsch oder in der Kombination beider, trotz der aus dem Internet hier zusammengetragen Empfehlungen.
Man kann sich gerade mal eine *.HTM*-Vorlage schaffen, um nicht bei "Null" beginnen zu müssen.
Das Word-Dokument sollte man unter Verwendung von Format-Vorlagen schreiben, d.h. eine Überschrift muss als Überschrift gekennzeichnet sein (nicht einfach nur größere Schrift, fett oder unterstrichen). Dazu klickt man die Überschriftzeile an, geht zur Option "Formatvorlage" unter "Format". Dort kann man selbst angeben, wie die Überschriften angezeigt werden sollen (Schriftgröße usw.). Hat man dies einmal getan, geht dies auch schneller: Unter "Ansicht / Symbolleisten" muß die Option "Format" aktiviert sein. So kann man schnell zwischen Standard und Überschriften wechseln.
Am Ende speichert man die Datei einmal als *.DOC wie gewohnt, um eine "Sicherheits"-Kopie zu erhalten. Zum anderen mal speichert man die Datei im HTML-Format ab über "Datei / als Webseite speichern".
Microsoft Word erzeugt beim Speichern als HTML-Datei ein sehr großes Dokument. Dies ermöglicht Word im HTML-Format verlustfrei zu speichern. Beim erneuten Öffnen ist wieder alles wie vor dem Speichern, was durchaus sinnvoll sein kann. Im Intranet macht es nichts aus, so große Dateien zu verwenden, im Internet wird das Öffnen einer solchen Webseite zur Qual, weil die Datei viele unnötige Informationen enthält. Mit HTML-Tidy lassen sich diese Word-HTML-Dateien schrumpfen. Diese geschrumpften Dateien verlieren bestimmte Word-Formatierungen.
Schaut man sich den Quelltext des in HTML gespeicherten Dokuments an, ist unschwer zu erkennen, dass dies kein "sauberer" HTML/XHTML-Code ist. Mit HTML Tidy und folgenden empfohlenen Optionen (alles in einer Zeile, nicht untereinander) ändert man das:
tidy.exe --bare yes --char-encoding ascii --clean yes --drop-empty-paras yes --drop-font-tags yes --drop-proprietary-attributes yes --enclose-text yes --fix-backslash yes --logical-emphasis yes --output-xhtml yes --word-2000 yes --wrap-asp yes --wrap-php yes --wrap-sections yes
Die fett hervorgehobenen Optionen sollten Sie unbedingt verwenden. Wenn
nur HTML und nicht XHTML erzeugt werden solle, dann lassen Sie output-xhtml
weg.
Sehen Sie ruhig die anderen Optionen nach, ob Sie sie alle so auch wünschen.
tidyDemo2k.rtf in Word-2000 öffnen
Dies unter tidyDemo2k.doc wieder speichern
Alles Word-2000 schliessen und tidyDemo2k.doc öffnen
Datei / Als Webseite speichern... / tidyDemo2k.htm / OK
Word selbst zeigt bereits erste "Datenverluste".
In einem Browser sieht die Datei aber immer noch anders aus.
Es entstanden:
.\tidyDemo2k-Dateien\header.htm == "fehlende" Kopf-/Fußzeile selbst im
IE5
.\tidyDemo2k-Dateien\filelist.xml == ???
tidyDemo2k.htm == soll tidyDemo2k.doc entsprechen
Word-2000 komplett schliessen und "filter" aufrufen:
filter.exe -a -l -m -o -t -x
tidyDemo2k.htm tidyDemo2k_f.htm
Es entstanden: tidyDemo2k_f.htm und tidyDemo2k_f.css
tidy.exe -f tidy_f.txt -cb -config tidyDemo.cfg -o
tidyDemo2k_o.htm tidyDemo2k_f.htm
Es entstand: tidyDemo2k_o.htm
Bis hier sind die Verluste von Stufe zu Stufe extrem. Dies brachte auch keine
Besserung:
tidy.exe -f tidy_f.txt -cb -config tidyDemo.cfg -o
tidyDemo2ko.htm tidyDemo2k.htm
tidyDemo97.rtf in Word-97 öffnen
Dies unter tidyDemo97.doc wieder speichern
Alles Word-97 schliessen und tidyDemo97.doc öffnen
Datei / Speichern unter... / Dateityp=HTML-Dokument(*.htm;*.html;*.htx) tidyDemo97.htm
/ OK
Word selbst zeigt bereits erste "Datenverluste".
Es entstand: tidyDemo97.htm == soll tidyDemo97.doc entsprechen
Word-97 komplett schliessen und "filter" aufrufen:
filter.exe -a -l -m -o -t tidyDemo97.htm
tidyDemo97_f.htm
Es entstand: tidyDemo2k_f.htm (konnten keine CSS exportiert werden)
tidy.exe -f tidy_f.txt -cb -config tidyDemo.cfg -o
tidyDemo97_o.htm tidyDemo97_f.htm
Es entstand: tidyDemo97_o.htm
Bis hier sind die Verluste von Stufe zu Stufe extrem. Dies brachte auch keine
Besserung:
tidy.exe -f tidy_f.txt -cb -config tidyDemo.cfg -o
tidyDemo97o.htm tidyDemo97.htm
filter.exe ist aus der Installation von
HTML-Filter 2.1 für Office 2000
bzw.
http://download.microsoft.com/download/office2000prem/msohtmf/2000/WIN98/DE/Msohtmf2.exe\msohtmf2.msi\Streams\Cabs.w1.cab\filter.exe.