Sauberes HTML aus Word

Soll ein E-Book aus Word erstellt werden, ist der direkte Weg der über HTML:

  • abspeichern im Format Webseite (gefiltert).

Dabei entsteht eine HTML-Datei, die u. U. viele Word-spezifische Tags enthält. Die HTML-Datei muss bereinigt werden. Dazu wird die Datei am besten mit einem HTML-Editor (wie KompoZer) geöffnet, und es werden alle überflüssigen Tags entfernt (welche genau, ist ein anderes Thema). Die so bereinigte HTML-Datei kann dann mit den gängigen E-Book-Erzeugungs- und bearbeitungsprogrammen (Calibre, Sigil, Jutoh, Kindle Previewer) weiterverarbeitet werden.

Um möglichst sauberes HTML zu erhalten, muss die Word-Datei entsprechend vorbereitet sein. Und zwar sollte sie konsequent mit Formatvorlagen ausgezeichnet sein. Das gilt sowohl für Absatz- als auch für Zeichenformatierungen. Liegt eine solche „semantische“ Auszeichnung vor, ist die Bereinigung der HTML-Datei schnell erledigt.

Ideal wäre es, wenn aus einer Word-Datei sofort sauberes HTML herauskäme, das nicht oder nur wenig bereinigt werden müsste. Das klappt über einen kleinen Umweg. Es darf nicht direkt von Word aus im HTML-Format abgespeichert werden, sondern man muss die Word-Datei mit einem Konvertierungsprogramm umwandeln. Optimal für diesen Zweck geeignet zu sein scheint das Tool „Mammoth docx-converter“. In Kombination mit WordPress ist die Bedienung sehr einfach. Mammoth kann dort als Plug-In installiert und aufgerufen werden.

Die Installation geschieht von WordPress aus auf die übliche Weise (das ist jedem, der WordPress verwendet, klar).

Nach der Installation ist der Ablauf wie folgt:

  1. „Beitrag erstellen“ aufrufen; nur in diesem Modus kann Mammoth verwendet werden.
  2. Unterhalb des Editor-Fensters erscheint der Mammoth-Bereich, der lediglich die Schaltfläche „Datei auswählen“ anbietet.
  3. Nach Betätigen der Schaltfläche kann die Word-Datei ausgewählt werden; nach „OK“ wird sie hochgeladen.
  4. Wenige Augenblicke später wird das Ergebnis in einem eigenen Fenster angezeigt.

Es sind zwei Anzeigen möglich: „Visual“ und „Raw HTML“. Zur Weiterverarbeitung kann der Raw-HTML-Code kopiert und in einen Texteditor oder einen HTML-Editor eingefügt werden.

Damit Mammoth die Word-Datei optimal konvertiert, muss ein Style-Mapping gemacht werden. Das heißt, man gibt an, aus welcher Word-Formatvorlage welches HTML-Element werden soll. Die Syntax ist (hier beispielhaft gezeigt):

p[style-name=’df_u1′] => h1

Hier wird aus der Word-Formatvorlage „df_u1“ das HTML-Element „h1“.

Für jede Word-Formatvorlage ist eine solche Konvertierungszeile anzugeben, und zwar einfach als normaler Text in einer .txt-Datei (am besten in Notepad). Die Datei wird unter dem Namen „style-map“ abgespeichert (an einem beliebigen Ort auf der Festplatte).

Damit Mammoth die Style-Map anwenden kann, muss sie in die Word-Datei eingebettet werden. Dazu einfach an die Dateinamenerweiterung .docx ein .zip dranhängen, dann dieses Archiv öffnen und

  • im Archiv einen neuen Unterordner mit dem Namen „mammoth“ anlegen:

  • Nun die Style-Map-Datei in diesen Ordner kopieren:

  • Anschließend das Archiv verlassen und .zip wegnehmen, sodass wieder eine normale Word-Datei vorliegt.
  • Die so präparierte Word-Datei wie oben beschrieben hochladen und konvertieren.

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.