Soll ein E-Book aus Word erstellt werden, ist der direkte Weg der über HTML:
- abspeichern im Format Webseite (gefiltert).
Dabei entsteht eine HTML-Datei, die u. U. viele Word-spezifische Tags enthält. Die HTML-Datei muss bereinigt werden. Dazu wird die Datei am besten mit einem HTML-Editor (wie KompoZer) geöffnet, und es werden alle überflüssigen Tags entfernt (welche genau, ist ein anderes Thema). Die so bereinigte HTML-Datei kann dann mit den gängigen E-Book-Erzeugungs- und bearbeitungsprogrammen (Calibre, Sigil, Jutoh, Kindle Previewer) weiterverarbeitet werden.
Um möglichst sauberes HTML zu erhalten, muss die Word-Datei entsprechend vorbereitet sein. Und zwar sollte sie konsequent mit Formatvorlagen ausgezeichnet sein. Das gilt sowohl für Absatz- als auch für Zeichenformatierungen. Liegt eine solche „semantische“ Auszeichnung vor, ist die Bereinigung der HTML-Datei schnell erledigt.
Ideal wäre es, wenn aus einer Word-Datei sofort sauberes HTML herauskäme, das nicht oder nur wenig bereinigt werden müsste. Das klappt über einen kleinen Umweg. Es darf nicht direkt von Word aus im HTML-Format abgespeichert werden, sondern man muss die Word-Datei mit einem Konvertierungsprogramm umwandeln. Optimal für diesen Zweck geeignet zu sein scheint das Tool „Mammoth docx-converter“. In Kombination mit WordPress ist die Bedienung sehr einfach. Mammoth kann dort als Plug-In installiert und aufgerufen werden.
Die Installation geschieht von WordPress aus auf die übliche Weise (das ist jedem, der WordPress verwendet, klar).
Nach der Installation ist der Ablauf wie folgt:
- „Beitrag erstellen“ aufrufen; nur in diesem Modus kann Mammoth verwendet werden.
- Unterhalb des Editor-Fensters erscheint der Mammoth-Bereich, der lediglich die Schaltfläche „Datei auswählen“ anbietet.
- Nach Betätigen der Schaltfläche kann die Word-Datei ausgewählt werden; nach „OK“ wird sie hochgeladen.
- Wenige Augenblicke später wird das Ergebnis in einem eigenen Fenster angezeigt.
Es sind zwei Anzeigen möglich: „Visual“ und „Raw HTML“. Zur Weiterverarbeitung kann der Raw-HTML-Code kopiert und in einen Texteditor oder einen HTML-Editor eingefügt werden.
Damit Mammoth die Word-Datei optimal konvertiert, muss ein Style-Mapping gemacht werden. Das heißt, man gibt an, aus welcher Word-Formatvorlage welches HTML-Element werden soll. Die Syntax ist (hier beispielhaft gezeigt):
p[style-name=’df_u1′] => h1
Hier wird aus der Word-Formatvorlage „df_u1“ das HTML-Element „h1“.
Für jede Word-Formatvorlage ist eine solche Konvertierungszeile anzugeben, und zwar einfach als normaler Text in einer .txt-Datei (am besten in Notepad). Die Datei wird unter dem Namen „style-map“ abgespeichert (an einem beliebigen Ort auf der Festplatte).
Damit Mammoth die Style-Map anwenden kann, muss sie in die Word-Datei eingebettet werden. Dazu einfach an die Dateinamenerweiterung .docx ein .zip dranhängen, dann dieses Archiv öffnen und
- im Archiv einen neuen Unterordner mit dem Namen „mammoth“ anlegen:
- Nun die Style-Map-Datei in diesen Ordner kopieren:
- Anschließend das Archiv verlassen und .zip wegnehmen, sodass wieder eine normale Word-Datei vorliegt.
- Die so präparierte Word-Datei wie oben beschrieben hochladen und konvertieren.