Von Word zum E-Book: eine Übersicht

Um von Word zum E-Book zu gelangen, können vereinfacht dargestellt zwei Wege beschritten werden, die ich als weichen, moderierten und harten, direkten Weg bezeichnen möchte.

Schauen wir uns zunächst die wichtigsten E-Book-Formate an.

E-Book-Formate

Der E-Book-Markt wird von drei Formaten beherrscht:

  • PDF
  • EPUB und
  • MOBI

PDF ist genau genommen kein E-Book-Format, sondern lediglich ein digitales Format, das auch auf E-Book-Readern dargestellt und gelesen werden kann. In ihm ist die Anordnung von Text und Bildern fixiert, PDFs sind standardmäßig nicht reflowable, sie passen sich nicht automatisch an die Bildschirmgröße an. (Auf die spezielle Variante von Reflowable-PDFs möchte ich hier nicht eingehen, weil sie in der Praxis keine große Rolle spielt.)

Die Reflowable-Formate sind EPUB und MOBI.

EPUB bedeutet „electronic publication“ und ist das Standardformat für E-Books. Es wird seit 2007 vom International Digital Publishing Forum (IDPF) entwickelt und angeboten (als offenes Format). Die aktuelle Version ist EPUB 3, wobei  EPUB 2 noch eine weitaus größere Verbreitung hat (die meisten E-Books werden im EPUB-2-Format angeboten). Wer sicher gehen möchte, dass die erzeugten Daten auf allen EPUB-fähigen Readern korrekt dargestellt werden, sollte im Format EPUB 2 publizieren. Bis auf die E-Book-Reader von Amazon, kommt auf allen anderen Readern (z. B. Apple-, Kobo- und Tolino-Geräten) EPUB zum Einsatz.

MOBI ist ein Format, das ursprünglich von der Firma Mobipocket entwickelt wurde und das seit 2007 Amazon gehört; hier wurde es eine Zeit lang auch als AZW-Format vermarktet. Die Weiterentwicklung von MOBI nennt sich KF8 („Kindle Format 8“), sie ist von ihren Fähigkeiten her mit EPUB 3 vergleichbar. MOBI ist das Standardformat der Kindle-E-Book-Reader.

MOBI lässt sich ohne allzu große Probleme in EPUB konvertieren und umgekehrt.

Der weiche, moderierte

mehr lesen

Sauberes HTML aus Word

Soll ein E-Book aus Word erstellt werden, ist der direkte Weg der über HTML:

  • abspeichern im Format Webseite (gefiltert).

Dabei entsteht eine HTML-Datei, die u. U. viele Word-spezifische Tags enthält. Die HTML-Datei muss bereinigt werden. Dazu wird die Datei am besten mit einem HTML-Editor (wie KompoZer) geöffnet, und es werden alle überflüssigen Tags entfernt (welche genau, ist ein anderes Thema). Die so bereinigte HTML-Datei kann dann mit den gängigen E-Book-Erzeugungs- und bearbeitungsprogrammen (Calibre, Sigil, Jutoh, Kindle Previewer) weiterverarbeitet werden.

Um möglichst sauberes HTML zu erhalten, muss die Word-Datei entsprechend vorbereitet sein. Und zwar sollte sie konsequent mit Formatvorlagen ausgezeichnet sein. Das gilt sowohl für Absatz- als auch für Zeichenformatierungen. Liegt eine solche „semantische“ Auszeichnung vor, ist die Bereinigung der HTML-Datei schnell erledigt.

Ideal wäre es, wenn aus einer Word-Datei sofort sauberes HTML herauskäme, das nicht oder nur wenig bereinigt werden müsste. Das klappt über einen kleinen Umweg. Es darf nicht direkt von Word aus im HTML-Format abgespeichert werden, sondern man muss die Word-Datei mit einem Konvertierungsprogramm umwandeln. Optimal für diesen Zweck geeignet zu sein scheint das Tool „Mammoth docx-converter“. In Kombination mit WordPress ist die Bedienung sehr einfach. Mammoth kann dort als Plug-In installiert und aufgerufen werden.

Die Installation geschieht von WordPress aus auf die übliche Weise (das ist jedem, der WordPress verwendet, klar).

Nach der Installation ist der Ablauf wie folgt:

  1. „Beitrag erstellen“ aufrufen; nur in diesem Modus kann Mammoth verwendet werden.
  2. Unterhalb des Editor-Fensters erscheint der Mammoth-Bereich, der lediglich die Schaltfläche „Datei auswählen“ anbietet.
  3. Nach Betätigen der Schaltfläche kann die Word-Datei ausgewählt werden; nach „OK“ wird sie hochgeladen.
  4. Wenige Augenblicke später wird das Ergebnis in einem eigenen Fenster angezeigt.

Es sind zwei Anzeigen möglich: „Visual“ und „Raw HTML“. Zur Weiterverarbeitung kann der Raw-HTML-Code kopiert und in einen Texteditor oder einen HTML-Editor eingefügt werden.

Damit Mammoth die Word-Datei optimal konvertiert, muss ein Style-Mapping gemacht werden. Das heißt, man gibt an, aus welcher Word-Formatvorlage welches HTML-Element werden soll. Die Syntax ist (hier beispielhaft gezeigt):

p[style-name=’df_u1′] => h1

Hier wird aus der Word-Formatvorlage „df_u1“ das HTML-Element „h1“.

Für jede Word-Formatvorlage ist eine solche Konvertierungszeile anzugeben, und zwar einfach als normaler Text in einer .txt-Datei (am besten in Notepad). Die Datei wird unter dem Namen „style-map“ abgespeichert (an einem beliebigen Ort auf der Festplatte).

Damit Mammoth die Style-Map anwenden kann, muss sie in die Word-Datei eingebettet werden. Dazu einfach an die Dateinamenerweiterung .docx ein .zip dranhängen, dann dieses Archiv öffnen und

  • im Archiv einen neuen Unterordner mit dem Namen „mammoth“ anlegen:

  • Nun die Style-Map-Datei in diesen Ordner kopieren:

  • Anschließend

mehr lesen

Buch zu „Dokument- und Formatvorlagen“

Mein Buch zu „Dokument- und Formatvorlagen“ ist erschienen:

Dokument- und Formatvorlagen in Word 2016, 2013 und 2010. tredition, Hamburg 2017.
528 Seiten. ISBN-13: 978-3743968974.

Darin geht es an vielen Stellen um die Frage, was bei der Erstellung von E-Books aus Word heraus zu beachten ist.

Nähere Information: Beitrag „Dokument- und Formatvorlagen“