Von Word zum E-Book: eine Übersicht

Um von Word zum E-Book zu gelangen, können vereinfacht dargestellt zwei Wege beschritten werden, die ich als weichen, moderierten und harten, direkten Weg bezeichnen möchte.

Schauen wir uns zunächst die wichtigsten E-Book-Formate an.

E-Book-Formate

Der E-Book-Markt wird von drei Formaten beherrscht:

  • PDF
  • EPUB und
  • MOBI

PDF ist genau genommen kein E-Book-Format, sondern lediglich ein digitales Format, das auch auf E-Book-Readern dargestellt und gelesen werden kann. In ihm ist die Anordnung von Text und Bildern fixiert, PDFs sind standardmäßig nicht reflowable, sie passen sich nicht automatisch an die Bildschirmgröße an. (Auf die spezielle Variante von Reflowable-PDFs möchte ich hier nicht eingehen, weil sie in der Praxis keine große Rolle spielt.)

Die Reflowable-Formate sind EPUB und MOBI.

EPUB bedeutet „electronic publication“ und ist das Standardformat für E-Books. Es wird seit 2007 vom International Digital Publishing Forum (IDPF) entwickelt und angeboten (als offenes Format). Die aktuelle Version ist EPUB 3, wobei  EPUB 2 noch eine weitaus größere Verbreitung hat (die meisten E-Books werden im EPUB-2-Format angeboten). Wer sicher gehen möchte, dass die erzeugten Daten auf allen EPUB-fähigen Readern korrekt dargestellt werden, sollte im Format EPUB 2 publizieren. Bis auf die E-Book-Reader von Amazon, kommt auf allen anderen Readern (z. B. Apple-, Kobo- und Tolino-Geräten) EPUB zum Einsatz.

MOBI ist ein Format, das ursprünglich von der Firma Mobipocket entwickelt wurde und das seit 2007 Amazon gehört; hier wurde es eine Zeit lang auch als AZW-Format vermarktet. Die Weiterentwicklung von MOBI nennt sich KF8 („Kindle Format 8“), sie ist von ihren Fähigkeiten her mit EPUB 3 vergleichbar. MOBI ist das Standardformat der Kindle-E-Book-Reader.

MOBI lässt sich ohne allzu große Probleme in EPUB konvertieren und umgekehrt.

Der weiche, moderierte

mehr lesen

Sauberes HTML aus Word

Soll ein E-Book aus Word erstellt werden, ist der direkte Weg der über HTML:

  • abspeichern im Format Webseite (gefiltert).

Dabei entsteht eine HTML-Datei, die u. U. viele Word-spezifische Tags enthält. Die HTML-Datei muss bereinigt werden. Dazu wird die Datei am besten mit einem HTML-Editor (wie KompoZer) geöffnet, und es werden alle überflüssigen Tags entfernt (welche genau, ist ein anderes Thema). Die so bereinigte HTML-Datei kann dann mit den gängigen E-Book-Erzeugungs- und bearbeitungsprogrammen (Calibre, Sigil, Jutoh, Kindle Previewer) weiterverarbeitet werden.

Um möglichst sauberes HTML zu erhalten, muss die Word-Datei entsprechend vorbereitet sein. Und zwar sollte sie konsequent mit Formatvorlagen ausgezeichnet sein. Das gilt sowohl für Absatz- als auch für Zeichenformatierungen. Liegt eine solche „semantische“ Auszeichnung vor, ist die Bereinigung der HTML-Datei schnell erledigt.

Ideal wäre es, wenn aus einer Word-Datei sofort sauberes HTML herauskäme, das nicht oder nur wenig bereinigt werden müsste. Das klappt über einen kleinen Umweg. Es darf nicht direkt von Word aus im HTML-Format abgespeichert werden, sondern man muss die Word-Datei mit einem Konvertierungsprogramm umwandeln. Optimal für diesen Zweck geeignet zu sein scheint das Tool „Mammoth docx-converter“. In Kombination mit WordPress ist die Bedienung sehr einfach. Mammoth kann dort als Plug-In installiert und aufgerufen werden.

Die Installation geschieht von WordPress aus auf die übliche Weise (das ist jedem, der WordPress verwendet, klar).

Nach der Installation ist der Ablauf wie folgt:

  1. „Beitrag erstellen“ aufrufen; nur in diesem Modus kann Mammoth verwendet werden.
  2. Unterhalb des Editor-Fensters erscheint der Mammoth-Bereich, der lediglich die Schaltfläche „Datei auswählen“ anbietet.
  3. Nach Betätigen der Schaltfläche kann die Word-Datei ausgewählt werden; nach „OK“ wird sie hochgeladen.
  4. Wenige Augenblicke später wird das Ergebnis in einem eigenen Fenster angezeigt.

Es sind zwei Anzeigen möglich: „Visual“ und „Raw HTML“. Zur Weiterverarbeitung kann der Raw-HTML-Code kopiert und in einen Texteditor oder einen HTML-Editor eingefügt werden.

Damit Mammoth die Word-Datei optimal konvertiert, muss ein Style-Mapping gemacht werden. Das heißt, man gibt an, aus welcher Word-Formatvorlage welches HTML-Element werden soll. Die Syntax ist (hier beispielhaft gezeigt):

p[style-name=’df_u1′] => h1

Hier wird aus der Word-Formatvorlage „df_u1“ das HTML-Element „h1“.

Für jede Word-Formatvorlage ist eine solche Konvertierungszeile anzugeben, und zwar einfach als normaler Text in einer .txt-Datei (am besten in Notepad). Die Datei wird unter dem Namen „style-map“ abgespeichert (an einem beliebigen Ort auf der Festplatte).

Damit Mammoth die Style-Map anwenden kann, muss sie in die Word-Datei eingebettet werden. Dazu einfach an die Dateinamenerweiterung .docx ein .zip dranhängen, dann dieses Archiv öffnen und

  • im Archiv einen neuen Unterordner mit dem Namen „mammoth“ anlegen:

  • Nun die Style-Map-Datei in diesen Ordner kopieren:

  • Anschließend

mehr lesen

Buch zu „Dokument- und Formatvorlagen“

Mein Buch zu „Dokument- und Formatvorlagen“ ist erschienen:

Dokument- und Formatvorlagen in Word 2016, 2013 und 2010. tredition, Hamburg 2017.
528 Seiten. ISBN-13: 978-3743968974.

Darin geht es an vielen Stellen um die Frage, was bei der Erstellung von E-Books aus Word heraus zu beachten ist.

Nähere Information: Beitrag „Dokument- und Formatvorlagen“

Forderungen an E-Books

Das Dilemma

Im Unterschied zu gedruckten Büchern fehlen den meisten E-Books zwei wichtige Eigenschaften:

  • Übersicht und
  • Orientierung

Der wichtigste Grund für beide Versäumnisse ist der Verzicht auf die Nutzung von Nummern.

Es ist klar, dass es bei E-Books keine Seiten gibt und somit Seitenzahlen nicht verwendet werden können. Doch wenn weder im Inhaltsverzeichnis noch in einem evtl. vorhandenen Register Nummern angegeben werden, kann der Leser nicht einschätzen, was ihn erwartet:

  • ist ein Kapitel umfangreicher

mehr lesen

XML: Merkmale

Was ist XML?

Kurz gesagt: XML ist eine neutrale Auszeichnungssprache (synonym: Markierungssprache). Die Abkürzung bedeutet Extensible Markup Language.

Wozu braucht man so etwas?

Vor allem zum automatischen Verarbeiten von Inhalten!

Weshalb geht das automatische Verarbeiten nur mit neutralen Auszeichnungssprachen?

Weil Computer – die führen die automatische Verarbeitung aus – den Sinn von Inhalten, insbesondere den Sinn von Inhalten mit Mustern nicht verstehen.

Und was ist mit dem manuellen

mehr lesen

Publizieren aus der Datenbank I

Die generische Markierung mit RTF-Befehlen lässt sich z. B. beim Publizieren aus Datenbanken nutzen. Denn in den meisten Datenbanken kann nur mit reinen ASCII-Daten gearbeitet werden. Will man trotzdem Formatierungsbefehle eingeben, so kann das nur generisch geschehen. Und eine Möglichkeit sind eben die generischen Markierungen per RTF.

Als Beispiel sei ein Register betrachtet, dessen Einträge in eine Datenbank eingegeben wurden. Ein Ausschnitt könnte innerhalb der Datenbank wie folgt aussehen:

publizieren aus datenbank

Bild 1: Registerdaten, wie sie von einem Datenbankprogramm (hier: Excel als Datenbank) präsentiert werden. Zu sehen sind die RTF-Deklaration, Schrift- und Sonderzeichenbefehle sowie der Befehl für die Absatzmarke (\par).

Die Daten werden als reine ASCII-Daten exportiert, und die so entstandene .txt-Datei wird mit Word geöffnet.

Als Bild stellt sich der Weg wie folgt dar:

publi_aus_db_rtf

Bild 2: Publikation aus der Datenbank (Excel) über RTF nach Word.

Word erkennt, dass es sich um eine RTF-Datei handelt, konvertiert sie und stellt die Daten wie folgt dar:

publizieren aus datenbank_02

Bild 3: Ansicht der konvertierten RTF-Datei direkt nach dem Umwandeln mit Word.

Wird die konvertierte Datei mit dem üblichen Speichern-Befehl gespeichert, erhält sie die Endung .rtf – es handelt sich um eine RTF-Datei. Im nächsten Schritt sollte sie im docx-Format gespeichert werden (per Speichern unter), damit sie als Word-Datei vorliegt und alle Word-Funktionen auf sie angewendet werden können.  In der Word.Datei sind noch ein paar unschöne/falsche Stellen enthalten (z. B. separate Zeilen mit reinen Seitenverweisen oder f- und ff-Angaben mit einem Endash davor). Sie können mit einfachen Suchen/Ersetzen-Läufen bereinigt werden. Das Endergebnis ist dann:

publizieren aus datenbank_03

Bild 4: Bereinigte, druckfertige Registerdatei. Diese Datei könnte z. B. in InDesign platziert und anschließend publiziert werden.

Wichtig zu wissen:

XML funktioniert prinzipiell sehr ähnlich.

Generische Markierung mit RTF

RTF (Rich-Text-Format) wurde von Microsoft und Apple bereits in den 1980er-Jahren entwickelt, um einen einfachen Austausch formatierter Daten zwischen verschiedenen Programmtypen, wie beispielsweise Textverarbeitungsprogrammen,  Layoutprogrammen, Tabellenkalkulationsprogrammen und Datenbankprogrammen zu ermöglichen. Mehr zu den Grundlagen von RTF ist auf der Site von Formatting and more zu finden.

Basis von RTF ist eine Markierungssprache, die nur einfache (und daher leicht zu verstehende) Befehle enthält.

Wirkungsbereiche

Wie bei fast allen „generischen“ Markierungssprachen besteht das wichtigste Prinzip darin, Anfang und Ende des „Wirkungsbereichs“ eines Befehls zu kennzeichnen. So kann z.B. die Kursivformatierung mit dem Befehl \i eingeleitet und mit \plain beendet werden:

Dies ist eine \i Probe\plain

Dieser Text wird in konvertierter und damit formatierter Anzeige zu

Dies ist eine Probe

Am einfachsten ist es, Wirkungsbereiche mit

geschweiften
mehr lesen

XML-Workflow

Um ein Publikationsprojekt XML-mäßig verarbeiten zu können, muss vor allem die Struktur des Projekts klar sein. Zur Struktur gehören z. B. die Hierarchie der Überschriften, die verschiedenen Absatztypen für den Haupttext, Kästen, Bilder, Bildunterschriften usw. Auch die Frage der Reihenfolge solcher Elemente ist wichtig: dürfen bestimmte Elemente aufeinander folgen oder auch nicht? Die Struktur wird sinnvollerweise gemeinsam von Lektoren, Herstellern und Programmierern analysiert und festgehalten. Leider passiert das oft ohne Beteiligung von Lektoren. Doch das ist ein anderes Thema.

Grundlagen

DTD, Schema, Dokument- und Formatvorlagen

Angepasst an die Struktur entwickeln die Programmierer dann eine sog. Dokumenttypdefinition (DTD) oder ein Schema. Dabei handelt es sich um ein XML-Programm. Liegt ein solches Schema vor, können die Erzeuger (Autoren) und Bearbeiter (Lektoren) des Inhalts die Struktur der zu dem Projekt gehörenden Dokumente an dieses Schema anpassen. Das heißt, in der Regel sind wir Lektoren nicht für die Entwicklung eines Schemas zuständig, sondern wir wenden es an. Zum Glück müssen wir, um das zu können, nicht unbedingt XML-Experten werden. Die Anpassung eines Dokuments an ein vorgegebenes Schema (oder eine DTD) kann für uns einfach bedeuten, das Dokument in Word konsistent und konsequent auf Basis einer Dokumentvorlage auszuzeichnen, also Formatvorlagen anstelle von manueller („harter“) Formatierung anzuwenden. Eine auf diese Weise vorbereitete Word-Datei kann relativ problemlos in eine XML-Datei überführt werden. Dafür sind üblicherweise wiederum nicht wir, sondern Techniker zuständig. Ein Workflow, bei dem wir die Überführung der Word-Daten in XML schaffen können, selbst ohne tiefgehende XML-Kenntnisse, ist der E-Book-Workflow, auf den unten näher eingegangen wird.

Grundsätzlich muss nicht erst in Word hineingearbeitet werden, damit anschließend XML entstehen kann. Es ist auch möglich, sich als Autor oder Lektor sofort in XML-Daten zu bewegen. Auch dazu wird unten mehr gesagt.

mehr lesen