Technik – E-Books and more

EPUB-Datei: Aufbau

8. Juni 20256. Juni 2025 von Walter

Jede EPUB-Datei ist eigentlich ein Container für viele andere Dateien. Die Container-Eigenschaft kann offengelegt werden, wenn man .zip an die Dateinamen-Erweiterung hängt. Damit wird z. B. aus xyz.epub mehr lesen

Rückkonvertierung von E-Book-Formaten wie EPUB

8. Juni 20256. Juni 2025 von Walter

Im Beitrag XML-Workflow wurde geschrieben, dass die Rückkonvertierung nur etwas für technische Betriebe mehr lesen

Buch zu „Indexing mit Word“

25. September 202024. September 2020 von Walter Greulich

Mein Buch zu „Indexing mit Word“ ist erschienen:

Indexing mit Word. tredition, Hamburg 2020.
344 Seiten. ISBN-13: 978-3-7439-8319-9.

Darin geht es in mehreren, zum Teil längeren Abschnitten mehr lesen

Von Word zum E-Book: eine Übersicht

8. Juni 202522. Februar 2019 von Walter Greulich

Um von Word zum E-Book zu gelangen, können vereinfacht dargestellt zwei Wege beschritten werden, die ich als weichen, moderierten und harten, direkten Weg bezeichnen möchte.

Schauen wir uns zunächst die wichtigsten E-Book-Formate an.

E-Book-Formate

Der E-Book-Markt wird von drei Formaten beherrscht:

PDF
EPUB und
MOBI

PDF ist genau genommen kein E-Book-Format, sondern lediglich ein digitales Format, das auch auf E-Book-Readern dargestellt und gelesen werden kann. In ihm ist die Anordnung von Text und Bildern fixiert, PDFs sind standardmäßig nicht reflowable, sie passen sich nicht automatisch an die Bildschirmgröße an. (Auf die spezielle Variante von Reflowable-PDFs möchte ich hier nicht eingehen, weil sie in der Praxis keine große Rolle spielt.)

Die Reflowable-Formate sind EPUB und MOBI.

EPUB bedeutet „electronic publication“ und ist das Standardformat für E-Books. Es wird seit 2007 vom International Digital Publishing Forum (IDPF) entwickelt und angeboten (als offenes Format). Die aktuelle Version ist EPUB 3, wobei EPUB 2 noch eine weitaus größere Verbreitung hat (die meisten E-Books werden im EPUB-2-Format angeboten). Wer sicher gehen möchte, dass die erzeugten Daten auf allen EPUB-fähigen Readern korrekt dargestellt werden, sollte im Format EPUB 2 publizieren. Bis auf die E-Book-Reader von Amazon, kommt auf allen anderen Readern (z. B. Apple-, Kobo- und Tolino-Geräten) EPUB zum Einsatz.

MOBI ist ein Format, das ursprünglich von der Firma Mobipocket entwickelt wurde und das seit 2007 Amazon gehört; hier wurde es eine Zeit lang auch als AZW-Format vermarktet. Die Weiterentwicklung von MOBI nennt sich KF8 („Kindle Format 8“), sie ist von ihren Fähigkeiten her mit EPUB 3 vergleichbar. MOBI ist das Standardformat der Kindle-E-Book-Reader.

MOBI lässt sich ohne allzu große Probleme in EPUB konvertieren und umgekehrt.

Der weiche, moderierte

Sauberes HTML aus Word

3. November 201922. Februar 2019 von Walter Greulich

Soll ein E-Book aus Word erstellt werden, ist der direkte Weg der über HTML:

abspeichern im Format Webseite (gefiltert).

Dabei entsteht eine HTML-Datei, die u. U. viele Word-spezifische Tags enthält. Die HTML-Datei muss bereinigt werden. Dazu wird die Datei am besten mit einem HTML-Editor (wie KompoZer) geöffnet, und es werden alle überflüssigen Tags entfernt (welche genau, ist ein anderes Thema). Die so bereinigte HTML-Datei kann dann mit den gängigen E-Book-Erzeugungs- und bearbeitungsprogrammen (Calibre, Sigil, Jutoh, Kindle Previewer) weiterverarbeitet werden.

Um möglichst sauberes HTML zu erhalten, muss die Word-Datei entsprechend vorbereitet sein. Und zwar sollte sie konsequent mit Formatvorlagen ausgezeichnet sein. Das gilt sowohl für Absatz- als auch für Zeichenformatierungen. Liegt eine solche „semantische“ Auszeichnung vor, ist die Bereinigung der HTML-Datei schnell erledigt.

Ideal wäre es, wenn aus einer Word-Datei sofort sauberes HTML herauskäme, das nicht oder nur wenig bereinigt werden müsste. Das klappt über einen kleinen Umweg. Es darf nicht direkt von Word aus im HTML-Format abgespeichert werden, sondern man muss die Word-Datei mit einem Konvertierungsprogramm umwandeln. Optimal für diesen Zweck geeignet zu sein scheint das Tool „Mammoth docx-converter“. In Kombination mit WordPress ist die Bedienung sehr einfach. Mammoth kann dort als Plug-In installiert und aufgerufen werden.

Die Installation geschieht von WordPress aus auf die übliche Weise (das ist jedem, der WordPress verwendet, klar).

Nach der Installation ist der Ablauf wie folgt:

„Beitrag erstellen“ aufrufen; nur in diesem Modus kann Mammoth verwendet werden.
Unterhalb des Editor-Fensters erscheint der Mammoth-Bereich, der lediglich die Schaltfläche „Datei auswählen“ anbietet.
Nach Betätigen der Schaltfläche kann die Word-Datei ausgewählt werden; nach „OK“ wird sie hochgeladen.
Wenige Augenblicke später wird das Ergebnis in einem eigenen Fenster angezeigt.

Es sind zwei Anzeigen möglich: „Visual“ und „Raw HTML“. Zur Weiterverarbeitung kann der Raw-HTML-Code kopiert und in einen Texteditor oder einen HTML-Editor eingefügt werden.

Damit Mammoth die Word-Datei optimal konvertiert, muss ein Style-Mapping gemacht werden. Das heißt, man gibt an, aus welcher Word-Formatvorlage welches HTML-Element werden soll. Die Syntax ist (hier beispielhaft gezeigt):

p[style-name=’df_u1′] => h1

Hier wird aus der Word-Formatvorlage „df_u1“ das HTML-Element „h1“.

Für jede Word-Formatvorlage ist eine solche Konvertierungszeile anzugeben, und zwar einfach als normaler Text in einer .txt-Datei (am besten in Notepad). Die Datei wird unter dem Namen „style-map“ abgespeichert (an einem beliebigen Ort auf der Festplatte).

Damit Mammoth die Style-Map anwenden kann, muss sie in die Word-Datei eingebettet werden. Dazu einfach an die Dateinamenerweiterung .docx ein .zip dranhängen, dann dieses Archiv öffnen und

im Archiv einen neuen Unterordner mit dem Namen „mammoth“ anlegen:

Nun die Style-Map-Datei in diesen Ordner kopieren:

Anschließend

Buch zu „Dokument- und Formatvorlagen“

16. November 2017 von Walter Greulich

Mein Buch zu „Dokument- und Formatvorlagen“ ist erschienen:

Dokument- und Formatvorlagen in Word 2016, 2013 und 2010. tredition, Hamburg 2017.
528 Seiten. ISBN-13: 978-3743968974.

Darin geht es an vielen Stellen um die Frage, was bei der Erstellung von E-Books aus Word heraus zu beachten ist.

Nähere Information: Beitrag „Dokument- und Formatvorlagen“

Forderungen an E-Books

3. November 201915. März 2016 von Walter Greulich

Das Dilemma

Im Unterschied zu gedruckten Büchern fehlen den meisten E-Books zwei wichtige Eigenschaften:

Übersicht und
Orientierung

Der wichtigste Grund für beide Versäumnisse ist der Verzicht auf die Nutzung von Nummern.

Es ist klar, dass es bei E-Books keine Seiten gibt und somit Seitenzahlen nicht verwendet werden können. Doch wenn weder im Inhaltsverzeichnis noch in einem evtl. vorhandenen Register Nummern angegeben werden, kann der Leser nicht einschätzen, was ihn erwartet:

ist ein Kapitel umfangreicher

XML: Merkmale

2. März 201621. Februar 2016 von Walter Greulich

Was ist XML?

Kurz gesagt: XML ist eine neutrale Auszeichnungssprache (synonym: Markierungssprache). Die Abkürzung bedeutet Extensible Markup Language.

Wozu braucht man so etwas?

Vor allem zum automatischen Verarbeiten von Inhalten!

Weshalb geht das automatische Verarbeiten nur mit neutralen Auszeichnungssprachen?

Weil Computer – die führen die automatische Verarbeitung aus – den Sinn von Inhalten, insbesondere den Sinn von Inhalten mit Mustern nicht verstehen.

Und was ist mit dem manuellen

Publizieren aus der Datenbank I

24. Januar 201731. Januar 2016 von Walter Greulich

Die generische Markierung mit RTF-Befehlen lässt sich z. B. beim Publizieren aus Datenbanken nutzen. Denn in den meisten Datenbanken kann nur mit reinen ASCII-Daten gearbeitet werden. Will man trotzdem Formatierungsbefehle eingeben, so kann das nur generisch geschehen. Und eine Möglichkeit sind eben die generischen Markierungen per RTF.

Als Beispiel sei ein Register betrachtet, dessen Einträge in eine Datenbank eingegeben wurden. Ein Ausschnitt könnte innerhalb der Datenbank wie folgt aussehen:

Bild 1: Registerdaten, wie sie von einem Datenbankprogramm (hier: Excel als Datenbank) präsentiert werden. Zu sehen sind die RTF-Deklaration, Schrift- und Sonderzeichenbefehle sowie der Befehl für die Absatzmarke (\par).

Die Daten werden als reine ASCII-Daten exportiert, und die so entstandene .txt-Datei wird mit Word geöffnet.

Als Bild stellt sich der Weg wie folgt dar:

Bild 2: Publikation aus der Datenbank (Excel) über RTF nach Word.

Word erkennt, dass es sich um eine RTF-Datei handelt, konvertiert sie und stellt die Daten wie folgt dar:

Bild 3: Ansicht der konvertierten RTF-Datei direkt nach dem Umwandeln mit Word.

Wird die konvertierte Datei mit dem üblichen Speichern-Befehl gespeichert, erhält sie die Endung .rtf – es handelt sich um eine RTF-Datei. Im nächsten Schritt sollte sie im docx-Format gespeichert werden (per Speichern unter), damit sie als Word-Datei vorliegt und alle Word-Funktionen auf sie angewendet werden können. In der Word.Datei sind noch ein paar unschöne/falsche Stellen enthalten (z. B. separate Zeilen mit reinen Seitenverweisen oder f- und ff-Angaben mit einem Endash davor). Sie können mit einfachen Suchen/Ersetzen-Läufen bereinigt werden. Das Endergebnis ist dann:

Bild 4: Bereinigte, druckfertige Registerdatei. Diese Datei könnte z. B. in InDesign platziert und anschließend publiziert werden.

Wichtig zu wissen:

XML funktioniert prinzipiell sehr ähnlich.

Generische Markierung mit RTF

21. Dezember 201730. Januar 2016 von Walter Greulich

RTF (Rich-Text-Format) wurde von Microsoft und Apple bereits in den 1980er-Jahren entwickelt, um einen einfachen Austausch formatierter Daten zwischen verschiedenen Programmtypen, wie beispielsweise Textverarbeitungsprogrammen, Layoutprogrammen, Tabellenkalkulationsprogrammen und Datenbankprogrammen zu ermöglichen. Mehr zu den Grundlagen von RTF ist auf der Site von Formatting and more zu finden.

Basis von RTF ist eine Markierungssprache, die nur einfache (und daher leicht zu verstehende) Befehle enthält.

Wirkungsbereiche

Wie bei fast allen „generischen“ Markierungssprachen besteht das wichtigste Prinzip darin, Anfang und Ende des „Wirkungsbereichs“ eines Befehls zu kennzeichnen. So kann z.B. die Kursivformatierung mit dem Befehl \i eingeleitet und mit \plain beendet werden:

Dies ist eine \i Probe\plain

Dieser Text wird in konvertierter und damit formatierter Anzeige zu

Dies ist eine Probe

Am einfachsten ist es, Wirkungsbereiche mit

geschweiften
mehr lesen

Teilen mit:

Teilen mit:

Teilen mit:

E-Book-Formate

Der weiche, moderierte

Teilen mit:

Teilen mit:

Teilen mit:

Das Dilemma

Teilen mit:

Was ist XML?

Wozu braucht man so etwas?

Weshalb geht das automatische Verarbeiten nur mit neutralen Auszeichnungssprachen?

Und was ist mit dem manuellen

Teilen mit:

Teilen mit:

Wirkungsbereiche

Teilen mit: