Mein Buch zu „Indexing mit Word“ ist erschienen:
Indexing mit Word. tredition, Hamburg 2020.
344 Seiten. ISBN-13: 978-3-7439-8319-9.
Darin geht es in mehreren, zum Teil längeren Abschnitten
Mein Buch zu „Indexing mit Word“ ist erschienen:
Indexing mit Word. tredition, Hamburg 2020.
344 Seiten. ISBN-13: 978-3-7439-8319-9.
Darin geht es in mehreren, zum Teil längeren Abschnitten
Schauen wir uns zunächst die wichtigsten E-Book-Formate an.
Der E-Book-Markt wird von drei Formaten beherrscht:
PDF ist genau genommen kein E-Book-Format, sondern lediglich ein digitales Format, das auch auf E-Book-Readern dargestellt und gelesen werden kann. In ihm ist die Anordnung von Text und Bildern fixiert, PDFs sind standardmäßig nicht reflowable, sie passen sich nicht automatisch an die Bildschirmgröße an. (Auf die spezielle Variante von Reflowable-PDFs möchte ich hier nicht eingehen, weil sie in der Praxis keine große Rolle spielt.)
Die Reflowable-Formate sind EPUB und MOBI.
EPUB bedeutet „electronic publication“ und ist das Standardformat für E-Books. Es wird seit 2007 vom International Digital Publishing Forum (IDPF) entwickelt und angeboten (als offenes Format). Die aktuelle Version ist EPUB 3, wobei EPUB 2 noch eine weitaus größere Verbreitung hat (die meisten E-Books werden im EPUB-2-Format angeboten). Wer sicher gehen möchte, dass die erzeugten Daten auf allen EPUB-fähigen Readern korrekt dargestellt werden, sollte im Format EPUB 2 publizieren. Bis auf die E-Book-Reader von Amazon, kommt auf allen anderen Readern (z. B. Apple-, Kobo- und Tolino-Geräten) EPUB zum Einsatz.
MOBI ist ein Format, das ursprünglich von der Firma Mobipocket entwickelt wurde und das seit 2007 Amazon gehört; hier wurde es eine Zeit lang auch als AZW-Format vermarktet. Die Weiterentwicklung von MOBI nennt sich KF8 („Kindle Format 8“), sie ist von ihren Fähigkeiten her mit EPUB 3 vergleichbar. MOBI ist das Standardformat der Kindle-E-Book-Reader.
MOBI lässt sich ohne allzu große Probleme in EPUB konvertieren und umgekehrt.
Dabei entsteht eine HTML-Datei, die u. U. viele Word-spezifische Tags enthält. Die HTML-Datei muss bereinigt werden. Dazu wird die Datei am besten mit einem HTML-Editor (wie KompoZer) geöffnet, und es werden alle überflüssigen Tags entfernt (welche genau, ist ein anderes Thema). Die so bereinigte HTML-Datei kann dann mit den gängigen E-Book-Erzeugungs- und bearbeitungsprogrammen (Calibre, Sigil, Jutoh, Kindle Previewer) weiterverarbeitet werden.
Um möglichst sauberes HTML zu erhalten, muss die Word-Datei entsprechend vorbereitet sein. Und zwar sollte sie konsequent mit Formatvorlagen ausgezeichnet sein. Das gilt sowohl für Absatz- als auch für Zeichenformatierungen. Liegt eine solche „semantische“ Auszeichnung vor, ist die Bereinigung der HTML-Datei schnell erledigt.
Ideal wäre es, wenn aus einer Word-Datei sofort sauberes HTML herauskäme, das nicht oder nur wenig bereinigt werden müsste. Das klappt über einen kleinen Umweg. Es darf nicht direkt von Word aus im HTML-Format abgespeichert werden, sondern man muss die Word-Datei mit einem Konvertierungsprogramm umwandeln. Optimal für diesen Zweck geeignet zu sein scheint das Tool „Mammoth docx-converter“. In Kombination mit WordPress ist die Bedienung sehr einfach. Mammoth kann dort als Plug-In installiert und aufgerufen werden.
Die Installation geschieht von WordPress aus auf die übliche Weise (das ist jedem, der WordPress verwendet, klar).
Nach der Installation ist der Ablauf wie folgt:
Es sind zwei Anzeigen möglich: „Visual“ und „Raw HTML“. Zur Weiterverarbeitung kann der Raw-HTML-Code kopiert und in einen Texteditor oder einen HTML-Editor eingefügt werden.
Damit Mammoth die Word-Datei optimal konvertiert, muss ein Style-Mapping gemacht werden. Das heißt, man gibt an, aus welcher Word-Formatvorlage welches HTML-Element werden soll. Die Syntax ist (hier beispielhaft gezeigt):
p[style-name=’df_u1′] => h1
Hier wird aus der Word-Formatvorlage „df_u1“ das HTML-Element „h1“.
Für jede Word-Formatvorlage ist eine solche Konvertierungszeile anzugeben, und zwar einfach als normaler Text in einer .txt-Datei (am besten in Notepad). Die Datei wird unter dem Namen „style-map“ abgespeichert (an einem beliebigen Ort auf der Festplatte).
Damit Mammoth die Style-Map anwenden kann, muss sie in die Word-Datei eingebettet werden. Dazu einfach an die Dateinamenerweiterung .docx ein .zip dranhängen, dann dieses Archiv öffnen und
Dokument- und Formatvorlagen in Word 2016, 2013 und 2010. tredition, Hamburg 2017.
528 Seiten. ISBN-13: 978-3743968974.
Darin geht es an vielen Stellen um die Frage, was bei der Erstellung von E-Books aus Word heraus zu beachten ist.
Nähere Information: Beitrag „Dokument- und Formatvorlagen“
Im Unterschied zu gedruckten Büchern fehlen den meisten E-Books zwei wichtige Eigenschaften:
Der wichtigste Grund für beide Versäumnisse ist der Verzicht auf die Nutzung von Nummern.
Es ist klar, dass es bei E-Books keine Seiten gibt und somit Seitenzahlen nicht verwendet werden können. Doch wenn weder im Inhaltsverzeichnis noch in einem evtl. vorhandenen Register Nummern angegeben werden, kann der Leser nicht einschätzen, was ihn erwartet:
Kurz gesagt: XML ist eine neutrale Auszeichnungssprache (synonym: Markierungssprache). Die Abkürzung bedeutet Extensible Markup Language.
Vor allem zum automatischen Verarbeiten von Inhalten!
Weil Computer – die führen die automatische Verarbeitung aus – den Sinn von Inhalten, insbesondere den Sinn von Inhalten mit Mustern nicht verstehen.
Als Beispiel sei ein Register betrachtet, dessen Einträge in eine Datenbank eingegeben wurden. Ein Ausschnitt könnte innerhalb der Datenbank wie folgt aussehen:
Bild 1: Registerdaten, wie sie von einem Datenbankprogramm (hier: Excel als Datenbank) präsentiert werden. Zu sehen sind die RTF-Deklaration, Schrift- und Sonderzeichenbefehle sowie der Befehl für die Absatzmarke (\par).
Die Daten werden als reine ASCII-Daten exportiert, und die so entstandene .txt-Datei wird mit Word geöffnet.
Als Bild stellt sich der Weg wie folgt dar:
Bild 2: Publikation aus der Datenbank (Excel) über RTF nach Word.
Word erkennt, dass es sich um eine RTF-Datei handelt, konvertiert sie und stellt die Daten wie folgt dar:
Bild 3: Ansicht der konvertierten RTF-Datei direkt nach dem Umwandeln mit Word.
Wird die konvertierte Datei mit dem üblichen Speichern-Befehl gespeichert, erhält sie die Endung .rtf – es handelt sich um eine RTF-Datei. Im nächsten Schritt sollte sie im docx-Format gespeichert werden (per Speichern unter), damit sie als Word-Datei vorliegt und alle Word-Funktionen auf sie angewendet werden können. In der Word.Datei sind noch ein paar unschöne/falsche Stellen enthalten (z. B. separate Zeilen mit reinen Seitenverweisen oder f- und ff-Angaben mit einem Endash davor). Sie können mit einfachen Suchen/Ersetzen-Läufen bereinigt werden. Das Endergebnis ist dann:
Bild 4: Bereinigte, druckfertige Registerdatei. Diese Datei könnte z. B. in InDesign platziert und anschließend publiziert werden.
Wichtig zu wissen:
XML funktioniert prinzipiell sehr ähnlich. |
Basis von RTF ist eine Markierungssprache, die nur einfache (und daher leicht zu verstehende) Befehle enthält.
Wie bei fast allen „generischen“ Markierungssprachen besteht das wichtigste Prinzip darin, Anfang und Ende des „Wirkungsbereichs“ eines Befehls zu kennzeichnen. So kann z.B. die Kursivformatierung mit dem Befehl \i eingeleitet und mit \plain beendet werden:
Dies ist eine \i Probe\plain |
Dieser Text wird in konvertierter und damit formatierter Anzeige zu
Dies ist eine Probe |
Am einfachsten ist es, Wirkungsbereiche mit
geschweiften