METS/ALTO Einführung

 

Eine kurze Einführung in die METS- und ALTO-Standards. Erfahren Sie, wofür METS- und ALTO-Dateien verwendet werden, wie sie strukturiert sind und wie sie zusammenhängen.

Warum sollte ich METS und ALTO verwenden?

    • „Ich digitalisiere viele verschiedene Objekte und jeder Typ wird in einem anderen Format digitalisiert. Einige sind Word, einige sind PDF, einige sind XML, einige sind nur JPG – ich brauche alles in der gleichen Struktur, aber was ist der beste Weg?“
    • „Ich möchte den Wissenschaftlern und Forschern in der gesamten Sammlung eine Volltextsuche anbieten, also muss ich einen Textindex der gesamten Sammlung erstellen – und ich möchte vielleicht in drei Jahren das Präsentationssystem ändern, also brauche ich die Quelldaten in einem standardmäßigen, nicht proprietären Format.“
    • „Ich muss mein Digitalisierungsprojekt nach den Standards der Langzeitarchivierung organisieren – wie lange wird es JPG noch geben? Ich brauche etwas Robusteres und Sichereres für die nächsten 100 Jahre.“

Was ist METS?

    • METS -> Standard für die Kodierung und Übertragung von Metadaten
    • Gegründet im Jahr 2001
    • XML-basierter offener Standard
    • Schema wird in der Library of Congress (LOC) gehostet
    • Gepflegt von der METS-Redaktion
    • Aktuelle Version: 1.12. Version 2 ist in Vorbereitung
    • Wird für die Langzeitkonservierung verwendet
    • https://www.loc.gov/standards/mets/

Wie sieht eine METS-Datei aus?

Eine METS-XML-Datei beginnt mit dem METS-Header, gefolgt von fünf 5 Metadatenabschnitten.

1. METS-Header <metsHDR>

Der METS-Header selbst enthält technische Informationen über das METS-Dokument selbst, einschließlich Informationen wie Ersteller, Herausgeber usw.

2. Beschreibende Metadaten <dmdSEC>

In der Regel werden MODS (https://www.loc.gov/standards/MODS) oder ähnliche Metadatenschemata bereitgestellt, um das Objekt selbst zu beschreiben. Es enthält Informationen wie Titel, Autor, Verlag und Veröffentlichungsdatum.

3. Administrative Metadaten <amdSEC>

Enthält Informationen über den Bildaufnahmeprozess wie die verwendete Scan-Hard- und Software, Dateityp, Auflösung, Komprimierung, Datum der Bildaufnahme. In der Regel wird MIX (https://www.loc.gov/standards/mix/) oder ein ähnliches Metadatenschema verwendet.

4. Dateiabschnitt <DateiSEC>

Listet, beschreibt und verknüpft alle Dateien, die zu dem digitalen Objekt gehören, das durch die METS-Datei beschrieben wird.
Für ein typisches Druckobjekt (Buch, Zeitschrift, Zeitung) werden hier eine Bilddatei (tiff, jpg oder JPG2000) und eine ALTO-XML-Datei pro Seite verlinkt.
Darüber hinaus können hier auch PDF- oder ePub-Dateien auf Issue-Ebene verlinkt werden.

5. Physikalische Struktur <structMap LABEL=“Physikalische Struktur“>

Für ein typisches Druckobjekt (Buch, Zeitschrift, Zeitung) werden hier die physischen Seiten mit ihren Seitenzahlen und Links zu den Dateien auf Seitenebene aufgelistet, die zuvor im Abschnitt Datei angegeben wurden.

6. Logische Struktur <structMap LABEL=“Logische Struktur“>

Bei einem Buch enthält dieser Abschnitt in der Regel das Inhaltsverzeichnis, in dem logische Abschnitte der Bücher mit Seiten verknüpft sind.
Bei komplexeren Objekten wie einer Zeitung kann die Struktur tiefer verschachtelt sein, um einen Artikel zu beschreiben, der verschiedene Elemente (Titel, Bilder mit Bildunterschriften, Textblöcke) enthält, die über mehrere physische Seiten verteilt sind.

Weitere Informationen finden Sie unter https://www.loc.gov/standards/mets/METSOverview.v3_en.html

METS

Was ist ALTO?

    • ALTO –> Analysiertes Layout und Textobjekt
    • XML-basierter offener Standard
    • Schema wird in der Library of Congress (LOC) gehostet
    • Gepflegt vom ALTO-Vorstand
    • Aktuelle Version: 4.4
    • https://www.loc.gov/standards/alto/

 

Was macht ALTO?

    • Enthält den Inhalt einer einzelnen Seite
    • Beschreibt das Layout einer gedruckten Seite, um die ursprüngliche Seite neu zu erstellen
    • Beschreibt die Stile, das Layout und die Blocktypinformationen
    • Kann Tags enthalten, die mehr Informationen über den Inhalt enthalten (z. B. benannte Entitäten)

Wie sieht eine ALTO-Datei aus?

ALTO XML beschreibt technische Metadaten zur Beschreibung des Layouts und des Inhalts physischer Textressourcen, wie z. B. Seiten eines Buches oder einer Zeitung. ALTO-Dateien bestehen in der Regel aus 3 Abschnitten:

1. Beschreibung

Dieser Abschnitt enthält technische Informationen zur ALTO-Datei, wie z.B. die Definition der verwendeten Maßeinheit und Informationen über die verwendete OCR-Software.

2. Stile

In diesem Abschnitt werden Informationen über den Layoutstil der beschriebenen Seite gesammelt. Typische Informationen sind Schriftfamilie, -stil und -größe, Absatzabstand und -ausrichtung.

3. Grundriss

Hier ist der Kerninhalt der Alt-Datei enthalten. Alle Objekte (Wörter, Zeilen, Textblöcke, Bilder, Tabellen) der Seite werden hier mit Koordinaten und ggf. OCR-Transkription aufgelistet. Die Struktur kann je nach Art des Materials flach oder komplexer sein.
Spätere Versionen des ALTO-Schemas bieten Unterstützung für handschriftliches Material und ermöglichen es, mehrere ORC-Ergebnisse mit Wahrscheinlichkeitswerten bereitzustellen.

Weitere Informationen finden Sie unter https://www.loc.gov/standards/alto/techcenter/structure.html

ALT

Wie METS und ALTO zusammenarbeiten

Wie METS und ALTO zusammenarbeiten

Zusammenfassung

Warum sollten Sie XML-Standards verwenden?

    • Vollständig dokumentiertes XML-Format
    • Einsetzbar für jeden IT-Anbieter jetzt und in Zukunft
    • Kann in Zukunft in andere Formate umgewandelt werden (zur Langzeitkonservierung)
    • Von Menschen lesbar

Welche Vorteile haben Sie mit METS/ALTO?

    • Offener Standard
    • Kostenlos für alle nutzbar
    • Es ist der Industriestandard für die Digitalisierung, der von Hunderten von Bibliotheken und Inhaltsanbietern verwendet wird
    • Die langfristige Nachhaltigkeit Ihrer digitalen Objekte wird erheblich verbessert
    • Unterstützt die Segmentierung von Artikeln und Kapiteln
    • Sie können Objekte auf einfache Weise handhaben und mit anderen Parteien austauschen
    • Sie können PDF, EPUB, DAISY und andere Formate aus METS/ ALTO erstellen