METS/ALTO Introducere

 

O scurtă introducere în standardele METS și ALTO. Aflați la ce sunt utilizate fișierele METS și ALTO, cum sunt structurate și cum se raportează.

De ce aș folosi METS și ALTO?

    • „Digitalizez o mulțime de articole diferite și fiecare tip este digitalizat într-un format diferit. Unele sunt Word, unele sunt PDF, unele sunt XML, unele sunt doar JPG – am nevoie de toate pentru a comem aceeași structură, dar care este cel mai bun mod?”
    • „Aș dori să ofer căutare de text complet oamenilor de știință și cercetătorilor din colecția completă, așa că trebuie să construiesc un index text al colecției complete – și aș putea dori să schimb sistemul de prezentare în trei ani, așa că am nevoie de datele sursă într-un format standard, non-proprietar”
    • „Trebuie să-mi organizez proiectul de digitalizare în conformitate cu standardele de conservare pe termen lung – cât timp va exista JPG? Am nevoie de ceva mai robust și mai sigur pentru următorii 100 de ani.”

Ce este METS?

    • METS -> Standard de codificare și transmisie a metadatelor
    • Înființată în 2001
    • Standard deschis bazat pe XML
    • Schema este găzduită la Biblioteca Congresului (LOC)
    • Întreținut de Colegiul editorial METS
    • Versiunea curentă: 1.12. Versiunea 2 este în pregătire
    • Folosit pentru conservarea pe termen lung
    • https://www.loc.gov/standards/mets/

Cum arată un fișier METS?

Un fișier XML METS începe cu antetul METS, urmat de cinci secțiuni 5 de metadate.

1. Antet <METS metsHDR>

Antetul METS în sine conține informații tehnice, despre documentul METS în sine, inclusiv informații precum creatorul, editorul etc.

2. Metadate <descriptive dmdSEC>

De obicei, MODS (https://www.loc.gov/standards/MODS) sau scheme de metadate similare sunt implementate pentru a descrie obiectul în sine. Acesta conține informații precum titlul, autorul, editorul și data publicării.

3. Metadate <administrative amdSEC>

Conține informații despre procesul de captare a imaginii, cum ar fi hard de scanare și software-ul utilizat, tipul fișierului, rezoluția, compresia, data capturării imaginii. De obicei, se utilizează MIX (https://www.loc.gov/standards/mix/) sau o schemă de metadate similară.

4. Secțiunea <fișierului fileSEC>

Listează, descrie și leagă la toate fișierele care aparțin obiectului digital descris de fișierul METS.
Pentru un obiect tipic tipărit (carte, periodic, ziar) un fișier imagine (tiff, jpg sau JPG2000) și un fișier ALTO XML ar fi legate aici par pagină.
În plus, fișierele PDF sau ePub la nivel de problemă ar putea fi legate și aici.

5. Structura <fizică structMap LABEL = „Structura fizică”>

Pentru un obiect tipărit tipic (carte, periodic, ziar) aici paginile fizice sunt listate cu numerele lor de pagină și link-uri către fișierele la nivel de pagină specificate anterior în secțiunea Fișier.

6. Structura <logică structMap LABEL=”Structura logică”>

Pentru o carte, această secțiune ar conține de obicei cuprinsul în care secțiunea logică a cărților este legată de pagini.
Pentru un obiect mai complex, cum ar fi un ziar, structura ar putea fi mai adânc imbricată pentru a descrie un articol care conține diverse elemente (titlu, imagini cu legende, blocuri de text) răspândite pe mai multe pagini fizice.

Pentru mai multe detalii , consultați https://www.loc.gov/standards/mets/METSOverview.v3_en.html

METS

Ce este ALTO?

    • ALTO –> Aspect analizat și obiect text
    • Standard deschis bazat pe XML
    • Schema este găzduită la Biblioteca Congresului (LOC)
    • Întreținut de Consiliul ALTO
    • Versiune curentă: 4.4
    • https://www.loc.gov/standards/alto/

 

Ce face ALTO?

    • Conține conținutul unei singure pagini
    • Descrie aspectul unei pagini imprimate pentru a reconstrui pagina originală
    • Descrie stilurile, aspectul și informațiile despre tipul de bloc
    • Poate conține etichete care conțin mai multe informații despre conținut (de exemplu, entități numite)

Cum arată un fișier ALTO?

ALTO XML detaliază metadatele tehnice pentru descrierea aspectului și conținutului resurselor fizice de text, cum ar fi paginile unei cărți sau ale unui ziar. Fișierele ALTO au de obicei 3 secțiuni:

1. Descriere

Această secțiune conține informații tehnice referitoare la fișierul ALTO, cum ar fi o definiție a unității de măsură utilizate și informații despre software-ul OCR utilizat.

2. Stiluri

Această secțiune colectează informații despre stilul de machetă al paginii descrise. Informațiile tipice sunt familia de fonturi, stilul și dimensiunea, spațierea și alinierea paragrafelor.

3. Aspect

Conținutul de bază al fișierului alto este conținut aici. Toate obiectele (cuvinte, linii, blocuri de text, imagini, tabele) ale paginii sunt listate aici cu coordonate și transcriere OCR acolo unde este cazul. Structura poate fi plană sau mai complexă în funcție de tipul de material.
Versiunea ulterioară a schemei ALTO oferă suport pentru materiale scrise de mână și permite furnizarea mai multor rezultate ORC cu valori de probabilitate.

Pentru mai multe detalii , consultați https://www.loc.gov/standards/alto/techcenter/structure.html

ALTO

Cum colaborează METS și ALTO

Cum colaborează METS și ALTO

Rezumat

De ce ați folosi standardele XML?

    • Format XML complet documentat
    • Poate fi utilizat de orice furnizor IT acum și în viitor
    • Poate fi transformat în alte formate în viitor (pentru conservarea pe termen lung)
    • Lizibil de către oameni

Care sunt beneficiile utilizării METS/ALTO?

    • Standard deschis
    • Utilizare gratuită pentru toată lumea
    • Este standardul

      industrial pentru digitalizare utilizat de sute de biblioteci și furnizori de conținut

    • Sustenabilitatea pe termen lung a obiectelor digitale este mult îmbunătățită
    • Acceptă segmentarea articolelor și capitolelor
    • Puteți manipula obiectele într-un mod ușor și le puteți schimba cu alte părți
    • Puteți crea PDF, EPUB, DAISY și alte formate din METS / ALTO