docWorks

Cu un workflow simplu și eficient, docWorks s-a impus ca lider mondial în software-ul de digitalizare: paginile scanate ale arhivelor de ziare/cărți sunt convertite, îmbogățite cu metadata METS/ALTO durabilă, securizate pe termen lung și puse la dispoziție pentru o utilizare flexibilă în viitor.

Workflow simplu și eficient

De la importul imaginilor scanate până la exportul fișierelor METS/ALTO sau IIIF, docWorks parcurge toate etapele de conversie (decupare, îndreptare pagină, analiză layout, structură și OCR) într-un singur workflow. Această aplicație all-in-one, combinată cu procese optimizate continuu are ca rezultat eficientizarea proiectelor atât din punct de vedere al costului cât și al duratei.

Inteligență artificială

docWorks vine cu un modul opțional de analiză layout îmbunătățită prin metode specifice de machine learning. Prin această metodă se obțin rezultate vizibil mai precise, care reduc semnificativ efortul de corecție suplimentar. Pentru o analiză a layout-ului și mai precisă, se pot folosi datele de training specifice pentru a adapta analiza la materialele proiectului dumneavoastră.

Toate tipurile de materiale

Beneficiind de o analiză precisă a layoutului, bazată pe machine learning, și de utilizarea celor mai cunoscute motoare de OCR, docWorks acceptă procesarea diverselor tipuri de publicații, cu formate diferite de layout, publicate în orice limbă, folosind diverse fonturi. docWorks se scalează cu ușurință între proiecte de la câteva mii la milioane de pagini.

Diverse formate de fișiere

Sunt acceptate diverse formate de import, export și metadata. Formatele de import sunt TIF, JPG, JP2, GIF, PNG, BMP și PDF. Ca și output, obiectele digitale sunt descrise cu ajutorul formatelor METS (incluzând atât descrierea fizică cât și cea logică a documentului) și ALTO XML, prin fișiere imagine, IIIF, PDF, PDF/A, formate XML personalizate (text complet, altele), RTF și EPUB. Metadata este encodată folosind diverse standarde cum sunt MIX, MARC21, MODS, DC.

Suport premium

Cu peste 40 de ani de succes în implementarea proiectelor de digitizare de mari dimensiuni pentru biblioteci și furnizori de servicii renumiți, precum British Library și Digital Divide Data (DDD), echipa CCS oferă servicii de primă clasă și asistență profesională.

Datorită conversiei inteligente și precise cu docWorks, veți produce obiecte digitale cu conținut ridicat de informație pentru a le stoca în arhiva dvs., pe termen lung, cu opțiuni de căutare avansate.

1. Import

După importul imaginilor (scanate după original sau microfilm) acestea sunt supuse procesului de decupare (“cropping”) și îndreptare pagină (“deskew”).

2. Analiză layout/Verificare segmentare

Aceasta este urmată de segmentarea și verificarea segmentării/clasificării, adică identificarea componentelor unei pagini, cum ar fi titluri de articole, fotografii, paragrafe, subtitluri.

3. Analiză structurală

Analiza structurală include identificarea componentelor logice la nivelul întregii publicații, cum ar fi cuprins, articole, capitole, appendix-uri, etc.

4. Recunoaștere text (OCR)

Recunoașterea textului (OCR) și eventuala corecție a acestuia are loc în acest pas, apoi metadata descriptivă se poate genera pe baza textului și a altor informații suplimentare.

5. Export

În ultima etapă, datele sunt exportate în format standard ca METS/ALTO, imagini și alte derivative, și sunt disponibile pentru utilizare ulterioară.

docWorks este folosit de clienți inovatori, de renume, de pe tot globul și este software-ul ales de mulți furnizori de servicii. Până în prezent, aproximativ 200 de milioane de pagini de documente au fost procesate cu succes, cu docWorks, inclusiv colecții din 15 biblioteci naționale.