Layout Analysis

Bechmark

docWizz 8.1 erzielt wesentliche Verbesserungen bei der Layoutanalyse von Newpapers. Die Erkennungsrate von Schlagzeilen wird massiv erhöht, während die falsch-positiven und falsch-negativen Ergebnisse erheblich reduziert werden.

Einleitung

Seit mehr als 20 Jahren bietet CCS im Rahmen seiner Software docWizz® die automatische Layoutanalyse von Zeitungen an. Ursprünglich war unsere Layoutanalyse als komplexe Bildverarbeitung konzipiert, die ein umfangreiches Regelwerk auf Bildebene und auf die Ergebnisse der Optical Character Recognition (OCR) anwendet.

Im Jahr 2019 haben wir ein KI-System (Convolutional Neural Network, CNN) integriert, um unsere Regel-Engine mit zusätzlichen Informationen zu versorgen, wodurch wir die Komplexität der Regeln reduzieren und ihre Robustheit gegenüber Layoutschwankungen verbessern können.

Vor kurzem haben wir das KI-System durch ein Detectron2-basiertes Netzwerk ersetzt. Dies ermöglichte es uns, die Bildverarbeitung und die Regel-Engine durch ein generisches Nachbearbeitungsmodul zu ersetzen, das nicht mehr zeitschriftsspezifisch ist. Die Robustheit wird nun nur noch durch die Trainingsdaten gesteuert.

Experimente mit Transformer-Netzwerken zeigten bisher das gleiche Potenzial, jedoch mit viel höherem Rechenaufwand.

Training Data

Aufgrund vertraglicher Vereinbarungen mit einigen unserer Kunden sind wir berechtigt, Korrekturen zu nutzen, die während der Manuelle Qualitätssicherung gemacht werden. Wir wenden einen weitgehend manuellen Harmonisierungsprozess auf die erhobenen Daten an, da die Qualitätsstandards in Projekten in der Regel unter den Anforderungen an Trainingsdaten liegen. Darüber hinaus variieren die Spezifikationen je nach Kunde und Projekt. Bisher haben wir einen Bestand von 175.000 Seiten mit nahezu perfekter Layoutanalyse auf der Grundlage unserer harmonisierten Spezifikation erstellt. Wir unterscheiden 10 verschiedene Arten von Zonen: Textblock, Illustration, Tabelle, Überschrift, Anzeige, Nachruf, Bildunterschrift, Lauftitel, Autor und Seitenzahl.

In dieser Fallstudie konzentrieren wir uns auf die Erkennung von Artikelüberschriften.

Überschriften

Aus technischer Sicht sind Überschriften die wichtigsten Zonen in einer Zeitung, da sie den Weg für die anschließende Artikelsegmentierung ebnen. Überschriften sind auch entscheidend für die Unterstützung einer robusten Auffindbarkeit auf der Plattform mit verbesserter Benutzererfahrung durch Indizierung auf Artikelebene. Daher hat ihre automatische Erkennung einen starken Einfluss auf die Produktivität.

Auswertung

Für die Evaluierung haben wir drei Versionen unserer proprietären Software verglichen. Es gab keine 3rd-Party-Software, die eine solche Analyse liefern kann.

docWizz 7.3, unser letztes Release ohne KI-basierte Layoutanalyse.

docWizz 8.0, unser letztes Release mit CNN-artiger KI-Layout-Analyse.

docWizz 8.1 , unser jüngstes Release, das erste mit Transformer-basierter Layout-Analyse.

Ground Truth und Messung

Unser Ground Truth-Set umfasst 175.000 Seiten Zeitungen aus dem 19., 20. und 21. Jahrhundert mit 3-10 Spalten. Die Sprachen sind meist lateinisches Alphabet mit einem kleinen Anteil an Kyrillisch, Griechisch und Malaiisch. Die Scans erfolgtren von Mikrofilm und Originalen.

Aus der Grundwahrheit haben wir eine relativ kleine Teilmenge für Tests abgesondert und eine gründliche manuelle Auswertung durchgeführt. Wir verlassen uns derzeit auf die manuelle Auswertung, da sie es Entwicklern ermöglicht, direkt zu erkennen, wo das Training verbessert werden muss oder welche Art von Trainingsdaten hinzugefügt werden sollten.

Das Testset wurde nicht für das Training verwendet. Innerhalb des Testsatzes zählten wir die Gesamtzahl der korrekt erkannten Überschriften (ok), die Gesamtzahl der erkannten falsch positiven Schlagzeilen (extra) und die Schlagzeilen falsch negative Schlagzeilen, die in der Ground Truth vorhanden sind, aber nicht erkannt wurden (missed).

Resultate

Insgesamt ist die Verbesserung, die mit dW 8.0 gegenüber dW 8.1 erzielt wurde, erheblich. Die Erkennungsrate wird massiv erhöht, während die falsch-positiven und falsch-negativen Ergebnisse erheblich reduziert werden. Folglich erreicht der F1-Score 81 %. (F1-Ergebnis wird unten erklärt)

Die Ergebnisse sindn nur bedingt auf andere Materialien zu extrapolieren, da der anfängliche Datensatz für Tests relativ klein ist.
Unsere Auswertung zeigt keine Korrelation des Ergebnisses mit Sprache, Epoche, Anzahl der Spalten oder Scanquelle.

 

Performance von docWizz Layoutanalysis
F1 Score der docWizz Layoutanalyse auf Überschriften

Typische Fehler

Zusätzliche Überschriftenfehler, die in den Vorgängerversionen dW 7 und dW 8.0 auftraten, waren oft kleine Zonen in Anzeigen oder der Titelabschnitt, der fälschlicherweise als Überschrift identifiziert wurde. Mit dW 8.1 hat sich das Fehlerschema komplett geändert. Jetzt sehen wir, dass Anzeigen als Artikel behandelt werden und Fehler auftreten, die aus Inkonsistenzen in den Trainingsdaten resultieren. Trotz aller Bemühungen sind sich unsere Experten nicht einig über die korrekte Zonierung der beiden Zeilen.

In den Vorgängerversionen dW 7 und dW 8.0 fehlten viele kleine Überschriften und wurden fälschlicherweise als Text klassifiziert. Diese Art von Fehler kann auch bei dW 8.1 beobachtet werden, jedoch mit viel geringerer Frequenz.

Werbung wird als Artikel behandelt

Werbung wird als Artikel behandelt

Ist die zweite Zeile eine Überschrift oder ein Text?

Ist die zweite Zeile eine Überschrift oder ein Text?

 

Verpasste Überschrift

Verpasset Überschrift

 

Ein häufiges Problem von Fehlern ist, dass das trainierte Modell keine Kontextinformationen lernen kann. Wir füttern die OCR-Ergebnisse während des Trainings nicht und die Bilder werden unter die Lesbarkeit herunterskaliert.

Wir kommen zu dem Schluss, dass das Fehlerprofil von dW 8.1 insgesamt dem von menschlichen Bedienern sehr ähnlich ist.

Ausblick

Diese Evaluierung wird mit weiteren Software-Updates aktualisiert und neu veröffentlicht und umfasst Evaluierungslösungen von Drittanbietern.

Die Verwendung der automatischen Auswertung ermöglicht eine Vergrößerung des für die Tests verwendeten Datensatzes und liefert Ergebnisse, die statistisch zuverlässiger sind.

Aufgrund des menschenähnlichen Fehlerprofils planen wir eine Evaluation, um die vollautomatisches Zoning mit dem menschlichen Zoning im Rahmen des „National Digital Newspaper Program“ (NDNP) der Library of Congress zu vergleichen.

Wir glauben, dass die Qualität der automatisierten Artikelsegmentierung ein Niveau erreicht hat, das der manuellen Korrektur nahe kommt.

F1 score

Wir verwenden den häufig verwendeten F1-Score, um die Leistung zu messen. Um die Partituren zu verstehen, verwenden wir eine grafische Darstellung. Der blaue Teil des Quadrats (links) enthält alle Zonen, die wirklich Überschriften sind, der weiße Teil (rechts) enthält alle anderen Zonen. Der Kreis (rot) enthält alle Zonen, die von docWizz als Überschriften gekennzeichnet sind.

Der F1-Score berücksichtigt zunächst die Begriffe „Präzision“ und „Recall“. Präzision ist die Antwort auf die Frage „Wie viel vom Ergebnis ist wahr?“

Erinnern ist die Antwort auf die Frage: „Wie viel Wahrheit steckt im Ergebnis?“

F1 ist dann wie folgt definiert:

Es ist erwähnenswert, dass der F1-Score die wirklich negativen Ergebnisse ignoriert. Für ein Problem vom Typ „Nadel im Heuhaufen“ scheint der F1-Score nicht angemessen zu sein. Für unsere Layout-Analyse glauben wir jedoch, dass der F1-Score einen sehr guten Hinweis auf die Leistung gibt.