{"id":7144,"date":"2024-01-31T13:13:51","date_gmt":"2024-01-31T12:13:51","guid":{"rendered":"https:\/\/content-conversion.com\/layout-analysis-benchmark\/"},"modified":"2024-01-31T16:46:44","modified_gmt":"2024-01-31T15:46:44","slug":"layout-analysis-benchmark","status":"publish","type":"page","link":"https:\/\/content-conversion.com\/de\/layout-analysis-benchmark\/","title":{"rendered":"Layout Analysis Benchmark"},"content":{"rendered":"<p>[et_pb_section fb_built=&#8220;1&#8243; admin_label=&#8220;section&#8220; _builder_version=&#8220;3.22&#8243;][et_pb_row _builder_version=&#8220;4.4.1&#8243;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;3.25&#8243; custom_padding=&#8220;|||&#8220; custom_padding__hover=&#8220;|||&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; header_font=&#8220;Open Sans Condensed Light local|300|||||||&#8220; header_text_color=&#8220;#666666&#8243; header_font_size=&#8220;70px&#8220; header_letter_spacing=&#8220;1px&#8220; max_width=&#8220;100%&#8220; animation_style=&#8220;slide&#8220; animation_direction=&#8220;left&#8220; header_font_tablet=&#8220;&#8220; header_font_phone=&#8220;||||||||&#8220; header_font_last_edited=&#8220;on|phone&#8220; header_font_size_phone=&#8220;50px&#8220; locked=&#8220;off&#8220;]<\/p>\n<h1 class=\"wp-block-heading\" style=\"text-align: center;\"><span style=\"color: #000000;\">Layout Analysis<\/span><\/h1>\n<h1 class=\"wp-block-heading\" style=\"text-align: center;\">Bechmark<\/h1>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][\/et_pb_section][et_pb_section fb_built=&#8220;1&#8243; _builder_version=&#8220;4.4.2&#8243; background_color=&#8220;#919191&#8243; background_enable_image=&#8220;off&#8220; parallax=&#8220;on&#8220; min_height=&#8220;194px&#8220; custom_margin=&#8220;||-44px|||&#8220; custom_padding=&#8220;15px||0px||false|false&#8220; animation_style=&#8220;fade&#8220; animation_direction=&#8220;right&#8220; background_last_edited=&#8220;off|desktop&#8220; background_enable_color_phone=&#8220;off&#8220; background_blend_phone=&#8220;normal&#8220; border_color_top=&#8220;#1e69ae&#8220; border_color_bottom=&#8220;#1e69ae&#8220; locked=&#8220;off&#8220;][et_pb_row _builder_version=&#8220;4.4.1&#8243;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;3.25&#8243; custom_padding=&#8220;|||&#8220; custom_padding__hover=&#8220;|||&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; text_font=&#8220;Open Sans Condensed||||||||&#8220; text_text_color=&#8220;#ffffff&#8220; text_font_size=&#8220;26px&#8220; text_letter_spacing=&#8220;1px&#8220; text_line_height=&#8220;1.4em&#8220; text_orientation=&#8220;center&#8220; max_width=&#8220;750px&#8220; module_alignment=&#8220;center&#8220; custom_padding=&#8220;16px||0px|||&#8220; animation_style=&#8220;slide&#8220; animation_direction=&#8220;right&#8220; min_height=&#8220;196.6px&#8220;]<\/p>\n<p>docWizz 8.1 erzielt wesentliche Verbesserungen bei der Layoutanalyse von Newpapers. Die Erkennungsrate von Schlagzeilen wird massiv erh\u00f6ht, w\u00e4hrend die falsch-positiven und falsch-negativen Ergebnisse erheblich reduziert werden.<\/p>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][\/et_pb_section][et_pb_section fb_built=&#8220;1&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220; min_height=&#8220;477.8px&#8220;][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;]<\/p>\n<h2 style=\"text-align: left;\"><span>Einleitung<\/span><\/h2>\n<p><span>Seit mehr als 20 Jahren bietet CCS im Rahmen seiner Software docWizz\u00ae die automatische Layoutanalyse von Zeitungen an. Urspr\u00fcnglich war unsere Layoutanalyse als komplexe Bildverarbeitung konzipiert, die ein umfangreiches Regelwerk auf Bildebene und auf die Ergebnisse der Optical Character Recognition (OCR) anwendet.<\/span><\/p>\n<p><span>Im Jahr 2019 haben wir ein KI-System (Convolutional Neural Network, CNN) integriert, um unsere Regel-Engine mit zus\u00e4tzlichen Informationen zu versorgen, wodurch wir die Komplexit\u00e4t der Regeln reduzieren und ihre Robustheit gegen\u00fcber Layoutschwankungen verbessern k\u00f6nnen.<\/span><\/p>\n<p><span>Vor kurzem haben wir das KI-System durch ein Detectron2-basiertes Netzwerk ersetzt. Dies erm\u00f6glichte es uns, die Bildverarbeitung und die Regel-Engine durch ein generisches Nachbearbeitungsmodul zu ersetzen, das nicht mehr zeitschriftsspezifisch ist. Die Robustheit wird nun nur noch durch die Trainingsdaten gesteuert.<\/span><\/p>\n<p><span>Experimente mit Transformer-Netzwerken zeigten bisher das gleiche Potenzial, jedoch mit viel h\u00f6herem Rechenaufwand.<\/span><\/p>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220; custom_padding=&#8220;||2px|||&#8220;]<\/p>\n<h2 style=\"text-align: left;\"><span>Training Data<\/span><\/h2>\n<p><span>Aufgrund vertraglicher Vereinbarungen mit einigen unserer Kunden sind wir berechtigt, Korrekturen zu nutzen, die w\u00e4hrend<\/span> der<span> Manuelle Qualit\u00e4tssicherung gemacht werden. Wir wenden einen weitgehend manuellen Harmonisierungsprozess auf die erhobenen Daten an, da die Qualit\u00e4tsstandards in Projekten in der Regel unter den Anforderungen an Trainingsdaten liegen. Dar\u00fcber hinaus variieren die Spezifikationen je nach Kunde und Projekt. Bisher haben wir einen Bestand von 175.000 Seiten mit nahezu perfekter Layoutanalyse auf der Grundlage unserer harmonisierten Spezifikation erstellt. Wir unterscheiden 10 verschiedene Arten von Zonen: Textblock, Illustration, Tabelle, \u00dcberschrift, Anzeige, Nachruf, Bildunterschrift, Lauftitel, Autor und Seitenzahl. <\/span><\/p>\n<p>In dieser Fallstudie konzentrieren wir uns auf die Erkennung von Artikel\u00fcberschriften.<\/p>\n<h2 style=\"text-align: left;\"><\/h2>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220; custom_padding=&#8220;||2px|||&#8220;]<\/p>\n<h2 style=\"text-align: left;\"><span>\u00dcberschriften<\/span><\/h2>\n<p><span>Aus technischer Sicht sind \u00dcberschriften die wichtigsten Zonen in einer Zeitung, da sie den Weg f\u00fcr die anschlie\u00dfende Artikelsegmentierung ebnen. \u00dcberschriften sind auch entscheidend f\u00fcr die Unterst\u00fctzung einer robusten Auffindbarkeit auf der Plattform mit verbesserter Benutzererfahrung durch Indizierung auf Artikelebene. Daher hat ihre automatische Erkennung einen starken Einfluss auf die Produktivit\u00e4t. <\/span><\/p>\n<h2 style=\"text-align: left;\"><\/h2>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220; custom_padding=&#8220;||2px|||&#8220;]<\/p>\n<h2 style=\"text-align: left;\"><span>Auswertung<\/span><\/h2>\n<p><span>F\u00fcr die Evaluierung haben wir drei Versionen unserer propriet\u00e4ren Software verglichen. Es gab keine 3rd-Party-Software, die eine solche Analyse liefern kann.<\/span><\/p>\n<p><strong><span>docWizz 7.3, <\/span><\/strong><span>unser letztes Release ohne KI-basierte Layoutanalyse. <\/span> <\/p>\n<p><strong><span>docWizz 8.0,<\/span><\/strong><span> unser letztes Release mit CNN-artiger KI-Layout-Analyse.<\/span><\/p>\n<p><strong>docWizz 8.1<\/strong> , unser j\u00fcngstes Release, das erste mit Transformer-basierter Layout-Analyse.<\/p>\n<h2 style=\"text-align: left;\"><\/h2>\n<h2 style=\"text-align: left;\"><\/h2>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220; custom_padding=&#8220;||2px|||&#8220;]<\/p>\n<h2 style=\"text-align: left;\"><span>Ground Truth und Messung<\/span><\/h2>\n<p>Unser Ground Truth-Set umfasst 175.000 Seiten Zeitungen aus dem 19., 20. und 21. Jahrhundert mit 3-10 Spalten. Die Sprachen sind meist lateinisches Alphabet mit einem kleinen Anteil an Kyrillisch, Griechisch und Malaiisch. Die Scans erfolgtren von Mikrofilm und Originalen<span>.<\/span><\/p>\n<p>Aus der Grundwahrheit haben wir eine relativ kleine Teilmenge f\u00fcr Tests abgesondert und eine gr\u00fcndliche manuelle Auswertung durchgef\u00fchrt. Wir verlassen uns derzeit auf die manuelle Auswertung, da sie es Entwicklern erm\u00f6glicht, direkt zu erkennen, wo das Training verbessert werden muss oder welche Art von Trainingsdaten hinzugef\u00fcgt werden sollten.<\/p>\n<p>Das Testset wurde nicht f\u00fcr das Training verwendet. Innerhalb des Testsatzes z\u00e4hlten wir die Gesamtzahl der korrekt erkannten \u00dcberschriften (ok), die Gesamtzahl der erkannten falsch positiven Schlagzeilen (extra) und die Schlagzeilen falsch negative Schlagzeilen, die in der Ground Truth vorhanden sind, aber nicht erkannt wurden (missed).<\/p>\n<h2 style=\"text-align: left;\"><\/h2>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220; custom_padding=&#8220;||2px|||&#8220;]<\/p>\n<h2 style=\"text-align: left;\"><span>Resultate<\/span><\/h2>\n<p>Insgesamt ist die Verbesserung, die mit dW 8.0 gegen\u00fcber dW 8.1 erzielt wurde, erheblich. Die Erkennungsrate wird massiv erh\u00f6ht, w\u00e4hrend die falsch-positiven und falsch-negativen Ergebnisse erheblich reduziert werden. Folglich erreicht der F1-Score 81 %. (F1-Ergebnis wird unten erkl\u00e4rt)<\/p>\n<p>Die Ergebnisse sindn nur bedingt auf andere Materialien zu extrapolieren, da der anf\u00e4ngliche Datensatz f\u00fcr Tests relativ klein ist.<br \/>Unsere Auswertung zeigt keine Korrelation des Ergebnisses mit Sprache, Epoche, Anzahl der Spalten oder Scanquelle.<\/p>\n<p>&nbsp;<\/p>\n<h2 style=\"text-align: left;\"><\/h2>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row column_structure=&#8220;1_2,1_2&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;1_2&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_image src=&#8220;https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-1.png&#8220; alt=&#8220;Performance von docWizz Layoutanalysis&#8220; title_text=&#8220;image-1&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][\/et_pb_image][\/et_pb_column][et_pb_column type=&#8220;1_2&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_image src=&#8220;https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-2.png&#8220; alt=&#8220;F1 Score der docWizz Layoutanalyse auf \u00dcberschriften&#8220; title_text=&#8220;image-2&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][\/et_pb_image][\/et_pb_column][\/et_pb_row][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;]<\/p>\n<h2 style=\"text-align: left;\"><span lang=\"EN-US\">Typische Fehler<o:p><\/o:p><\/span><\/h2>\n<p><span>Zus\u00e4tzliche \u00dcberschriftenfehler, die in den Vorg\u00e4ngerversionen dW 7 und dW 8.0 auftraten, waren oft kleine Zonen in Anzeigen oder der Titelabschnitt, der f\u00e4lschlicherweise als \u00dcberschrift identifiziert wurde. Mit dW 8.1 hat sich das Fehlerschema komplett ge\u00e4ndert. <\/span><span>Jetzt sehen wir, dass Anzeigen als Artikel behandelt werden und Fehler auftreten, die aus Inkonsistenzen in den Trainingsdaten resultieren. <\/span><span style=\"font-size: 16px;\">Trotz aller Bem\u00fchungen sind sich unsere Experten nicht einig \u00fcber die korrekte Zonierung der beiden Zeilen.<\/span><\/p>\n<p><span>In den Vorg\u00e4ngerversionen dW 7 und dW 8.0 fehlten viele kleine \u00dcberschriften und wurden f\u00e4lschlicherweise als Text klassifiziert. Diese Art von Fehler kann auch bei dW 8.1 beobachtet werden, jedoch mit viel geringerer Frequenz.<br \/><\/span><\/p>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row column_structure=&#8220;1_3,1_3,1_3&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220; custom_padding=&#8220;15px|||||&#8220;][et_pb_column type=&#8220;1_3&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;]<\/p>\n<p style=\"text-align: center;\"><div id=\"attachment_6888\" style=\"width: 310px\" class=\"wp-caption alignnone\"><a href=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-3.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-6888\" src=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-3-300x147.png\" width=\"300\" height=\"147\" alt=\"Werbung wird als Artikel behandelt\" class=\"wp-image-6886 size-medium\" style=\"display: block; margin-left: auto; margin-right: auto;\" srcset=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-3-300x147.png 300w, https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-3.png 329w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-6888\" class=\"wp-caption-text\">Werbung wird als Artikel behandelt<\/p><\/div>[\/et_pb_text][\/et_pb_column][et_pb_column type=&#8220;1_3&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;]<\/p>\n<p style=\"text-align: center;\"><div id=\"attachment_6892\" style=\"width: 310px\" class=\"wp-caption alignnone\"><a href=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-4.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-6892\" src=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-4-300x112.png\" width=\"300\" height=\"112\" alt=\"Ist die zweite Zeile eine \u00dcberschrift oder ein Text?\" class=\"wp-image-6890 size-medium\" style=\"display: block; margin-left: auto; margin-right: auto;\" srcset=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-4-300x112.png 300w, https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-4.png 340w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-6892\" class=\"wp-caption-text\">Ist die zweite Zeile eine \u00dcberschrift oder ein Text?<\/p><\/div><\/p>\n<p>&nbsp;<\/p>\n<p>[\/et_pb_text][\/et_pb_column][et_pb_column type=&#8220;1_3&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;]<\/p>\n<p style=\"text-align: center;\"><div id=\"attachment_6896\" style=\"width: 310px\" class=\"wp-caption alignnone\"><a href=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-5.png\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-6896\" src=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-5-300x54.png\" width=\"300\" height=\"54\" alt=\"Verpasste \u00dcberschrift\" class=\"wp-image-6894 size-medium\" style=\"display: block; margin-left: auto; margin-right: auto;\" srcset=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-5-300x54.png 300w, https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-5.png 364w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-6896\" class=\"wp-caption-text\">Verpasset \u00dcberschrift<\/p><\/div><\/p>\n<p>&nbsp;<\/p>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;]<\/p>\n<p><span>Ein h\u00e4ufiges Problem von Fehlern ist, dass das trainierte Modell keine Kontextinformationen lernen kann. Wir f\u00fcttern die OCR-Ergebnisse w\u00e4hrend des Trainings nicht und die Bilder werden unter die Lesbarkeit herunterskaliert. <\/span><\/p>\n<p><span>Wir kommen zu dem Schluss, dass das Fehlerprofil von dW 8.1 insgesamt dem von menschlichen Bedienern sehr \u00e4hnlich ist.<\/span><\/p>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;]<\/p>\n<h2 style=\"text-align: left;\"><span>Ausblick<\/span><\/h2>\n<p><span>Diese Evaluierung wird mit weiteren Software-Updates aktualisiert und neu ver\u00f6ffentlicht und umfasst Evaluierungsl\u00f6sungen von Drittanbietern. <\/span><\/p>\n<p><span>Die Verwendung der automatischen Auswertung erm\u00f6glicht eine Vergr\u00f6\u00dferung des f\u00fcr die Tests verwendeten Datensatzes und liefert Ergebnisse, die statistisch zuverl\u00e4ssiger sind.<\/span><\/p>\n<p><span>Aufgrund des menschen\u00e4hnlichen Fehlerprofils planen wir eine Evaluation, um die vollautomatisches Zoning mit dem menschlichen Zoning im Rahmen des &#8222;National Digital Newspaper Program&#8220; (NDNP) der Library of Congress zu vergleichen. <\/span><\/p>\n<p><span>Wir glauben, dass die Qualit\u00e4t der automatisierten Artikelsegmentierung ein Niveau erreicht hat, das der manuellen Korrektur nahe kommt.<\/span><\/p>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][\/et_pb_section][et_pb_section fb_built=&#8220;1&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_row _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_column type=&#8220;4_4&#8243; _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;][et_pb_text _builder_version=&#8220;4.9.4&#8243; _module_preset=&#8220;default&#8220;]<\/p>\n<h1 style=\"text-align: center;\"><span style=\"color: #000000;\">F1 score<\/span><\/h1>\n<p><span>Wir verwenden den h\u00e4ufig verwendeten F1-Score, um die Leistung zu messen. Um die Partituren zu verstehen, verwenden wir eine grafische Darstellung. Der blaue Teil des Quadrats (links) enth\u00e4lt alle Zonen, die wirklich \u00dcberschriften sind, der wei\u00dfe Teil (rechts) enth\u00e4lt alle anderen Zonen. Der Kreis (rot) enth\u00e4lt alle Zonen, die von docWizz als \u00dcberschriften gekennzeichnet sind. <\/span><\/p>\n<p><a href=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-6.png\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-6.png\" width=\"285\" height=\"269\" alt=\"\" class=\"wp-image-6898 alignnone size-full\" style=\"display: block; margin-left: auto; margin-right: auto;\"><\/a><\/p>\n<p><span>Der F1-Score ber\u00fccksichtigt zun\u00e4chst die Begriffe &#8222;Pr\u00e4zision&#8220; und &#8222;Recall&#8220;. Pr\u00e4zision ist die Antwort auf die Frage &#8222;Wie viel vom Ergebnis ist wahr?&#8220; <\/span><\/p>\n<p><a href=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-7.png\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-7.png\" width=\"246\" height=\"68\" alt=\"\" class=\"wp-image-6902 alignnone size-full\"><\/a><\/p>\n<p><span>Erinnern ist die Antwort auf die Frage: &#8222;Wie viel Wahrheit steckt im Ergebnis?&#8220;<\/span><\/p>\n<p><span><a href=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-10.png\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-10.png\" width=\"270\" height=\"81\" alt=\"\" class=\"wp-image-6914 alignnone size-full\"><\/a>  <\/span><\/p>\n<p><span>F1 ist dann wie folgt definiert:<\/span><\/p>\n<p><a href=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-9.png\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-9-300x41.png\" width=\"300\" height=\"41\" alt=\"\" class=\"wp-image-6910 alignnone size-medium\" srcset=\"https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-9-300x41.png 300w, https:\/\/content-conversion.com\/wp-content\/uploads\/2024\/01\/image-9.png 373w\" sizes=\"auto, (max-width: 300px) 100vw, 300px\" \/><\/a><\/p>\n<p><span>Es ist erw\u00e4hnenswert, dass der F1-Score die wirklich negativen Ergebnisse ignoriert. F\u00fcr ein Problem vom Typ &#8222;Nadel im Heuhaufen&#8220; scheint der F1-Score nicht angemessen zu sein. F\u00fcr unsere Layout-Analyse glauben wir jedoch, dass der F1-Score einen sehr guten Hinweis auf die Leistung gibt.<\/span><\/p>\n<p>[\/et_pb_text][\/et_pb_column][\/et_pb_row][\/et_pb_section]<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Layout Analysis BechmarkdocWizz 8.1 erzielt wesentliche Verbesserungen bei der Layoutanalyse von Newpapers. Die Erkennungsrate von Schlagzeilen wird massiv erh\u00f6ht, w\u00e4hrend die falsch-positiven und falsch-negativen Ergebnisse erheblich reduziert werden.Einleitung Seit mehr als 20 Jahren bietet CCS im Rahmen seiner Software docWizz\u00ae die automatische Layoutanalyse von Zeitungen an. Urspr\u00fcnglich war unsere Layoutanalyse als komplexe Bildverarbeitung konzipiert, die [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":6884,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_et_pb_use_builder":"on","_et_pb_old_content":"","_et_gb_content_width":"","footnotes":""},"class_list":["post-7144","page","type-page","status-publish","has-post-thumbnail","hentry"],"_links":{"self":[{"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/pages\/7144","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/comments?post=7144"}],"version-history":[{"count":11,"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/pages\/7144\/revisions"}],"predecessor-version":[{"id":7302,"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/pages\/7144\/revisions\/7302"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/media\/6884"}],"wp:attachment":[{"href":"https:\/\/content-conversion.com\/de\/wp-json\/wp\/v2\/media?parent=7144"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}