SZD OCR/HTR Pipeline — Stefan Zweig Digital

SZD-HTR Viewer

Qualitätskontrolle und Showcase für VLM-basierte Transkriptionen aus dem Stefan-Zweig-Nachlass (Literaturarchiv Salzburg).

Katalog

Klick auf eine Zeile öffnet das Objekt im Viewer
Spaltenheader klicken zum Sortieren
Textsuche über Titel, Signatur und PID
Filter kombinierbar: Sammlung, Typ, Qualität, Review-Status

Viewer

Links: Faksimile von GAMS
Rechts: Transkription + Notes
Scrollrad: Zoom (zentriert auf Cursor)
Klicken + Ziehen: Bild verschieben
Touch: Pinch-Zoom + Wischen
Leerseiten am Anfang werden übersprungen (erste Content-Seite wird angezeigt)

Tastatur

← / → Seite blättern
+ / − Zoom
0 Zoom zurücksetzen
R 90° drehen
Esc zurück zum Katalog

Edit-Modus (nur lokal)

Der Edit-Modus ist nur verfügbar, wenn der lokale Server läuft: python pipeline/serve.py

Edit — Transkription direkt bearbeiten
Speichern — schreibt direkt ins Pipeline-JSON (Ctrl+S). Der Originaltext wird in edit_history aufbewahrt.
Seite — aktuelle Seite auf Original zurücksetzen
Alles verwerfen — alle Änderungen am Objekt löschen
JSON — Korrekturen als Datei exportieren

Review & Ground Truth (nur lokal)

5-stufiges Vertrauensmodell für jedes Objekt:

Tier	Badge	Button	Bedeutung
0	Verifiziert	★ GT Verify	Höchste Stufe: Jede Seite wurde zeichengenau gegen das Faksimile geprüft. Zählt als wissenschaftliche Referenz (Ground Truth) für CER-Berechnung.
1	Geprüft	✓ Approve	Expert:in hat die Transkription geprüft und für korrekt befunden.
2	Auto-geprüft	—	Automatischer Bild-Text-Vergleich durch Claude Code Agent (maschinell).
3a	Ungeprüft	—	Keine Auffälligkeiten in den Qualitätssignalen, aber noch nicht geprüft.
3b	Review nötig	—	Qualitätssignale haben Probleme erkannt (z.B. Truncation, viele Unsicherheitsstellen).

GT-Review-Workflow: Objekt öffnen → jede Seite gegen Faksimile lesen → bei Fehlern: Edit → korrigieren → Speichern → wenn alle Seiten geprüft: ★ GT Verify.

Diff-Ansicht (Cross-Model)

Vergleicht zwei Transkriptionen desselben Dokuments von verschiedenen VLMs (z.B. Gemini vs. Claude). Wort-basierter Diff mit Farbkodierung:

Rot — nur in Transkription A
Blau — nur in Transkription B
Schwarz — Übereinstimmung

Vergleicht zwei unabhängige VLM-Transkriptionen desselben Dokuments (z.B. Gemini Flash Lite vs. Gemini Flash). Verfügbar für Objekte mit Modellkonsensus-Verifikation. CER und Übereinstimmungsrate werden pro Seite und gesamt angezeigt.

Prompt-Gruppen

Kürzel	Gruppe	Beschreibung
A	Handschrift	Handschriftliche Dokumente, Tagebücher, Manuskripte
B	Typoskript	Maschinenschrift, Durchschläge
C	Formular	Amtsformulare, Urkunden, Bescheide
D	Kurztext	Eintrittskarten, Notizen, Karten
E	Tabellarisch	Register, Kalender, Kontorbücher
F	Korrekturfahne	Druckfahnen, Korrekturbogen
G	Konvolut	Gemischte Materialien in einem Objekt
H	Zeitungsausschnitt	Zeitungsartikel, Ausschnitte
I	Korrespondenz	Briefe, Postkarten

Verifikation (Qualitätsspalte)

Die Qualitätsbewertung besteht aus mehreren Signalen unterschiedlicher Stärke:

Signal	Stärke	Beschreibung
Unsicherheits-Marker	Stark	Zählung von `[?]` (unsichere Lesung) und `[...]` (unleserlich) im Transkriptionstext. Direkte Evidenz aus dem Output.
VLM-Selbsteinschätzung	Schwach	Das Modell bewertet seine eigene Transkription als high/medium/low. LLMs überschätzen systematisch ihre Leistung — dieses Signal ist ein Indikator, kein Beweis.
Textstatistik	Mittel	Zeichenzahl, Leerseiten, Zeichen pro Seite. Plausibilitäts-Check: ein 135-Seiten-Register mit nur 200 Zeichen wäre verdächtig.

Research Vault