Titel Signatur PID Sammlung Typ Sprache Review Qualität S.
1 / 1
Faksimile
Transkription
Lade Bild…

Research Vault

Methodische Grundlagen, Datenanalysen und Entscheidungen des SZD-HTR-Projekts.

SZD-HTR Viewer

Qualitätskontrolle und Showcase für VLM-basierte Transkriptionen aus dem Stefan-Zweig-Nachlass (Literaturarchiv Salzburg).

Katalog

Viewer

Tastatur

Edit-Modus (nur lokal)

Der Edit-Modus ist nur verfügbar, wenn der lokale Server läuft: python pipeline/serve.py

Review & Ground Truth (nur lokal)

5-stufiges Vertrauensmodell für jedes Objekt:

TierBadgeButtonBedeutung
0Verifiziert ★ GT Verify Höchste Stufe: Jede Seite wurde zeichengenau gegen das Faksimile geprüft. Zählt als wissenschaftliche Referenz (Ground Truth) für CER-Berechnung.
1Geprüft ✓ Approve Expert:in hat die Transkription geprüft und für korrekt befunden.
2Auto-geprüft Automatischer Bild-Text-Vergleich durch Claude Code Agent (maschinell).
3aUngeprüft Keine Auffälligkeiten in den Qualitätssignalen, aber noch nicht geprüft.
3bReview nötig Qualitätssignale haben Probleme erkannt (z.B. Truncation, viele Unsicherheitsstellen).

GT-Review-Workflow: Objekt öffnen → jede Seite gegen Faksimile lesen → bei Fehlern: Edit → korrigieren → Speichern → wenn alle Seiten geprüft: ★ GT Verify.

Diff-Ansicht (Cross-Model)

Vergleicht zwei Transkriptionen desselben Dokuments von verschiedenen VLMs (z.B. Gemini vs. Claude). Wort-basierter Diff mit Farbkodierung:

Vergleicht zwei unabhängige VLM-Transkriptionen desselben Dokuments (z.B. Gemini Flash Lite vs. Gemini Flash). Verfügbar für Objekte mit Modellkonsensus-Verifikation. CER und Übereinstimmungsrate werden pro Seite und gesamt angezeigt.

Prompt-Gruppen

KürzelGruppeBeschreibung
AHandschriftHandschriftliche Dokumente, Tagebücher, Manuskripte
BTyposkriptMaschinenschrift, Durchschläge
CFormularAmtsformulare, Urkunden, Bescheide
DKurztextEintrittskarten, Notizen, Karten
ETabellarischRegister, Kalender, Kontorbücher
FKorrekturfahneDruckfahnen, Korrekturbogen
GKonvolutGemischte Materialien in einem Objekt
HZeitungsausschnittZeitungsartikel, Ausschnitte
IKorrespondenzBriefe, Postkarten

Verifikation (Qualitätsspalte)

Die Qualitätsbewertung besteht aus mehreren Signalen unterschiedlicher Stärke:

SignalStärkeBeschreibung
Unsicherheits-Marker Stark Zählung von [?] (unsichere Lesung) und [...] (unleserlich) im Transkriptionstext. Direkte Evidenz aus dem Output.
VLM-Selbsteinschätzung Schwach Das Modell bewertet seine eigene Transkription als high/medium/low. LLMs überschätzen systematisch ihre Leistung — dieses Signal ist ein Indikator, kein Beweis.
Textstatistik Mittel Zeichenzahl, Leerseiten, Zeichen pro Seite. Plausibilitäts-Check: ein 135-Seiten-Register mit nur 200 Zeichen wäre verdächtig.

Statistiken

Transkriptionsfortschritt und Qualitätsmetriken.