Mein Workflow wäre wie folgt:
1. Dokument scannen mit Dokumentenbezeichnung z.B Jahresabschluss, Gehalt, Anmeldung,.. -> Titel
Evtl auch Bezeichnung und Dokumentenrubrik -> Subject, titel
2. Ocr des Dokuments
* Inhalt durchsuchen nach Schlagwörtern besser RegEx für Dokumentenrubrik z.B...