synOCR synOCR nach Mac Vorschau Bearbeitung nur noch Fragezeichen statt Buchstaben im Text

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Status
Für weitere Antworten geschlossen.

tufkabb

Benutzer
Registriert
28. März 2010
Beiträge
383
Reaktionspunkte
6
Punkte
24
Hallo, ich nutze synOCR schon lange und gerne. Von einem HP Multifunktionsdrucker als PDF gescannt landen alle PDFs auf der DS und werden dort mit synOCR bearbeitet. Klappt prima soweit. Die Dateien werden dann meist mit der MacOS Vorschau weiterverarbeitet.

Allerdings ist mir immer mal wieder aufgefallen, dass manche PDFs die direkt nach synOCR noch einwandfrei waren, irgendwann nur noch Fragezeichen statt Buchstaben enthielten. Also wenn man dann den Text aus der PDF rauskopierte waren dort statt Buchstaben nur noch Fragezeichen. Auch die Textsuche in diesen PDF Dateien funktioniert dann nicht mehr.

Es hat eine Weile gedauert bis ich die Ursache fand. Die PDF ist anfangs nach synOCR noch in Ordnung. Wenn man aber diese PDF mit der Mac Vorschau öffnet, und zB. bei mehrseitigen Dokumenten eine Seite rauslöscht oder hinzufügt, die PDF anschliessend neu abspeichert, dann ist der Textlayer der PDF kaputt und enthält nur noch Fragezeichen. Das ist hier jedesmal reproduzierbar.

Nach etwas rumprobieren und Doku lesen, habe ich eine Lösung für mich gefunden damit das nicht mehr passiert. synOCR nutzt ja "unter der Haube" OCRmyPDF. In der Doku von OCRmyPDF wird erwähnt, dass in dem Paket zwei PDF Renderer enthalten sind ("sandwich" und "hocr"). Als Standard Renderer wird die neue Version "sandwich" verwendet. Und genau damit erzeugte PDF Dateien verursachen bei mir das oben erwähnte Problem. Nachdem ich auf die ältere Version des PDF Renderers ("hocr") umgestellt hatte war das Problem verschwunden (siehe angehängten Screenshot).

Vielleicht hilfts ja dem einen oder anderen Mac User.
 

Anhänge

  • synocr.png
    synocr.png
    308,3 KB · Aufrufe: 18
Zuletzt bearbeitet:
  • Like
Reaktionen: geimist
Sehr interessant. Das konnte ich noch nicht beobachten, oder war mir noch nicht aufgefallen. Das solltest du mal auch jbarlow83, dem Entwickler von ocrmypdf, mitteilen.

PS: ich konnte es hier auch nachstellen. Vielen Dank für den Hinweis.
 
Man kann übrigens bereits defekte PDFs dadurch reparieren, wenn man sie mit den Einstellungen aus dem obigen Screenshot erneut durch synOCR laufen lässt.
 
Hallo Stephan, die --redo-ocr Option hatte ich noch gar nicht verwendet.
Ich habe standardmässig die -f Option (OCR erzwingen) aktiv, deshalb klappte das neue OCR bei mir auch ohne --redo-ocr
Danke für den Tipp.
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat