Hallo allerseits,
neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und
OCR.
Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es
produktiv einsetzen konnte.
Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann
ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.
Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist bei
Wörterbüchern zu beachten? Wie funktioniert das OCR Training?
Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar
sind und OCR bereits gut im Scanner erledigen?
Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung
berichten? Wollen wir daraus ein TroLUG Thema machen?
Beste Grüße,
--
Jonas Stein