Hallo allerseits,

neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung und OCR.

Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich es produktiv einsetzen konnte.

Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dann ein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.

Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist bei Wörterbüchern zu beachten? Wie funktioniert das OCR Training?

Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbar sind und OCR bereits gut im Scanner erledigen?

Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrung berichten? Wollen wir daraus ein TroLUG Thema machen?

Beste Grüße,

--
Jonas Stein

Antwort per Email an