Erfahrungsaustausch Texterkennung/OCR - Interesse?

Hallo allerseits,

neulich ging es in der TroLUG ganz kurz auch um Dokumentenverwaltung undOCR.

Ich bin bei Tesseract leider nie so tief eingestiegen, dass ich esproduktiv einsetzen konnte.

Mein Traum ist ein PDF ohne Textlayer durch ein Script zu jagen und dannein durchsuchbares PDF mit wenigen Erkennungsfehlern zu erhalten.

Wie kann man Texte zügig einscannen und mit OCR speichern? Was ist beiWörterbüchern zu beachten? Wie funktioniert das OCR Training?

Kennt jemand gute Dokumentenscanner, die unter Linux gut ansprechbarsind und OCR bereits gut im Scanner erledigen?

Haben auch andere Interesse an dem Thema? Wer kann aus eigener Erfahrungberichten? Wollen wir daraus ein TroLUG Thema machen?


Beste Grüße,

--
Jonas Stein

Antwort per Email an