On Thu, 2009-04-16 09:48:31 +0200, Florian Lohoff <[email protected]> wrote: > On Thu, Apr 16, 2009 at 09:18:09AM +0200, Jan-Benedict Glaw wrote: > > Ich hab' vor längerer Zeit schonmal damit herumprobiert. Ganz zufällig > > war das Ergebnis nicht. Aber so gut, wie einige Kommerzielle sein > > wollen, sind die Lösungen noch nicht... > > Tesseract ist die einzige OpenSource OCR Software die diesen Namen > verdient - Da sind zumindest einzelne Woerter und unter guten > bedingungen ganze Saetze zu erkennen. > > Von OmniPage ist das ganze aber lichtjahre entfernt ...
Diese ganzen Namen :) Tesseract ist wohl mal umbenannt worden.
Zwischendurch hab' ich dann was über `hocr' gelesen, um dann bei einem
OCR-System für hebräischen Text zu landen. (Später hab' ich dann
herausgefunden, daß das ein HTML-Dialekt ist, um OCR-Ergebnisse
Flächen auf einem Bild zuzuordnen...)
Bild+Text in einem PDF bekomm' ich mittlerweile an sich hin. Nur ist
der Text leider nicht an der passenden Stelle. Wenn ich den dann
markiere, hat der eine gefühlte Größe von 60..90pt, wobei normaler
Fließtext (~ 12pt) gescannt und OCRt worden ist.
MfG, JBG
--
Jan-Benedict Glaw [email protected] +49-172-7608481
Signature of: Don't believe in miracles: Rely on them!
the second :
signature.asc
Description: Digital signature
-- Linux mailing list [email protected] subscribe/unsubscribe: http://lug-owl.de/mailman/listinfo/linux Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
