On Wed, Apr 15, 2009 at 01:43:19PM +0200, Jan-Benedict Glaw wrote: > > Beim Stichwort "OCR"... > ... > Was ich nun aber suche: Ist es möglich, den OCRten Text irgendwie in > die PDFs zu packen? Und optimalerweise so, daß der via der > Such-Funktionen in den PDF-Betrachtern dann auch den einzelnen Seiten > (also gescannten Bildern dieser) zugeordnet werden kann?
Ich habe es letztens gelesen ich meine im Linux-Magazin, finde es aber nicht auf den Webseiten (vielleicht finde ich die Zeitung nochmal - war nicht meine). Aber schau dir mal die "archivista-box" ( www.archivista.ch ) an. Die tun sowas unter Linux und man kanns dowloaden und anschauen. > > Ich *meine*, schonmal gescannte PDFs gesehen zu haben, bei denen man > vom gescannten Text quasi cut'n'paste machen konnte. Das würd' > (nur so könnte ich mir das erklären) nur gehen, wenn der entsprechende > OCR-Text dem jeweiligen Bild hinterlegt ist. Dazu muss das OCR-Programm Layouterkennung bieten, ist aber wohl auch möglich. > > MfG, JBG > Gruß Johannes -- Linux mailing list [email protected] subscribe/unsubscribe: http://lug-owl.de/mailman/listinfo/linux Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo
