On Wed, 2009-04-08 20:35:18 +0200, Florian Lohoff <[email protected]> wrote:
> 
> S/W statt Graustufen -> OCR unmoeglich

Beim Stichwort "OCR"...

Seiten als TIFF zu scannen (bzw. dahin aufzubereiten) und diese TIFFs
exakt in ein PDF zu packen ist ja nicht sonderlich schwierig.

Die einzelnen TIFFs durch die OCR zu jagen ist ebenfalls recht
einfach, natürlich akzeptierend, daß öfters mal Fehler drin sind.


Was ich nun aber suche: Ist es möglich, den OCRten Text irgendwie in
die PDFs zu packen? Und optimalerweise so, daß der via der
Such-Funktionen in den PDF-Betrachtern dann auch den einzelnen Seiten
(also gescannten Bildern dieser) zugeordnet werden kann?

Ich *meine*, schonmal gescannte PDFs gesehen zu haben, bei denen man
vom gescannten Text quasi cut'n'paste machen konnte. Das würd'
(nur so könnte ich mir das erklären) nur gehen, wenn der entsprechende
OCR-Text dem jeweiligen Bild hinterlegt ist.  Mir kommts dabei nicht
darauf an, daß der Text absolut deckungsgleich ist. Mir würds schon
reichen, wenn ich so in etwa auf der richtigen Seite lande :)

MfG, JBG

-- 
      Jan-Benedict Glaw      [email protected]              +49-172-7608481
Signature of:         Alles wird gut! ...und heute wirds schon ein bißchen 
besser.
the second  :

Attachment: signature.asc
Description: Digital signature

--
Linux mailing list [email protected]
subscribe/unsubscribe: http://lug-owl.de/mailman/listinfo/linux
Hinweise zur Nutzung: http://www.lug-owl.de/Mailingliste/hints.epo

Antwort per Email an