[email protected] wrote: > Der Test deckt sich mit meinen Erfahrungen: > > "Übliches" PDF aus Text mit Bitmap-Bildern geht befriedigend bis gut > in LibreOffice Draw, bringt aber viel Arbeit ausser bei kleinen > Änderungen, da alles zeilenweise. > Yup. Denn leider braucht man die höheren Ebenen einer OCR-Software, um Layout zu erkennen (Mehrspaltensatz, Bildunterschriften, Tabellen etc.).
Es ist ja bald wieder Google Summer of Code, ich wäre bereit, ein entsprechendes Projekt bei LibreOffice als Mentor zu begleiten, welches tesseract, ocropus oder CuneiForm als Layout-Detektions-Backend anbindet - jetzt brauchen wir bloß noch einen fähigen Studenten. ;) Übrigens, bei der Gelegenheit habe ich unten bei den Verweisen einige nette GUI-Programme für $subject gefunden: http://de.wikipedia.org/wiki/CuneiForm Viele Grüße, -- Thorsten
signature.asc
Description: Digital signature
_______________________________________________ fsfe-de mailing list [email protected] https://mail.fsfeurope.org/mailman/listinfo/fsfe-de
