Ich habe bei einem Vortrag auf dem CLT vor ein paar Jahren von einem Buch (irgendwas über heimat, inkl. Abbildungen) in Fraktur gehört für das Tesseract trainiert wurde (irgendwie meine ich das könnte ein Mitarbeiter der SLUB gewesen sein). Also das geht, aber wie im Detail ist mir auch nicht bekannt (hätte da mit Revolting Librarians Redux einen Anwendungsfall wegen schwierigem Font).

nach ein wenig Suche …

Ein Vortrag den ich meine nicht wiederzuerkennen … https://chemnitzer.linux-tage.de/2013/vortraege/folien/digitalisierung_buecher.pdf … aber gleiches Thema und ebenfalls Hinweise auf Tesseract. Ergebnisse: gesammelte-werke.org

Für die Umwandlung von einem Markup-Format (für die meisten Zwecke dürfte Markdown genügen) würde ich übrigens pandoc empfehlen. Inzwischen kann das auch reproduzierbare Ergebnisse liefern.[0]

[0]: https://github.com/jgm/pandoc/issues/7093

On 22.02.21 09:27, Bernhard Schiffner wrote:

Kann man tesseract einlernen?

Antwort per Email an