Ich habe bei einem Vortrag auf dem CLT vor ein paar Jahren von einem
Buch (irgendwas über heimat, inkl. Abbildungen) in Fraktur gehört für
das Tesseract trainiert wurde (irgendwie meine ich das könnte ein
Mitarbeiter der SLUB gewesen sein). Also das geht, aber wie im Detail
ist mir auch nicht bekannt (hätte da mit Revolting Librarians Redux
einen Anwendungsfall wegen schwierigem Font).
nach ein wenig Suche …
Ein Vortrag den ich meine nicht wiederzuerkennen …
https://chemnitzer.linux-tage.de/2013/vortraege/folien/digitalisierung_buecher.pdf
… aber gleiches Thema und ebenfalls Hinweise auf Tesseract. Ergebnisse:
gesammelte-werke.org
Für die Umwandlung von einem Markup-Format (für die meisten Zwecke
dürfte Markdown genügen) würde ich übrigens pandoc empfehlen. Inzwischen
kann das auch reproduzierbare Ergebnisse liefern.[0]
[0]: https://github.com/jgm/pandoc/issues/7093
On 22.02.21 09:27, Bernhard Schiffner wrote:
Kann man tesseract einlernen?