Am 29.06.2018 um 19:47 schrieb Robert Großkopf: > Hallo Martin, >> >> ich digitalisiere Bücher mithilfe von Tesseract-OCR; nach Erstellung der >> Texte öffne ich diese mit Writer. Dabei werden die Umlaute und das ß >> -bedingt durch die Dateierstellung in der Windows-Cmd- falsch dargestellt. > > Die Dateien werden vermutlich nicht mit einem UTF-8-Zeichensatz erstellt > worden sein.
Kann sein, kann nicht sein; immerhin läuft Tesseract auf diversen Betreibssystemen, wenn ich das richtig sehen. Ohne einen genaueren Blick auf entweder das Programm oder das Produkt desselben sind wir auf dem Gebiet der Spekulation. > Datei > Öffnen > Filter > Text | Textkodierung wählen > > Jetzt werden nur die *.txt-Dateien angezeigt. Versuche einmal die > Kodierung "Westeuropäisch - Euro" Falls das nicht zum gewünschten Ergebnis führen sollte, müsstest du mal so ein Dokument im Original zur Verfügung stellen[1], damit wir genau nachschauen können, wie die Kodierung tatsächlich ausschaut. [1] bei dem Filesharing-Dienst deines geringsten Misstrauens hochladen, und den Link dann hier posten Wolfgang -- Dank Donald Trump ist mir endgültig klar geworden: Es ist nicht der Turm von Pisa, der schief steht, es ist die Welt! -- Liste abmelden mit E-Mail an: [email protected] Probleme? https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/ Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de Listenarchiv: https://listarchives.libreoffice.org/de/users/ Datenschutzerklärung: https://www.documentfoundation.org/privacy
