Re: [de-users] Writer: falsche Umlaute-Darstellung in von Tesseract erstellten Textdateien

Wolfgang Jäth Sat, 30 Jun 2018 03:44:18 -0700

Am 29.06.2018 um 19:47 schrieb Robert Großkopf:
> Hallo Martin,
>> 
>> ich digitalisiere Bücher mithilfe von Tesseract-OCR; nach Erstellung der
>> Texte öffne ich diese mit Writer. Dabei werden die Umlaute und das ß
>> -bedingt durch die Dateierstellung in der Windows-Cmd- falsch dargestellt.
> 
> Die Dateien werden vermutlich nicht mit einem UTF-8-Zeichensatz erstellt
> worden sein.


Kann sein, kann nicht sein; immerhin läuft Tesseract auf diversen
Betreibssystemen, wenn ich das richtig sehen. Ohne einen genaueren Blick
auf entweder das Programm oder das Produkt desselben sind wir auf dem
Gebiet der Spekulation.

> Datei > Öffnen > Filter > Text | Textkodierung wählen
> 
> Jetzt werden nur die *.txt-Dateien angezeigt. Versuche einmal die
> Kodierung "Westeuropäisch - Euro"

Falls das nicht zum gewünschten Ergebnis führen sollte, müsstest du mal
so ein Dokument im Original zur Verfügung stellen[1], damit wir genau
nachschauen können, wie die Kodierung tatsächlich ausschaut.

[1] bei dem Filesharing-Dienst deines geringsten Misstrauens hochladen,
und den Link dann hier posten

Wolfgang
-- 
Dank Donald Trump ist mir endgültig klar geworden: Es ist
nicht der Turm von Pisa, der schief steht, es ist die Welt!


-- 
Liste abmelden mit E-Mail an: [email protected]
Probleme? 
https://de.libreoffice.org/hilfe-kontakt/mailing-listen/abmeldung-liste/
Tipps zu Listenmails: https://wiki.documentfoundation.org/Netiquette/de
Listenarchiv: https://listarchives.libreoffice.org/de/users/
Datenschutzerklärung: https://www.documentfoundation.org/privacy

Re: [de-users] Writer: falsche Umlaute-Darstellung in von Tesseract erstellten Textdateien

Antwort per Email an