On Sunday 16 May 2004 23:58, Alfred Ostermeier wrote:
[...]
> Klaus Becker wrote:
> >>>ich möchte ein pdf-Datei in Text umwandeln. Mit "pdftotext" (3.0) aus
> >>> dem Paket "xpdf-utils" kommen aber nur Hyroglyphen raus.
> >>>Kennt sich da jemand aus ?
> >>
> >>Nicht wirklich. Aber pdftops und anschliessendes ps2ascii bringen bei
> >>mir die besten Ergebnisse. Allerdings sind die Umlaute mit der alten
> >>Tex-Schreibweise kodiert (mit " davor). pstotext macht es auch nicht
> >>viel besser.
[...]
> > pdftops hat mir die pdf-Datei in eine ordentliche ps-Datei verwandelt.
> > Dann habe ich die ps-Datei mit ps2ascii behandelt, da kommt nur Schrott
> > raus. Welche Option(-en) gibst du da an?
[...]
> Ist es vielleicht möglich, dass Deine pdf-Datei den Text als Bild
> enthält? Ich hatte auch mal ein Buch, bei dem pdftotext nur Hyroglyphen
> ausspuckte. Ich merkte dann, dass in dem Buch nur die Überschriften als
> Text hinterlegt waren, nicht aber der eigentliche Text. Probier mal, in
> der PDF-Datei nach Wörtern zu suchen. Gegebenfalls dann durch eine
> Texterkennung laufen lassen.
[...]
Versuch das PDF Dokument einmal in KOffice zu öffnen.
Damit sollte am schnellsten zu sehen sein ob es sich um Text oder nur um 
Bilder handelt.

Tschüss,
Thomas

Antwort per Email an