Hello,
Ok, now it's working!
Thank you very much for your quick reply.

Regards
Mariusz


czw., 17 gru 2020, 11:19 użytkownik Tilman Hausherr <[email protected]>
napisał:

> Hi,
>
> I ran the 2nd page of the file in tika-app, and what I got looked nice.
>
> "Dzięki kompleksowej prezentacji naszej działalności biznesowej i
> operacyjnej, przybliżamy interesariuszom, a szczególnie inwestorom,
> instytucjom finansowym i ubezpieczycielom, Jednostkę Dominującą KGHM Polska
> Miedź S.A. i Grupę Kapitałową KGHM Polska Miedź S.A., nasze działania oraz
> kierunki rozwoju.
>
> Nasz VII Raport Zintegrowany Grupy Kapitałowej KGHM Pol- ska Miedź S.A.
> obejmuje wyniki niefinansowe i finansowe dla KGHM Polska Miedź S.A. i Grupy
> KGHM Polska Miedź S.A. za 2019 rok (okres raportowania 1.01-31.12.2019 r.)
> [GRI 102- 50]. Zgodnie z naszym zobowiązaniem corocznej publikacji raportu
> zintegrowanego [GRI 102-52] prezentujemy wpły- wy naszej firmy w zakresie
> kwestii środowiskowych, ekono- micznych i społecznych. Poprzedni raport
> zintegrowany za 2018 rok został opublikowany w roku 2019 [GRI 102-51]. Nie
> dokonywano w nim żadnych korekt [GRI 102-48]. Raport został przygotowany z
> wykorzystaniem wybranych wskaźni- ków standardu raportowania Global
> Reporting Initiative (GRI) w wersji Standards."
>
> Why reencode it? Encoding would make sense if you write to a file, then
> you'd need an OutputStreamWriter.
>
> Tilman
>
> Am 16.12.2020 um 21:15 schrieb Tilman Hausherr:
>
> Please upload your file to a sharehoster, and please detail what you
> expected and what you got instead, maybe about one specific line that you
> think is botched. Compare it with the extraction of Adobe Reader.
>
> Tilman
>
> Am 16.12.2020 um 18:21 schrieb Chris Mattmann:
>
> Copying the Tika dev list where I think you will find the help you are
> looking for 😊
>
>
>
>
> From: Mariusz G <[email protected]> <[email protected]>
> Date: Wednesday, December 16, 2020 at 7:04 AM
> To: "Mattmann, Chris A (US 1740)" <[email protected]>
> <[email protected]>
> Subject: [EXTERNAL] Tika - problem with Polish encoding
>
>
> Hello Sir,
>
> I'm writing to you because I tried everything but unsuccessful.
>
> When I use Tika with Polish PDF documents, Polish language is not encoded
> properly.
>
>
> This is my code:
>
>
> from tika import parser
> raw = parser.from_file("/Users/mgrub/Downloads/NLP/PCC_Rokita_2019.pdf")
> raw = str(raw)
> safe_text = raw.encode('UTF-8', errors='ignore')
> safe_text = str(safe_text).replace("\n", "").replace("\\", "")
> print('--- safe text ---' )
> print( safe_text )
>
>
> I've tried several different encoding standards (ISO-8859, ISO-8859-2,
> Windows-1250, CP852) but with no success.
>
> If you can help me I will be grateful, because I don't know who can help
> better than you.
>
>
> Regards,
>
> Mariusz Grubba
>
>
>
>
>

Reply via email to