Hello, Ok, now it's working! Thank you very much for your quick reply. Regards Mariusz
czw., 17 gru 2020, 11:19 użytkownik Tilman Hausherr <[email protected]> napisał: > Hi, > > I ran the 2nd page of the file in tika-app, and what I got looked nice. > > "Dzięki kompleksowej prezentacji naszej działalności biznesowej i > operacyjnej, przybliżamy interesariuszom, a szczególnie inwestorom, > instytucjom finansowym i ubezpieczycielom, Jednostkę Dominującą KGHM Polska > Miedź S.A. i Grupę Kapitałową KGHM Polska Miedź S.A., nasze działania oraz > kierunki rozwoju. > > Nasz VII Raport Zintegrowany Grupy Kapitałowej KGHM Pol- ska Miedź S.A. > obejmuje wyniki niefinansowe i finansowe dla KGHM Polska Miedź S.A. i Grupy > KGHM Polska Miedź S.A. za 2019 rok (okres raportowania 1.01-31.12.2019 r.) > [GRI 102- 50]. Zgodnie z naszym zobowiązaniem corocznej publikacji raportu > zintegrowanego [GRI 102-52] prezentujemy wpły- wy naszej firmy w zakresie > kwestii środowiskowych, ekono- micznych i społecznych. Poprzedni raport > zintegrowany za 2018 rok został opublikowany w roku 2019 [GRI 102-51]. Nie > dokonywano w nim żadnych korekt [GRI 102-48]. Raport został przygotowany z > wykorzystaniem wybranych wskaźni- ków standardu raportowania Global > Reporting Initiative (GRI) w wersji Standards." > > Why reencode it? Encoding would make sense if you write to a file, then > you'd need an OutputStreamWriter. > > Tilman > > Am 16.12.2020 um 21:15 schrieb Tilman Hausherr: > > Please upload your file to a sharehoster, and please detail what you > expected and what you got instead, maybe about one specific line that you > think is botched. Compare it with the extraction of Adobe Reader. > > Tilman > > Am 16.12.2020 um 18:21 schrieb Chris Mattmann: > > Copying the Tika dev list where I think you will find the help you are > looking for 😊 > > > > > From: Mariusz G <[email protected]> <[email protected]> > Date: Wednesday, December 16, 2020 at 7:04 AM > To: "Mattmann, Chris A (US 1740)" <[email protected]> > <[email protected]> > Subject: [EXTERNAL] Tika - problem with Polish encoding > > > Hello Sir, > > I'm writing to you because I tried everything but unsuccessful. > > When I use Tika with Polish PDF documents, Polish language is not encoded > properly. > > > This is my code: > > > from tika import parser > raw = parser.from_file("/Users/mgrub/Downloads/NLP/PCC_Rokita_2019.pdf") > raw = str(raw) > safe_text = raw.encode('UTF-8', errors='ignore') > safe_text = str(safe_text).replace("\n", "").replace("\\", "") > print('--- safe text ---' ) > print( safe_text ) > > > I've tried several different encoding standards (ISO-8859, ISO-8859-2, > Windows-1250, CP852) but with no success. > > If you can help me I will be grateful, because I don't know who can help > better than you. > > > Regards, > > Mariusz Grubba > > > > >
