Re: I want to parse Then garbled in Tika. Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
I am the image of what you want to do. Do you I have to do is fix anywhere in the program? files do result PDF --> HTML --> Tika do analysis. --> String (Java UTF-8) TXT --> ^

Re: I want to parse Then garbled in Tika. Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
files do result PDF --> HTML --> Tika do analysis. --> String (Java UTF-8) TXT --> -- question.answer...@gmail.com > I, in any way, Tika, you can EUC and shift-jis and UTF-8 of html and PDF > reading? > Moreover, I, without g

I want to parse Then garbled in Tika. Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
I, in any way, Tika, you can EUC and shift-jis and UTF-8 of html and PDF reading? Moreover, I, without garbled in String, want to put converted to UTF-8. I, I want you to tell me how the program. I want to parse Then garbled in Tika. Garbled. -- question.answer...@gmail.com > Sorry, can't t

RE: Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

2016-09-14 Thread Allison, Timothy B.
If a PDF requires a password (and it isn't the empty string) and you have the password, you need to send it in via the ParseContext: ParseContext context = new ParseContext(); context.set(PasswordProvider.class, new PasswordProvider() { public String getPassword(Metadata metad

Re: Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

2016-09-14 Thread question.answer...@gmail.com
Do you, says the text of the protected PDF files can not be parsed by Tika? I, if the specification of Tika, you give up the Perth. (あなたは、保護されたPDFファイルのテキストをTikaでパースできないと言って いますか? 私は、Tikaの仕様なら、パースを諦めます。) Is the specification of Tika? -- question.answer...@gmail.com > Relying on google trans

RE: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread Allison, Timothy B.
Sorry, can't tell what the question is? -Original Message- From: question.answer...@gmail.com [mailto:question.answer...@gmail.com] Sent: Wednesday, September 14, 2016 11:50 AM To: Allison, Timothy B. Subject: Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け Hi :) I, in any way to,

RE: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread Allison, Timothy B.
Ha, thank you for running google translate for me. :) If the question is: "If I don't know the encoding before I send it to Tika, how does Tika determine the encoding?" Tika applies the following detectors in this order: org.apache.tika.parser.html.HtmlEncodingDetector org.apache.tika.parser.tx

Re: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
Thank you for your answer. I, character code of the file can not be determined EUC or Shift-JIS, UTF-8, etc. in advance. I, or JAVA library, I want you to determine to Tika. I want to know the determination method. 私は、ファイルの文字コードがEUCやShift-JIS、UTF-8などを事前に判断できない。 私は、JAVAのライブラリか、Tikaに判断してほしい。 私は、その判

RE: 訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread Allison, Timothy B.
Again, relying on Google translate. The problem with these files is that they don't self identify their encoding via http metaheaders, and they contain very little content so Mozilla's UniversalChardet and ICU4J don't have enough to work with. IE, Chrome and Firefox all fail on these files, to

RE: Apache Tikaで、PDFの本文内の文字が連続する現象発生

2016-09-14 Thread Allison, Timothy B.
Again, relying on google translate. Y, I would think that suppressing overlapping characters should solve this problem. Try pure PDFBox, and if the problem is there, try asking on the PDFBox list. いきなりですが、表記件についてご質問させてください。 Javaで、Apache Tikaで、PDFのパース処理をしています。 ほとんどのPDFは、正常に、読み込めるのですが、パースエラーにな

RE: Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

2016-09-14 Thread Allison, Timothy B.
Relying on google translate... I'm not sure how protection could lead to garbled text; if the file is password protected, you shouldn't get any text. Try troubleshooting with pure PDFBox: https://wiki.apache.org/tika/Troubleshooting%20Tika#PDF_Text_Problems -Original Message- From: q

訂正 :Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
Tikaで読み込むと文字化けするファイルは、このメールに添付してあるものです。 ※先程のメールに添付したのは、秀丸エディタで保存したときに、 文字コードが変わったようで、文字化けしません。 ー こんにちは。 困っております。 Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化けします。 原因は何で、対応策(Tikaへの設定?など)は、ありますでしょうか? ■読み込むと文字化けするhtmlを添付します。 ※EUCコードのファイルです。(秀丸エディタの判定では) ソー

Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化け

2016-09-14 Thread question.answer...@gmail.com
こんにちは。 困っております。 Apache Tikaで、EUCやshift-jisコードのhtmlの読込みで文字化けします。 原因は何で、対応策(Tikaへの設定?など)は、ありますでしょうか? ■読み込むと文字化けするhtmlを添付します。 ※EUCコードのファイルです。(秀丸エディタの判定では) ソース: - File document = new File("/usr/local/sample.pdf"); Parser parser = new AutoDe

Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしている

2016-09-14 Thread question.answer...@gmail.com
皆様、始めまして。 Tika初心者です。 いきなりですが、表記件についてご質問させてください。 Apache Tikaで、保護されたPDFを取り込むと全文が文字化けしているのですが、 これは、仕様でしょうか? 設定などで回避して文字化けなしで取り込む方法はありますでしょうか? ※保護されていないPDFは、文字化けなく、取り込めます。 原因は何で、対応策(Tikaへの設定?など)は、ありますでしょうか? ソース: - File document = new File("/us

Apache Tikaで、PDFの本文内の文字が連続する現象発生

2016-09-14 Thread question.answer...@gmail.com
皆様、始めまして。 Tika初心者です。 いきなりですが、表記件についてご質問させてください。 Javaで、Apache Tikaで、PDFのパース処理をしています。 ほとんどのPDFは、正常に、読み込めるのですが、パースエラーになったり、 パースできても、本文内の文字が連続する現象発生します。 ここで、お聞きしたいのは、「本文内の文字が連続する現象」の原因と対策方法です。 パースで取り出した長文の中から同じようなパターンの一部を下記へ抜粋。 ⇒ 「(1)(1)(1)(1)林火林火林火林火DBDBDBDB」 おそらく、PDFの「(1)風林火山用DB」が書か