Package: unidic-mecab
Version: 2.3.0+dfsg-4
Severity: minor

Although the build process was simplified, 2.3.0+dfsg-4 kept the same
pos-id.def file with its content taken from IPADIC (converted to UTF-8
encoding) as was the case for 2.3.0+dfsg-3.

This is odd.  IMHO, this pos-id.def should be removed.

Some references:

In older DOC (2008):
https://www.gavo.t.u-tokyo.ac.jp/~mine/japanese/nlp+slp/UNIDIC_manual.pdf
The page 14 goes:
5 品詞体系
UniDic の品詞・活用型・活用形は概ね学校文法に準拠している。これは、多様な目的に供するために、なる
べく多くの者に受け入れられる標準的な品詞体系を採用するのが望ましいと考えたからである。しかし、学校
文法の品詞・活用型・活用形は、とくに自然言語処理などの工学的応用の上では分類が粗すぎることがある。
そこで、UniDic では、ipadic で採用されている IPA 体系を参考にしつつ、学校文法の品詞・活用型・活用形
を細分化して階層的な品詞体系を設計した。階層の上部のみを取り出すと、「動詞」「下一段-ア行」「連用形」
といった学校文法的な分類が得られる。

So POS(品詞) for UNIDIC is not that of IPADIC.

Even in the latest 2011(平成23) documents, I see: 

https://pj.ninjal.ac.jp/corpus_center/bccwj/doc/report/JC-D-10-05-01.pdf
  The page 64 lists POS for Unidic which is based on and similar to
  IPADIC but clearly updated.  

https://pj.ninjal.ac.jp/corpus_center/bccwj/doc/report/JC-D-10-05-02.pdf
  The page 53 also lists POS for Unidic.

Both documents have entries such as 補助記号-AA-一般 which is not in
POS for IPADIC.

So placing pos-id.def taken from IPADIC to UNIDIC without clear
explanation should not be done.

-- System Information:
Debian Release: buster/sid
  APT prefers testing
  APT policy: (500, 'testing'), (10, 'unstable')
Architecture: amd64 (x86_64)

Kernel: Linux 4.19.0-2-amd64 (SMP w/4 CPU cores)
Locale: LANG=en_US.UTF-8, LC_CTYPE=en_US.UTF-8 (charmap=UTF-8), 
LANGUAGE=en_US:en (charmap=UTF-8)
Shell: /bin/sh linked to /bin/dash
Init: systemd (via /run/systemd/system)
LSM: AppArmor: enabled

Versions of packages unidic-mecab depends on:
ii  mecab-utils  0.996-6

unidic-mecab recommends no packages.

unidic-mecab suggests no packages.

-- no debconf information

Reply via email to