Git repository で辞書(anthy.dic)の生成に関して変更を行いました。

今まで不透明であった点を整理するとともに、謎のファイル corpus_info と
weak_words を配布から削除しました。

anthy.dic の生成のフローは下記のようになっています。
--------------------------------------------- anthy.dic の生成のフロー
その(1): anthy.dep の生成
これは付属語関係の情報のファイルかな。

   depgraph/*.depword
   depgraph/conjugate.table
    ---[depgraph/mkdepgraph]---> anthy.dep (1)

その(2): anthy.wdic の生成
これは単語の辞書のファイル。

   mkworddic/{extra.t,compound.t,adjust.t,utf8.t,udict},
   alt-cannadic/{gcanna.ctd,gcannf.ctd,gtankan.ctd,g_fname.t}
    ---[mkworddic/mkworddic]---> anthy.wdic (2)

その(3): corpus_info, weak_words の生成
ここが不透明だったところ。
コーパスを使った情報のファイル群。

初めに "initial anthy.dic" があるとして、proccorpus と calctrans で
corpus_info, weak_words を生成する。
   "initial anthy.dic"
   calctrans/corpus.?.txt
    ---[calctrans/{proccorpus,calctrans}]---> corpus_info (3-1)
                                              weak_words  (3-2)
その(3)の続き:
そして、これを分類してバイナリにエンコーディングして 5 つのファイルを作る。
      calctrans/{corpus_info,weak_words} (3-1,3-2)
       ---[calctrans/calctrans]---> anthy.cand_info (3)
                                    anthy.trans_info (4)
                                    anthy.corpus_array (5)
                                    anthy.corpus_bucket (6)
                                    anthy.weak_words (7)

その(4): その(1)、その(2)、その(3)、その(3)の続きで作ったファイルをまと
めて anthy.dic を作る。

         (1) depgraph/anthy.dep
         (2) mkworddic/anthy.wdic
         (3) calctrans/anthy.cand_info
         (4) calctrans/anthy.trans_info
         (5) calctrans/anthy.corpus_array
         (6) calctrans/anthy.corpus_bucket
         (7) calctrans/anthy.weak_words
          ---[mkanthydic/mkfiledic]--->anthy.dic
---------------------------------------------

これまでの構成の問題は、上記のフローの "initial anthy.dic" で、ここは、
付属語関係、単語の辞書だけの情報でコーパス関係情報は空の anthy.dic で始
めるべきところでしたが、ソース配布を作成する開発者の操作によっては間違っ
てしまうことがありえました。また、corpus_info と weak_words は、付属語
関係、単語の辞書の内容に依存しますが、ソース配布に含まれるものを使う、
というやや不正確な情報の形態でした。

今回、コーパス関連の処理をコーパス関係情報が空でもこけないように修正し、
anthy.dep と anthy.wdicから initial-anthy.dic を生成する段階を作りまし
た。これによって、生成の手順が透明になり、付属語関係、単語の辞書に変更
があった際、コーパス関係情報を生成し、anthy.dic が生成されるなど、改善
されました。
-- 

_______________________________________________
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev

メールによる返信