(2010年07月20日 09:21), NIIBE Yutaka wrote:
> 参考のため、結果を添付します。

7/20 の時点では付属語の属性の値の扱いに間違いがあり、だいぶ状態の数が
少なくなっていました。

その後、さらに実装を進め、DFA を使って anthy が動くところまで作りました。
40年前の Hopcroft さん、Gries さんの論文を読んで実装しました。

ブランチ feature/ancill-words-dfa で作業しました。とりあえず動いていま
す。

今のところ、20文字までの付属語と文字数に制限をつけて、

        # of NFA states: 15629
        # of DFA states (before minimization): 54165
        # of DFA states: 47883

となっています。

calctrans/proccorpus の出力する結果で比較して、付属語が master と同じく
認識されていることを確認しました。

一応ここまで作ってみて、思うことはいろいろありました。

まぁ、これって(現状でも)やりすぎで、あまりデキが良くないかもしれません。

おいおい論点を書いていきますが、とりあえずすぐに見てわかる所を。

calctrans/proccorpus の出力で付属語の長いのを見てみると下記のようなのが
あります。

        いことということにしておきましょう
        えるようになるんじゃないかと
        されてないんじゃないですかね
        されてはいないみたいですけど
        することになるんじゃないかと
        ったということなんでしょうか
        っていただけそうということで
        っていただけませんでしょうか
        ってくるなということぐらいでしょうか
        できるようなものではないんですけどね
        できるようになるみたいですが
        になってるんじゃないですかね
        になってるんじゃないんですか
        らせていただくことになりました
        らないということになるはずです
        るということになるんですかね

「良くやってる」と言えなくもないですが、これらは、

        * 「...こと」と「ということ...」で区切る
        * 「...ように」と「なるんじゃ...」で区切る
        * 「...じゃ」と「ない...」で区切る
        * 「...もの」と「では...」で区切る
        * 「...いない」と「みたい...」で区切る
        * 「...に」と「なる...」で区切る
        ...

などわけてもいいのではないでしょうか。

また、下記はやりすぎかも。

        くなっているのかもしれません
        しているだけかもしれませんが

「しれません」て付属語として扱うのは微妙かも。
-- 

_______________________________________________
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev

メールによる返信