大泉様:

alt-depgraph-new の変更のうち、divide.sh の変更について。

この変更によって、コーパスから1文節ごとのものと2文節ごとのものを作って、
これまでの生のコーパスに加えて proccorpus の入力となる、という理解で正
しいでしょうか。

この変更がいいのかどうか、判断がつかないので教えてください。

これまでのコーパスでの加点に加えて、一文節でも加点され、二つの文節の結
びつきでも加点される。... ということだと思うのですが、ここでやりたい処
理は、コーパスとして加点(だけ)ではないのでしょうか。

        |あたらしい|あさが|きた| |新しい|朝が|来た|

と例示があったときに、この並びでこの変換を期待しましょう、ということで
すよね。個々の分節でも加点し、二つの文節の結びつきでも加点すれば、結果
として、

        |新しい|朝が|来た|

は多分、出やすくなるでしょう。でも他がでにくくなるという影響もあります
よね。長いこの文だとこの並びだけど、短いこの文だとこっちでしょ、という
ケースはないかしらん。

自動で全部当てはめることではないのではないかなぁ、と感じます。

また、もしすべてに当てはめるのであれば、proccorpus の処理を変更するとい
うやり方もあるかなぁ、と考えました。
-- 

_______________________________________________
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev

メールによる返信