Anthy 関係者各位:
写し Debian Anthy 開発者:
開発が停滞して状況が不明になっていますが、この度、Git リポジトリを作成
したのでお知らせします。
http://git.debian.org/?p=collab-maint/anthy.git;a=summary
master --- 開発ブランチ
release --- リリースブランチ
debian --- Debian 保守ブランチ
pristine-tar --- Debian 保守のため
tar.gz
こちらに報告されていた 4 つの問題:
[Anthy-dev 3697], [Anthy-dev 3701], [Anthy-dev 3703], [Anthy-dev 3706]
に対応しました。G-HAL さん、ありがとうございます。
[Anthy-dev 3703] に関してですが、test/test.txt に関したテストでは、下記
の四つに関して文節の区切りが変わるようになりました。^^^ で変わった文節
を示します。
|じけんごの|たいおうを|あやまっていると|おもわれます|
|すいみんぶそくは|よい|しごとの|てきだ|
sf.jp の ticket system に登録されていた #11263 と #20964 に対処しました。
Git を用いた開発をしてみたい方は下記のように git clone してください。
$ git clone http://git.debian.org/collab-maint/anthy.git
configure や Makefile.in など生成されるファイルは repository に入ってま
せんので、
$ cd anthy
$ ./autogen.sh
$ ./configure
皆様:
本日、もう一度参加申請をしてメイリングリスト参加できました。
[Anthy-dev 3709] の修正を取り込みました。飯田さんありがとうございます。
alioth.debian.org でのプロジェクト設立を待って、そこでリリースをしよう
と考えています。
code をお急ぎの方は
git://git.debian.org/git/collab-maint/anthy.git
にアクセスください。
--
___
Anthy-dev mailing list
Masanari Iida wrote:
alt-cannadic/g_fname.t で見つかった「阿」部公房という誤登録と、
alt-cannadic/gcanna.ctd で見つかった 音「饗」学という誤登録を修正しました。
変更をGit リポジトリに入れました。ありがとうございました。
anthyのソースコード配布の中の辞書と辞書の保守ですがどうするか検討中です。
もうちょっと分離できるように、例えば、configure のoptionで別の(最新の)
alt-cannadicのパス名を指定できるようになってればいいのにとか考えたり。
--
Hideki Yamane wrote:
debian では Emacs23 から libanthy0 - anthy-common と引っ張ってきて辞書が
入るという苦情がきてしまっているので ;)、
すみません。具体的にどういう苦情ですか?
libanthy0 が辞書に依存すると記述するのは、一つの指定のありかただと思います。
・alt-cannadic
・anthy-dic (?)
という別パッケージにしてはどうか、と思っています。
はい。
現時点では、anthy の実装(と配布形態)は、辞書とコードが密接に関連する形
Jun Oizumi wrote:
update_params2 相当の機能がなくなったように思うのですが、
これは意図的なものでしょうか?
参考:
http://sourceforge.jp/projects/anthy/lists/archive/dev/2007-May/003469.html
情報どうもありがとうございます。
意図的な変更ではありません。戻して足すことを検討したいと思います。通常
の build においてこの繰り返しは何回回すのがいいのかなぁ。
[Anthy-dev 3470] の主張(繰り返すことで賢くなる)は、現在の実装においてホ
g-hal+ml.anthy@fenix.ne.jp wrote:
構想が壮大で既についていけない感じですが。
えーと、プログラミングの下のレベルの話と自由ソフトウェアの運動の上のレ
ベルの話が中心で「仮名漢字変換のアルゴリズムの改善」というような本題の
話が少なくてすみません。本題の話以前に、現時点で anthy は研究したりコー
ドを試して拡張したりという形になっているとは言い難いので、まずはそれを
改善したいと思っています。
ソフトウェアとして困るのはテストや性能を測る指標がないことですか。
権限無しで見た感じでは、
sf.jp
Jun Oizumi wrote:
# 昨日上げた zipcode.t は「1行1エントリ」形式にしてありますが、
感想ですが、この方が(anthy の形式より)使いやすいですよね。
Anthy 同梱のは実装のため、この形式になってるのかな。
これを保守するところを pkg-anthy.alioth.debian.org で作って、Debian で
packaging するようにしたいと思います。
パッケージ名は、postal-code-jp かなぁ、ITP (パッケージ作るよの宣言)をし
たいと思います。
このデータの形式と利用方法についてですが、
(1)
2010/5/29 NIIBE Yutaka:
[Anthy-dev 3470] の主張(繰り返すことで賢くなる)は、現在の実装においてホ
ントなんでしょうか?
(賢くなるかどうかは別として)情報が集積されるためには、
(0) 最初のコーパス関連が空の anthy.dic-0 があるとする
(1) proccorpus が anthy.dic-0 を使って parsed_data-0 を生成
calctrans が parsed_data-0 を使って corpus_info,weak_words を生成
次の anthy.dic-1 を作る
(2
大泉さん、ありがとうございます。
Jun Oizumi wrote:
--
update_params2:
./proccorpus $(srcdir)/corpus.?.txt parsed_data2
./calctrans parsed_data parsed_data2 -o $(srcdir)/corpus_info
./calctrans parsed_data parsed_data2 -e -o $(srcdir)/weak_words
make do_update_params
皆様:
先週から溜まっていますが、少しずつ進めていきますのでよろしくお願いします。
下記に進捗/予定を示します。ご意見ありましたらお願いします。
(1) egg v4 を pkg-anthy で進めることにした。
リポジトリを作って、code を入れました。
http://git.debian.org/?p=pkg-anthy/egg.git;a=summary
(2) テストをどうにかしたいと検討中です。次のメールに書きます。
(3) [Anthy-dev] に送ってもらった patch は順次 repository に入れていきま
す。
(2010年06月04日 10:06), NIIBE Yutaka wrote:
大泉さん、ありがとうございます。
Jun Oizumi wrote:
--
update_params2:
./proccorpus $(srcdir)/corpus.?.txt parsed_data2
./calctrans parsed_data parsed_data2 -o $(srcdir)/corpus_info
./calctrans parsed_data parsed_data2 -e -o $(srcdir
Git のリポジトリを作って、郵便局の郵便番号の CSV のデータを入れました。
http://git.debian.org/?p=pkg-anthy/postal-code-jp.git;a=summary
そのままだとイマイチなので少し正規化しました。
(1) UTF-8 にした。
(2) 複数行にわたるエントリを一行にした。
(3) 全国地方公共団体コード別にファイルを分けた。
郵便局のサイトには差分のファイルがあり、2006年09月のデータまで遡ること
ができました。ただし、差分のデータには行の情報がないので行はずれている
可能性があります。
徒然なるままに、郵便番号を見ています。
NIIBE Yutaka wrote:
Git のリポジトリを作って、郵便局の郵便番号の CSV のデータを入れました。
http://git.debian.org/?p=pkg-anthy/postal-code-jp.git;a=summary
* zipcode.t の出自は?
anthy の zipcode.t はどこから来たものなのでしょうか。大元が郵便局なのは
間違いないとしても。
2001 年5月から2002年頭にかけての canna-yubin というパッケージを発見しました。
https
NIIBE Yutaka wrote:
Theppitak さんの trietool-0.2 でファイルサイズは 2MB 以上です。フォーマッ
トが機種依存かどうかは確認していません。
これのことです:
http://linux.thai.net/~thep/datrie/datrie.html
ファイルフォーマットは機種独立だそうです。記述の追加をお願いしました。
現状の API では、index ファイルは独立のファイルとしての扱いですが、ファ
イルの一部に index があるというような使い方もあるので、そういう API の
追加もお願いしました
bugfix/record-dot-c で src-worddic/record.c の bug fix です。
anon の時に
~/.anthy/last-record1_.utf8
~/.anthy/last-record2_.utf8
というファイルが作られてしまいましたがこれが直ると思います。
sync_del_and_del が呼ばれた際に、更新があったとき read_base_record が
呼ばれると思います。
2010-06-22 NIIBE Yutaka gni...@fsij.org
* src
大泉様:
alt-depgraph-new の変更のうち、divide.sh の変更について。
この変更によって、コーパスから1文節ごとのものと2文節ごとのものを作って、
これまでの生のコーパスに加えて proccorpus の入力となる、という理解で正
しいでしょうか。
この変更がいいのかどうか、判断がつかないので教えてください。
これまでのコーパスでの加点に加えて、一文節でも加点され、二つの文節の結
びつきでも加点される。... ということだと思うのですが、ここでやりたい処
理は、コーパスとして加点(だけ)ではないのでしょうか。
|あたらしい|あさが|きた|
大泉さん、ありがとうございます。
Jun Oizumi wrote:
以前から思っていたのですが、ptab.h と wtab.h はファイルを分ける必要はない気がします
昔は必要があったのかも知れませんが、少なくとも今は単なる無駄ではないかと。
はい。そうですよね。
こうなっている要因のひとつは、僕が仕事をしなかったということです。僕と
しては「期待してたが誰もやってくれなかった」のですけど、ごめんなさい。
これから頑張ります。
5年くらい前でしょうか、もう一段難しくなっていて、これを良い方向に持って
きたつもりでした。それで、
wtab.h に品詞名のフィールドを追加して
Anthy 関係者各位:
2010年6月19日に特定非営利活動法人フリーソフトウェアイニシアティブ
(FSIJ)の2010年通常総会が開催されました。ここで、正式に会の活動として
Anthy の開発が承認されましたので報告します。
これまで Anthy の開発について FSIJ は、未踏ソフトウェア創造事業、
CodeFest, Google 夏休みコード道場、および Google SoC を通じて間接的に関
わって来ました。
これから FSIJ は、Anthy の開発について、開発の主体となることを含めて、
進めていきます。とは言っても、すぐに僕以外にさらに誰かが開発に参加する
大泉様:
feature/alt-depgraph-new: mkdepword の導入についてです。
記述の変更に関しては同意します。
実現方法についてですが、mkdepgraph で同様の機能がサポートされるのが良い
と思います。
mkdepword の導入による記述の変更と、内容の変更を切り分けたいと思います。
まず、下記の変更を mkdepgraph に行うことで記述の変更に対応したいと思い
ますがどうでしょうか。
depword の作成者は、付属語の遷移ツリーを 記述 する。
ここで 記述 されるのは、ノードとノードの遷移、その条件である。
@ノード名
大泉様:
Anthyのノード遷移で記述する方式が保守できるかどうかわからない謎の
システムの感がするので、同等であるけれども違う記述方式を考えてみて、
品詞 付属語の最終文字列 活用形/自立語部の品詞結果/文節の属性/'弱'フラグ
とすべて列挙するのはどうか? と考えています。
それで、この形を生成してみようと思ったら、feature/alt-depgraph-new で
@「よ」終助 よ @_引用(共通)
@_引用(共通) @「って」終助(引用)
@「って」終助(引用) って @「よ」終助
Anthyのノード遷移で記述する方式が保守できるかどうかわからない謎の
システムの感がするので、同等であるけれども違う記述方式を考えてみて、
品詞 付属語の最終文字列 活用形/自立語部の品詞結果/文節の属性/'弱'フラグ
とすべて列挙するのはどうか? と考えています。
「_名詞0のあと」に関して列挙してみましたが、5文字以下と縛っても10万エン
トリくらいになりました。雑音もだいぶあるみたいですが、手で保守できる大
きさではありませんね。この方式は現実的ではないことがわかりました。
--
大泉様、皆様:
Jun Oizumi wrote:
2010/6/24 NIIBE Yutaka :
それで、この形を生成してみようと思ったら、feature/alt-depgraph-new で
@「よ」終助 よ @_引用(共通)
@_引用(共通) @「って」終助(引用)
@「って」終助(引用) って @「よ」終助
とノード遷移のループがあることを発見しました。
これは意図的な記述でしょうか?
はい。
初めは、ループを根絶しようと思ったのですが、やってみたら「実質的に不可能」と
悟りました。やろうと思え
大泉様:
compound.t のマージ作業が終わりました。
http://vagus.up.seesaa.net/data/merge_compound.patch.bz2
複合語でないものは gcanna.t へ、人名フルネームは g_fname.t へ
移動してあります。
ありがとうございます。
alt-depgraph-new に当てました。
これを含めて辞書の変更は master にそのまま採り入れる予定です。
--
___
Anthy-dev mailing list
ブランチで作業していた変更を master に入れました。
janitor/textdict-no-mmap
bugfix/record-dot-c
bugfix/foget_unused_unknown_word
続いて、depgraph/* の余分な空白を取りました。
--
___
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
ブランチ janitor/segclass-eucjp-literal-removal として、下記の変更を行
いました。
anthy_seg_class_name は Debug 出力としてのみ使っているので、
日本語を含まない anthy_seg_class_sym を使うことにしています。
diff --git a/anthy/segclass.h b/anthy/segclass.h
index b8a2724..b58113e 100644
--- a/anthy/segclass.h
+++ b/anthy/segclass.h
@@ -43,8 +43,5 @@ enum
feature/alt-depgraph-new branch での辞書の更新を master に採り入れまし
た。
--
___
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev
feature/alt-depgraph-new の wtab.h/ptab.h の変更を master に
取り込みました。
--
___
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev
(2010年07月05日 13:19), NIIBE Yutaka wrote:
現在の #XX 表記の品詞と ptab.h の表記の品詞について、DFA を作る際の関係
です。
一段進めて、#XX 表記の品詞と最初のノードを関係づけると下記のようです。
word_lookup.c における CT_MEISIKA の特別処理を除けるように「活用動詞名
詞化語幹」を追加してあります。
これで ptab.h は使わなくなります。
#kxi @カ変活用動詞連用形
#kxo @カ変活用動詞未然形
#kxoi @カ変
janitor/mkdepgraph-cleanup branch に入れた mkdepgraph の変更です。
anthy/logger の利用は明らかな間違い。stderr に出力してユーザに見せなくては。
anthy/conf は使う必要無し。
anthy/ruleparser も使わないで済ませました。
Don't use anthy/ruleparser, anthy/logger and anthy/conf for mkdepgraph.
2010-07-06 NIIBE Yutaka gni...@fsij.org
* depgraph
janitor/mkdepgraph-cleanup branch からさらに分岐した
feature/depgraph-wt branch で下記の depgraph の変更を入れました。
使う際には janitor/no-ptab-use と merge されることが前提です。
(ないと 数接尾辞 の ptab.h での定義が WF_NONE の影響がでて
例えば「100%」、「3番センター」の変換が変わってしまいます。)
wt based depgraph implementation. (No ptab.)
2010-07-05 NIIBE Yutaka gni
alt-depgraph-new の前の状態で試しています。
現状の rule (ノード間の状態遷移を記述したもの)は 962、wtab.h の品詞から
最初のノードを示したものが 162 あります。
これで、., H, C, S と値を加えているところを別のノードとして、文字列の遷移を
文字に展開し、NFA (Nondeterministic Finite Automaton) を構成し、
@名詞1のあと, @名詞6のあと, @名詞11のあと, @名詞21のあと, @名詞26のあと,
@名詞31のあと, @名詞36のあと, @名詞16のあと はないので除いて、
NIIBE Yutaka wrote:
alt-depgraph-new の前の状態で試しています。
現状の rule (ノード間の状態遷移を記述したもの)は 962、wtab.h の品詞から
最初のノードを示したものが 162 あります。
alt-depgraph-new では、12545 の rule があります。Sz@ という表記がありま
すが(mkdepgraph.c でサポートされていないので)この修飾子はないものとしま
した。遷移の文字列を文字に展開して NFA を作ると、状態の数は
196410
でした。
16倍以上のサイズですので、DFA
alt-depgraph-new の前の状態で試しています。
やっぱり O(N^2) の DFA optimization は遅すぎたので(2000倍くらい??)、
Hopcroft optimization を実装してみました。また、集合の実装で booleanを
1-byte 取っていたのを 1-bit にしました。そうしたら手元のノートパソコン
で一時間くらいで計算できるようになりました。
DFA の状態の数は 718 でした。こんなに少ないのか? と思うのでプログラムの
間違いじゃないかと疑い、確認しています。
--
(2010年07月20日 09:21), NIIBE Yutaka wrote:
参考のため、結果を添付します。
7/20 の時点では付属語の属性の値の扱いに間違いがあり、だいぶ状態の数が
少なくなっていました。
その後、さらに実装を進め、DFA を使って anthy が動くところまで作りました。
40年前の Hopcroft さん、Gries さんの論文を読んで実装しました。
ブランチ feature/ancill-words-dfa で作業しました。とりあえず動いていま
す。
今のところ、20文字までの付属語と文字数に制限をつけて、
# of NFA
、技術的に今ひとつの感がする。
(3) 「付属語」を独自の翻訳で depword と呼んでいるところ、現実装からす
れば有限状態オートマトンのところを graph と呼んでいるところでイケ
てない感じが漂う。
(4) alt-depgraph の変更(結構大規模)を採り入れるには、現状では無理かも。
特に、(1) の実装の面から、遅い libanthy がさらに遅くなるので整理
してからじゃないとイカン。
(2010年07月31日 15:27), NIIBE Yutaka wrote:
まぁ、これって(現状でも)やりすぎで、あまり
テストを anthy-agent でしようとして、下記の間違いに気がついたので直しま
す。
昔は、SDIC という変数だったのかしらん。
2010-08-02 NIIBE Yutaka gni...@fsij.org
* src-util/agent.c (parse_args): Fix confvar name to DIC_FILE
(was: SDIC).
diff --git a/src-util/agent.c b/src-util/agent.c
index 6baede7..7ef 100644
--- a/src
更だと思います。
これまでは、record.c:check_base_record_uptodate が間違っていたので
起こりにくかったのだと考えられます。
2010-08-02 NIIBE Yutaka gni...@fsij.org
* src-worddic/record.c (read_session): Don't change
rst-cur_session, rst-cur_row.
diff --git a/src-worddic/record.c b/src-worddic/record.c
index f408495
過去に実装が試みられて捨てられた texttrie と呼ばれていたものの削除です。
janitor/remove-texttrie ブランチとしました。
Read-only でサポートしようかとも思いましたが、単に削除することにしました。
2010-08-02 NIIBE Yutaka gni...@fsij.org
* anthy/texttrie.h: Removed.
* anthy/Makefile.am (noinst_HEADERS): Remove texttrie.h.
*
* src
NIIBE Yutaka wrote:
過去に実装が試みられて捨てられた texttrie と呼ばれていたものの削除です。
janitor/remove-texttrie ブランチとしました。
これで mmap しているのが file_dic.c だけになったので、ここから変更する
ブランチとして janitor/mmap-readonly を作り下記の変更をコミットしました。
2010-08-03 NIIBE Yutaka gni...@fsij.org
* anthy/Makefile.am (noinst_HEADERS): Removed
皆様:
溜まっているのは相変わらずですが、進んでいるところは進んでいます。
下記にこれまでの進捗/今後の予定を示します。ご意見ありましたらお願いしま
す。
Egg v4: 進展なし。
郵便番号: 7/31 版まで入れた。ITP は出したまま package 作成はしていない。
Anthy:
(1) テスト: 進展なし。
テストを書く段階に至っていないかも。
(2) Ubuntu の変更の取り込み
とりこめるところは取り込んだと思うので、おしまいの方向で。
(3) これまでの変更:
* wtype を用いた付属語の処理への変更:
(2010年07月07日 15:53), NIIBE Yutaka wrote:
lattice.c では「いわゆるビタビアルゴリズムを使用して経路を選ぶ」とコメ
ントにありますが、このコメントは削除すべきではないでしょうか。
現状の実装は Viterbi アルゴリズムとは関係ないと思います。似ていると勘違
いしたか、あるいはこれから実装するつもりだったのか。
[...]
「Viterbi アルゴリズムを利用」する、というのであれば、文節 (Hidden
State)、読み (Obserbation) と対応させて、文節の遷移確率に加えて、文節か
らその読みが出てくる確率
(2010年08月03日 15:45), NIIBE Yutaka wrote:
ここは及第点とは言えない、というレベルではなく、明らかに落第点しかあげ
られない、という感じです。プンプン。
怒ったり嘆いていてばかりでもしかたがないので、少し書いてみました。
書いてみたら、参照にあげた
http://mat.gsia.cmu.edu/classes/dynamic/node3.html
の例に間違いが見つかりました。
/*
* example code finding shortest path(s) in a trellis.
*
* Copyright (C
。
--
/*
* gcc -DHAVE_CONFIG_H -I. -I.. -g -O2 -c test-trellis.c
* gcc test-trellis.o ../src-main/.libs/libanthy.a
../src-worddic/.libs/libanthydic.a -lm
*
* ./a.out test.txt
*
* Written by NIIBE Yutaka, 2010-08-06
*
* This code is put under public domain.
*/
#include stdio.h
#include string.h
今のところ、評価関数は文節の数なので文節数最小がでます。
文節数最小だけでも、けっこういいじゃん、と思っていたら、「文節数最小法」
[1] というのがあるんですね。不勉強ですみません。
もしかしたら有用かもしれないので、文節数最小を挙げるだけの trellis.c を
使う anthy を作って使ってみることにします。
[1] http://ci.nii.ac.jp/naid/110002723740/
--
___
Anthy-dev mailing list
もしかしたら有用かもしれないので、文節数最小を挙げるだけの trellis.c を
使う anthy を作って使ってみることにします。
feature/trellis ブランチで trellis.c に anthy_mark_borders を実装しまし
た。lattice.c を除いて libanthy を作るように変更しました。
feature/trellis ブランチのこの機能と feature/ancill-words-dfa ブランチ
を merge したものをしばらく使ってみようと思います。
もしどうしても暇でしょうがないという向きがありましたら皆さんもどうか使っ
2010-09-05 Masanari Iida wrote:
mkwarddic/udict の中のtypoの修正です。
ありがとうございます。master にあてました。
--
___
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev
各位:
ようやく涼しくなったので開発を再開しようと思います。
気がついたことひとつ:
* しょうわまち -- 庄和町
「庄和町」が単語として登録されているので文節が一番短いこれ(だけ)が出る。
「昭和町」も用例は結構あると思うんですけど。
--
___
Anthy-dev mailing list
Anthy-dev@lists.sourceforge.jp
http://lists.sourceforge.jp/mailman/listinfo/anthy-dev
On 2014年08月19日 23:02, 1xx wrote:
tamago (egg)というIMが存在します。
かつてm17n.orgというサイトでCVSで管理されていました。
cvs -d :pserver:anonym...@cvs.m17n.org:/cvs/tamago co tamago
僕の一個の意見ですが、tamago は実状としては存在したことはないという感
じが強いのでは? と思います。
もともとは電総研(当時)の戸村さんが作った Egg (たくさんまたせてごめんな
さいの頭文字のたまごから命名)という Emacs を拡張して使う入力機能があり、
バージョン
On 2014-08-20 at 07:32 +0900, 1xx wrote:
論点:
では、論点に追加ともうしましょうか、suggestion です。
(1) 継承かどうかを外部の第三者に対しても分かるように明確にする。そして、
(2) 適切なプロジェクトの名前を決める(が決まる)。
(3) 開発と保守にあたり、どのようなサービスを利用するか。(で決まるでしょうか??)
という3点くらい。ご参考になれば幸いです。
(1) について:
戸村さんの tamago について、伝わっていないのかもしれませんが、これには、
GNU Emacs
51 matches
Mail list logo