On Fri, Sep 09, 2011 at 06:10:28PM +0300, E L wrote:
> יש כל -כך הרבה שקשה לכתוב את הכל :)

אבל זו אינה תוכנית עבודה מפורטת

הייתי רוצה למצוא רשימה של מטלות שיאפשרו למישהו מבחוץ להכנס. לדוגמה: משהו
מסדר הגודל של המשימות בקיץ הקוד של גוגגל.

> סריקה בעברית כולל ניקוד

יש תוכנית בשם hocr. היא בערך עובדת. יש לה בעיות רציניות. כרגע אף אחד לא
עובד עליה.

נראה לי שזה אחד המקומות שבהם השקעת מאמץ תתרום לא מעט.

> זיהוי עברי של כתב יד
> 
> הרחבת המילונים של למחלקות שונות של עברית
> הוספת מנתח דיקדוק ותיקון שגיאות
> נקדן ובדיקת איות מבוססת ניקוד
> מסכם טקסט
> 
> תקן לשימושיות דו-כווניות בקוד פתוח
> מימושו בפרוייקטים שונים
> 
> מילון עברי-עיברי עיברי-אנגלי (מבוסס WORDNET?)

תזכורת למה שכבר קיים:
http://culmus.sourceforge.net/dictionary/

> מילון מילים נרדפות
> תרגום אוטומטי
> חיפוש עברי תוך שימוש בשורשים ומילים נרדפות
> 
> שיפור התמיכה בספרים אלקטרונים בעברית
> תשתית לעבודה על ספרים (www.pgdp.net)

האם זה מסתמך על OCR עובד בעברית? אם לא: זו נשמעת מטלה פשוטה יחסית בלי
הרבה בעיות "תאורטיות" רציניות.

> 
> זיהוי דיבור בעברית
> 
> לרוב הדברים ברשימה כבר קיימות תוכנות קוד פתוח בשפות אחרות
> ועיקר העבודה היא התאמתם לעברית.
> העבודה על הליקסיקון מילון ווורדנט כבר נעשתה על ידי מילה ואמורה להיות לפחות
> חלקית תחת ה GPL.
> 
> לינקים מעניינים:
> http://www.cs.technion.ac.il/~barhaim/MorphTagger/

נראה מעניין. אבל גרסה 1.0 יצאה בשנת 2005 ומאז לא יצאה גרסה חדשה.

לא לגמרי ברור לי מה היא עושה כשלעצמה ואיך היא מתחברת עם רכיבים אחרים.
היא מסתמכת על תוכנה "כמעט חופשית" אחרת:
http://www.speech.sri.com/projects/srilm/
"כמעט חופשית" מכיוון שהפצתה דורשת רישום אצל יצרן התוכנה המקורי.

> http://www.mila.cs.technion.ac.il/mila/eng/index.html

יש שם תוכנה חופשית? הם מדברים באתר על כלים שהם open source. בדף ההורדה
אני קורא:
License

For non-commercial research purposes, this tool is licensed under the
GNU General Public License (GPL). Any publications resulting from the
use of this tool should refer to it as "The MILA Hebrew Tokenization
Tool" and cite:

Alon Itai and Shuly Wintner. "Language Resources for Hebrew." Language
Resources and Evaluation 42(1):75-98, March 2008. [BibTeX]

To gain password access to this tool for non-commercial purposes, please
register. For commercial usage, please contact MILA to inquire about
terms.

למישהו יש עותק של הקוד האמור והוא מוכן להעלות אותו לאיזשהו מקום שאין בו
מגבלות הפצה מוזרות כאלה?


> https://www.calico.org/a-194-The%20Hebrewer%20A%20Webbased%20Inflection%20Generator%20The%20Hebrew%20characters%20in%20this%20article%20may%20be%20difficult%20to%20read%20see%20associated%20PDF%20document.html

קוד המקור של זה זמין? איך זה תורם? האם זה עדיין מתעדכן?

> http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud.html#English

קורפוס של כתבות מהארץ שבו אפשר להשתמש

> http://roidayan.com/wordpress/?p=26

מהם הנתונים ששם?

> 
> ישנם גם פרוייקטים שקשורים לדת כמו סידור, לימוד תורה,  שימוש ב VMACHINE לספרי
> תורה ועוד...

-- 
Tzafrir Cohen         | [email protected] | VIM is
http://tzafrir.org.il |                    | a Mutt's
[email protected] |                    |  best
[email protected]    |                    | friend
_______________________________________________
Discussions mailing list
[email protected]
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions

לענות