2011/9/9 Tzafrir Cohen <[email protected]>

> On Fri, Sep 09, 2011 at 06:10:28PM +0300, E L wrote:
> > יש כל -כך הרבה שקשה לכתוב את הכל :)
>
> אבל זו אינה תוכנית עבודה מפורטת
>
> הייתי רוצה למצוא רשימה של מטלות שיאפשרו למישהו מבחוץ להכנס. לדוגמה: משהו
> מסדר הגודל של המשימות בקיץ הקוד של גוגגל.
>
> חלק מהמשימות דורשות דיון על הדרך הטובה ביותר למימוש, לכן אני מקווה שיהיו
מספיק אנשים לדיון רציני.


> > סריקה בעברית כולל ניקוד
>
> יש תוכנית בשם hocr. היא בערך עובדת. יש לה בעיות רציניות. כרגע אף אחד לא
> עובד עליה.
>
> נראה לי שזה אחד המקומות שבהם השקעת מאמץ תתרום לא מעט.
>
> אני חושב שיותר קל להשתמש באחת מתוכניות ה OCR הקיימות
ראיתי כמה מילונים ל teserect למישהו בא לבדוק את התוכנה?


> > זיהוי עברי של כתב יד
> >
> > הרחבת המילונים של למחלקות שונות של עברית
> > הוספת מנתח דיקדוק ותיקון שגיאות
> > נקדן ובדיקת איות מבוססת ניקוד
> > מסכם טקסט
> >
> > תקן לשימושיות דו-כווניות בקוד פתוח
> > מימושו בפרוייקטים שונים
> >
> > מילון עברי-עיברי עיברי-אנגלי (מבוסס WORDNET?)
>
> תזכורת למה שכבר קיים:
> http://culmus.sourceforge.net/dictionary/
>
> גם wordnet כבר קיים:)

> > מילון מילים נרדפות
> > תרגום אוטומטי
> > חיפוש עברי תוך שימוש בשורשים ומילים נרדפות
> >
> > שיפור התמיכה בספרים אלקטרונים בעברית
> > תשתית לעבודה על ספרים (www.pgdp.net)
>
> האם זה מסתמך על OCR עובד בעברית? אם לא: זו נשמעת מטלה פשוטה יחסית בלי
> הרבה בעיות "תאורטיות" רציניות.
>
> כן, זה יחסית פשוט, צריך תמיכב בכיווניות ב PHP


> >
> > זיהוי דיבור בעברית
> >
> > לרוב הדברים ברשימה כבר קיימות תוכנות קוד פתוח בשפות אחרות
> > ועיקר העבודה היא התאמתם לעברית.
> > העבודה על הליקסיקון מילון ווורדנט כבר נעשתה על ידי מילה ואמורה להיות
> לפחות
> > חלקית תחת ה GPL.
> >
> > לינקים מעניינים:
> > http://www.cs.technion.ac.il/~barhaim/MorphTagger/
>
> נראה מעניין. אבל גרסה 1.0 יצאה בשנת 2005 ומאז לא יצאה גרסה חדשה.
>
> לא לגמרי ברור לי מה היא עושה כשלעצמה ואיך היא מתחברת עם רכיבים אחרים.
> היא מסתמכת על תוכנה "כמעט חופשית" אחרת:
> http://www.speech.sri.com/projects/srilm/
> "כמעט חופשית" מכיוון שהפצתה דורשת רישום אצל יצרן התוכנה המקורי.
>
> נכון אבל האלגורתמים שם, צריך לנקות ואולי להוסיף לHSPELL כהרחבה


> > http://www.mila.cs.technion.ac.il/mila/eng/index.html
>
> יש שם תוכנה חופשית? הם מדברים באתר על כלים שהם open source. בדף ההורדה
> אני קורא:
> License
>
> For non-commercial research purposes, this tool is licensed under the
> GNU General Public License (GPL). Any publications resulting from the
> use of this tool should refer to it as "The MILA Hebrew Tokenization
> Tool" and cite:
>
> Alon Itai and Shuly Wintner. "Language Resources for Hebrew." Language
> Resources and Evaluation 42(1):75-98, March 2008. [BibTeX]
>
> To gain password access to this tool for non-commercial purposes, please
> register. For commercial usage, please contact MILA to inquire about
> terms.
>
> למישהו יש עותק של הקוד האמור והוא מוכן להעלות אותו לאיזשהו מקום שאין בו
> מגבלות הפצה מוזרות כאלה?
>
>
> אני גם מאד אשמח עם מישהו יעשה את זה:)


> >
> https://www.calico.org/a-194-The%20Hebrewer%20A%20Webbased%20Inflection%20Generator%20The%20Hebrew%20characters%20in%20this%20article%20may%20be%20difficult%20to%20read%20see%20associated%20PDF%20document.html
>
> קוד המקור של זה זמין? איך זה תורם? האם זה עדיין מתעדכן?
>
>  זה מעניין כתשתית לפרוייקטים אחרים.


> > http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud.html#English
>
> קורפוס של כתבות מהארץ שבו אפשר להשתמש
>
>  כן, עם תוכנה שמזהה חלקי דיבור במשפט.
וכן היא תחת GPL.

> http://roidayan.com/wordpress/?p=26
>
> מהם הנתונים ששם?
>
> ???

> >
> > ישנם גם פרוייקטים שקשורים לדת כמו סידור, לימוד תורה,  שימוש ב VMACHINE
> לספרי
> > תורה ועוד...
>
> --
> Tzafrir Cohen         | [email protected] | VIM is
> http://tzafrir.org.il |                    | a Mutt's
> [email protected] |                    |  best
> [email protected]    |                    | friend
> _______________________________________________
> Discussions mailing list
> [email protected]
> http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions
>
_______________________________________________
Discussions mailing list
[email protected]
http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions

לענות