2011/9/9 Tzafrir Cohen <[email protected]> > On Fri, Sep 09, 2011 at 06:10:28PM +0300, E L wrote: > > יש כל -כך הרבה שקשה לכתוב את הכל :) > > אבל זו אינה תוכנית עבודה מפורטת > > הייתי רוצה למצוא רשימה של מטלות שיאפשרו למישהו מבחוץ להכנס. לדוגמה: משהו > מסדר הגודל של המשימות בקיץ הקוד של גוגגל. > > חלק מהמשימות דורשות דיון על הדרך הטובה ביותר למימוש, לכן אני מקווה שיהיו מספיק אנשים לדיון רציני.
> > סריקה בעברית כולל ניקוד > > יש תוכנית בשם hocr. היא בערך עובדת. יש לה בעיות רציניות. כרגע אף אחד לא > עובד עליה. > > נראה לי שזה אחד המקומות שבהם השקעת מאמץ תתרום לא מעט. > > אני חושב שיותר קל להשתמש באחת מתוכניות ה OCR הקיימות ראיתי כמה מילונים ל teserect למישהו בא לבדוק את התוכנה? > > זיהוי עברי של כתב יד > > > > הרחבת המילונים של למחלקות שונות של עברית > > הוספת מנתח דיקדוק ותיקון שגיאות > > נקדן ובדיקת איות מבוססת ניקוד > > מסכם טקסט > > > > תקן לשימושיות דו-כווניות בקוד פתוח > > מימושו בפרוייקטים שונים > > > > מילון עברי-עיברי עיברי-אנגלי (מבוסס WORDNET?) > > תזכורת למה שכבר קיים: > http://culmus.sourceforge.net/dictionary/ > > גם wordnet כבר קיים:) > > מילון מילים נרדפות > > תרגום אוטומטי > > חיפוש עברי תוך שימוש בשורשים ומילים נרדפות > > > > שיפור התמיכה בספרים אלקטרונים בעברית > > תשתית לעבודה על ספרים (www.pgdp.net) > > האם זה מסתמך על OCR עובד בעברית? אם לא: זו נשמעת מטלה פשוטה יחסית בלי > הרבה בעיות "תאורטיות" רציניות. > > כן, זה יחסית פשוט, צריך תמיכב בכיווניות ב PHP > > > > זיהוי דיבור בעברית > > > > לרוב הדברים ברשימה כבר קיימות תוכנות קוד פתוח בשפות אחרות > > ועיקר העבודה היא התאמתם לעברית. > > העבודה על הליקסיקון מילון ווורדנט כבר נעשתה על ידי מילה ואמורה להיות > לפחות > > חלקית תחת ה GPL. > > > > לינקים מעניינים: > > http://www.cs.technion.ac.il/~barhaim/MorphTagger/ > > נראה מעניין. אבל גרסה 1.0 יצאה בשנת 2005 ומאז לא יצאה גרסה חדשה. > > לא לגמרי ברור לי מה היא עושה כשלעצמה ואיך היא מתחברת עם רכיבים אחרים. > היא מסתמכת על תוכנה "כמעט חופשית" אחרת: > http://www.speech.sri.com/projects/srilm/ > "כמעט חופשית" מכיוון שהפצתה דורשת רישום אצל יצרן התוכנה המקורי. > > נכון אבל האלגורתמים שם, צריך לנקות ואולי להוסיף לHSPELL כהרחבה > > http://www.mila.cs.technion.ac.il/mila/eng/index.html > > יש שם תוכנה חופשית? הם מדברים באתר על כלים שהם open source. בדף ההורדה > אני קורא: > License > > For non-commercial research purposes, this tool is licensed under the > GNU General Public License (GPL). Any publications resulting from the > use of this tool should refer to it as "The MILA Hebrew Tokenization > Tool" and cite: > > Alon Itai and Shuly Wintner. "Language Resources for Hebrew." Language > Resources and Evaluation 42(1):75-98, March 2008. [BibTeX] > > To gain password access to this tool for non-commercial purposes, please > register. For commercial usage, please contact MILA to inquire about > terms. > > למישהו יש עותק של הקוד האמור והוא מוכן להעלות אותו לאיזשהו מקום שאין בו > מגבלות הפצה מוזרות כאלה? > > > אני גם מאד אשמח עם מישהו יעשה את זה:) > > > https://www.calico.org/a-194-The%20Hebrewer%20A%20Webbased%20Inflection%20Generator%20The%20Hebrew%20characters%20in%20this%20article%20may%20be%20difficult%20to%20read%20see%20associated%20PDF%20document.html > > קוד המקור של זה זמין? איך זה תורם? האם זה עדיין מתעדכן? > > זה מעניין כתשתית לפרוייקטים אחרים. > > http://www.cs.technion.ac.il/~erelsgl/bxi/hmntx/tqstim/teud.html#English > > קורפוס של כתבות מהארץ שבו אפשר להשתמש > > כן, עם תוכנה שמזהה חלקי דיבור במשפט. וכן היא תחת GPL. > http://roidayan.com/wordpress/?p=26 > > מהם הנתונים ששם? > > ??? > > > > ישנם גם פרוייקטים שקשורים לדת כמו סידור, לימוד תורה, שימוש ב VMACHINE > לספרי > > תורה ועוד... > > -- > Tzafrir Cohen | [email protected] | VIM is > http://tzafrir.org.il | | a Mutt's > [email protected] | | best > [email protected] | | friend > _______________________________________________ > Discussions mailing list > [email protected] > http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions >
_______________________________________________ Discussions mailing list [email protected] http://hamakor.org.il/cgi-bin/mailman/listinfo/discussions

