Здравей, @Михаил Балабанов - би трябвало да имаш вече достъп до SVN-а на Sourceforge (commit права).
Поздрави, 2015-04-01 16:35 GMT+03:00 Mikhail Balabanov <[email protected]>: > Привет, > > В близко бъдеще не ми се очертава изобилие от свободно време за по-мащабно > участие, но бих се радвал да имам достъп до файловете, за да допълвам и > коригирам думи сегиз-тогиз. Покрай редовната работа с LibreOffice и Firefox > и спорадичните справки в Уикиречник и другите клонинги съм си събрал списък > с грешки (погрешни основни форми и класификации) и липсващи думи/дублети и > не бях сигурен какво да го правя. Името ми в Sourceforge е mishob; в GitHub > още нямам регистрация, но ако се реши обединеният проект да бъде там, ще си > направя. > > За лични цели (експерименти по машинен превод) ползвам своя собствена > класификация, базирана на таблиците от прословутата книжка. Първо > реализацията (формат на речника и правилата + конвертор между словоформа и > граматично представяне) беше изцяло моя и по-простичка. Сега преминавам към > стандартния формализъм XFST [1], който е доста мощно средство за описание > на словоформи чрез специален вид регулярни изрази. Те позволяват не само > добавяне и заместване на афикси, но и по-сложни преобразувания, обработка > на изключения от правилата и пр. Не з > ная има ли смисъл от такава тежка артилерия само за съставяне на > правописен речник, без необходимост от морфологичен/граматичен анализ, но > за всеки случай го споменавам. > > Иначе се присъединявам към препоръката изходните данни на проекта да > останат във формат „основни форми + правила за формообразуване“ и да не се > превръщат в „плосък“ списък от разгърнати словоформи. Така обемът на > данните е много по-обозрим от човек, по-лесно се допълва базата и се > отстраняват грешки, а списъкът със словоформи така или иначе може да се > генерира по всяко време в какъвто искаме формат. Освен това така данните > все пак в бъдеще могат да се използват като основа за граматичен анализ. > > Поздрави, > Михаил Балабанов > > [1] Xerox Finite State Toolkit; свободната реализация, която ползвам, е > http://en.wikipedia.org/wiki/Foma_%28software%29 , но има и други. > _______________________________________________ > Dict mailing list > [email protected] > http://lists.ludost.net/cgi-bin/mailman/listinfo/dict >
_______________________________________________ Dict mailing list [email protected] http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
