Здравейте, Да се включа и аз, поне да кажа как работят нещата в http://bgoffice.sourceforge.net/
С .aff нямате работа - той се генерира автоматично. Неговата цел е да постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс файл, всяка дума е на нов ред и има около 800 000 словоформи. За Firefox и другите дето ползват aff файл също може да се наблъскат в един файл и да има празен .aff файл. Така че не правете модификации във файл, който се генерира автоматично. Ако искате да добавяте нови думи, просто определяте типа на думата и я вкарвате в съответния файл - bg001.dat, bg002.dat, 03, .... След това пускате скриптовете за проверка и билдване на речниците и нещата трябва да проработят. Има някакви помощни скриптове за определяне типа на думата, но те дават предложения, после ръчно трябва да определите в кой файл да отиде новата дума. Firefox, а и всички останали програми за проверка на правописа (поне чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони (или дронове) е множествено число на дрон. Така че като добавите дрон, ще познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава. Става въпрос за потребителските речници. Поздрави, Радостин Раднев 2015-03-29 17:44 GMT+03:00 Sah War <[email protected]>: > Здравейте, г-н Димитров! > > Предварително се извинявам за дългото писмо. :D > > За съжаление, в речника на „Читанка“ има доста грешки и неточности и не е > проверен дали е точен по отношение на правописа с последния официален > правописен речник на БАН от 2012 г. (в който на места същ има грешки...), > поради което базата от данни на речника на „Читанка“ не е много надеждна за > целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва > изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен > това на места липсват дублети. > > Това е забелязано отдавна, поради което и не е пристъпено към използването > на тази база от данни в „БГ Офис“. > > Но въпреки това има начини, по който можете да ни помогнете за > spellchecker-а: > > 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz > (все пак това е SQL база от данни...), даже е добре този вариант да се > раздели на няколко отделни .txt файла, защото иначе ще е мъка да се > редактира с текстов редактор. > > 2. Набираме желаещи да направят OCR и последваща ръчна проверка и корекция > на речника на БАН от 2012 г. (чрез ползване на най-новата версия на ABBYY > FineReader): > > > http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf > > http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu > > Има обаче една тънкост при корекцията — поради известни недостатъци на > ABBYY FineReader, програмата не може правилно да разчете знаците за > ударение на думите и обикновено дава резултат без тях, което означава, че > при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и > един път с правилните ударения. Но и при това има затруднение, защото има > няколко (!!!) начина за слагане на ударения — чрез копиране на знак от > Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко > ударение), т.е. U+0300 COMBINING GRAVE ACCENT, > http://en.wikipedia.org/wiki/Combining_character), чрез знак и сложено > след него ударение (което незнайно защо се показва като един знак > впоследствие), или чрез използване на т.нар. precomposed characters > <http://en.wikipedia.org/wiki/Precomposed_character> (като „ѝ“). > > При корекцията на един друг речник в „Читанка“ са решили да ползват втория > вариант (пример за слети знаци: байга̀ньо; пример за начина, използван в > сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната страница > можеш да видиш как изглежда правописът във варианта, използван в „Читанка“: > http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41 > (но за да видиш реалното положение на нещата е нужно да влезеш в профила си > в „Читанка“ и да отидеш например на > http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit), > техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно > е да не ти се показва правилно, ако не ползваш подходящ шрифт...). > > За мен техният вариант не е особено удачен, защото например при търсене с > Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия на > Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при > търсене за „байганьо“ (т.е. без ударението), докато за откриване на > „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което > много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и > правилният вариант за слагане на ударенията на 2-рото копие на дадена дума > от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“ > (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите > след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това > слагане на ударения, за съжаление, става само ръчно и затова ще отнеме > адски много време... :\ > > Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто > генерирано по алгоритъм, който често дава напълно грешни варианти за > сричкопренасяне), то трябва да се направи като ръчно написан списък със > сричките на думите. Алгоритмите не могат да автоматизират напълно този > процес, дори и при английския език (чието сричкопренасяне също е трудно и > не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите > препоръчват да се ползва речник за сверяване на сричкопренасянето и не се > изисква да се помни то наизуст). Сричкопренасянето на български думи в > LaTeX също е незадоволително, не са само Firefox, > OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти > не се използва сричкопренасяне (освен при печатни книги), което намалява > тежестта на този проблем. > > > > Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам, > файлът .aff е само за афиксите, даже е само май за окончанията и > определителните членове (не включва представки и наставки). > > Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с > кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox > подчертава като грешни много правилно написани думи, ако сте поставили > окончание и/или окончание и определителен член (това важи особено много за > добавени от потребителя думи (т.е. чрез използването на селекция на думата, > дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се, > това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява > подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно, > ако ползваш грешен афикс към дума (например окончание и определителен член > за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае > грешката (макар че това се случва изключително рядко). > > Друг е въпросът, че от езикова гледна точка има колебания в употребата на > окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика > ни заемки от други езици — например „дронове“ или „дрони“, което няма как > да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е > стигнало до консенсус по въпроса коя от формите е по-правилната... > > П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те трябва > да се сверят с официалния речник (и да се има предвид, че и в него има > грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма > смисъл от тези промени по речниковата база на spellchecker-а. > > Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно свободно > време и имате желание да допринесете за развитието на един нов свободен > речник, който надгражда този на „Читанка“, можете да се включите в екипа на > нашия речник „Словник“, който се разработва от известно време, но който > няма да бъде пуснат в скоро време: http://slovnik.bulogos.info. > > Разбира се, препоръчвам ви да се свържете и с [email protected] (авторът > на „БГ Офис“), за да се координирате с него по отношение на вашите приноси > към „БГ Офис“. > > Поздрави, > Sah War (sahwar) > > На 29 март 2015 г., 12:15, Стоян Димитров <[email protected]> написа: > >> Здравейте, >> интересува ме някой от вас знае ли дали в момента се извършва дейност >> по осъвременяването на модула за проверка на правописа в БГ Офис [1] >> по-скоро списъка с думи (вероятно се нарича „речник“). След предварителен >> преглед на базата данни [2] от речника [3] мисля, че списъкът с думи, >> включени в БГ Офис, може да бъде осъвременен и поддържан във форма >> сравнително лесно. Като допълнителен бонус процесът на обновяване може да >> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули >> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще >> имат полза от това. >> Започнал съм работа по файла .aff, което да послужи като шаблон за >> генерирането на допълнен речник за проверка на правописа, та идеята ми е да >> не се настъпим с някого. >> >> П.П. >> Разборът, който е направен на изходния материал, за да бъде реализиран >> [3] е страхотна основа за надграждане и незная как е останал незабелязан до >> момента. Поздравления за автора! >> >> __ >> [1] - http://bgoffice.sf.net >> [2] - http://rechnik.chitanka.info/db.sql.gz >> [3] - http://rechnik.chitanka.info >> >> -- >> С >> >> >> _______________________________________________ >> Dict mailing list >> [email protected] >> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict >> >> > > _______________________________________________ > Dict mailing list > [email protected] > http://lists.ludost.net/cgi-bin/mailman/listinfo/dict > >
_______________________________________________ Dict mailing list [email protected] http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
