Re: [Dict] БГ Офис модул за проверка на правопис

Radostin Radnev Sun, 29 Mar 2015 08:58:49 -0700

Здравейте,

Да се включа и аз, поне да кажа как работят нещата в
http://bgoffice.sourceforge.net/


С .aff нямате работа - той се генерира автоматично. Неговата цел е да
постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс
файл, всяка дума е на нов ред и има около 800 000 словоформи. За Firefox и
другите дето ползват aff файл също може да се наблъскат в един файл и да
има празен .aff файл.

Така че не правете модификации във файл, който се генерира автоматично.

Ако искате да добавяте нови думи, просто определяте типа на думата и я
вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....

След това пускате скриптовете за проверка и билдване на речниците и нещата
трябва да проработят.

Има някакви помощни скриптове за определяне типа на думата, но те дават
предложения, после ръчно трябва да определите в кой файл да отиде новата
дума.

Firefox, а и всички останали програми за проверка на правописа (поне
чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
(или дронове) е множествено число на дрон. Така че като добавите дрон, ще
познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
Става въпрос за потребителските речници.


Поздрави,
Радостин Раднев



2015-03-29 17:44 GMT+03:00 Sah War <[email protected]>:

> Здравейте, г-н Димитров!
>
> Предварително се извинявам за дългото писмо. :D
>
> За съжаление, в речника на „Читанка“ има доста грешки и неточности и не е
> проверен дали е точен по отношение на правописа с последния официален
> правописен речник на БАН от 2012 г. (в който на места същ има грешки...),
> поради което базата от данни на речника на „Читанка“ не е много надеждна за
> целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва
> изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен
> това на места липсват дублети.
>
> Това е забелязано отдавна, поради което и не е пристъпено към използването
> на тази база от данни в „БГ Офис“.
>
> Но въпреки това има начини, по който можете да ни помогнете за
> spellchecker-а:
>
> 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz
> (все пак това е SQL база от данни...), даже е добре този вариант да се
> раздели на няколко отделни .txt файла, защото иначе ще е мъка да се
> редактира с текстов редактор.
>
> 2. Набираме желаещи да направят OCR и последваща ръчна проверка и корекция
> на речника на БАН от 2012 г. (чрез ползване на най-новата версия на ABBYY
> FineReader):
>
>
> http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf
>
> http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu
>
> Има обаче една тънкост при корекцията — поради известни недостатъци на
> ABBYY FineReader, програмата не може правилно да разчете знаците за
> ударение на думите и обикновено дава резултат без тях, което означава, че
> при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и
> един път с правилните ударения. Но и при това има затруднение, защото има
> няколко (!!!) начина за слагане на ударения — чрез копиране на знак от
> Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко
> ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
> http://en.wikipedia.org/wiki/Combining_character), чрез знак и сложено
> след него ударение (което незнайно защо се показва като един знак
> впоследствие), или чрез използване на т.нар. precomposed characters
> <http://en.wikipedia.org/wiki/Precomposed_character> (като „ѝ“).
>
> При корекцията на един друг речник в „Читанка“ са решили да ползват втория
> вариант (пример за слети знаци: байга̀ньо; пример за начина, използван в
> сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната страница
> можеш да видиш как изглежда правописът във варианта, използван в „Читанка“:
> http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41
> (но за да видиш реалното положение на нещата е нужно да влезеш в профила си
> в „Читанка“ и да отидеш например на
> http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit),
> техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно
> е да не ти се показва правилно, ако не ползваш подходящ шрифт...).
>
> За мен техният вариант не е особено удачен, защото например при търсене с
> Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия на
> Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при
> търсене за „байганьо“ (т.е. без ударението), докато за откриване на
> „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което
> много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и
> правилният вариант за слагане на ударенията на 2-рото копие на дадена дума
> от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“
> (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите
> след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това
> слагане на ударения, за съжаление, става само ръчно и затова ще отнеме
> адски много време... :\
>
> Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
> генерирано по алгоритъм, който често дава напълно грешни варианти за
> сричкопренасяне), то трябва да се направи като ръчно написан списък със
> сричките на думите. Алгоритмите не могат да автоматизират напълно този
> процес, дори и при английския език (чието сричкопренасяне също е трудно и
> не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите
> препоръчват да се ползва речник за сверяване на сричкопренасянето и не се
> изисква да се помни то наизуст). Сричкопренасянето на български думи в
> LaTeX също е незадоволително, не са само Firefox,
> OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти
> не се използва сричкопренасяне (освен при печатни книги), което намалява
> тежестта на този проблем.
>
>
>
> Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам,
> файлът .aff е само за афиксите, даже е само май за окончанията и
> определителните членове (не включва представки и наставки).
>
> Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с
> кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox
> подчертава като грешни много правилно написани думи, ако сте поставили
> окончание и/или окончание и определителен член (това важи особено много за
> добавени от потребителя думи (т.е. чрез използването на селекция на думата,
> дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се,
> това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява
> подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно,
> ако ползваш грешен афикс към дума (например окончание и определителен член
> за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае
> грешката (макар че това се случва изключително рядко).
>
> Друг е въпросът, че от езикова гледна точка има колебания в употребата на
> окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика
> ни заемки от други езици — например „дронове“ или „дрони“, което няма как
> да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е
> стигнало до консенсус по въпроса коя от формите е по-правилната...
>
> П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те трябва
> да се сверят с официалния речник (и да се има предвид, че и в него има
> грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма
> смисъл от тези промени по речниковата база на spellchecker-а.
>
> Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно свободно
> време и имате желание да допринесете за развитието на един нов свободен
> речник, който надгражда този на „Читанка“, можете да се включите в екипа на
> нашия речник „Словник“, който се разработва от известно време, но който
> няма да бъде пуснат в скоро време: http://slovnik.bulogos.info.
>
> Разбира се, препоръчвам ви да се свържете и с [email protected] (авторът
> на „БГ Офис“), за да се координирате с него по отношение на вашите приноси
> към „БГ Офис“.
>
> Поздрави,
> Sah War (sahwar)
>
> На 29 март 2015 г., 12:15, Стоян Димитров <[email protected]> написа:
>
>>      Здравейте,
>>     интересува ме някой от вас знае ли дали в момента се извършва дейност
>> по осъвременяването на модула за проверка на правописа в БГ Офис [1]
>> по-скоро списъка с думи (вероятно се нарича „речник“). След предварителен
>> преглед на базата данни [2] от речника [3] мисля, че списъкът с думи,
>> включени в БГ Офис, може да бъде осъвременен и поддържан във форма
>> сравнително лесно. Като допълнителен бонус процесът на обновяване може да
>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
>> имат полза от това.
>>     Започнал съм работа по файла .aff, което да послужи като шаблон за
>> генерирането на допълнен речник за проверка на правописа, та идеята ми е да
>> не се настъпим с някого.
>>
>> П.П.
>> Разборът, който е направен на изходния материал, за да бъде реализиран
>> [3] е страхотна основа за надграждане и незная как е останал незабелязан до
>> момента. Поздравления за автора!
>>
>> __
>> [1] - http://bgoffice.sf.net
>> [2] - http://rechnik.chitanka.info/db.sql.gz
>> [3] - http://rechnik.chitanka.info
>>
>> --
>> С
>>
>>
>> _______________________________________________
>> Dict mailing list
>> [email protected]
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>
>>
>
> _______________________________________________
> Dict mailing list
> [email protected]
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>

_______________________________________________
Dict mailing list
[email protected]
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

Re: [Dict] БГ Офис модул за проверка на правопис

Reply via email to