Re: [Dict] БГ Офис модул за проверка на правопис

Стоян Димитров Wed, 20 May 2015 10:34:35 -0700


На 20.05.2015 г. в 07:38, Anton Zinoviev написа:

O, ама ние правописна програма ли обсъждахме?  Аз през цялото време си
мислех за речник, от типа на този в читанката и уикиречника.

По принцип качеството на един правописен коректор се подобрява, ако той
не включва рядко използваните думи.  Дори съвсем нормално звучащи думи
(не като аналгини или йодове) трябва да бъдат изхвърлени.

Което означава, че в речника трябва да се поддържат два списъка с думи -
един пълен и един съкратен за правописния коректор.  Това обаче
означава, че ни трябва голям корпус от текстове, въз основа на който ще
можем да пресметнем колко често се среща всяка една дума.  По принцип
един такъв корпус трябва да включва разнородни текстово - художествени,
публицистични, научни и т.н., но мисля, че не лош резултат ще се получи
ако на първо време използваме единствено текстовете в читанката и
българската уикипедия.  При пресмятане на честотите на думите на
текстовете от уикипедията трябва да се даде по-голямо тегло, така че
въпреки че като количество тези текстове са по-малко, отколкото в
читанката, влиянието им при определяне на честотите да бъде равностойно.

Така че да не се притесняваме да вкарваме редки думи в речника - стига
всичко да се прави правилно.  Тъй или иначе после редките думи ще трябва
да се филтрират според честотата на срещанията си.

IDI включва честотен списък, така че можем да стъпим на него. Споредавтора му използваният корпус е терабайти, демек би трябвало да едостоверен. Истината, обаче, е че няма начин да бъде осъвременяван безналичието на текстовете, но това е съвсем отделен проблем.


--
С

_______________________________________________
Dict mailing list
[email protected]
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

Re: [Dict] БГ Офис модул за проверка на правопис

Reply via email to