На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
O, ама ние правописна програма ли обсъждахме? Аз през цялото време си
мислех за речник, от типа на този в читанката и уикиречника.
По принцип качеството на един правописен коректор се подобрява, ако той
не включва рядко използваните думи. Дори съвсем нормално звучащи думи
(не като аналгини или йодове) трябва да бъдат изхвърлени.
Което означава, че в речника трябва да се поддържат два списъка с думи -
един пълен и един съкратен за правописния коректор. Това обаче
означава, че ни трябва голям корпус от текстове, въз основа на който ще
можем да пресметнем колко често се среща всяка една дума. По принцип
един такъв корпус трябва да включва разнородни текстово - художествени,
публицистични, научни и т.н., но мисля, че не лош резултат ще се получи
ако на първо време използваме единствено текстовете в читанката и
българската уикипедия. При пресмятане на честотите на думите на
текстовете от уикипедията трябва да се даде по-голямо тегло, така че
въпреки че като количество тези текстове са по-малко, отколкото в
читанката, влиянието им при определяне на честотите да бъде равностойно.
Така че да не се притесняваме да вкарваме редки думи в речника - стига
всичко да се прави правилно. Тъй или иначе после редките думи ще трябва
да се филтрират според честотата на срещанията си.
IDI включва честотен списък, така че можем да стъпим на него. Според
автора му използваният корпус е терабайти, демек би трябвало да е
достоверен. Истината, обаче, е че няма начин да бъде осъвременяван без
наличието на текстовете, но това е съвсем отделен проблем.
--
С
_______________________________________________
Dict mailing list
[email protected]
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict