Питам за корпуса, защото ми се вижда най-свестния начин за поддържане на бгофис. По моите разбирания, а и от думите на г-н Зиновиев от там трябва да се започне, и това е липсващата част от картинката. Въпросът е дали да е този или друг създаден специално за целта на бгофис. При възможност да се използва готов, професионално разработван и поддържан честотен списък е безсмислен труд да се прави отделен.

Просто ума не ми побира колко труд и време е това. Отделен проблем е съхранението и споделянето и обработката на толкова информация. За пример, архивът на Уикипедия на български език преди година-две беше ~700МБ. Такъв обем е немислимо да бъде съхраняван в текстов вид и да бъде удобен за работа.

В тази светлина основния проблем, който стои пред проекта е липсата на ясен критерии дали дадена дума трябва да присъства в правописния речник или не. Точно това решава честотният списък. Иначе всеки може да си вкарва каквито думи поиска, както правя и аз в случая, но до колкото разбирам това само намалява точността.

@ал_шопов

Честотният речник на българския език представлява двойка дума - брой срещания в корпуса. Нещо не мога да се сетя за алгоритъм, според който дадена дума да бъде класифицирана като рядка. Като почти половината от списъка е с думи, които се срещат по веднъж, а в 99.9% (от общия брой думи) честотата е под 1000. Някак си не ми се вярва правописният речник да трябва бъде съставен от ~20000 думи в основна форма (или там както се казва без представки и наставки).

С.

На 06.06.2017 г. в 20:51, Anton Zinoviev написа:
On Tue, Jun 06, 2017 at 04:28:05PM +0300, Стоян Димитров wrote:
На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
Което означава, че в речника трябва да се поддържат два списъка с думи -
един пълен и един съкратен за правописния коректор.  Това обаче
означава, че ни трябва голям корпус от текстове, въз основа на който ще
А честотните речници на българския език [1]?

Какъв е прагът под който дадена дума се опередля като рядка?
Оф, дано не забравя да питам някои от създателите на този корпус, защото
не се виждам с тях много често (1-2 пъти годишно), а не искам с email.

Антон Зиновиев
_______________________________________________
Dict mailing list
[email protected]
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

_______________________________________________
Dict mailing list
[email protected]
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

Reply via email to