On Tue, Jun 06, 2017 at 06:28:00PM +0000, Alexander Shopov wrote: > Другият вариант е да издириш съответната публикация, където са описали > методологията.
Едва ли има такава публикация. Просто се правят 2-3 варианта на речника (малък-среден-голям) и се оставя на потребителя да реши с кой ще работи (така е напр. при английския език). Оn Wed, Jun 07, 2017 at 10:47:13AM +0300, Стоян Димитров wrote: > > Въпросът е дали да е този или друг създаден специално за целта на > бгофис. При възможност да се използва готов, професионално разработван > и поддържан честотен списък е безсмислен труд да се прави отделен. Там е работата, че не е ясно този честотен речник какъв точно е. Различните стилове имат много различни честоти на думите и не знам тук с какви тегла тези стилове са били съчетани. > Просто ума не ми побира колко труд и време е това. Отделен проблем е > съхранението и споделянето и обработката на толкова информация. За > пример, архивът на Уикипедия на български език преди година-две беше > ~700МБ. Такъв обем е немислимо да бъде съхраняван в текстов вид и да > бъде удобен за работа. Май в текстов вид се съхранява. Не знам е доколко добър е корпусът на Инситута по български език. Защото правенето на качествен езиков корпус е трудна работа. Например останал съм със смътен спомен че при научния стил повечето от текстовете в него са медицински и това повишава неправилно честотата на медицинските термини. Работата няма да е лесна, но не е и невъзможно сами да си направим честотен речник въз основа на следните текстове: 1. Документи от правителствените сайтове и ЕС (административен стил) 2. Закони и нормативни актове (юридически стил) 3. Нови български автори в читанката (художесвен стил) 4. Стари български автори в читанката (художествен стил) 5. Небългарски автори в читанката (художествен стил) 6. Уикипедия (научен стил?) 7. Архивите на някой вестник (кой?, публицистичен стил) 8. Блогове в Интернет При генерирането на честотния речник, теглата на тези осем категории трябва да се вземат не само според това колко често те се използват, но също и според това колко важно е човек да се пази от правописни грешки. Например така: 1 - 30%, 2 - 10%, 3 - 10%, 4 - 5%, 5 - 5%, 6 - 20%, 7 - 5%, 8 - 15% С поздрав: Антон Зиновиев _______________________________________________ Dict mailing list [email protected] http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
