Re: [Dict] БГ Офис модул за проверка на правопис

Radostin Radnev Thu, 09 Apr 2015 06:53:19 -0700

Здравей,

Добавен си в проекта на SourceForge.


Поздрави,


2015-04-09 15:10 GMT+03:00 Стоян Димитров <[email protected]>:

>      70МБ е само архивът. Самата база от данни е още по-голяма. Това
> което не съм изпратил е една огромна таблица (~4 милиона реда) с име
> „derivative_form“, която предполагам е „разгънатия“ списък с думи. Не съм
> сигурен, дали ще мога да я обърна в същата структура, но ако настояваш мога
> да опитам (хм, минах на „ти“). Има и друг фактор - кодирането. Базата е
> UTF-8, а файловете са cp1251, което само по себе си е намаляване почти
> наполовина.
>
>
> На 09.04.2015 г. в 14:23, Sah War написа:
>
>    @Радостин Раднев
>
>  Засега ще се радвам и на мен да ми дадеш права за commit-ване към SVN
> хранилището на проекта „БГ Офис“ в SourceForge. Потребителското ми име в
> SourceForge е sahwar (http://sourceforge.net/u/sahwar/profile/).
>
>  Аз предлагам да преместим всичко в GitHub, защото git ми се струва
> по-приятна за употреба, а интерфейсът на GitHub е много приятен. Инструкции
> за извършване на тази дейност има на следните страници:
>
>
> http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/
> https://twitter.com/ve4ernik/status/584102649114529792
>
>  Ако искате, можем да извършваме основната дейност в GitHub, а само
> периодично да синхронизираме версията от GitHub с тази от SourceForge (в
> смисъл: да копираме новите неща от GitHub в SourceForge, като SVN-то в SF
> да е по принцип заключено за промени, а само от администратора да се
> добавят новите неща чрез копирането им от GitHub). Разбира се, ако държите
> да ползваме SVN, ще се примиря и с него. Но има и вариант SVN-то да се
> преобразува в git, което да е пак в SourceForge и именно него да клонираме
> в GitHub (и в GH да действаме), а при промени да вливаме промените обратно
> в git хранилището на SourceForge (аз съм лично за този вариант). Варианти
> има много...
>
>  @Михаил Балабанов
>
> Иначе се присъединявам към препоръката изходните данни на проекта да
>> останат във формат „основни форми + правила за формообразуване“ и да не се
>> превръщат в „плосък“ списък от разгърнати словоформи. Така обемът на
>> данните е много по-обозрим от човек, по-лесно се допълва базата и се
>> отстраняват грешки, а списъкът със словоформи така или иначе може да се
>> генерира по всяко време в какъвто искаме формат.
>>
>
>  По принцип е така, но словоформите на думите в българския език не са
> винаги по най-често използвания модел на словообразуване на словоформите,
> поради което автоматичното генериране на словоформи просто няма как да е
> перфектно точно и винаги ще има грешки, макар и дребни...
>
>  Ако се съгласите да преминем към използване на GitHub, там можем да
> направим 2 копия на данните: master (основно копие, по което да се работи)
> и full-wordforms („плосък“ списък с разгърнати словоформи), като второто ще
> следва развитието на първото и промените в него.
>
>  @Стоят Димитров
>
>  Много добра работа си свършил, браво. Но имам един въпрос. Файлът със SQL
> базата от данни на речника на chitanka.info е около 70 МБ, а файла, който
> ти ни прати, е само 528 КБ, сигурен ли си, че това са всички данни от SQL
> файла, че ми се струва прекалено голямо намалението на размера на базата от
> данни, макар и преобразувана в текстов вид?
>
>  П.П. Ако по някаква причина ви харесва git, но не харесвате GitHub,
> защото кодът му не е пуснат, можем да помислим за инсталация на GitLab на
> нечий сървър (например на този на ludost.net или да помолим Борислав
> Манолов от chitanka.info да ползваме неговата инсталация на GitLab?).
>
>  В скоро време искам да пусна нови файлове за частта с речниците в
> BGOffice, затова са ми нужни права за SVN, докато не решим дали ще ползваме
> и занапред него или ще минем към GitHub/GitLab. :)
>
>  Поздрави,
>  Sah War (sahwar)
>
> На 3 април 2015 г., 23:18, Стоян Димитров <[email protected]> написа:
>
>>      Здравейте,
>>     Ето ги и първите добавени от мен думи [1]. Наистина са само, за да
>> усетя процеса.
>> ___
>> [1] http://sourceforge.net/p/bgoffice/code/479/
>>
>> На 29.03.2015 г. в 12:15, Стоян Димитров написа:
>>
>>      Здравейте,
>>     интересува ме някой от вас знае ли дали в момента се извършва дейност
>> по осъвременяването на модула за проверка на правописа в БГ Офис [1]
>> по-скоро списъка с думи (вероятно се нарича „речник“). След предварителен
>> преглед на базата данни [2] от речника [3] мисля, че списъкът с думи,
>> включени в БГ Офис, може да бъде осъвременен и поддържан във форма
>> сравнително лесно. Като допълнителен бонус процесът на обновяване може да
>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
>> имат полза от това.
>>     Започнал съм работа по файла .aff, което да послужи като шаблон за
>> генерирането на допълнен речник за проверка на правописа, та идеята ми е да
>> не се настъпим с някого.
>>
>> П.П.
>> Разборът, който е направен на изходния материал, за да бъде реализиран
>> [3] е страхотна основа за надграждане и незная как е останал незабелязан до
>> момента. Поздравления за автора!
>>
>> __
>> [1] - http://bgoffice.sf.net
>> [2] - http://rechnik.chitanka.info/db.sql.gz
>> [3] - http://rechnik.chitanka.info
>>
>>
>>
>>   _______________________________________________
>> Dict mailing 
>> [email protected]http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>
>>
>> --
>> С
>>
>>
>> _______________________________________________
>> Dict mailing list
>> [email protected]
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>
>>
>
>
> _______________________________________________
> Dict mailing 
> [email protected]http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>
> --
> С
>
>
> _______________________________________________
> Dict mailing list
> [email protected]
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>

_______________________________________________
Dict mailing list
[email protected]
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

Re: [Dict] БГ Офис модул за проверка на правопис

Reply via email to