@Радостин Раднев
Засега ще се радвам и на мен да ми дадеш права за commit-ване
към SVN хранилището на проекта „БГ Офис“ в SourceForge.
Потребителското ми име в SourceForge е sahwar
(http://sourceforge.net/u/sahwar/profile/).
Аз предлагам да преместим всичко в GitHub, защото git ми се
струва по-приятна за употреба, а интерфейсът на GitHub е
много приятен. Инструкции за извършване на тази дейност има
на следните страници:
http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/
https://twitter.com/ve4ernik/status/584102649114529792
Ако искате, можем да извършваме основната дейност в GitHub, а
само периодично да синхронизираме версията от GitHub с тази
от SourceForge (в смисъл: да копираме новите неща от GitHub в
SourceForge, като SVN-то в SF да е по принцип заключено за
промени, а само от администратора да се добавят новите неща
чрез копирането им от GitHub). Разбира се, ако държите да
ползваме SVN, ще се примиря и с него. Но има и вариант SVN-то
да се преобразува в git, което да е пак в SourceForge и
именно него да клонираме в GitHub (и в GH да действаме), а
при промени да вливаме промените обратно в git хранилището на
SourceForge (аз съм лично за този вариант). Варианти има много...
@Михаил Балабанов
Иначе се присъединявам към препоръката изходните данни на
проекта да останат във формат „основни форми + правила за
формообразуване“ и да не се превръщат в „плосък“ списък
от разгърнати словоформи. Така обемът на данните е много
по-обозрим от човек, по-лесно се допълва базата и се
отстраняват грешки, а списъкът със словоформи така или
иначе може да се генерира по всяко време в какъвто искаме
формат.
По принцип е така, но словоформите на думите в българския
език не са винаги по най-често използвания модел на
словообразуване на словоформите, поради което автоматичното
генериране на словоформи просто няма как да е перфектно точно
и винаги ще има грешки, макар и дребни...
Ако се съгласите да преминем към използване на GitHub, там
можем да направим 2 копия на данните: master (основно копие,
по което да се работи) и full-wordforms („плосък“ списък с
разгърнати словоформи), като второто ще следва развитието на
първото и промените в него.
@Стоят Димитров
Много добра работа си свършил, браво. Но имам един въпрос.
Файлът със SQL базата от данни на речника на chitanka.info
<http://chitanka.info> е около 70 МБ, а файла, който ти ни
прати, е само 528 КБ, сигурен ли си, че това са всички данни
от SQL файла, че ми се струва прекалено голямо намалението на
размера на базата от данни, макар и преобразувана в текстов вид?
П.П. Ако по някаква причина ви харесва git, но не харесвате
GitHub, защото кодът му не е пуснат, можем да помислим за
инсталация на GitLab на нечий сървър (например на този на
ludost.net <http://ludost.net> или да помолим Борислав
Манолов от chitanka.info <http://chitanka.info> да ползваме
неговата инсталация на GitLab?).
В скоро време искам да пусна нови файлове за частта с
речниците в BGOffice, затова са ми нужни права за SVN, докато
не решим дали ще ползваме и занапред него или ще минем към
GitHub/GitLab. :)
Поздрави,
Sah War (sahwar)
На 3 април 2015 г., 23:18, Стоян Димитров <[email protected]
<mailto:[email protected]>> написа:
Здравейте,
Ето ги и първите добавениот мен думи [1]. Наистина са
само, за да усетя процеса.
___
[1] http://sourceforge.net/p/bgoffice/code/479/
На 29.03.2015 г. в 12:15, Стоян Димитров написа:
Здравейте,
интересува ме някой от вас знае ли дали в момента се
извършва дейност по осъвременяването на модула за
проверка на правописа в БГ Офис [1] по-скоро списъка с
думи (вероятно се нарича „речник“). След предварителен
преглед на базата данни [2] от речника [3] мисля, че
списъкът с думи, включени в БГ Офис, може да бъде
осъвременен и поддържан във форма сравнително лесно.
Като допълнителен бонус процесът на обновяване може да
бъде автоматизиран. Не е съм съвсем сигурен, но вероятно
всички модули (напр. сричкопренасянето) и за всички
продукти (OpenOffice, Mozilla) ще имат полза от това.
Започнал съм работа по файла .aff, което да послужи
като шаблон за генерирането на допълнен речник за
проверка на правописа, та идеята ми е да не се настъпим
с някого.
П.П.
Разборът, който е направен на изходния материал, за да
бъде реализиран [3] е страхотна основа за надграждане и
незная как е останал незабелязан до момента.
Поздравления за автора!
__
[1] - http://bgoffice.sf.net
[2] - http://rechnik.chitanka.info/db.sql.gz
[3] - http://rechnik.chitanka.info
_______________________________________________
Dict mailing list
[email protected] <mailto:[email protected]>
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
--
С
_______________________________________________
Dict mailing list
[email protected] <mailto:[email protected]>
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
_______________________________________________
Dict mailing list
[email protected] <mailto:[email protected]>
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict