Здравей, Добавен си в проекта на SourceForge.
Поздрави, 2015-04-09 15:10 GMT+03:00 Стоян Димитров <[email protected]>: > 70МБ е само архивът. Самата база от данни е още по-голяма. Това > което не съм изпратил е една огромна таблица (~4 милиона реда) с име > „derivative_form“, която предполагам е „разгънатия“ списък с думи. Не съм > сигурен, дали ще мога да я обърна в същата структура, но ако настояваш мога > да опитам (хм, минах на „ти“). Има и друг фактор - кодирането. Базата е > UTF-8, а файловете са cp1251, което само по себе си е намаляване почти > наполовина. > > > На 09.04.2015 г. в 14:23, Sah War написа: > > @Радостин Раднев > > Засега ще се радвам и на мен да ми дадеш права за commit-ване към SVN > хранилището на проекта „БГ Офис“ в SourceForge. Потребителското ми име в > SourceForge е sahwar (http://sourceforge.net/u/sahwar/profile/). > > Аз предлагам да преместим всичко в GitHub, защото git ми се струва > по-приятна за употреба, а интерфейсът на GitHub е много приятен. Инструкции > за извършване на тази дейност има на следните страници: > > > http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/ > https://twitter.com/ve4ernik/status/584102649114529792 > > Ако искате, можем да извършваме основната дейност в GitHub, а само > периодично да синхронизираме версията от GitHub с тази от SourceForge (в > смисъл: да копираме новите неща от GitHub в SourceForge, като SVN-то в SF > да е по принцип заключено за промени, а само от администратора да се > добавят новите неща чрез копирането им от GitHub). Разбира се, ако държите > да ползваме SVN, ще се примиря и с него. Но има и вариант SVN-то да се > преобразува в git, което да е пак в SourceForge и именно него да клонираме > в GitHub (и в GH да действаме), а при промени да вливаме промените обратно > в git хранилището на SourceForge (аз съм лично за този вариант). Варианти > има много... > > @Михаил Балабанов > > Иначе се присъединявам към препоръката изходните данни на проекта да >> останат във формат „основни форми + правила за формообразуване“ и да не се >> превръщат в „плосък“ списък от разгърнати словоформи. Така обемът на >> данните е много по-обозрим от човек, по-лесно се допълва базата и се >> отстраняват грешки, а списъкът със словоформи така или иначе може да се >> генерира по всяко време в какъвто искаме формат. >> > > По принцип е така, но словоформите на думите в българския език не са > винаги по най-често използвания модел на словообразуване на словоформите, > поради което автоматичното генериране на словоформи просто няма как да е > перфектно точно и винаги ще има грешки, макар и дребни... > > Ако се съгласите да преминем към използване на GitHub, там можем да > направим 2 копия на данните: master (основно копие, по което да се работи) > и full-wordforms („плосък“ списък с разгърнати словоформи), като второто ще > следва развитието на първото и промените в него. > > @Стоят Димитров > > Много добра работа си свършил, браво. Но имам един въпрос. Файлът със SQL > базата от данни на речника на chitanka.info е около 70 МБ, а файла, който > ти ни прати, е само 528 КБ, сигурен ли си, че това са всички данни от SQL > файла, че ми се струва прекалено голямо намалението на размера на базата от > данни, макар и преобразувана в текстов вид? > > П.П. Ако по някаква причина ви харесва git, но не харесвате GitHub, > защото кодът му не е пуснат, можем да помислим за инсталация на GitLab на > нечий сървър (например на този на ludost.net или да помолим Борислав > Манолов от chitanka.info да ползваме неговата инсталация на GitLab?). > > В скоро време искам да пусна нови файлове за частта с речниците в > BGOffice, затова са ми нужни права за SVN, докато не решим дали ще ползваме > и занапред него или ще минем към GitHub/GitLab. :) > > Поздрави, > Sah War (sahwar) > > На 3 април 2015 г., 23:18, Стоян Димитров <[email protected]> написа: > >> Здравейте, >> Ето ги и първите добавени от мен думи [1]. Наистина са само, за да >> усетя процеса. >> ___ >> [1] http://sourceforge.net/p/bgoffice/code/479/ >> >> На 29.03.2015 г. в 12:15, Стоян Димитров написа: >> >> Здравейте, >> интересува ме някой от вас знае ли дали в момента се извършва дейност >> по осъвременяването на модула за проверка на правописа в БГ Офис [1] >> по-скоро списъка с думи (вероятно се нарича „речник“). След предварителен >> преглед на базата данни [2] от речника [3] мисля, че списъкът с думи, >> включени в БГ Офис, може да бъде осъвременен и поддържан във форма >> сравнително лесно. Като допълнителен бонус процесът на обновяване може да >> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули >> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще >> имат полза от това. >> Започнал съм работа по файла .aff, което да послужи като шаблон за >> генерирането на допълнен речник за проверка на правописа, та идеята ми е да >> не се настъпим с някого. >> >> П.П. >> Разборът, който е направен на изходния материал, за да бъде реализиран >> [3] е страхотна основа за надграждане и незная как е останал незабелязан до >> момента. Поздравления за автора! >> >> __ >> [1] - http://bgoffice.sf.net >> [2] - http://rechnik.chitanka.info/db.sql.gz >> [3] - http://rechnik.chitanka.info >> >> >> >> _______________________________________________ >> Dict mailing >> [email protected]http://lists.ludost.net/cgi-bin/mailman/listinfo/dict >> >> >> -- >> С >> >> >> _______________________________________________ >> Dict mailing list >> [email protected] >> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict >> >> > > > _______________________________________________ > Dict mailing > [email protected]http://lists.ludost.net/cgi-bin/mailman/listinfo/dict > > > -- > С > > > _______________________________________________ > Dict mailing list > [email protected] > http://lists.ludost.net/cgi-bin/mailman/listinfo/dict > >
_______________________________________________ Dict mailing list [email protected] http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
