@Радостин Раднев: Благодаря много! :)
@Стоян Димитров: Вече минахме на „ти“ с теб, спокойно. :) Да, хубаво е да опиташ, но леко се съмнявам, че SourceForge ще ни позволят да имаме хранилище с над 5 GB данни, но кой знае. :D „Базата е UTF-8, а файловете са cp1251, което само по себе си е намаляване почти наполовина.“ Това е много странно, очаквах всички данни да са с кодировка UTF-8, вероятно Борислав Манолов не е променил кодировката на слоформената база от данни на IDI (по-точно старата ѝ версия, която е използвал), вероятно именно с цел да не увеличава излишно големината на файловете. CP1251 върши работа, но иначе би било по-добре всичко да е с кодировка UTF-8, но това винаги е на цената на по-голям размер на файловете. Плюс това и повечето от файловете на „БГ Офис“ са с CP1251, ако не се лъжа, тъй че това май не е проблем. И все пак мисля, че би било нереалистично и неефективно да се ползва база от данни над 50 MB само за едната правописна проверка. Вариантът с 2 разклонения на базата от данни с думите ми се струва най-добър — тази без всичките слоформи на думите е стандартната (както е и сега), а другата да е за тези, които искат възможно най-пълна поддръжка на правописната проверка (например писатели, блогъри и т.н. хора, които пишат много (но не програмен код)). П.П. Очаквам мненията ви за предложението за преминаване към GitHub/GitLab или гласове и обяснения в подкрепа на това да останем със SVN-то на SourceForge (има го и вариантът с ползване на git в SourceForge, както вече отбелязах). Все пак вероятно не е особено добра идея да фрагментираме пак проекта чрез едновременното поддържане и на SVN в SourceForge и на GitHub/GitLab/git-SourceForge (май синхронизацията между 2-те хранилища в този случай няма да бъде особено лесна, но пък и аз не съм специалист по синхронизацията между 2 хранилища на различни видове системи за следене на версиите). Поздрави, Sah War (sahwar) На 9 април 2015 г., 16:52, Radostin Radnev <[email protected]> написа: > Здравей, > > Добавен си в проекта на SourceForge. > > Поздрави, > > > 2015-04-09 15:10 GMT+03:00 Стоян Димитров <[email protected]>: > >> 70МБ е само архивът. Самата база от данни е още по-голяма. Това >> което не съм изпратил е една огромна таблица (~4 милиона реда) с име >> „derivative_form“, която предполагам е „разгънатия“ списък с думи. Не >> съм сигурен, дали ще мога да я обърна в същата структура, но ако настояваш >> мога да опитам (хм, минах на „ти“). Има и друг фактор - кодирането. Базата >> е UTF-8, а файловете са cp1251, което само по себе си е намаляване почти >> наполовина. >> >> >> На 09.04.2015 г. в 14:23, Sah War написа: >> >> @Радостин Раднев >> >> Засега ще се радвам и на мен да ми дадеш права за commit-ване към SVN >> хранилището на проекта „БГ Офис“ в SourceForge. Потребителското ми име в >> SourceForge е sahwar (http://sourceforge.net/u/sahwar/profile/). >> >> Аз предлагам да преместим всичко в GitHub, защото git ми се струва >> по-приятна за употреба, а интерфейсът на GitHub е много приятен. Инструкции >> за извършване на тази дейност има на следните страници: >> >> >> http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/ >> https://twitter.com/ve4ernik/status/584102649114529792 >> >> Ако искате, можем да извършваме основната дейност в GitHub, а само >> периодично да синхронизираме версията от GitHub с тази от SourceForge (в >> смисъл: да копираме новите неща от GitHub в SourceForge, като SVN-то в SF >> да е по принцип заключено за промени, а само от администратора да се >> добавят новите неща чрез копирането им от GitHub). Разбира се, ако държите >> да ползваме SVN, ще се примиря и с него. Но има и вариант SVN-то да се >> преобразува в git, което да е пак в SourceForge и именно него да клонираме >> в GitHub (и в GH да действаме), а при промени да вливаме промените обратно >> в git хранилището на SourceForge (аз съм лично за този вариант). Варианти >> има много... >> >> @Михаил Балабанов >> >> Иначе се присъединявам към препоръката изходните данни на проекта да >>> останат във формат „основни форми + правила за формообразуване“ и да не се >>> превръщат в „плосък“ списък от разгърнати словоформи. Така обемът на >>> данните е много по-обозрим от човек, по-лесно се допълва базата и се >>> отстраняват грешки, а списъкът със словоформи така или иначе може да се >>> генерира по всяко време в какъвто искаме формат. >>> >> >> По принцип е така, но словоформите на думите в българския език не са >> винаги по най-често използвания модел на словообразуване на словоформите, >> поради което автоматичното генериране на словоформи просто няма как да е >> перфектно точно и винаги ще има грешки, макар и дребни... >> >> Ако се съгласите да преминем към използване на GitHub, там можем да >> направим 2 копия на данните: master (основно копие, по което да се работи) >> и full-wordforms („плосък“ списък с разгърнати словоформи), като второто ще >> следва развитието на първото и промените в него. >> >> @Стоят Димитров >> >> Много добра работа си свършил, браво. Но имам един въпрос. Файлът със >> SQL базата от данни на речника на chitanka.info е около 70 МБ, а файла, >> който ти ни прати, е само 528 КБ, сигурен ли си, че това са всички данни от >> SQL файла, че ми се струва прекалено голямо намалението на размера на >> базата от данни, макар и преобразувана в текстов вид? >> >> П.П. Ако по някаква причина ви харесва git, но не харесвате GitHub, >> защото кодът му не е пуснат, можем да помислим за инсталация на GitLab на >> нечий сървър (например на този на ludost.net или да помолим Борислав >> Манолов от chitanka.info да ползваме неговата инсталация на GitLab?). >> >> В скоро време искам да пусна нови файлове за частта с речниците в >> BGOffice, затова са ми нужни права за SVN, докато не решим дали ще ползваме >> и занапред него или ще минем към GitHub/GitLab. :) >> >> Поздрави, >> Sah War (sahwar) >> >> На 3 април 2015 г., 23:18, Стоян Димитров <[email protected]> написа: >> >>> Здравейте, >>> Ето ги и първите добавени от мен думи [1]. Наистина са само, за да >>> усетя процеса. >>> ___ >>> [1] http://sourceforge.net/p/bgoffice/code/479/ >>> >>> На 29.03.2015 г. в 12:15, Стоян Димитров написа: >>> >>> Здравейте, >>> интересува ме някой от вас знае ли дали в момента се извършва >>> дейност по осъвременяването на модула за проверка на правописа в БГ Офис >>> [1] по-скоро списъка с думи (вероятно се нарича „речник“). След >>> предварителен преглед на базата данни [2] от речника [3] мисля, че списъкът >>> с думи, включени в БГ Офис, може да бъде осъвременен и поддържан във форма >>> сравнително лесно. Като допълнителен бонус процесът на обновяване може да >>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули >>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще >>> имат полза от това. >>> Започнал съм работа по файла .aff, което да послужи като шаблон за >>> генерирането на допълнен речник за проверка на правописа, та идеята ми е да >>> не се настъпим с някого. >>> >>> П.П. >>> Разборът, който е направен на изходния материал, за да бъде реализиран >>> [3] е страхотна основа за надграждане и незная как е останал незабелязан до >>> момента. Поздравления за автора! >>> >>> __ >>> [1] - http://bgoffice.sf.net >>> [2] - http://rechnik.chitanka.info/db.sql.gz >>> [3] - http://rechnik.chitanka.info >>> >>> >>> >>> _______________________________________________ >>> Dict mailing >>> [email protected]http://lists.ludost.net/cgi-bin/mailman/listinfo/dict >>> >>> >>> -- >>> С >>> >>> >>> _______________________________________________ >>> Dict mailing list >>> [email protected] >>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict >>> >>> >> >> >> _______________________________________________ >> Dict mailing >> [email protected]http://lists.ludost.net/cgi-bin/mailman/listinfo/dict >> >> >> -- >> С >> >> >> _______________________________________________ >> Dict mailing list >> [email protected] >> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict >> >> > > _______________________________________________ > Dict mailing list > [email protected] > http://lists.ludost.net/cgi-bin/mailman/listinfo/dict > >
_______________________________________________ Dict mailing list [email protected] http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
