Re: [Dict] БГ Офис модул за проверка на правопис

Стоян Димитров Thu, 09 Apr 2015 08:57:01 -0700

На 09.04.2015 г. в 17:32, Sah War написа:

@Радостин Раднев:
Благодаря много! :)

@Стоян Димитров:

Вече минахме на „ти“ с теб, спокойно. :)
Да, хубаво е да опиташ, но леко се съмнявам, че SourceForge ще нипозволят да имаме хранилище с над 5 GB данни, но кой знае. :D
„Базата е UTF-8, а файловете са cp1251, което само по себе си енамаляване почти наполовина.“
Това е много странно, очаквах всички данни да са с кодировка UTF-8,вероятно Борислав Манолов не е променил кодировката на слоформенатабаза от данни на IDI (по-точно старата ѝ версия, която е използвал),вероятно именно с цел да не увеличава излишно големината на файловете.

Аз прекодирах файловете преди да ги пусна тук с цел по-лесно сравняванес текстовата база на „БГ Офис“. В базата от „Читанка“ всичко е utf.

CP1251 върши работа, но иначе би било по-добре всичко да е с кодировкаUTF-8, но това винаги е на цената на по-голям размер на файловете.Плюс това и повечето от файловете на „БГ Офис“ са с CP1251, ако не селъжа, тъй че това май не е проблем.

Всичко е 1251. Ако трябва да съм честен не е много удобно при положение,че всички среди (shell), стандартно са utf, но не е фатално.

И все пак мисля, че би било нереалистично и неефективно да се ползвабаза от данни над 50 MB само за едната правописна проверка. Вариантътс 2 разклонения на базата от данни с думите ми се струва най-добър —тази без всичките слоформи на думите е стандартната (както е и сега),а другата да е за тези, които искат възможно най-пълна поддръжка направописната проверка (например писатели, блогъри и т.н. хора, коитопишат много (но не програмен код)).

Обемът едва ли е проблем за някого ако проектът се разширява иподобрява, т. е. има осезаем ефект от тях като качество на крайния продукт.

П.П. Очаквам мненията ви за предложението за преминаване къмGitHub/GitLab или гласове и обяснения в подкрепа на това да останемсъс SVN-то на SourceForge (има го и вариантът с ползване на git вSourceForge, както вече отбелязах). Все пак вероятно не е особенодобра идея да фрагментираме пак проекта чрез едновременното поддържанеи на SVN в SourceForge и на GitHub/GitLab/git-SourceForge (майсинхронизацията между 2-те хранилища в този случай няма да бъдеособено лесна, но пък и аз не съм специалист по синхронизацията между2 хранилища на различни видове системи за следене на версиите).

Не е невъзможно, но все пак някой трябва да го прави, а времето ебезпощадно към такива начинания и рано или късно нещата ще излязат отсинхрон (<- тази дума липсва в речника). Хранилището в SourceForge сеизползва от други хора, така че даже и да бъде планирана миграция къмGit-нещо-си тя няма да стане веднага. Те трябва да бъдат уведомени, чеможе да има и съпротива.Не съм против мигриране, но в случая гледам по-консервативно. За мендали Git-нещо-си или старото хранилище се свежда до следния въпрос:какво добро ще донесе на проекта? Ако е само за по-добрия интерфейс неси струва. Нека се задвижат нещата и който има желание да започне дадобавя низове, а като излязат наяве кривините на SVN-а тогава да мислимкак да ги изправим.


Поздрави,
Sah War (sahwar)

На 9 април 2015 г., 16:52, Radostin Radnev <[email protected]<mailto:[email protected]>> написа:


    Здравей,

    Добавен си в проекта на SourceForge.

    Поздрави,


    2015-04-09 15:10 GMT+03:00 Стоян Димитров <[email protected]
    <mailto:[email protected]>>:

            70МБ е само архивът. Самата база от данни е още по-голяма.
        Това което не съм изпратил е една огромна таблица (~4 милиона
        реда) с име „derivative_form“, която предполагам е
        „разгънатия“ списък с думи. Не съм сигурен, дали ще мога да я
        обърна в същата структура, но ако настояваш мога да опитам
        (хм, минах на „ти“). Има и друг фактор - кодирането. Базата е
        UTF-8, а файловете са cp1251, което само по себе си е
        намаляване почти наполовина.


        На 09.04.2015 г. в 14:23, Sah War написа:

        @Радостин Раднев

        Засега ще се радвам и на мен да ми дадеш права за commit-ване
        към SVN хранилището на проекта „БГ Офис“ в SourceForge.
        Потребителското ми име в SourceForge е sahwar
        (http://sourceforge.net/u/sahwar/profile/).

        Аз предлагам да преместим всичко в GitHub, защото git ми се
        струва по-приятна за употреба, а интерфейсът на GitHub е
        много приятен. Инструкции за извършване на тази дейност има
        на следните страници:

        
http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/
        https://twitter.com/ve4ernik/status/584102649114529792

        Ако искате, можем да извършваме основната дейност в GitHub, а
        само периодично да синхронизираме версията от GitHub с тази
        от SourceForge (в смисъл: да копираме новите неща от GitHub в
        SourceForge, като SVN-то в SF да е по принцип заключено за
        промени, а само от администратора да се добавят новите неща
        чрез копирането им от GitHub). Разбира се, ако държите да
        ползваме SVN, ще се примиря и с него. Но има и вариант SVN-то
        да се преобразува в git, което да е пак в SourceForge и
        именно него да клонираме в GitHub (и в GH да действаме), а
        при промени да вливаме промените обратно в git хранилището на
        SourceForge (аз съм лично за този вариант). Варианти има много...

        @Михаил Балабанов

            Иначе се присъединявам към препоръката изходните данни на
            проекта да останат във формат „основни форми + правила за
            формообразуване“ и да не се превръщат в „плосък“ списък
            от разгърнати словоформи. Така обемът на данните е много
            по-обозрим от човек, по-лесно се допълва базата и се
            отстраняват грешки, а списъкът със словоформи така или
            иначе може да се генерира по всяко време в какъвто искаме
            формат.


        По принцип е така, но словоформите на думите в българския
        език не са винаги по най-често използвания модел на
        словообразуване на словоформите, поради което автоматичното
        генериране на словоформи просто няма как да е перфектно точно
        и винаги ще има грешки, макар и дребни...

        Ако се съгласите да преминем към използване на GitHub, там
        можем да направим 2 копия на данните: master (основно копие,
        по което да се работи) и full-wordforms („плосък“ списък с
        разгърнати словоформи), като второто ще следва развитието на
        първото и промените в него.

        @Стоят Димитров

        Много добра работа си свършил, браво. Но имам един въпрос.
        Файлът със SQL базата от данни на речника на chitanka.info
        <http://chitanka.info> е около 70 МБ, а файла, който ти ни
        прати, е само 528 КБ, сигурен ли си, че това са всички данни
        от SQL файла, че ми се струва прекалено голямо намалението на
        размера на базата от данни, макар и преобразувана в текстов вид?

        П.П. Ако по някаква причина ви харесва git, но не харесвате
        GitHub, защото кодът му не е пуснат, можем да помислим за
        инсталация на GitLab на нечий сървър (например на този на
        ludost.net <http://ludost.net> или да помолим Борислав
        Манолов от chitanka.info <http://chitanka.info> да ползваме
        неговата инсталация на GitLab?).

        В скоро време искам да пусна нови файлове за частта с
        речниците в BGOffice, затова са ми нужни права за SVN, докато
        не решим дали ще ползваме и занапред него или ще минем към
        GitHub/GitLab. :)

        Поздрави,
        Sah War (sahwar)

        На 3 април 2015 г., 23:18, Стоян Димитров <[email protected]
        <mailto:[email protected]>> написа:

                Здравейте,
                Ето ги и първите добавениот мен думи [1]. Наистина са
            само, за да усетя процеса.
            ___
            [1] http://sourceforge.net/p/bgoffice/code/479/

            На 29.03.2015 г. в 12:15, Стоян Димитров написа:

                Здравейте,
                интересува ме някой от вас знае ли дали в момента се
            извършва дейност по осъвременяването на модула за
            проверка на правописа в БГ Офис [1] по-скоро списъка с
            думи (вероятно се нарича „речник“). След предварителен
            преглед на базата данни [2] от речника [3] мисля, че
            списъкът с думи, включени в БГ Офис, може да бъде
            осъвременен и поддържан във форма сравнително лесно.
            Като допълнителен бонус процесът на обновяване може да
            бъде автоматизиран. Не е съм съвсем сигурен, но вероятно
            всички модули (напр. сричкопренасянето) и за всички
            продукти (OpenOffice, Mozilla) ще имат полза от това.
                Започнал съм работа по файла .aff, което да послужи
            като шаблон за генерирането на допълнен речник за
            проверка на правописа, та идеята ми е да не се настъпим
            с някого.

            П.П.
            Разборът, който е направен на изходния материал, за да
            бъде реализиран [3] е страхотна основа за надграждане и
            незная как е останал незабелязан до момента.
            Поздравления за автора!

            __
            [1] - http://bgoffice.sf.net
            [2] - http://rechnik.chitanka.info/db.sql.gz
            [3] - http://rechnik.chitanka.info



            _______________________________________________
            Dict mailing list
            [email protected] <mailto:[email protected]>
            http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

--С



            _______________________________________________
            Dict mailing list
            [email protected] <mailto:[email protected]>
            http://lists.ludost.net/cgi-bin/mailman/listinfo/dict




        _______________________________________________
        Dict mailing list
        [email protected] <mailto:[email protected]>
        http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

--С



        _______________________________________________
        Dict mailing list
        [email protected] <mailto:[email protected]>
        http://lists.ludost.net/cgi-bin/mailman/listinfo/dict



    _______________________________________________
    Dict mailing list
    [email protected] <mailto:[email protected]>
    http://lists.ludost.net/cgi-bin/mailman/listinfo/dict




_______________________________________________
Dict mailing list
[email protected]
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict


--
С

_______________________________________________
Dict mailing list
[email protected]
http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

Re: [Dict] БГ Офис модул за проверка на правопис

Reply via email to