Първи резултати,

http://bgoffice.svn.sourceforge.net/viewvc/bgoffice/trunk/words_frequency/


Под игото и Вазов май доста са понатежали. ;)

Интересно около 5000-та най-употребявана дума е Наташа. Явно доста си
падаме по девочките или съм сканирал някакъв руски роман без да
забележа. ;)))

А някой да знае какво е чоки? Защото също се среща около 5000-та
най-употребявана дума. ;)

Има и нещо грешно. Сигурно изходните данни са били грешни тук таме. Но
почти всяка буква се среща като дума. Примерно думата "д". Айде за
"и", "е", "а" ясно, ама "д". ;)

Сканирах и един новинарски сайт с новини на различна тематика и реших
да включа и коментарите - явно от там идват тези бози.

За автоматично дописване като гледам има няколко стъпки още да се довършат.
1. Да се извадят първите N на брой думите, който са по-дълги от 3 (или
4) букви. Да кажем четирибуквени и нагоре думи. Даже може петбуквени и
нагоре.
2. Да се пуснат през проверка на правописа и тези, които не се
правилни да се отстранят (въпреки че ме съмнява, че ще има такива).
Тези които са с главна буква да се оправят. За да ми е по-лесно съм
работил с малки букви само и България, София и разни имена се срещат с
първи малки букви. Но това се оправя лесно.








2009/9/7 Radostin Radnev <[email protected]>:
> Има напредък ;)
>
> Сканирах няколко сайта за български думички. Няма да казвам кой, за да
> не ме бият, че съм им товарил хостовете. ;)
>
> Събирал съм думи избирателно, защото често в заглавната част, в
> долната част и в менютата една и съща дума се повтаря многократно. Та
> е сканирано всичко, което е съдържание. Проста проверка да е в между
> <p> и </p> върши отлична работа. ;)
>
> Имам около 20 милиона думички. Днеска мисля да пусна скриптове да ги
> обработват и да имам някакъв резултат към края на деня. ;)
>
>
> ItaEst се разпространява свободно, но кодът и данните не са свободни.
> Трябва да се декомпилира (деасемблира), за да се изкарат някакви
> данни. Предпочитам да си събера думичките сам. ;)
>
>
> Лек ден,
>
>
>
>
> 2009/9/7 Nick <[email protected]>:
>> On 09/07/2009 04:05 AM, Валерий Вутов wrote:
>>
>>> Здравейте,
>>
>>> ...
>>> Ако някои си има на идея дали има такова нещо някъде под свободен лиценз да
>>> свирка.
>>> ...
>>
>>> В "джам" среда (всички версии) има един коректор (свободен лиценз) за
>>> проверка и корекция на правопис ItaEst
>>
>> само дето последния път, когато инсталирах ItaEst, той все още беше само
>> за офисния пакет на Microsoft. бях предложил на авторите да го направят
>> и за OpenOffice (тогава май нямаше читаво сричкопренасяне там), но не
>> знам дали са го направили.
>>
>> --
>> the lunatics are in my head
>> ---------------------------
>> Nick Angelow
>> _______________________________________________
>> Dict mailing list
>> [email protected]
>> http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict
>>
>
_______________________________________________
Dict mailing list
[email protected]
http://zver.fsa-bg.org/cgi-bin/mailman/listinfo/dict

Raspunde prin e-mail lui