Re: Russian morphological analysis system

2008-08-26 Пенетрантность Alexey Pechnikov
Hello!

 эмм в исходном посте спрашивалось именно про русский ну и сабжект

 если русский нафиг не нужен тогда я ничего не понимаю

Мне вот понадобился, удивился, что морфологических движков еще поискать.

 нет он на своем движке

 довольно хорошо интегрируется с mysql
 поиск с учетом морфологии по базе ~40 гигов размером со сфинксом
 занимает примерно 4-5 сек на атлоне64-3000

 хорошая штучка, правда местами неочевидно работает

Меня устроит время поиска 40-50 мс на указанной базе. Да, на такой результат 
трудно рассчитывать, но 4-5 секунд... Похоже и в самом деле реляционные базы 
для поиска не годятся. А сфинкс умеет только в базе хранить или есть свой 
оптимизированный формат, с которым можно хотя бы на порядок выиграть в 
скорости?

Best regards, Alexey.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: Russian morphological analysis system

2008-08-26 Пенетрантность Dmitry E. Oboukhov
On 13:11 Tue 26 Aug , Alexey Pechnikov wrote:
AP Hello!

AP эмм в исходном посте спрашивалось именно про русский ну и сабжект
AP 
AP если русский нафиг не нужен тогда я ничего не понимаю

AP Мне вот понадобился, удивился, что морфологических движков еще поискать.

AP нет он на своем движке
AP 
AP довольно хорошо интегрируется с mysql
AP поиск с учетом морфологии по базе ~40 гигов размером со сфинксом
AP занимает примерно 4-5 сек на атлоне64-3000
AP 
AP хорошая штучка, правда местами неочевидно работает

AP Меня устроит время поиска 40-50 мс на указанной базе. Да, на такой результат
AP трудно рассчитывать, но 4-5 секунд... Похоже и в самом деле реляционные базы
AP для поиска не годятся. А сфинкс умеет только в базе хранить или есть свой
AP оптимизированный формат, с которым можно хотя бы на порядок выиграть в
AP скорости?

для баз аля mysql/postgres 4-5 сек текстового, морфо-поиска по такой
базе это супер 

а сфинкс умеет со своими индексами работать у него и Perl API вроде
было, правда я не ковырялся
--

. ''`. Dmitry E. Oboukhov
: :’  : [EMAIL PROTECTED]
`. `~’ GPGKey: 1024D / F8E26537 2006-11-21
  `- 1B23 D4F8 8EC0 D902 0555  E438 AB8C 00CF F8E2 6537


signature.asc
Description: Digital signature


Re: Russian morphological analysis system

2008-08-26 Пенетрантность Иван Лох
On Sat, Aug 23, 2008 at 08:53:23PM +0400, Alexey Pechnikov wrote:
 Hello!
 
 $ aptitude show mecab
 
 Есть ли аналог для русского языка? Пока что, кроме как взять словарь и 
 affix-файл от ispell, ничего не придумывается (интересно, а где для русского 
 языка список stop-слов найти? для английского вроде как в ispell такой список 
 есть).

Есть. 

http://www.aot.ru/download.php

Лицензия библиотек LGPL


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: Russian morphological analysis system

2008-08-26 Пенетрантность Alexey Pechnikov
Hello!

В сообщении от Tuesday 26 August 2008 15:27:34 Иван Лох написал(а):
 Есть.

 http://www.aot.ru/download.php

 Лицензия библиотек LGPL

Спасибо, очень интересный проект.

Best regards, Alexey.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]




Re: Russian morphological analysis system

2008-08-25 Пенетрантность Victor Wagner
On 2008.08.25 at 09:40:57 +0400, Alexey Pechnikov wrote:

 Hello!
 
 В сообщении от Monday 25 August 2008 09:18:45 Victor Wagner написал(а):
  Есть, например, mnogosearch. Лет пять назад оно работало вполне
  прилично для тех времен. Развивалось ли с тех пор - не знаю
 
 Дык это ж вроде целый движок? Хотя конечно можно из него выломать интересную 
 функциональность.

Там в общем-то и выламывать особо не надо. Индексатор в большинстве
применений можно использовать как есть, а в качестве искалки просто
делать самому sql-запрос по его таблицам. Мы его именно так и использовали.



-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: Russian morphological analysis system

2008-08-25 Пенетрантность Alexey Pechnikov
Hello!

В сообщении от Monday 25 August 2008 10:48:47 Victor Wagner написал(а):
  Дык это ж вроде целый движок? Хотя конечно можно из него выломать
  интересную функциональность.

 Там в общем-то и выламывать особо не надо. Индексатор в большинстве
 применений можно использовать как есть, а в качестве искалки просто
 делать самому sql-запрос по его таблицам. Мы его именно так и использовали.

А мне и надо по таблицам в базе искать с помощью эскулайтовского FTS3. Только 
русской морфологии в нем нет, вот и думаю, на базе ispell делать или еще на 
чем. Из критичных требований - работа с большой по объему базой, скорость 
поиска и поддержка морфологии. Не хватает последнего :-)

Best regards, Alexey.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: Russian morphological analysis system

2008-08-25 Пенетрантность Dmitry E. Oboukhov
On 20:53 Sat 23 Aug , Alexey Pechnikov wrote:
AP Hello!

AP $ aptitude show mecab
AP Описание: Japanese morphological analysis system
AP Mecab is a morphological analysis system.  It reads Japanese sentences from
AP the standard input, segments them into morpheme sequences, and outputs them
AP to the standard output with many additional pieces of information
AP (pronunciation, semantic information, etc).

AP Есть ли аналог для русского языка? Пока что, кроме как взять словарь и
чесговоря не знаю что такое mecab не смотрел
но если пригодится:
русская морфология есть в sphinxsearch (не помню собрали его уже для
Debian, вроде собирались)

AP affix-файл от ispell, ничего не придумывается (интересно, а где для русского
AP языка список stop-слов найти? для английского вроде как в ispell такой 
список
AP есть).

AP Собственно, задача - полнотекстовый поиск с учетом морфологии. Постгрес по
AP словарям ispell работает, но вдруг есть что-то более продвинутое.

AP Best regards, Alexey.
--

. ''`. Dmitry E. Oboukhov
: :’  : [EMAIL PROTECTED]
`. `~’ GPGKey: 1024D / F8E26537 2006-11-21
  `- 1B23 D4F8 8EC0 D902 0555  E438 AB8C 00CF F8E2 6537


signature.asc
Description: Digital signature


Re: Russian morphological analysis system

2008-08-25 Пенетрантность Alexey Pechnikov
Hello!

В сообщении от Monday 25 August 2008 15:46:48 Dmitry E. Oboukhov написал(а):
 чесговоря не знаю что такое mecab не смотрел

Пакет поддержки японской морфологии, его-то как раз уже к sqlite прикрутили 
(английский, понятно, давно есть). Ну а русский язык, как обычно, нафиг 
никому не нужен...
 
 но если пригодится:
 русская морфология есть в sphinxsearch (не помню собрали его уже для
 Debian, вроде собирались)

Что ж, будем смотреть, надеюсь, он на движке ispell и далеко ковырять не 
придется :-)

Best regards, Alexey.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: Russian morphological analysis system

2008-08-25 Пенетрантность Dmitry E. Oboukhov

AP В сообщении от Monday 25 August 2008 15:46:48 Dmitry E. Oboukhov написал(а):
AP чесговоря не знаю что такое mecab не смотрел

AP Пакет поддержки японской морфологии, его-то как раз уже к sqlite прикрутили
AP (английский, понятно, давно есть). Ну а русский язык, как обычно, нафиг
AP никому не нужен...
эмм в исходном посте спрашивалось именно про русский ну и сабжект

если русский нафиг не нужен тогда я ничего не понимаю

AP но если пригодится:
AP русская морфология есть в sphinxsearch (не помню собрали его уже для
AP Debian, вроде собирались)

AP Что ж, будем смотреть, надеюсь, он на движке ispell и далеко ковырять не
AP придется :-)

нет он на своем движке

довольно хорошо интегрируется с mysql
поиск с учетом морфологии по базе ~40 гигов размером со сфинксом
занимает примерно 4-5 сек на атлоне64-3000

хорошая штучка, правда местами неочевидно работает

--

. ''`. Dmitry E. Oboukhov
: :’  : [EMAIL PROTECTED]
`. `~’ GPGKey: 1024D / F8E26537 2006-11-21
  `- 1B23 D4F8 8EC0 D902 0555  E438 AB8C 00CF F8E2 6537


signature.asc
Description: Digital signature


Re: Russian morphological analysis system

2008-08-24 Пенетрантность Victor Wagner
On 2008.08.23 at 20:53:23 +0400, Alexey Pechnikov wrote:

 Есть ли аналог для русского языка? Пока что, кроме как взять словарь и 
 affix-файл от ispell, ничего не придумывается (интересно, а где для русского 
 языка список stop-слов найти? для английского вроде как в ispell такой список 
 есть).

Есть, например, mnogosearch. Лет пять назад оно работало вполне
прилично для тех времен. Развивалось ли с тех пор - не знаю

 Собственно, задача - полнотекстовый поиск с учетом морфологии. Постгрес по 
 словарям ispell работает, но вдруг есть что-то более продвинутое.

Для Postgres есть расширение OpenFTS, но тоже давно не видел, какое там
состояние, входил ли в официальный контриб и т.д. Отдельного пакета не
увидел.

 


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: Russian morphological analysis system

2008-08-24 Пенетрантность Alexey Pechnikov
Hello!

В сообщении от Monday 25 August 2008 09:18:45 Victor Wagner написал(а):
 Есть, например, mnogosearch. Лет пять назад оно работало вполне
 прилично для тех времен. Развивалось ли с тех пор - не знаю

Дык это ж вроде целый движок? Хотя конечно можно из него выломать интересную 
функциональность.

Best regards, Alexey.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Russian morphological analysis system

2008-08-23 Пенетрантность Alexey Pechnikov
Hello!

$ aptitude show mecab
Описание: Japanese morphological analysis system
 Mecab is a morphological analysis system.  It reads Japanese sentences from 
the standard input, segments them into morpheme sequences, and outputs them 
to the standard output with many additional pieces of information 
(pronunciation, semantic information, etc).

Есть ли аналог для русского языка? Пока что, кроме как взять словарь и 
affix-файл от ispell, ничего не придумывается (интересно, а где для русского 
языка список stop-слов найти? для английского вроде как в ispell такой список 
есть).

Собственно, задача - полнотекстовый поиск с учетом морфологии. Постгрес по 
словарям ispell работает, но вдруг есть что-то более продвинутое.

Best regards, Alexey.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]