- - - - - - - - - - - - - - - - - - - - - - - - - - - -
Name: Vladimir
Subject: Индексация с дополнительной обработкой HTML

Здравствуйте.

Есть такая задача:
Индексировать только те страницы, в HTML которых содержится определенный 
контент. 
Для фильтрации этого контента написано приложение-фильтр (одних регулярных 
выражений там мало), однако не понятно, можно ли этот фильтр интегрировать в 
DataparkSearch. 
Как я понял парсеры в DataparkSearch работают с mime types, в то время, как мне 
нужно анализировать именно HTML страницы. А IndexIf работает только с 
регулярными выражениями.

Если контент на странице нашелся - дополнительно анализировать параметры 
страницы (URL, текст ссылки, по которой идет переход на эту страницу) Далее - 
индексировать страницу, записывать результаты работы фильтра в БД.

Вопрос в том - имеет ли DataparkSearch какой-либо интерфейс для подобных задач?
В идеальной ситуации это бы выглядело как передача параметром в фильтр некой 
структуры, содержащей URL текущей страницы, текст ссылки, HTML страницы. В 
случае возврата фильтром флага - "Индексировать контент" - страница вносилась 
бы в индекс, в противном случае - не вносилась.

Подскажите, можно ли каким-либо образом реализовать эту задачу, используя 
DataparkSearch? Если можно - каким? :)
- - - - - - - - - - - - - - - - - - - - - - - - - - - -

Read the full topic here:
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=

Reply via email to