- - - - - - - - - - - - - - - - - - - - - - - - - - - - Name: Vladimir Subject: Индексация с дополнительной обработкой HTML
Здравствуйте. Есть такая задача: Индексировать только те страницы, в HTML которых содержится определенный контент. Для фильтрации этого контента написано приложение-фильтр (одних регулярных выражений там мало), однако не понятно, можно ли этот фильтр интегрировать в DataparkSearch. Как я понял парсеры в DataparkSearch работают с mime types, в то время, как мне нужно анализировать именно HTML страницы. А IndexIf работает только с регулярными выражениями. Если контент на странице нашелся - дополнительно анализировать параметры страницы (URL, текст ссылки, по которой идет переход на эту страницу) Далее - индексировать страницу, записывать результаты работы фильтра в БД. Вопрос в том - имеет ли DataparkSearch какой-либо интерфейс для подобных задач? В идеальной ситуации это бы выглядело как передача параметром в фильтр некой структуры, содержащей URL текущей страницы, текст ссылки, HTML страницы. В случае возврата фильтром флага - "Индексировать контент" - страница вносилась бы в индекс, в противном случае - не вносилась. Подскажите, можно ли каким-либо образом реализовать эту задачу, используя DataparkSearch? Если можно - каким? :) - - - - - - - - - - - - - - - - - - - - - - - - - - - - Read the full topic here: http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=05;post=
