Xpoint
   [напомнить пароль]

Распределённость для поисковика

Метки: [без меток]
2006-05-12 12:00:16 [обр] Александр Жешев(0/50)[досье]

Проектируем поисковую систему - пока общий смысл.

По идее, она должна состоять из 3х частей:

  1. Спайдер, получающий текст страниц, записывает полученное в базу.
  2. Анализатор, проводящий лексико-морфологический анализ полученной страницы.
  3. Пользовательский модуль - анализ запроса, выборка из базы, вывод.

Стоит ли, по вашему мнению, разделять анализатор и спайдер, или лучше проводить обработку (разбивку на лексемы) данных сразу?

спустя 2 часа 48 минут [обр] Миша Спларов(0/34)[досье]
Немного в тему:
Поиск на Xpoint
Поиск на Xpoint
спустя 4 дня [обр] Александр Жешев(0/50)[досье]

Золотые ссылки, спасибо. Но вопрос всё равно не решен:

Как вариант возможно инкрементальное обновление индексов — сразу, как только происходят изменения. В этом случае индексатор будет объединён с поисковым сервером (будет обновлять индекс в "свободное от работы время"). Можно ли это реализовать, пока точно сказать нельзя, зависит от структуры индексов.

Возможно индексировать страницы не целиком, а как совокупность сообщений (форум) или разделов (база знаний)

Реализуем как раз последнее.

Ещё мнения?

Powered by POEM™ Engine Copyright © 2002-2005