Xpoint
   [напомнить пароль]

Поиск на Xpoint

Метки: xpoint, google, поиск, mnogosearch
[удл]
2005-03-02 19:16:43 [обр] Андрей Новиков(288/1242)[досье]

Надо что-то делать с поиском. Я пока вижу только два варианта:

  1. Поставить новый MnogoSearch, и аккуратно его настроить, в том числе видимые области документа.
  2. Поставить разработанный моим коллегой поиск на основе POEM. Он будет точно более тормозной, но у него есть два плюса. Можно будет разделять сущности, т.е. в результатах поиска отдельно группировать темы, статьи, базу знаний и т.п., а также можно будет всячески его тюнинговать совместными усилиями.

Какие у вас есть мысли на этот счет?

спустя 7 минут [обр] Владимир Палант(122/4445)[досье]
Я бы предпочел первый вариант. На настройку (в частности и разделение сущностей) уйдет немало времени, но результат ИМХО можно будет показать.
спустя 1 час 17 минут [обр] Андрей Брайнин(13/127)[досье]
про второй вариант:
во-первых не точно более тормозной. производительность не замерялась.
на настройку же время уйдет совершенно точно. и немало.
более того, во втором варианте сыроват механизм определения релевантности.
для тюнинга вариант хороший, но стоит ли ставить его на рабочую систему - большой вопрос.
спустя 6 минут [обр] Андрей Новиков(288/1242)[досье]
Андрей Брайнин[досье], зато в принципе возможно учесть любые пожелания.
спустя 2 минуты [обр] Андрей Брайнин(13/127)[досье]
а много ли их - пожеланий, которые не охватит многосеч?
спустя 3 минуты [обр] Андрей Новиков(288/1242)[досье]
Во всяком случае много критикантов, что поиск нерелевантен. Сейчас нам сказать нечего, а так мы сразу скажем — алгоритм на данный момент такой-то, предлагайте практически реализуемые улучшения :).
спустя 1 минуту [обр] Дмитрий Донцов+++(0/68)[досье]
а вы ставьте MnogoSearch, и потихоньку доводите до ума второй вариант...
думаю, что доведенный до ума он будет лучше.
спустя 4 минуты [обр] Андрей Брайнин(13/127)[досье]
Андрей Новиков[досье] вот это уже аргумент :))
offtop: обрати внимание на автоформатирование этих сообщений: а. - вот эту фигню я не заказывал :(
спустя 58 минут [обр] Андрей Новиков(288/1242)[досье]
Дмитрий Донцов[досье], а кто будет доводить его до ума и как, если он не будет использоваться?
спустя 41 минуту [обр] Дмитрий Донцов+++(0/68)[досье]

Андрей Новиков[досье]
ну так сделайте чтобы использовался, хотя бы модераторами, если нет уверенности в том, что в жестких условиях форума все будет работать как надо...

более конкретно, вы... :)))

спустя 25 минут [обр] Андрей Новиков(288/1242)[досье]
Дмитрий Донцов[досье], я пользуюсь поиском раза 4 в год :)
спустя 10 минут [обр] Дмитрий Донцов+++(0/68)[досье]
Андрей Новиков[досье]
выкрутились :P
а я раза два в неделю, и думаю я такой не один...
спустя 1 минуту [обр] Дмитрий Донцов+++(0/68)[досье]
добавка
среди пользователей...
спустя 1 час 35 минут [обр] Алексей В. Иванов(40/2861)[досье]
Несколько раз в неделю пользуюсь. В последнее время пользовался гугловым поиском, указывал директиву site:xpoint.ru.
Кстати, а кто-нибудь знает, насколько глубоко гугл в своем поиске заходит? Может, им вообще, воспользоваться?
спустя 15 минут [обр] Владимир Палант(122/4445)[досье]
Google индексирует весь сайт, тут проблем нет. Я бы был обеими руками за него, если бы его информация была слегка более актуальной. Впечатление такое, что некоторые изменения попадают в его базу лишь спустя месяц, а то и больше.
спустя 9 минут [обр] Алексей В. Иванов(40/2861)[досье]
По-моему, отставание порядка одна-две (максимум три) недели. На данный момент в индексе гугла контент недельной давности.
Но в любом случае срок, это да, согласен.
спустя 1 минуту [обр] Сергей Чернышев(77/589)[досье]
Кстати, поиск по XpW тоже делать нужно будет - думаю нужно думать в сторону их интеграции.
спустя 16 минут [обр] Владимир Палант(122/4445)[досье]
Я не вижу причины делать отдельный поиск по XpW. Надо просто наладить приличный поиск для всего Xpoint.
спустя 14 часов [обр] Maxime(0/2)[досье]
Если хотите, посмотрите ещё DataparkSearch: http://www.dataparksearch.org/
А про поиск на основе POEM где можно прочитать ? И про сам POEM тоже интересно.
спустя 1 час 42 минуты [обр] Андрей Брайнин(13/127)[досье]
Maxime[досье] про поиск нигде (в draft`е пока). про POEM - тоже ничего толкового нет.
вот тут очень расплывчато и кратко: http://badyam.ru/poem/
спустя 1 месяц 9 дней [обр] Андрей Новиков(288/1242)[досье]
Поставил новый Mnogosearch, стало заметно быстрее и менее глючно. Но настройка еще только началась.
спустя 13 минут [обр] Алексей В. Иванов(40/2861)[досье]
Смотрится отлично
спустя 1 час 27 минут [обр] Rom McRitsky(9/441)[досье]
Угу.. Только ищет как-то непонятно :(
Для примера зарядил по строке "Узнать IP" - ноль результатов..
Потом - по фразе "Новый поиск" (хотел вернуться сюда) - тоже не нашёл.
спустя 3 минуты [обр] Владимир Палант(122/4445)[досье]
Rom McRitsky[досье]
Он ещё индексирует...
спустя 48 минут [обр] Андрей Новиков(288/1242)[досье]
Rom McRitsky[досье], я бы даже сказал — только начал индексировать.
спустя 10 часов [обр] Антон Сущев aka Ant(0/6)[досье]
Надеюсь, поиск через XPoint sidebar будет продолжать функционировать (сейчас не работает).
спустя 4 минуты [обр] Владимир Палант(122/4445)[досье]
Поправим, когда Андрей разберётся с настройкой.
спустя 5 часов [обр] Андрей Новиков(288/1242)[досье]
Владимир Палант[досье], не понял. Кардинально же ничего не поменялось.
спустя 3 часа 57 минут [обр] Владимир Палант(122/4445)[досье]
Хочешь сказать, что параметры поиска уже не изменятся?
спустя 14 минут [обр] Андрей Новиков(288/1242)[досье]
А они и до этого не менялись, движок же тот-же. Или...?
спустя 4 часа 58 минут [обр] Владимир Палант(122/4445)[досье]
Ладно, поиск сайдбара теперь в принципе опять работает. Параметры поиска надо будет потом уравнять (категории, в частности).
спустя 3 часа 43 минуты [обр] Дмитрий Донцов+++(0/68)[досье]
если позволите, то я выскажу свое скромное мнение...
"в угаре девелопмента", в POEM была протеряна такая важная возможность, как возможность поиска, или хотя бы очевидные пути, как его реализовать...
я не говорю о фильтрах в админе (в этом смысле я понимаю Андрея Новикова, который говорит, что пользовался поиском сайта 4 раза за год), тут все великолепно и просто... речь о фронт-енде...
у меня может встать в полный рост в ближайшее время подобная задача... и я просто всех пошлю, сказав что это невозможно, либо если таки заставят делать, буду сурово думать... :)
спустя 15 часов [обр] Андрей Брайнин(13/127)[досье]

Дмитрий Донцов[досье]

в POEM была протеряна такая важная возможность, как возможность поиска, или хотя бы очевидные пути, как его реализовать..

ну это очень смелое заявление :)
самого полнотектсового поиска по сущностям в POEM конечно нет и никогда не будет.
возможностей реализовать во фронтенде - полно.
более того, мой соратник и я разные варианты такого поиска реализовывали.

спустя 10 часов [обр] Дмитрий Донцов+++(0/68)[досье]
Андрей Брайнин[досье]
>возможностей реализовать во фронтенде - полно.
но тем не менее Mnogosearch
>более того, мой соратник и я разные варианты такого поиска реализовывали.
кудЫ уж мне до вас с соратником... :)))
спустя 10 минут [обр] Владимир Палант(122/4445)[досье]
Дмитрий, к чему вы всё это? К тому, что вы не представляете себе сложность реализации полезного поиска (не путать с бесполезным поиском, этот реализуется за две минуты)? Или вы хотите сказать, что движок без поиска — это отстой, и все должны немедленно ринуться изобретать велосипед? Я честно не понимаю.
спустя 18 дней [обр] Дмитрий Донцов+++(0/68)[досье]

Владимир Палант[досье]
затем все это и сказано...
именно потому что я представляю сложность реализации полезного поиска...

я не представляю другого... как в рамках данной концепции реализовать полезный поиск... не исключено, что это пробел в моем образовании, но что-то мне подсказывает, что это некий изъян концепции...

движок без поиска это не то чтобы отстой, это как человек без руки... жить можно, но некомфортно... :)

теперь понимаете?

спустя 11 часов [обр] Владимир Палант(122/4445)[досье]
Нет, не понимаю. Если вы заметили, было решено остаться с готовым и опробованным движком MnogoSearch, но настроить его получше. Писать поиск с нуля, отлаживать и оптимировать его, натыкаться на все те же грабли, которые другие уже успешно обходят — бесполезная трата времени.
спустя 1 день 21 час [обр] Андрей Брайнин(13/127)[досье]
Дмитрий Донцов[досье] движок - это такое непонятное слово, которое разными людьми интерпретируется по-разному.
POEM - это не движок в общепринятом смысле (не набор некоторых функциональных возможностей с возможностью настройки). POEM - это платформа. инструментарий для создания Web-приложений. никакого полнотектсового поиска там нет и быть не должно. хватит лить воду на эту тему.
спустя 9 дней [обр] Дмитрий Донцов+++(0/68)[досье]

>POEM - это платформа.

>ну это очень смелое заявление :)

ладно, ваши грабли это ваши грабли, мои грабли только мои :)))

спустя 19 дней [обр] Иван Шумков(10/77)[досье]
Поиском похоже пользуюсь только я один :). Может стоило бы его настроить?
спустя 2 месяца 22 дня [обр] Иван Шумков(10/77)[досье]
Поиск, я считаю, один из самых важных моментов. Почему бы не привести его в порядок?
спустя 11 минут [обр] Андрей Новиков(288/1242)[досье]
Работаем над этим.
спустя 1 час 41 минуту [обр] Андрей Новиков(288/1242)[досье]
В принципе Владимир Палант[досье] сделал всё возможное, чтобы база в Гугле по Точке была как можно более актуальная. Поэтому можно переключить поиск на него. С mnogosearch бороться нету времени, его постоянно сглючивает. Есть возражения?
спустя 6 часов [обр] Дмитрий Донцов+++(0/68)[досье]

 >его постоянно сглючивает
точно, из десяти результатов только один не мусор... :(
пример - http://xpoint.ru/search/index.html?q=proftpd&cmd=%C8%F1%EA%E0%F2%FC%21

гугль, так гугль... сделайте что-нить, а то совсем поиском поьзоваться нельзя... :(

спустя 6 часов [обр] Сергей Чернышев(77/589)[досье]
Андрей Новиков[досье]
Я так понимаю, речь идет о Google Site Maps. Какое впечатление о нем? Какие там есть проблемы? Какие достоинства?
спустя 5 часов [обр] Андрей Новиков(288/1242)[досье]
Это к Владимиру вопрос, он этим занимался.
спустя 13 часов [обр] Владимир Палант(122/4445)[досье]

Xpoint уже почти два месяца ежедневно генерит и сабмитит сайтмап для Google. Впечатления:

  1. Работает, кроме обычных спайдеров в логах отмечается и целенаправленное индексирование сайта по списку из сайтмапа.
  2. Либо Google не доверяет дате последнего обновления из сайтмапа, либо вообще её игнорирует, но очень часто скачиваются одни и те же (не изменившиеся) страницы.
  3. Скачивает Google много, а в базу попадает мало. Выглядит так, будто результаты индексирования по сайтмапу попадают в очередь с низким приоритетом, в результате на ту же страницу успевает прийти спайдер и в базу она попадает уже от него.
  4. По результатам поиска не заметно, чтобы приоритеты из сайтмапа на что-то влияли.

Итого: пока что не похоже, чтобы от сайтмапа был большой толк. Будем надеяться, что в будущем что-то изменится, всё-таки это пока что бета.

PS: Речь шла не только о Google Site Maps :)

спустя 5 часов [обр] Сергей Чернышев(77/589)[досье]

Владимир Палант[досье]
Спасибо за впечатления - буду иметь ввиду ибо мы тоже собираемся применить. Жаль нормальной статистики по логам у нас не генерится (пользуемся внешним каунтером Omniture) и нужно будет что-то придумывать для анализа эффективности спайдерения.

Пара комментов/вопросов:

  1. Мне казалось, что приоритеты - это не важность, а взаимная частота обновлений. Или я не прав?

О чем еще шла речь?

спустя 11 часов [обр] Владимир Палант(122/4445)[досье]
сообщение промодерировано
  1. Да вы правы, я неправильно интерпретировал это значение, кажется у него было раньше другое описание. Однако, в документации стоит, что это приоритет, с которым страница попадёт в базу — это тоже не наблюдается, очень многих страниц архива в базе нет.
Речь шла ещё об очистке базы Гугла от мусорных линков — и тут мы весьма преуспели.
спустя 1 час 37 минут [обр] Сергей Чернышев(77/589)[досье]

Владимир Палант[досье]
Я думаю, что Google и не станет давать вебмастерам возможность сильно влиять на их базу, особенно на приоритеты.

The priority of this URL relative to other URLs on your site. Valid values range from 0.0 to 1.0. This value has no effect on your pages compared to pages on other sites, and only lets the search engines know which of your pages you deem most important so they can order the crawl of your pages in the way you would most like.

The default priority of a page is 0.5.

Please note that the priority you assign to a page has no influence on the position of your URLs in a search engine's result pages. Search engines use this information when selecting between URLs on the same site, so you can use this tag to increase the likelihood that your more important pages are present in a search index.

Also, please note that assigning a high priority to all of the URLs on your site will not help you. Since the priority is relative, it is only used to select between URLs on your site; the priority of your pages will not be compared to the priority of pages on other sites.

говорится именно о том, что crawl будет организован так как нам хочется, а приоритет в базе не будет изменен. Опять же, я думаю, что приоритет, который влияет на то, оставлять ли документ в базе или нет тоже нам не подвластен.

спустя 11 дней [обр] Андрей Новиков(288/1242)[досье]
Всё, многосерча больше нет.
спустя 1 час 38 минут [обр] Rom McRitsky(9/441)[досье]

Не знаю, на сколько долго гугл хранит проиндексированные документы, но первый же отвлечённый поиск привёл на несуществующую страницу: http://xpoint.ru/forums/programming/PHP/thread/24966.xhtml

Первая ссылка отсюда

Не обращайте внимания на поисковый запрос :)

спустя 2 месяца 28 дней [обр] Антон Сущев aka Ant(0/6)[досье]

Можно поинтересоваться, будет ли каким-то образом доступен поиск через sidebar? Раньше пользоваться поиском было одно удовольствие.

Как вариант, можно парсить то, что отдаёт Гугл и резульаты вставлять в окно поиска в Xpoint Sidebar.

спустя 1 день 17 часов [обр] Владимир Палант(122/4445)[досье]
сообщение промодерировано
Пока для поиска по сайту используется Google, через сайдбар его использовать будет нельзя. Парсинг результатов Гугла не разрешен в его terms of service. Когда реализуем собственную поисковую систему для Xpoint — тогда можно будет опять искать через сайдбар.
Powered by POEM™ Engine Copyright © 2002-2005