Xpoint
   [напомнить пароль]

Реализация ботов

Метки: [без меток]
2008-07-13 23:27:15 [обр] xxx+++(0/10)[досье]

Здравствуйте.

Интересует теория, как делать ботов для www.

Во избежании недоразумений, повторюсь — интересует исключительно теория. Т.е. какие-то основные постулаты, ключевые моменты в реализации сего девайса.

Где можно об этом почитать или, может быть, участники поделятся своими соображениями?

Спасибо.

спустя 5 часов [обр] Роман Чемисов(0/327)[досье]
xxx[досье]
А что Вас конкретно интересует?
спустя 7 часов [обр] xxx+++(0/10)[досье]

Роман Чемисов[досье] Конкретно интересует процесс реализации, как это вообще более правильно делать. В этом направлении пока никаких мыслей вообще нет, ибо дело для меня новое абсолютно.

Для начала хочется рассмотреть простого читальщика, бегающего в рамках какого-то домена и, пусть, вытаскивающего из контекста какие-то данные. Например, индекс цитирования слов и составление какой-то таблицы соответствий ключевое_слово -> веб_страница.

Первое, что приходит на ум — вытаскивать с заданной страницы все гиперссылки, составлять список внутренних адресов и рекурсивно проходить по ним. Но сразу возникает вопрос — программа за раз должна сделать эти действия или, например, запускать по крону, что бы не завалить сервер?

Вообще пока не представляю, как это обычно делается.

спустя 2 дня 1 час [обр] Дмитрий Попов(15/509)[досье]

Самый простой и популярный способ:

  1. Есть изначальный индекс ссылок (т.е. все ссылки - новые).
  2. Робот запускается,
  3. проходит по всем новым ссылкам индекса, собирает все что надо по каждой ссылке, все новые найденные уникальные ссылки записывает в индекс как новые.
  4. goto2.

Проще некуда.
Если есть желание/необходимость пожалеть обходимые сервера, можно делать случайную выборку из индекса (хотя если индекс большой order by rand() с where будет работать не очень быстро, мягко говоря)

спустя 57 минут [обр] Дионис Сантин aka Человек с Ломом(32/406)[досье]
сообщение промодерировано
"… LIMIT " . rand(0,$links_count) . ", 1";
спустя 18 часов [обр] Филипп Ткачев(5/112)[досье]
Для общего представления почитайте это Как работают поисковые системы.
спустя 1 час 35 минут [обр] Дмитрий Попов(15/509)[досье]
Дионис Сантин aka Человек с Ломом[досье]
//занудствуя//
Второй запрос треба :)
Powered by POEM™ Engine Copyright © 2002-2005