Xpoint
   [напомнить пароль]

Автоматическое определение ключевых слов

Данный алгоритм позволяет автоматически выбирать ключевые (точнее — наиболее характерные) слова из произвольного текста. Особенно удобен для автоматического заполнения мета-тегов "Keywords" и "Description".

Последовательность действий:

  1. берутся все слова текста,
  2. из них выбрасываются стоп-слова (предлоги, союзы и т.п.),
  3. оставшиеся слова приводятся к исходной форме (при помощи базы ispell-а) и к одному регистру,
  4. слова ранжируются по чаcтоте — т. е. выстраиваются в массив, где на первом месте самое часто встречающееся слово, а на последнем — самое редко встречающееся,
  5. из середины этого массива берутся N слов.

Разумное число N для текстов средней длины — порядка десяти. Полученные N слов и будут словами, в первом приближении наиболее релевантно описывающими содержание текста.

Powered by POEM™ Engine Copyright © 2002-2005