Xpoint
   [напомнить пароль]

PHP скрипт разбора морфологии

Метки: [без меток]
2006-12-28 19:32:07 [обр] Владимир[досье]
Где можно найти скрипт PHP дающий возможность разбирать морфологию HTML страниц для русского и английского языков. Т.е. что-то типа:
http://www.promolab.ru/free/
http://www.seop.ru/page_analyzer_2.html
спустя 6 дней [обр] Ярослав Витязев[досье]
Владимир[досье], попробуйте посмотреть в сторону Tidy: http://tidy.sourceforge.net/, если вдруг решите собственноручно разработать такой скрипт.
спустя 5 дней [обр] GRAy(0/259)[досье]
Ярослав Витязев[досье] При чём тут tidy? Он никакого отношения к морфологии русского или английского языков не имеет.
спустя 1 день 20 часов [обр] Ярослав Витязев[досье]

GRAy[досье], ознакомьтесь с приведенными автором вопроса ссылками.

В данном случае термин "морфология" трактуется в более широком смысле (применительно к данному вопросу, как я понимаю: речь идет о разборе дерева документа и получения из него составных частей: заголовка, мета-тегов, подзаголовков H1-Hx, выделенных элементов и т.п.).

Tidy поможет сделать из потенциально невалидного документа корректный, а потом следует уже делать его разбор.

Powered by POEM™ Engine Copyright © 2002-2005