Xpoint
   [напомнить пароль]

Выборка ссылок из HTML документа

Метки: [без меток]
2008-12-30 10:12:05 [обр] Денис Воронов[досье]

Задача - выбрать из HTML документа все ссылки с тегом A, но не только URL-ы, а еще и другие атрибуты.
Если бы нужны были только ссылки - все было бы очень просто, HTML::LinkExtor. Однако он удаляет все другие атрибуты тега: All non-link attributes are removed.
Как получить и ссылки, и атрибуты?

Есть идея, которую пока не пробовал. Использовать модуль HTML::SimpleLinkExtor, который работает аналогичным образом, но позволяет указывать аттрибуты, где искать URL. И прописать ему все возможные варианты аттрибутов, чтобы он их тоже выгребал.

Нет ли способа прямее, или модуль, экстрактирующего ссылки, но не удаляющего остальные атрибуты?

спустя 32 минуты [обр] Михаил(0/17)[досье]
HTML::DOM
HTML::Element
спустя 6 часов [обр] AB...(10/233)[досье]
Я использовал для подобных целей HTML::TreeBuilder
Powered by POEM™ Engine Copyright © 2002-2005