Xpoint
   [напомнить пароль]

PDF to XML

Метки: [без меток]
2008-08-05 18:11:23 [обр] AB...(13/236)[досье]
Добрый день!
Возникла необходимость в преобразовании PDF документов в XML формат и если присутствуют картинки/илюстрации то иметь возможность извлечь (или хранить их в данном XML документе) с последующей определенной работай над ними. Желательно использовать Perl и необходимые модули или приложение для конвертировани в XML. Все это хозяйство будет на Windows сервере.
спустя 6 часов [обр] Василий Свиридов(1/175)[досье]
google.com "pdf2xml"
спустя 9 часов [обр] AB...(13/236)[досье]
Хорошо, поставим вопрос по другому. Стоит задача извлечения методанных с PDF файла включая все админиситративные данные, разметку с форматированием, bookmark и метаданных о всех вложениях. Необходимо иметь возможность извлемения изображения с возможностью дальнейшей обработки. Кроме этого необходима возможность установки пароля на существующий PDF документ с ограничениями свойст документа. В последующем бедет преобразование полученного XML документа в другие форматы. Желательно также иметь возможность преобразования обратно в PDF докумет с максимально возможной схожестью к оригиналу (это желательно, но не обязательно).
Уважаемый Василий Свиридов[досье], я в кратце ознакомился с модулями pdf2xml, pdftoxml и swish-e.
Я хочу получить несколько расширенные рекомендации и советы от людей которые уже играли с данными модулями или с какими либо инными и имеет реальное представление об обработке данного типа документов.
К сожалению необходимо использовать только OpenSource на Windows 2003
спустя 2 дня 7 часов [обр] AB...(13/236)[досье]
По той или инной обработке PDF файлов уже были темы на форуме, но судя по всему никто не реализовывал преобразования PDF в XML с максимальным извлечкнием данных. А может и есть люди, но не активны в данный момент на форуме.
спустя 17 дней [обр] Василий Свиридов(1/175)[досье]

Я работал с pdf2xml, данных она извлекает достаточно, но что касается обработки - очень многое зависит от того, как себя ведёт генератор этого документа. Например мне нужно было парсить PDFки в которых данные были представлены в табличном виде, моноширинным шрифтом, как если бы их печатали на старом матричном принтере, с построчной подачей... Но генератор (oracle sql to pdf) просто генерил таблицы путём расстановки маленьких кусочков тескта, по абсолютным координатам, т.е. в результирующем XML'е они были вообще без какого-либо порядка... Распарсивать это был безумный геморрой...

Вобщем, возьмите документ, натравите на него преобразователь, посмотрите на XML и решите для себя - связываться с этим или нет...

Powered by POEM™ Engine Copyright © 2002-2005