Xpoint
   [напомнить пароль]

PDF to Text converter/extractor

Метки: [без меток]
2008-12-12 13:00:08 [обр] Алексей В. Иванов(16/2861)[досье]

Есть задача: реализовать поиск по PDF-файлам на сервере.

Сталкивался ли кто-нибудь с подобным и как это можно сделать?
Сейчас ищу утилиту для конвертации pdf в обычный текст.
Если кто сталкивался с подобным, пожалуйста, дайте знать.

Нужна консольная утилита, желательно бесплатная и open source, но и подойдёт и консольная виндовая за деньги.

спустя 22 минуты [обр] MiRacLe(0/77)[досье]
pdftotext is an open source command-line utility for converting PDF files to plain text files —i.e. extracting text data from PDF-protected files. It is freely available and included with many Linux distributions. It must be installed as part of the xpdf package for Mac OS X (fink install Xpdf) or Windows.
спустя 37 минут [обр] Алексей В. Иванов(16/2861)[досье]
Спасибо!
Попробовал, но не подходит. Почему-то с русским не умеет работать.
Вычленяет только английские буквы :(
спустя 12 дней [обр] Алексей В. Иванов(16/2861)[досье]
Да!
Оказывается, параметр -enc UTF-8 можно использовать, всё замечательно работает. Буду использовать xpdf.
Powered by POEM™ Engine Copyright © 2002-2005