Xpoint
   [напомнить пароль]

Извлечение текста из PDF

Метки: [без меток]
2009-02-18 15:15:21 [обр] Андрей Гора(6/29)[досье]
Сабж. Существенно сохранение соответствия текст-страница. Форматирование интересно, но не обязательно.
В сети много сервисов, реализующих такую функциональность, они должны чем-то двигаться.
спустя 27 минут [обр] MiRacLe(47/77)[досье]
спустя 1 час 12 минут [обр] Михаил Кюршин aka ya-ya(69/414)[досье]
спустя 16 часов [обр] Андрей Гора(6/29)[досье]

MiRacLe[досье] спасибо, заработало

пока не берет многие документы с шрифтовыми текстовыми блоками, выдает ошибки

Error: Unknown character collection 'PDFXC-Indentity0'

либо

Error: May not be a PDF file (continuing anyway)
Error: PDF file is damaged - attempting to reconstruct xref table...
Error: Couldn't find trailer dictionary
Error: Couldn't read xref table

Михаил Кюршин aka ya-ya[досье] спасибо, пробую, отпишу...

спустя 2 минуты [обр] Андрей Гора(6/29)[досье]
<OFF>FireFox 3.0.6 : при выставлении Полезности alert Ошибка запроса... </OFF>
спустя 3 часа 2 минуты [обр] Андрей Гора(6/29)[досье]

http://www.php.net/manual/en/ref.pdf.php#56492
работает, заметно дольше чем pdftotext
то что он понимает, понимает и pdftotext
обратное неверно, иногда молчит, иногда выдает белиберду, хотя возможно ее и можно декодировать
нет разбивки по страницам

http://www.php.net/manual/en/ref.pdf.php#53628
или выдает ошибку или виснет, далее не разбирался

Powered by POEM™ Engine Copyright © 2002-2005