Xpoint
   [напомнить пароль]

Чем лучше бесплатно сконвертировать один отдельно взятый PDF в HTML?

Метки: [без меток]
2009-04-03 23:01:37 [обр] Даниэль Алиевский(0/125)[досье]

Дан PDF. Конкретно, 13-мегабайтный PDF, содержащий полную Синодальную Библию на русском языке. Задача: преобразовать его во "вменяемый" формат, например HTML, из которого при помощи обозримых скриптов (скажем, Perl) можно сформировать набор HTML-страничек, содержащих тот же самый текст. В txt-формат можно преобразовать при помощи Acrobat Reader, но при этом теряется весьма многое, в частности, курсивный текст. Я попробовал обратиться за этим на http://www.adobe.com/products/acrobat/access_onlinetools.html, но сей робот, вроде бы даже скачав мой PDF, за 6 часов так и ответил мне ничего конструктивного.

Не посоветуете что-нибудь разумное? Я пытаюсь опубликовать Библию на http://algart.net/bible/synodal/, что-то получилось, но некоторые специалисты по теме ругают за наличие ошибок и рекомендуют использовать более грамотные PDF-версии. Естественно, инструментов масса, но некоторые платные, а некоторые (вроде Open Office) попросту зависают на середине. Больше всего я боюсь, что оно не зависнет, но сконвертирует неверно: я ведь не смогу вручную (за обозримое время) просмотреть результат обработки всей Библии. А этот результат я отдам своим роботам, которые формируют конечный текст...

Заранее спасибо.

спустя 2 часа 14 минут [обр] Евгений Седов aka KPbIC(0/176)[досье]
Не думал, что это проблема. man 1 pdftohtml. Или выложите куда-нибудь.
спустя 1 час 36 минут [обр] Давид Мзареулян(14/1003)[досье]
спустя 7 часов [обр] Даниэль Алиевский(0/125)[досье]

Евгений Седов aka KPbIC[досье] Спасибо за наводку. Взял отсюда: http://sourceforge.net/projects/pdftohtml/ Попробую.

Проблема, как обычно, в том, что бесплатных инструментов множество, а перепроверять все на предмет "сломается или не сломается" как-то не очень хочется. Два инструмента уже сломались: online-утилита с сайта Adobe (больше 6 часов работы без всякого прогресса) и Open Office Writer (он почти всегда сообщает об ошибке при попытке взять из Clipboard то, что на моих PDF записал туда Adobe Reader).

Давид Мзареулян[досье] Спасибо. Но ключевое слово "бесплатно" :)

спустя 24 минуты [обр] Даниэль Алиевский(0/125)[досье]
Увы, pdftohtml наворотил вовсе полный бред. Собственно, pdf-то вот: http://algart.net/bible/synodal/rsb.pdf (13 MB) Ссылка, по-видимому, временная. Вот и ищу вменяемую программу, которая вернет вменяемый результат - и желательно бесплатную.
спустя 1 час 42 минуты [обр] Даниэль Алиевский(0/125)[досье]
Попробовал вот еще такое: http://www.quick-pdf.com/download.htm На этом файле поработало некоторое время, нагенерировало кучу JPG и тихо умерло. Даром что платное - 10 дней trial.
Люди добрые, помогите найти нормальный конвертор! Подозреваю, что Acrobat является таковым, но у меня нет на это $450. Использовать его trial в данном случае некошерно (это же не проба, а настоящая потребность), да и что я буду делать, когда оно истечет, если через месяц мне понадобится сконвертировать другой файл...
спустя 6 часов [обр] Прокаев2(3/35)[досье]
http://www.pdftransformer.ru/trial-version/ точно пробовали?
спустя 2 часа 43 минуты [обр] Давид Мзареулян(14/1003)[досье]
Даниэль Алиевский[досье] Упс, прошу прощения, самого главного слова не заметил:(
спустя 10 часов [обр] Евгений Седов aka KPbIC(0/176)[досье]
Даниэль Алиевский[досье] Таблицы придется рисовать руками, но их там почти нет. А остальное довести напильником после конвертера не пробовали?
спустя 13 часов [обр] Даниэль Алиевский(0/125)[досье]
Прокаев2[досье] Спасибо. Ключевое слово "бесплатно" :)
Впрочем, по-видимому, конкретно этот вопрос снимается. Человек, любезно предоставивший этот файл, теперь говорит, что файл как бы подпадает под некие авторские права, соответственно не может быть свободно распространяем и конвертируем. Что ж, в таком случае придется предоставить вопросы конверсии и всевозможного приведения в удобный веб-читателям вид - правообладателям...
Powered by POEM™ Engine Copyright © 2002-2005