Xpoint
   [напомнить пароль]

Конвертация из формата pdf в Microsoft Word

Метки: [без меток]
2013-11-28 19:28:50 [обр] Евгений[досье]
В инструкции к конвертации из pdf в doc написано, что надо загрузить конвертируемый файл в веб-браузер. Как сделать это? Там написано: Just upload a file using your web browser. We’ll convert it to an editable Microsoft Word file that you can save in DOC or DOCX format.It’s just that easy. Но как конкретно это выполнить - не написано.
спустя 5 часов [обр] Marat Tanalin(0/78)[досье]

«upload a file using your web browser» переводится как «загрузить файл [на сервер] с использованием браузера».

Обычно для этого служит поле формы, при щелчке по нему открывающее диалоговое окно выбора файла и обычно выглядящее как кнопка «Обзор» (или что-то в этом роде в зависимости от браузера) и надпись типа «Файл не выбран» рядом.

На современных сайтах может использоваться перетаскивание. Тогда может оказаться обязательным включение JavaScript в браузере.

спустя 7 дней [обр] LookeR(50/1069)[досье]
сообщение промодерировано

Евгений[досье]
На всякий случай.
Конвертация из PDF в DOC процесс весьма специфический. Потому, как файлы PDF можно грубо разделить на три категории:

  1. Документ сохранен из текстового редактора в формат PDF с внедренными шрифтами, картинками и разметкой.
  2. Документ отсканирован в PDF-формат и по сути содержит картинку-страничку.
  3. Документ свёрстан в программе вёрстки или векторном редакторе так, что его невозможно автоматически представить в формате DOC просто потому, что некоторые особенности документа невозможно в нём реализовать или реализовать довольно сложно (например, поставленный на бок или под углом текст, текстовые блоки в форме круга и т.п.)

В первом случае можно сохранить документ в DOC прямо из программы просмотра, но она должна обладать такими функциями. Adobe Reader этого не делает. Acrobat Pro - сохраняет. Иногда можно просто тупо выделить и скопировать весь текст и картинки через буфер обмена. При условии, что документ не закрыт паролем на доступ к содержимому. Хотя, и это ломается.

Во втором придётся воспользоваться программами оптического распознавания - OCR. Finereader и тому подобными. FineReader последних версий прямо принимает PDF и распознает. Опять-же если документ не запаролирован.

В третьем случае можно распознать документ OCR, но для этого придётся выделять/обозначать/корректировать блоки под распознавание "ручками" на каждой странице и в итоге что-то похожее на исходник может получиться. Но скорее всего придётся перевёрстывать весь документ. Просто его текстовое содержимое не придётся перенабивать руками.

Возможно, что какие-то онлайн-сервисы проводят аналогичные процедуры, но на сложных и огромных (в мегабайтах) документах могут быть проблемы.

UPD: Забыл. Иногда PDF-документ на столько странно организован, что его проще распечатать, отсканировать и потом распознать, чем наблюдать за потугами автоматики. Умельцы могут напечатать в растровый файл и таким образом объединить стадию печати/сканирования.

Powered by POEM™ Engine Copyright © 2002-2005