Xpoint
   [напомнить пароль]

Поиск в PDF-файлах --- парсинг "на лету" или индексация?

2003-01-31 14:51:39 [обр] Денис Прилуцкий [досье]

Господа! Прошу Вашей помощи!

Заказчик озадачил следующим: функция поиска по сайту должна помимо контента обрабатывать содержимое PDF файлов, которые с этого сайта можно скачать... Файлы эти добавляются администратором сайта, то-есть их количество динамически меняется.

Отсюда возникают следующие вопросы:

- стоит-ли проиндексировать эти файлы при добавлении (upload'е) или можно парсить их непосредственно во время запроса на поиск?

- насколько трудоемкая операция парсенья :) PDF файлов? Может кто-то имел опыт?...

спустя 17 минут [обр] Евгений Бондарев [досье]
Денис Прилуцкий:
ИМХО, даже если парсинг не столь трудоемкая операция, лучше их индексировать один раз. Или при аплоаде или при первом оращении к новому файлу.
спустя 1 час 50 минут [обр] Денис Прилуцкий [досье]
Евгений Бондарев:
Спасибо за ответ. Я тоже склоняюсь к данному решению. Не подскажете-ли Вы, где можно посмотреть примеры парсинга PDF файлов? Я имел опыт только в генерации PDF файлов...и на ASP.
спустя 19 минут [обр] Евгений Бондарев [досье]
спустя 2 минуты [обр] Евгений Бондарев [досье]
спустя 7 минут [обр] Дунька [moderated] [досье]

Вообще-то PDF довольно нормально документирован
http://partners.adobe.com/asn/....../filefmtspecs/PDFReference.pdf

Текст вроде бы довольно просто оттудова вытащить.

спустя 2 часа 36 минут [обр] Денис Прилуцкий [досье]
Евгений Бондарев:
Огромное спасибо!
спустя 4 минуты [обр] Денис Прилуцкий [досье]

Дунька [moderated]:
Спасибо большое!

Все, можно закрывать тему.

Powered by POEM™ Engine Copyright © 2002-2005