Встречаю множество книг, оцифрованных в формате DJVU. Не могу понять, чем так привлекает этот формат. Возможно, для каких-то применений он и хорош, но для книг не годится.
Если книга в PDF, я могу в ней с помощью Акробата расставить иерархические закладки, могу проиндексировать ее для быстрого поиска, могу собирать библиотеки и индексировать их. Windows «заглядывает» в PDF, когда индексирует файлы для текстового поиска. Много еще чего можно делать, но это самое главное, чего мне недостает. Казалось бы, велика беда, но ведь и этого-то нет в стандартной программе для просмотра файлов DJVU! Не говорю о том, насколько неудобна эта программа. Все надо делать мышью (можно, конечно, через Alt в меню ходить, но это тоже неудобно) Если книга без текстового слоя, все, что я могу с ней сделать — полистать. Могу еще через меню выбрать на какую страницу перейти, но этот формат даже нумерацию секций не поддерживает — так что я и по оглавлению не найду нужную страницу! Lose, lose!
Здесь все понятно: много я видал въезжающих на белом коне в занятые кем-то другим ниши, да выглядели они потом бледно. С Акробатом конкурировать сложновато, уж очень он продуман хорошо. Да и LizardTech, как понимаю, забросил это дело и переориентировался с цифровых документов на картографию.
Самое странное, что формат кажется «запертым». Он вроде бы «открытый», но ощущение такое, что не особенно он открытый. Несколько раз пытался найти программы для перекодировки этих файлов в, например, PDF — тщетно. Пытался даже напечатать на виртуальный принтер, но печатается растровый образ страницы. Экспорт — пожалуйста, но по одной странице, и только графика. Утилита для экспорта в PostScript тоже только графику экспортирует. Когда я почитал документацию, оказалось, что, хотя формат сам по себе открытый, кусочки его все-таки засекреченные: компрессия, например, текста. Где-то законные ограничения, где-то кода нет. Дело темное.
Не бывает ли на свете такой программы, чтобы перекодировать DJVU, содержащий текстовый слой, в PDF, не теряя при этом текст и его расположение на текстовом слое?
Если книга в PDF, я могу в ней с помощью Акробата расставить иерархические закладки, могу проиндексировать ее для быстрого поиска, могу собирать библиотеки и индексировать их. Windows «заглядывает» в PDF, когда индексирует файлы для текстового поиска. Много еще чего можно делать, но это самое главное, чего мне недостает. Казалось бы, велика беда, но ведь и этого-то нет в стандартной программе для просмотра файлов DJVU! Не говорю о том, насколько неудобна эта программа. Все надо делать мышью (можно, конечно, через Alt в меню ходить, но это тоже неудобно) Если книга без текстового слоя, все, что я могу с ней сделать — полистать. Могу еще через меню выбрать на какую страницу перейти, но этот формат даже нумерацию секций не поддерживает — так что я и по оглавлению не найду нужную страницу! Lose, lose!
Здесь все понятно: много я видал въезжающих на белом коне в занятые кем-то другим ниши, да выглядели они потом бледно. С Акробатом конкурировать сложновато, уж очень он продуман хорошо. Да и LizardTech, как понимаю, забросил это дело и переориентировался с цифровых документов на картографию.
Самое странное, что формат кажется «запертым». Он вроде бы «открытый», но ощущение такое, что не особенно он открытый. Несколько раз пытался найти программы для перекодировки этих файлов в, например, PDF — тщетно. Пытался даже напечатать на виртуальный принтер, но печатается растровый образ страницы. Экспорт — пожалуйста, но по одной странице, и только графика. Утилита для экспорта в PostScript тоже только графику экспортирует. Когда я почитал документацию, оказалось, что, хотя формат сам по себе открытый, кусочки его все-таки засекреченные: компрессия, например, текста. Где-то законные ограничения, где-то кода нет. Дело темное.
Не бывает ли на свете такой программы, чтобы перекодировать DJVU, содержащий текстовый слой, в PDF, не теряя при этом текст и его расположение на текстовом слое?
(no subject)
2008-10-15 17:54 (UTC)Не все так страшно
2008-10-15 17:55 (UTC)Файлу djvu легко присобачить многоуровневое оглавление, оно же иерархические закладки. Если хотите, скажу, как :-).
(no subject)
2008-10-15 18:03 (UTC)Трижды фигня :)
Немного матчасти
1. Все вышеперечесленые "вкусности" есть только в PDF , изначально созданом как компьютерный документ. А в мире масса PDF документов в кторых лежат только голые сканы. Там все это НЕ работает - есть только чудовищных размеров файлище с картинками
2. Да в DJVU создавался в первую очередь для хранения ОТСКАНИРОВАНЫХ ( изначально бумажных) документов. И здесь он бьет акробат вчистую - файлы намного меньше при том же качестве просмотра .Но OCR слой в него таже вставляется .. просто большинство DJVUiys[ rybu ltkf.n k.,bntkb b bv 'nbv ktym pfvjhfxbdfnmcz/
3. В DJVU точно также можно вставить OCR слой , и потом индексировать для быстрого поиска, вставлять закладки и т.д как сделать - см здесь и далее - по ссылкам (http://rus7.com/node/16)
Единственное. чем не интерсовался - как винду заставить его индексировать.
Программа перекодировки есть. Fine Reader 9 называется .:) При наличии ОСR слоя распознает его прекрасно ( правда надо чуток над ним пошаманить - в официальной поставке нужных DLL нет, они есть толко в SDK .... но найти их труда не составит )
Re: Трижды фигня :)
2008-10-15 18:17 (UTC)(no subject)
2008-10-15 18:23 (UTC)И DJVU легче, кстати, что для неновых машин весьма полезно.
Re: Трижды фигня :)
2008-10-15 18:35 (UTC)(no subject)
2008-10-15 18:48 (UTC)(no subject)
2008-10-15 18:48 (UTC)Идеальным было бы, конечно, если бы он был в акробат зашит (а так в акробате как графика хранится? в jpg?).
(no subject)
2008-10-15 18:50 (UTC)(no subject)
2008-10-15 18:51 (UTC)Но конвертер вроде денег стоит, а вьюер бесплатный.
(no subject)
2008-10-15 19:22 (UTC)Тем самым порог ввода в обращение бумажных документов получается довольно низок. А уж распознаванием можно и потом заняться, если кто хочет.
(no subject)
2008-10-15 19:30 (UTC)http://djvu-inf.narod.ru (http://djvu-inf.narod.ru)
(no subject)
2008-10-15 19:34 (UTC)У djvu типа все есть, но, как сказано выше, "надо немного пошаманить". Зато целых лишних три мегабайта освободится! Какое-то порожденье хомячиного рефлекса. Как скачать книгу и как хранить - очевидно, как с ней работать - редкого хомяка это беспокоит; редкий хомяк по природе своей шаман.
Надеюсь, что с нынешними ценами на носители (и ростом пропускной способностью каналов) основной аргумент в пользу этой штуки постепенно потеряет смысл.
Интересное рассуждение
2008-10-15 19:41 (UTC)(no subject)
2008-10-15 19:53 (UTC)(no subject)
2008-10-15 19:55 (UTC)Re: Интересное рассуждение
2008-10-15 19:55 (UTC)Однако это именно так . Если же этот треугольник рисовали добросовестно - он будет ничем не хуже
(no subject)
2008-10-15 19:56 (UTC)(no subject)
2008-10-15 19:58 (UTC)(no subject)
2008-10-15 19:58 (UTC)(no subject)
2008-10-15 19:59 (UTC)…но неотсканированная обычно ценнее! :-)
А не новую машину мне где взять? Музей грабить, да? Нехорошо! :-)
(no subject)
2008-10-15 19:59 (UTC)(no subject)
2008-10-15 20:01 (UTC)Если видел и не помогло, давай свой файл, попробую пошаманить :)
Re: Не все так страшно
2008-10-15 20:03 (UTC)А в какой программе эта опция — экспортировать текст? Выделить и копировать текст могу, а вот экспортировать — нет.