Встречаю множество книг, оцифрованных в формате DJVU. Не могу понять, чем так привлекает этот формат. Возможно, для каких-то применений он и хорош, но для книг не годится.
Если книга в PDF, я могу в ней с помощью Акробата расставить иерархические закладки, могу проиндексировать ее для быстрого поиска, могу собирать библиотеки и индексировать их. Windows «заглядывает» в PDF, когда индексирует файлы для текстового поиска. Много еще чего можно делать, но это самое главное, чего мне недостает. Казалось бы, велика беда, но ведь и этого-то нет в стандартной программе для просмотра файлов DJVU! Не говорю о том, насколько неудобна эта программа. Все надо делать мышью (можно, конечно, через Alt в меню ходить, но это тоже неудобно) Если книга без текстового слоя, все, что я могу с ней сделать — полистать. Могу еще через меню выбрать на какую страницу перейти, но этот формат даже нумерацию секций не поддерживает — так что я и по оглавлению не найду нужную страницу! Lose, lose!
Здесь все понятно: много я видал въезжающих на белом коне в занятые кем-то другим ниши, да выглядели они потом бледно. С Акробатом конкурировать сложновато, уж очень он продуман хорошо. Да и LizardTech, как понимаю, забросил это дело и переориентировался с цифровых документов на картографию.
Самое странное, что формат кажется «запертым». Он вроде бы «открытый», но ощущение такое, что не особенно он открытый. Несколько раз пытался найти программы для перекодировки этих файлов в, например, PDF — тщетно. Пытался даже напечатать на виртуальный принтер, но печатается растровый образ страницы. Экспорт — пожалуйста, но по одной странице, и только графика. Утилита для экспорта в PostScript тоже только графику экспортирует. Когда я почитал документацию, оказалось, что, хотя формат сам по себе открытый, кусочки его все-таки засекреченные: компрессия, например, текста. Где-то законные ограничения, где-то кода нет. Дело темное.
Не бывает ли на свете такой программы, чтобы перекодировать DJVU, содержащий текстовый слой, в PDF, не теряя при этом текст и его расположение на текстовом слое?
Если книга в PDF, я могу в ней с помощью Акробата расставить иерархические закладки, могу проиндексировать ее для быстрого поиска, могу собирать библиотеки и индексировать их. Windows «заглядывает» в PDF, когда индексирует файлы для текстового поиска. Много еще чего можно делать, но это самое главное, чего мне недостает. Казалось бы, велика беда, но ведь и этого-то нет в стандартной программе для просмотра файлов DJVU! Не говорю о том, насколько неудобна эта программа. Все надо делать мышью (можно, конечно, через Alt в меню ходить, но это тоже неудобно) Если книга без текстового слоя, все, что я могу с ней сделать — полистать. Могу еще через меню выбрать на какую страницу перейти, но этот формат даже нумерацию секций не поддерживает — так что я и по оглавлению не найду нужную страницу! Lose, lose!
Здесь все понятно: много я видал въезжающих на белом коне в занятые кем-то другим ниши, да выглядели они потом бледно. С Акробатом конкурировать сложновато, уж очень он продуман хорошо. Да и LizardTech, как понимаю, забросил это дело и переориентировался с цифровых документов на картографию.
Самое странное, что формат кажется «запертым». Он вроде бы «открытый», но ощущение такое, что не особенно он открытый. Несколько раз пытался найти программы для перекодировки этих файлов в, например, PDF — тщетно. Пытался даже напечатать на виртуальный принтер, но печатается растровый образ страницы. Экспорт — пожалуйста, но по одной странице, и только графика. Утилита для экспорта в PostScript тоже только графику экспортирует. Когда я почитал документацию, оказалось, что, хотя формат сам по себе открытый, кусочки его все-таки засекреченные: компрессия, например, текста. Где-то законные ограничения, где-то кода нет. Дело темное.
Не бывает ли на свете такой программы, чтобы перекодировать DJVU, содержащий текстовый слой, в PDF, не теряя при этом текст и его расположение на текстовом слое?
(no subject)
2008-10-15 17:54 (UTC)(no subject)
2008-10-15 20:05 (UTC)Не все так страшно
2008-10-15 17:55 (UTC)Файлу djvu легко присобачить многоуровневое оглавление, оно же иерархические закладки. Если хотите, скажу, как :-).
Re: Не все так страшно
2008-10-15 20:03 (UTC)А в какой программе эта опция — экспортировать текст? Выделить и копировать текст могу, а вот экспортировать — нет.
Re: Не все так страшно
Posted byRe: Не все так страшно
Posted byRe: Не все так страшно
Posted byRe: Не все так страшно
2008-10-15 23:35 (UTC)Re: Не все так страшно
Posted byRe: Не все так страшно
Posted byRe: Не все так страшно
Posted byRe: Не все так страшно
Posted by(no subject)
2008-10-15 18:03 (UTC)Трижды фигня :)
Немного матчасти
1. Все вышеперечесленые "вкусности" есть только в PDF , изначально созданом как компьютерный документ. А в мире масса PDF документов в кторых лежат только голые сканы. Там все это НЕ работает - есть только чудовищных размеров файлище с картинками
2. Да в DJVU создавался в первую очередь для хранения ОТСКАНИРОВАНЫХ ( изначально бумажных) документов. И здесь он бьет акробат вчистую - файлы намного меньше при том же качестве просмотра .Но OCR слой в него таже вставляется .. просто большинство DJVUiys[ rybu ltkf.n k.,bntkb b bv 'nbv ktym pfvjhfxbdfnmcz/
3. В DJVU точно также можно вставить OCR слой , и потом индексировать для быстрого поиска, вставлять закладки и т.д как сделать - см здесь и далее - по ссылкам (http://rus7.com/node/16)
Единственное. чем не интерсовался - как винду заставить его индексировать.
Программа перекодировки есть. Fine Reader 9 называется .:) При наличии ОСR слоя распознает его прекрасно ( правда надо чуток над ним пошаманить - в официальной поставке нужных DLL нет, они есть толко в SDK .... но найти их труда не составит )
Re: Трижды фигня :)
2008-10-15 18:17 (UTC)Интересное рассуждение
Posted byRe: Интересное рассуждение
Posted byRe: Трижды фигня :)
2008-10-15 18:35 (UTC)(no subject)
Posted by(no subject)
2008-10-15 18:23 (UTC)И DJVU легче, кстати, что для неновых машин весьма полезно.
(no subject)
2008-10-15 19:59 (UTC)…но неотсканированная обычно ценнее! :-)
А не новую машину мне где взять? Музей грабить, да? Нехорошо! :-)
(no subject)
Posted by(no subject)
Posted byкстати
Posted byRe: кстати
Posted by(no subject)
2008-10-15 18:48 (UTC)(no subject)
2008-10-15 19:58 (UTC)(no subject)
2008-10-15 18:48 (UTC)Идеальным было бы, конечно, если бы он был в акробат зашит (а так в акробате как графика хранится? в jpg?).
(no subject)
2008-10-15 19:53 (UTC)(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
2008-10-15 18:50 (UTC)(no subject)
2008-10-15 21:07 (UTC)(no subject)
2008-10-15 18:51 (UTC)Но конвертер вроде денег стоит, а вьюер бесплатный.
(no subject)
2008-10-15 21:06 (UTC)(no subject)
2008-10-15 19:22 (UTC)Тем самым порог ввода в обращение бумажных документов получается довольно низок. А уж распознаванием можно и потом заняться, если кто хочет.
(no subject)
2008-10-15 19:56 (UTC)(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
2008-10-15 19:30 (UTC)http://djvu-inf.narod.ru (http://djvu-inf.narod.ru)
(no subject)
2008-10-15 19:55 (UTC)(no subject)
2008-10-15 19:34 (UTC)У djvu типа все есть, но, как сказано выше, "надо немного пошаманить". Зато целых лишних три мегабайта освободится! Какое-то порожденье хомячиного рефлекса. Как скачать книгу и как хранить - очевидно, как с ней работать - редкого хомяка это беспокоит; редкий хомяк по природе своей шаман.
Надеюсь, что с нынешними ценами на носители (и ростом пропускной способностью каналов) основной аргумент в пользу этой штуки постепенно потеряет смысл.
(no subject)
2008-10-15 19:59 (UTC)(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
2008-10-15 20:04 (UTC)Вот, например, этот сайт я изваял за неделю неспешной работы (начиная от сканирования и заканчивая публикацией)
http://blat1927.narod.ru/
Наверное, то, что Вы говорите о PDF, очень ценно, но я, честно, не знаю, для чего это мне всё надо. Закладку-то в офлайновом документе поставить можно, но как мне сослаться на конкретную страницу в сетевом документе? На листочки разбивать, как мы с
А DjVu имеет такую возможность врождённо.
(no subject)
2008-10-15 20:37 (UTC)PDF тоже умеет приезжать по частям, но не знаю, как это так делают. Посмотрите, если интересно, www.mouser.com — электронный посылторг такой — там и каталог листается, и дерево закладок есть.
А насчет моего практического вопроса не знаете, что можно придумать? Вы ведь знаете все на свете и еще кое-что про обработку и хранение текстов. :-)
cogitatu ergo sunt
Posted byRe: cogitatu ergo sunt
Posted byRe: cogitatu ergo sunt
Posted byRe: cogitatu ergo sunt
Posted byRe: cogitatu ergo sunt
Posted byRe: cogitatu ergo sunt
Posted by(no subject)
2008-10-15 20:41 (UTC)(no subject)
2008-10-15 21:09 (UTC)Уже несколько комментаторов указало на то, что djvu служит лишь для хранения отсканированных текстов. (Т.е. это не более чем _графический_ формат, оптимизированный под текст.)
Предлагаю считать, что djvu -- это то же самое что bmp (или, точнее высококачественный jpeg). Разница только в размерах файлов.
А чтобы получить "нормальный" текст все равно надо заниматься распознаванием и т.д...
(no subject)
2008-10-15 21:21 (UTC)(no subject)
2008-10-15 22:07 (UTC)А сгубило его насколько мне помнится дурацкая позиция AT&T открытыми они сделали только плагин, и довольно убогий редактор, более продвинутый редактор помнится продавался, но и как то они потом охладели к этой идеи и забросили, а жаль.
(no subject)
2008-10-15 22:45 (UTC)Но то, что эти идеи забросили, в данном случае для меня стало практической проблемой, которую вот — как решать? Меня, эгоистичного, моя собственная судьба беспокоит несколько больше оной формата DJVU…
(no subject)
Posted by(no subject)
2008-10-15 23:05 (UTC)Интересно, существуют ли в природе противоположные примеры.
Если вы выполняли печать в файл pdf, то софт вполне мог сохранять изображения в разрешении принтера, а не в разрешении исходной картинки, так что увеличение размера легко объяснимо. Было бы интереснее, если бы кто-то сделал из одних и тех же картинок книгу в pdf и в djvu. Вот тогда можно было бы сравнить размер.
(no subject)
2008-10-16 02:39 (UTC)В этом случае сохраняется текст, шрифт и его расположение на странице. Увеличивать можно хоть до буквы во весь экран: результат не будет «пикселизованным». «Рисованные» картинки в виде векторной графики. Растр будет сохранен только в том случае, когда был напечатан растр. Разумеется, если напечатать сканированное изображение, то страница в PDF так и будет состоять из одного растрового изображения.
Размер разный, но причина в другом: DJVU, насколько я понимаю, — lossy, как JPEG. Выше головы не прыгнешь, чудес не бывает: информационная энтропия изображения ровно такова и не более, поэтому предел любого lossless сжатия (такого, чтобы исходная картинка распаковалась на экране с точностью до каждого пиксела) есть, и он довольно близок к тому, что вы достигнете TIFF, GIF, PNG. Поэтому сравнение по занимаемому объему lossy, теряющего детали DJVU и lossless PDF во-первых, некорректно, а во-вторых, всегда в пользу DJVU.
(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
Posted by(no subject)
2008-10-16 06:45 (UTC)(no subject)
2008-10-16 06:47 (UTC)(no subject)
Posted by