fregimus. Не дежавю

Встречаю множество книг, оцифрованных в формате DJVU. Не могу понять, чем так привлекает этот формат. Возможно, для каких-то применений он и хорош, но для книг не годится.

Если книга в PDF, я могу в ней с помощью Акробата расставить иерархические закладки, могу проиндексировать ее для быстрого поиска, могу собирать библиотеки и индексировать их. Windows «заглядывает» в PDF, когда индексирует файлы для текстового поиска. Много еще чего можно делать, но это самое главное, чего мне недостает. Казалось бы, велика беда, но ведь и этого-то нет в стандартной программе для просмотра файлов DJVU! Не говорю о том, насколько неудобна эта программа. Все надо делать мышью (можно, конечно, через Alt в меню ходить, но это тоже неудобно) Если книга без текстового слоя, все, что я могу с ней сделать — полистать. Могу еще через меню выбрать на какую страницу перейти, но этот формат даже нумерацию секций не поддерживает — так что я и по оглавлению не найду нужную страницу! Lose, lose!

Здесь все понятно: много я видал въезжающих на белом коне в занятые кем-то другим ниши, да выглядели они потом бледно. С Акробатом конкурировать сложновато, уж очень он продуман хорошо. Да и LizardTech, как понимаю, забросил это дело и переориентировался с цифровых документов на картографию.

Самое странное, что формат кажется «запертым». Он вроде бы «открытый», но ощущение такое, что не особенно он открытый. Несколько раз пытался найти программы для перекодировки этих файлов в, например, PDF — тщетно. Пытался даже напечатать на виртуальный принтер, но печатается растровый образ страницы. Экспорт — пожалуйста, но по одной странице, и только графика. Утилита для экспорта в PostScript тоже только графику экспортирует. Когда я почитал документацию, оказалось, что, хотя формат сам по себе открытый, кусочки его все-таки засекреченные: компрессия, например, текста. Где-то законные ограничения, где-то кода нет. Дело темное.

Не бывает ли на свете такой программы, чтобы перекодировать DJVU, содержащий текстовый слой, в PDF, не теряя при этом текст и его расположение на текстовом слое?

Page 1 of 5 << [1] [2] [3] [4] [5] >>

Threaded. Top-Level Comments Only

Posted by

randomisator.livejournal.com

Плюс djvu - то, что он меньше места занимает. При сканировании выигрыш в объёме может оказаться десятикратным. Поэтому для книг его и используют, всё-таки 10 Мб и 100 Мб - рзница ощутимая.

Posted by

vadim-i-z.livejournal.com

Есть djvu с текстовым слоем. Это зависит от того, делался ли OCR при перекодировке - как и в pdf, кстати. Для таких файлов есть опция "экспортировать текст", коей я и пользовался неоднократно.
Файлу djvu легко присобачить многоуровневое оглавление, оно же иерархические закладки. Если хотите, скажу, как :-).

Posted by

inkogniton.livejournal.com

о, если Вам чего дельного насоветуют, скажите мне тоже, а? тоже мучаюсь.....

Posted by

runixonline.livejournal.com

Извините - но Вы ТРИЖДЫ сказали фигню . DJVU имеет массу преимуществ перед PDF при работе с ИЗНАЧАЛЬНО БУМАЖНЫМИ ( отсканироваными ) документами

Немного матчасти
1. Все вышеперечесленые "вкусности" есть только в PDF , изначально созданом как компьютерный документ. А в мире масса PDF документов в кторых лежат только голые сканы. Там все это НЕ работает - есть только чудовищных размеров файлище с картинками

2. Да в DJVU создавался в первую очередь для хранения ОТСКАНИРОВАНЫХ ( изначально бумажных) документов. И здесь он бьет акробат вчистую - файлы намного меньше при том же качестве просмотра .Но OCR слой в него таже вставляется .. просто большинство DJVUiys[ rybu ltkf.n k.,bntkb b bv 'nbv ktym pfvjhfxbdfnmcz/

3. В DJVU точно также можно вставить OCR слой , и потом индексировать для быстрого поиска, вставлять закладки и т.д как сделать - см здесь и далее - по ссылкам (http://rus7.com/node/16)

Единственное. чем не интерсовался - как винду заставить его индексировать.

Программа перекодировки есть. Fine Reader 9 называется .:) При наличии ОСR слоя распознает его прекрасно ( правда надо чуток над ним пошаманить - в официальной поставке нужных DLL нет, они есть толко в SDK .... но найти их труда не составит )

Posted by

runixonline.livejournal.com

ПС Просто большинство DJVU - это неофициальные ( пиратские ) сканы книг - обычно пирату лень вылизывать текст

Posted by

todofmm.livejournal.com

Отсканированная книга в любом случае ценна.
И DJVU легче, кстати, что для неновых машин весьма полезно.

Posted by

allambee.livejournal.com

индексируются при помощи djvu ifilter, который раньше можно было скачать с сайта того же lizardtech, а сейчас он должен быть на сайте celartem, только тот не открывается у меня. под гну/линукс тоже индексируются - через djvulibre. иерархию закладок okular пока не поддерживает.

Posted by

ex-kosilova.livejournal.com

первое что пришло в голову, но вам уже сказали - прогоните через файнридер и сохраните в ПДФ!

Posted by

rwalk.livejournal.com

Сейчас специально сравнил - взял первый попавшийся djvu файл (Lecture Notes 70-x годов, 200 страниц машинописного текста с вписанными формулами) - занимает 1400К; после печати на виртуальном PDF принтере получается примерно по 100К на страницу. Разница в 10 с лишним раз. Насчет pdf и djvu - это ведь по-моему разные вещи (пусть специалисты поправят): djvu, насколько я понимаю, - это ведь изначально чисто графический формат (замена jpg), а оболочка Document Express, действительно, довольно кустарная (хотя рудиментарные средства для комментирования имеются).
Идеальным было бы, конечно, если бы он был в акробат зашит (а так в акробате как графика хранится? в jpg?).

Posted by

miram.livejournal.com

Гугл по запросу djvu2pdf выдает много разного; сам не пробовал.

Posted by

rednyrg721.livejournal.com

Видел вот такое, сам не пробовал, правда: http://www.stdutility.com/stduviewer.html
Но конвертер вроде денег стоит, а вьюер бесплатный.

Posted by

yurvor.livejournal.com

Насколько я понимаю, DJVU хорош прежде всего тем, что книги в него легко переводятся. Это в действительности формат для хранения картинок, оптимизированный в предположении, что на картинках будет в основном текст. А сам текстовый слой вообще говоря опционален.

Тем самым порог ввода в обращение бумажных документов получается довольно низок. А уж распознаванием можно и потом заняться, если кто хочет.

Posted by

http://users.livejournal.com/taras_/

djvu - графический формат с алгоритмом сжатия, оптимизированным под отсканированные тексты. Преимущество - быстрое изготовление электронных книг (ни распознавания, ни вычитки, ни форматирования, ни проблем с формулами в физ-мат книгах) при малом размере получаемых файлов.

http://djvu-inf.narod.ru (http://djvu-inf.narod.ru)

Posted by

sciuro.livejournal.com

Угу, угу. Плюс много.

У djvu типа все есть, но, как сказано выше, "надо немного пошаманить". Зато целых лишних три мегабайта освободится! Какое-то порожденье хомячиного рефлекса. Как скачать книгу и как хранить - очевидно, как с ней работать - редкого хомяка это беспокоит; редкий хомяк по природе своей шаман.

Надеюсь, что с нынешними ценами на носители (и ростом пропускной способностью каналов) основной аргумент в пользу этой штуки постепенно потеряет смысл.

Posted by

fregimus.livejournal.com

«Такие треугольники встречаются редко, потому что их лень рисовать. Поэтому теорему о них мы доказывать не будем. Задача поставлена неверно».

Posted by

fregimus.livejournal.com

В PDF графика по-разному хранится — это довольно развесистый формат. Монохромное изображение — обычно CCITT G4. Если с потерями, как в DJVU, JBIG2. Цветные и полутоновые изображения могут быть JPEG, JPEG2K, последний поддерживает lossless compression. В версии формата 1.6 добавился метод ZIP (не знаю, имеет ли это отношение к одноименному архиватору), lossless, для любой цветности.

Posted by

fregimus.livejournal.com

Очень рад за Вас, что у Вас нет проблем. Спасибо, что поделились счастьем!

Posted by

runixonline.livejournal.com

:)

Однако это именно так . Если же этот треугольник рисовали добросовестно - он будет ничем не хуже

Posted by

fregimus.livejournal.com

Спасибо. Не хочу. Более того, распознаванием уже кто-то позанимался, потому что текстовый layer уже есть. Теперь бы эту книгу только в такой вид перевести, чтобы с ней работать можно было. Вот последний шаг остался.

Posted by

yurvor.livejournal.com

Так у тебя практический вопрос или концептуальный? :)

Posted by

fregimus.livejournal.com

Так там уже есть текст — и распознанный, и вычитанный. Если DJVU без текста — никаких проблем, конечно, нет.

Posted by

fregimus.livejournal.com

Отсканированная книга в любом случае ценна.
…но неотсканированная обычно ценнее! :-)

А не новую машину мне где взять? Музей грабить, да? Нехорошо! :-)

Edited 2008-10-15 19:59 (UTC)

Posted by

yurvor.livejournal.com

Основной аргумент состоит не в том, что он занимает меньше места, а в том, что переводить _бумажные_ носители в этот формат проще, чем во что либо ещё. И этот аргумент вряд ли потеряет смысл скоро...

Posted by

yurvor.livejournal.com

Если практический, то видел ли ты уже http://www.djvu-to-pdf.com/ ?

Если видел и не помогло, давай свой файл, попробую пошаманить :)

Posted by

fregimus.livejournal.com

Спасибо, наверное, пока не хочу, хочу в PDF вместе с текстом, но, если не удастся то, чего я хочу, то тогда начну хотеть того, что Вы предлагаете. Тогда Вас расспрошу, хорошо?

А в какой программе эта опция — экспортировать текст? Выделить и копировать текст могу, а вот экспортировать — нет.

Page 1 of 5 << [1] [2] [3] [4] [5] >>

Threaded. Top-Level Comments Only

Profile

fregimus

March 2014

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Page Summary

Page generated 2026-01-14 00:30

Style Credit

Style: Night at Sea for Summertime by ninetydegrees
Resources: Texture by Design Shard and Icons by Romeo Barreto, John Caserta, Denis Chenu, Pedro Lalli, Marcus Michaels, P.J. Onori, Laurent Patain and Cor Tiemens from The Noun Project

Expand Cut Tags

No cut tags

A FREGIMO AMISSA

alterum fregi, alterum amisi!

Не дежавю

Не дежавю

(no subject)

Не все так страшно

(no subject)

Трижды фигня :)

Re: Трижды фигня :)

(no subject)

Re: Трижды фигня :)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

Интересное рассуждение

(no subject)

(no subject)

Re: Интересное рассуждение

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

(no subject)

Re: Не все так страшно

Profile

March 2014

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags