fregimus: (spout)
[personal profile] fregimus
Встречаю множество книг, оцифрованных в формате DJVU. Не могу понять, чем так привлекает этот формат. Возможно, для каких-то применений он и хорош, но для книг не годится.

Если книга в PDF, я могу в ней с помощью Акробата расставить иерархические закладки, могу проиндексировать ее для быстрого поиска, могу собирать библиотеки и индексировать их. Windows «заглядывает» в PDF, когда индексирует файлы для текстового поиска. Много еще чего можно делать, но это самое главное, чего мне недостает. Казалось бы, велика беда, но ведь и этого-то нет в стандартной программе для просмотра файлов DJVU! Не говорю о том, насколько неудобна эта программа. Все надо делать мышью (можно, конечно, через Alt в меню ходить, но это тоже неудобно) Если книга без текстового слоя, все, что я могу с ней сделать — полистать. Могу еще через меню выбрать на какую страницу перейти, но этот формат даже нумерацию секций не поддерживает — так что я и по оглавлению не найду нужную страницу! Lose, lose!

Здесь все понятно: много я видал въезжающих на белом коне в занятые кем-то другим ниши, да выглядели они потом бледно. С Акробатом конкурировать сложновато, уж очень он продуман хорошо. Да и LizardTech, как понимаю, забросил это дело и переориентировался с цифровых документов на картографию.

Самое странное, что формат кажется «запертым». Он вроде бы «открытый», но ощущение такое, что не особенно он открытый. Несколько раз пытался найти программы для перекодировки этих файлов в, например, PDF — тщетно. Пытался даже напечатать на виртуальный принтер, но печатается растровый образ страницы. Экспорт — пожалуйста, но по одной странице, и только графика. Утилита для экспорта в PostScript тоже только графику экспортирует. Когда я почитал документацию, оказалось, что, хотя формат сам по себе открытый, кусочки его все-таки засекреченные: компрессия, например, текста. Где-то законные ограничения, где-то кода нет. Дело темное.

Не бывает ли на свете такой программы, чтобы перекодировать DJVU, содержащий текстовый слой, в PDF, не теряя при этом текст и его расположение на текстовом слое?
Page 1 of 5 << [1] [2] [3] [4] [5] >>

(no subject)

2008-10-15 17:54 (UTC)
Posted by [identity profile] randomisator.livejournal.com
Плюс djvu - то, что он меньше места занимает. При сканировании выигрыш в объёме может оказаться десятикратным. Поэтому для книг его и используют, всё-таки 10 Мб и 100 Мб - рзница ощутимая.

Не все так страшно

2008-10-15 17:55 (UTC)
Posted by [identity profile] vadim-i-z.livejournal.com
Есть djvu с текстовым слоем. Это зависит от того, делался ли OCR при перекодировке - как и в pdf, кстати. Для таких файлов есть опция "экспортировать текст", коей я и пользовался неоднократно.
Файлу djvu легко присобачить многоуровневое оглавление, оно же иерархические закладки. Если хотите, скажу, как :-).

(no subject)

2008-10-15 18:03 (UTC)
Posted by [identity profile] inkogniton.livejournal.com
о, если Вам чего дельного насоветуют, скажите мне тоже, а? тоже мучаюсь.....

Трижды фигня :)

2008-10-15 18:13 (UTC)
Posted by [identity profile] runixonline.livejournal.com
Извините - но Вы ТРИЖДЫ сказали фигню . DJVU имеет массу преимуществ перед PDF при работе с ИЗНАЧАЛЬНО БУМАЖНЫМИ ( отсканироваными ) документами

Немного матчасти
1. Все вышеперечесленые "вкусности" есть только в PDF , изначально созданом как компьютерный документ. А в мире масса PDF документов в кторых лежат только голые сканы. Там все это НЕ работает - есть только чудовищных размеров файлище с картинками

2. Да в DJVU создавался в первую очередь для хранения ОТСКАНИРОВАНЫХ ( изначально бумажных) документов. И здесь он бьет акробат вчистую - файлы намного меньше при том же качестве просмотра .Но OCR слой в него таже вставляется .. просто большинство DJVUiys[ rybu ltkf.n k.,bntkb b bv 'nbv ktym pfvjhfxbdfnmcz/

3. В DJVU точно также можно вставить OCR слой , и потом индексировать для быстрого поиска, вставлять закладки и т.д как сделать - см здесь и далее - по ссылкам (http://rus7.com/node/16)

Единственное. чем не интерсовался - как винду заставить его индексировать.


Программа перекодировки есть. Fine Reader 9 называется .:) При наличии ОСR слоя распознает его прекрасно ( правда надо чуток над ним пошаманить - в официальной поставке нужных DLL нет, они есть толко в SDK .... но найти их труда не составит )

Re: Трижды фигня :)

2008-10-15 18:17 (UTC)
Posted by [identity profile] runixonline.livejournal.com
ПС Просто большинство DJVU - это неофициальные ( пиратские ) сканы книг - обычно пирату лень вылизывать текст

(no subject)

2008-10-15 18:23 (UTC)
Posted by [identity profile] todofmm.livejournal.com
Отсканированная книга в любом случае ценна.
И DJVU легче, кстати, что для неновых машин весьма полезно.

Re: Трижды фигня :)

2008-10-15 18:35 (UTC)
Posted by [identity profile] allambee.livejournal.com
индексируются при помощи djvu ifilter, который раньше можно было скачать с сайта того же lizardtech, а сейчас он должен быть на сайте celartem, только тот не открывается у меня. под гну/линукс тоже индексируются - через djvulibre. иерархию закладок okular пока не поддерживает.

(no subject)

2008-10-15 18:48 (UTC)
Posted by [identity profile] ex-kosilova.livejournal.com
первое что пришло в голову, но вам уже сказали - прогоните через файнридер и сохраните в ПДФ!

(no subject)

2008-10-15 18:48 (UTC)
Posted by [identity profile] rwalk.livejournal.com
Сейчас специально сравнил - взял первый попавшийся djvu файл (Lecture Notes 70-x годов, 200 страниц машинописного текста с вписанными формулами) - занимает 1400К; после печати на виртуальном PDF принтере получается примерно по 100К на страницу. Разница в 10 с лишним раз. Насчет pdf и djvu - это ведь по-моему разные вещи (пусть специалисты поправят): djvu, насколько я понимаю, - это ведь изначально чисто графический формат (замена jpg), а оболочка Document Express, действительно, довольно кустарная (хотя рудиментарные средства для комментирования имеются).
Идеальным было бы, конечно, если бы он был в акробат зашит (а так в акробате как графика хранится? в jpg?).

(no subject)

2008-10-15 18:50 (UTC)
Posted by [identity profile] miram.livejournal.com
Гугл по запросу djvu2pdf выдает много разного; сам не пробовал.

(no subject)

2008-10-15 18:51 (UTC)
Posted by [identity profile] rednyrg721.livejournal.com
Видел вот такое, сам не пробовал, правда: http://www.stdutility.com/stduviewer.html
Но конвертер вроде денег стоит, а вьюер бесплатный.

(no subject)

2008-10-15 19:22 (UTC)
Posted by [identity profile] yurvor.livejournal.com
Насколько я понимаю, DJVU хорош прежде всего тем, что книги в него легко переводятся. Это в действительности формат для хранения картинок, оптимизированный в предположении, что на картинках будет в основном текст. А сам текстовый слой вообще говоря опционален.

Тем самым порог ввода в обращение бумажных документов получается довольно низок. А уж распознаванием можно и потом заняться, если кто хочет.

(no subject)

2008-10-15 19:30 (UTC)
Posted by [identity profile] http://users.livejournal.com/taras_/
djvu - графический формат с алгоритмом сжатия, оптимизированным под отсканированные тексты. Преимущество - быстрое изготовление электронных книг (ни распознавания, ни вычитки, ни форматирования, ни проблем с формулами в физ-мат книгах) при малом размере получаемых файлов.

http://djvu-inf.narod.ru (http://djvu-inf.narod.ru)

(no subject)

2008-10-15 19:34 (UTC)
Posted by [identity profile] sciuro.livejournal.com
Угу, угу. Плюс много.

У djvu типа все есть, но, как сказано выше, "надо немного пошаманить". Зато целых лишних три мегабайта освободится! Какое-то порожденье хомячиного рефлекса. Как скачать книгу и как хранить - очевидно, как с ней работать - редкого хомяка это беспокоит; редкий хомяк по природе своей шаман.

Надеюсь, что с нынешними ценами на носители (и ростом пропускной способностью каналов) основной аргумент в пользу этой штуки постепенно потеряет смысл.
Posted by [identity profile] fregimus.livejournal.com
«Такие треугольники встречаются редко, потому что их лень рисовать. Поэтому теорему о них мы доказывать не будем. Задача поставлена неверно».

(no subject)

2008-10-15 19:53 (UTC)
Posted by [identity profile] fregimus.livejournal.com
В PDF графика по-разному хранится — это довольно развесистый формат. Монохромное изображение — обычно CCITT G4. Если с потерями, как в DJVU, JBIG2. Цветные и полутоновые изображения могут быть JPEG, JPEG2K, последний поддерживает lossless compression. В версии формата 1.6 добавился метод ZIP (не знаю, имеет ли это отношение к одноименному архиватору), lossless, для любой цветности.

(no subject)

2008-10-15 19:55 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Очень рад за Вас, что у Вас нет проблем. Спасибо, что поделились счастьем!
Posted by [identity profile] runixonline.livejournal.com
:)

Однако это именно так . Если же этот треугольник рисовали добросовестно - он будет ничем не хуже

(no subject)

2008-10-15 19:56 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Спасибо. Не хочу. Более того, распознаванием уже кто-то позанимался, потому что текстовый layer уже есть. Теперь бы эту книгу только в такой вид перевести, чтобы с ней работать можно было. Вот последний шаг остался.

(no subject)

2008-10-15 19:58 (UTC)
Posted by [identity profile] yurvor.livejournal.com
Так у тебя практический вопрос или концептуальный? :)

(no subject)

2008-10-15 19:58 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Так там уже есть текст — и распознанный, и вычитанный. Если DJVU без текста — никаких проблем, конечно, нет.

(no subject)

2008-10-15 19:59 (UTC)
Posted by [identity profile] fregimus.livejournal.com
Отсканированная книга в любом случае ценна.
…но неотсканированная обычно ценнее! :-)

А не новую машину мне где взять? Музей грабить, да? Нехорошо! :-)
Edited 2008-10-15 19:59 (UTC)

(no subject)

2008-10-15 19:59 (UTC)
Posted by [identity profile] yurvor.livejournal.com
Основной аргумент состоит не в том, что он занимает меньше места, а в том, что переводить _бумажные_ носители в этот формат проще, чем во что либо ещё. И этот аргумент вряд ли потеряет смысл скоро...

(no subject)

2008-10-15 20:01 (UTC)
Posted by [identity profile] yurvor.livejournal.com
Если практический, то видел ли ты уже http://www.djvu-to-pdf.com/ ?

Если видел и не помогло, давай свой файл, попробую пошаманить :)
Posted by [identity profile] fregimus.livejournal.com
Спасибо, наверное, пока не хочу, хочу в PDF вместе с текстом, но, если не удастся то, чего я хочу, то тогда начну хотеть того, что Вы предлагаете. Тогда Вас расспрошу, хорошо?

А в какой программе эта опция — экспортировать текст? Выделить и копировать текст могу, а вот экспортировать — нет.
Page 1 of 5 << [1] [2] [3] [4] [5] >>

Profile

fregimus: (Default)
fregimus

March 2014

S M T W T F S
       1
2 3456 78
910 1112 131415
16171819202122
23242526272829
3031     

Most Popular Tags

Page generated 2026-01-14 00:30

Expand Cut Tags

No cut tags