Как оцифровать книгу в домашних условиях

«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг

Любите ли вы книги так, как люблю их я.

Детство и юность, проведенная в маленьком городе, где в районной библиотеке из энциклопедий был лишь «Большой энциклопедический словарь» приучила к бережному, практически благоговейному отношению к любой технической книге. Я понимаю, почему люди пережившие блокаду все время держали дома запас продуктов. Первое время, получив доступ к более или менее скоростному интернету все время хотелось скачивать новые книги и сохранять их на жестком диске, сохранять, сохранять :). Потом появился twirpx и я понял, что книги, как и знания, должны участвовать в постоянном круговороте, иначе они мертвы. Стоило один раз отсканировать монографию своего научного руководителя и услышать десятки отзывов скачавших, как лавину уже было не остановить. Я заметил, что сегодня поделившись редкой книгой, завтра я увижу две, а то и три не менее редких, которыми поделились другие.

Как оцифровать книгу в домашних условиях

В годы студенчества из-за довольно узкой специализации, библиотека была практически вторым домом. Но библиотека библиотеке, как водится, рознь и при прочих равных гораздо удобнее читать (а также распознавать и сразу копировать в курсовую) странички, пусть и цифровые, но сидя дома. Поэтому сначала был планшетный сканер Mystek BearPaw2400, тонкий, с питанием от USB, но ужасно медленный. С уменьшением стоимость цифровых камер (и ростом разрешения) его заменил отличный быстрый фотоаппарат Canon PowerShot A720IS (имхо, один из лучших в линейке PowerShot-ов). Именно с его помощью я прочувствовал всю мощь оптической стабилизации :). Вопрос со скоростью сканирования был решен, но в угоду спешке пострадало качество. Чтобы не ходить по пятьдесят раз и не перефотографировать испорченные/пересвеченные/недосвеченные и т.п. страницы было решено решать возникшие проблемы программно.

Опыт, наработанный в результате изысканий (и десятков отсканированных книг) вылился в целые серии статей, посвященных особенностям обработки сырого книжного материала и доводки его до состояния «неплохой djvu копии». В том числе причиной написания были вопросы друзей и знакомых «а как это djvu сделать вообще, мне вот дали хорошую книгу на пару дней». Ниже привожу, на всякий случай ссылки:

Увлечение сканирование пришлось на то время, когда только начинал наполнятся twirpx и нормально работал avaxhome. Отсканировав около полусотни книг, постепенно начали выкристализоваться алгоритмы, которые бы позволяли получать материал удобный для чтения на 10″ планшете (не говоря уже про монитор компьютера) достаточно высокого качества и при этом экономить время, которое затрачивается на обработку одной книги.

Честно скажу, мне несколько раз очень хотелось сделать настоящий книжный сканер, вроде описанного на Хабре (Книжный сканер своими руками), или еще лучше такой как cделал крутой немецкий дедок (видео ч.1, ч.2, ч.3). Но мысли о самоделках посещают тогда, когда есть уйма свободного времени для размышлений (и материал, и инструмент и т.д., и т.п.). Чаще же всего этого под рукой нет, а книга нужна. И нужна срочно, да еще и в приемлемом качестве.

Поэтому уже довольно давно я пользуюсь несложным программно-аппаратным комплексом, который позволяет мне создавать довольно качественные копии книг за короткое время. К примеру на обработку одной 300 страничной книги (начиная от фотографирования и заканчивания кодированием в djvu) уходит примерно час, с использованием ПК на базе AMD Athlon II X4 640/16 Gb RAM/4 Tb SATA 3.0 HDD.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

В джентельменский набор железа мобильного цифрового книгопечатника входят следующие позиции:

1) Смартфон Nokia PureView 808
2) Подвижный штатив-струбцина
3) Крепление для смартфона
4) Bluetooth пульт управления Coco CC-PC101

Смартфон от Nokia выбран за свою надежность и максимальный размер матрицы. Ну и люблю я его очень 🙂 (и на Хабре ему пели дифирамбы). Из недостатков можно отметить то, что в отличие от Android-смартфонов мне пришлось довольно долго искать подходящий пульт, который бы заработал с моим телефоном. В итоге я остановился на Coco CC-PC101. Притом этот пульт работает только с программой CameraPro (cтандартное приложение его не подхватывает). При использовании Android подойдет любой копеечный пульт с Aliexpress.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях
Как оцифровать книгу в домашних условиях

Подвижная штанга, с помощью которой можно регулировать высоту смартфона над книгой — обычная селфи-палка палка-себяшка, но с наличием в нижней части стандартной резьбы 1/4″ для прикручивания к струбцине/любой другой стойке. На aliexpress много вариантов, мне по цене/параметрам понравился «монопод для GoPro Hero 5 4 3»

Как оцифровать книгу в домашних условиях

Крепление для смартфона тоже первое попавшееся с резьбами 1/4″, не самое дешевое (в отличие от проволочных вариантов), но мне понравилось своей формой. И пока никаких проблем с ним нет.

Штатив-струбцина — советского производства УТМ ЛСНХ. Чистый дюралюминий, настоящая радость для инженера, ну и просто очень надежный инструмент с множеством регулировок.

Как оцифровать книгу в домашних условиях

Смартфон у меня достаточно тяжелый, + вес телескопической штанги, поэтому пластиковым китайским струбцинкам я не доверяю. Но они имеют место быть.

Дополнение: При фотографировании в полевых условиях ч/б книг очень важным фактором является освещенность. Естественной (свет в библиотеке) часто бывает недостаточно. Помочь решить эту проблему могут переносные фото-лампы с aliexpress:

Как оцифровать книгу в домашних условиях

Из преимуществ можно отметить малый вес и встроенный башмак с резьбой 1/4″ для крепления на стандартный штатив. Можно взять несколько таких ламп и расположить вокруг объекта фотографирования для создания равномерного освещения. Чтобы удобнее было лампы крепить — можно дополнительно к ним приобрести фото-клипсы с креплением 1/4″ на том же aliexpress:

Как оцифровать книгу в домашних условиях

Сам процесс фотографирования особой сложностью не отличается. Книга располагается так, чтобы попадать в фокус камеры и с помощью пульта происходит фокусировка/съемка. Перевернули страниц — «фокусировка/съемка». При этом располагать книгу я стараюсь так, чтобы были видны все края (это нужно для выравнивания изгиба страниц в программе ScanTailor). Несколько хвалебных слов о ней. Раньше мне приходилось использовать либо довольно капризную (часто вылетала с ошибкой) и платную программу BookRestorer, либо «косноязычную» ScanKromsator (хотя более чем уверен, что у нее найдутся свои фанаты 🙂 ). Но слава богу появилась ScanTailor и жизнь таких вот как я «книгопечатников» сильно упростилась. Вот что говорит Википедия по этому поводу:

Scan Tailor (англ. scan — сканировать, tailor — портной) — компьютерная программа для обработки изображений, полученных при помощи сканера. Является кроссплатформенной программой и работает под управлением операционых систем Microsoft Windows, Linux и Mac OS X. Высокий уровень программы был отмечен по итогам первого конкурса «Лучший свободный проект России» в 2009 году, проводимым журналом Linux Format

Открытая книга фотографируется с использованием лазеров (они формируют сетку на поверхности). При этом фотографирование производится сразу с нескольких ракурсов, после чего происходит автоматическое объединение всех трех кадров. Разработчики утверждают, что их способ позволяет избежать искажений, обычно проявляющихся при стандартном сканировании.

Тот же принцип используется и в ScanTailor, только расположение разметочной сетки на странице регулируется самим пользователем. Я выравниваю сетку по краям страниц (для этого при съемке они должны быть видны).

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

После окончания работы программы в папке out будут готовые страницы. Их загружаем в любой конвертер DJVU (выбирать можно на сайте). Я использую DEE — Document Express Editor v6.0.1 Build 1320 LE (for NT) (Light Edition for NT) за маленький размер и шуструю работу. В принципе, после DEE книжку можно закидывать на любимую читалку/смартфон и использовать по назначению. Если время и силы позволяют — можно добавить OCR-слой и оглавление. Эти процедуры подробно описаны в моих статья, на которые я ссылался в начале статьи.

Надеюсь мой опыт будет полезен всем тем, кто фотографирует книги на телефон и читает их потом с картинок в галерее 🙂

Как оцифровать книгу в домашних условиях

Литару провёл несколько тестов и выяснил, что таким образом один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу. Сам он в 2004 году для дипломной работы вручную оцифровал тридцать тысяч страниц материалов из более чем семисот документов, используя обычную цифровую камеру и дешёвую настольную лампу. Большую часть этой работы Литару выполнил в течение пятнадцати часов в один из выходных дней.

Так это, дорогой Калев Литару, если читаешь Хабр — напиши мне, может чего посоветую 🙂

Важно! Все обновления и промежуточные заметки из которых потом плавно формируются хабра-статьи теперь можно увидеть в моем телеграм-канале lab66. Подписывайтесь, чтобы не ожидать очередную статью, а сразу быть в курсе всех изысканий 🙂

Источник

Цифровое «книгопечатание»

Пошаговое руководство по оцифровке книг. Часть 1

Задеть больную тему качественного перевода бумажных изданий в цифровую форму заставляет сама жизнь. В электронных интернет-библиотеках книги появляются довольно новые, но вот качество их обработки оставляет желать лучшего. Страницы не обрезаны, картинки размыты, текстовый (OCR) слой не добавлен и ещё много всяких больших и маленьких огрехов.

Что же касается владельцев не столь продвинутой техники, то им придётся пользоваться старым добрым IrfanView с установленным специализированным плагином AutoScan (labun.com/autoscan.zip) от Eugen Labun. Скачиваем данный архив со страницы автора и распаковываем файлы autoscan.vbs и AutoWindowEnabler.exe в директорию с установленным IrfanView. Далее заходим в меню Файл > Получить/Отсканировать, выбираем режим сканирования «Одно изображение» и сканируем и сохраняем образец с нужными нам параметрами. Назвать первый скан лучше всего 001.* (так советует автор). Теперь запускаем распакованный ранее файл autoscan.vbs. Программа покажет заданные ранее параметры и после нажатия на «OK» начнётся автоматическое сканирование через определённые промежутки.

чтобы получаемая картинка сначала разворачивалась (для двухстраничного скана), а потом выравнивалась (всё остальное можно качественно оформить на этапе «ретуширования» чернового материала). Жмём ОК и Ctrl+A. Остаётся только наблюдать за процессом сканирования и контролировать качество по отображаемым в окне программы эскизам. Кстати, результат пакетного сканирования можно сохранить не только в графический формат, но сразу и в PDF-файл (это на случай сканирования, к примеру, конспекта лекций).

Применять для сканирования ABBYY FineReader всех версий до 9-й я не советую, ввиду того, что зачастую текст необратимо перекашивается. В 9-й же желательно в меню Options убрать галочку рядом со строкой «Исправлять перекос страниц». Что касается формата, в котором будет сохраняться черновой материал, то лучше всего использовать TIFF, потому что широко популярный JPEG размывает картинки, что в случае копии книги, по-моему, совершенно неприемлемо. Формат TIFF в случае сканов оттенков серого и цветных даёт лучшие результаты со сжатием по механизму LZW (без потери качества), для битовых чёрно-белых лучше всего применять сжатие по механизму CCIT FAX G4 (если вы сразу сканируете материал такой «битности»). Принципиальная их разница для рядового пользователя только в том, что каждый используется для своей определённой глубины цвета.

Итак, все основные нюансы мы обсудили. Сканируем выбранную книгу, а после окончания переходим ко второму этапу: ретушь и облагораживание. Впрочем, об этом уже в следующей части статьи.

Источник

Как оцифровать книгу в домашних условияхoleg_nn

Я так вижу.

Как оцифровать книгу в домашних условиях

Это не так сложно, как кажется

Ну, самый простой, который и способом-то назвать нельзя – это простое фотографирование на тот же смартфон отдельных глав книги, их проработка, и затем фотографирование следующих глав.

Для получения же полноценного файла в формате DOC, PDF или FB2, нам понадобится немного больше времени и используемых инструментов, среди которых:

Сначала мы просто сканируем книгу

Как оцифровать книгу в домашних условиях

Обычно, это один из самых времяёмких этапов создания электронной книги, но он же и самый простой и механистичный. Просто перелистывать страницы и сканировать. В зависимости от мощности компьютера и размера сканируемого изображения, количество времени на сканирование каждого разворота книги варьируется от нескольких десятков секунд до нескольких минут. Обычно же сканирование одного разворота занимает менее минуты.
Разрешение при сканировании ставлю не менее 300 DPI. Начиная с этого разрешения, распознавание происходит с минимальным числом ошибок.

Как оцифровать книгу в домашних условиях

Для книги я создаю отдельную папку, в которой накапливаются изображения. И через некоторое время, когда вся книга будет отсканирована, в этой папке будет множество изображений, с которых и будет происходить распознавание текста.

Как оцифровать книгу в домашних условиях

Для распознавания текста я использую программу Abbyy FineReader, которая не только хорошо распознаёт текст, но и предоставляет удобные инструменты для предварительной работы с изображениями.
Изначально в программе есть три базовых режима работы со вновь открываемыми изображениями, это:

-Открыть
-Открыть и распознать
-Открыть и проанализировать

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Таким образом, оптимальный вариант, который я использую в случае книги – это «Открыть и анализировать». Программа обработает все изображения и выделит в них блоки, но распознавать пока не будет. После того, как я вручную уберу ненужные для распознавания блоки и поправлю те блоки, которая программа выделила некорректно (например, пометила текст в качестве рисунка), то даю программе команду на распознавание.
Через некоторое время программа завершит обработку изображений, и полученный результат можно будет передать в MS Word для дальнейшей обработки. Есть несколько вариантов экспорта в Word, Abbyy FineReader способен сохранить исходное форматирование текста и создать оглавление. Но часто какие-то моменты в оформлении приходится править вручную, особенно в случае оглавления.

В принципе, начиная с этого этапа, мы уже работаем с обычным электронным текстом. Если в книге мало рисунков и таблиц, или они сразу встали на свои места, то можно приступать к чтению или конвертации в FB2. Но нередко Abbyy FineReader передаёт данные в Word в достаточно не эстетичном виде, с непонятно каким форматированием и оформлением. Поэтому, для начала, нужно поправить форматирование. Иногда проще даже сбросить форматирование полностью и сделать его вручную, но обычно таких крайностей не нужно. Достаточно пробежаться по тексту, отметить заголовки и создать оглавление на первой странице.
Если же книга содержит ещё и таблицы с рисунками, то им надо уделить особое внимание, что бы они были на своём месте.

После правки текста в Word, мы сохраняем его в формате DOC, т.е. получаем электронную версию книги для чтения на компьютере. Но программы для чтения эл. книг на смартфонах, а так же на «читалках» e-ink, как правило, могут прочитать в файлах DOC только текст. Картинки, таблицы и содержание пропадают. И тут на помощь приходят конвертеры файлов DOC в формат FB2, в котором практически все девайсы читают все типы данных, отображая и рисунки, и содержание.
Для конвертации я использую программу htmlDocs2fb2, которая производит файл формата FB2 из файла формата DOC, и программу Fb2Fix, которая анализирует получившийся файл FB2 на ошибки и исправляет их. Так же часто эта программа исправляет уже готовые, скачанные из Интернета, файлы FB2, и они начинают открываться на устройствах, на которых раньше не открывались.

Такая связка из двух программ была найдена путём долгих экспериментов с различными конвертерами. А эксперименты были вызваны поиском решения проблемы отображения таблиц. При конвертации DOC в FB2, таблицы превращаются просто в текст, который уже невозможно читать таблицей. Ключевая особенность программы htmlDocs2fb2 в том, что она превращает таблицы в рисунки, и, тем самым, позволяет их просматривать в любой программе для чтения электронных книг формата FB2. Оглавление так же сохраняется и его можно вызвать через отдельное меню, предусмотренное в программах.

Как оцифровать книгу в домашних условиях

Чаще всего я не сканирую книги с нуля, а конвертирую найденный в Интернете файл формата DOC в FB2. Различные материалы по экономике, с множеством таблиц и графиков, вполне корректно конвертируются.

Вот такой небольшой практикум. Тема очень обширна, и если расписывать все тонкости, то уйдёт с десяток страниц. Так что если появились вопросы по теме – попробую ответить, задавайте:)

Источник

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Издание. Если на создание и выпуск обычной книги уходит полгода, то электронный вариант издается за неделю.

И еще, электронные книги экономят бумагу, и хочется верить, хотя бы немного сохраняют природу.

Собрания электронных копий книг, картин, фотографий образуют электронные библиотеки на ресурсах сети, к которым может быть открыт самый широкий доступ. В этом плане, в настоящее время в нескольких странах реализуются масштабные проекты по оцифровке фондов крупнейших мировых библиотек. В грандиозном проекте компании Google ставится задача, ни много, ни мало, оцифровать все существующие в мире книги, количество которых по оценкам специалистов компании составляет 130 миллионов штук.

Скорее всего, работая в офисе нам никогда не придется заниматься оцифровкой целой книги. Но бывает, что нужно оцифровать несколько страниц из книги или журнала. Например, извлечь из сборника одну-две статьи и сохранить их в оптимальном формате. Ну, а на бытовом уровне, бывает, что к нам на время попала интересная книга и хотелось бы сделать и сохранить ее копию. Принципиально, оцифровка печатной книги мало чем отличается от оцифровки многостраничного документа. Почитать про оцифровку документов и поучится работать в соответствующих программах можно в теме: Оцифровка документов.

В рунете найдется немало различных методик по оцифровке книг. Если мы не собираемся профессионально заниматься этими делами, а хотим, просто, научится создавать электронные версии книг приемлемого качества, достаточно будет этой темы и вложенных в нее уроков.

Итак, мы сделали нашу первую электронную книгу или, может быть, оцифровали несколько страниц из книги: рассказ или статью и сохранили наши труды в формате DjVu.

А теперь, немного об этом формате.

Заканчивая темы оцифровки, можно сказать, что для хранения электронных версий бумажных документов хорошей альтернативой популярному PDF является замечательный формат DjVu, развитию которого мешает лишь инерция мышления.

Источник

Книжный сканер своими руками

Мысль собрать книжный сканер, появилась после того как мне пришлось сканировать довольно таки объемную книгу. Сканировал на обычном планшетном сканере и заняло это довольно много времени. И так же много времени ушло на пост обработку что бы добиться более менее приемлемого качества и удобства чтения полученного материала.

Как все начиналось. Вначале было слово, и слово это было матерным. Поскольку после всей эпопеи со сканированием книги других слов не находилось.

Вопрос стал актуальным. Порывшись на просторах интернета нашел готовые решения книжных сканеров. Так сказать от производителя. Но стоимость подобных комплексов навевала грустные мысли, мне это не по карману.

Сев и пораскинув мозгами, пришел к выводу, что надо такой сканер сделать самому. И самое главное такой сканер смогу сделать сам. Ведь в чем заключается конструкция книжного сканера. Это колыбель для книги с определенным углом, стойки для крепления фотокамер и освещения, а так же программа для последующей обработки полученных фото.

Основной материал для сканера выбрал: дерево и пластик. Его легче в домашних условиях обрабатывать. А так же стандартный крепеж из магазина метизов.

Фотографий самого процесса изготовления нет. Представленные фото показывают последовательность сборки сканера и буду кратко описывать, что и для чего.

Как оцифровать книгу в домашних условиях

Материал: деревянный брусок, стальные пластины, уголок для крепления вертикальных стоек, мебельные направляющие на которые будет устанавливаться основание колыбели книги.

Вертикальные стойки левая и правая идентичны.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Материал: деревянный брусок, мебельные направляющие на которые будет крепиться прижимное стекло, верхняя часть обычного штатива в которую будет установлено крепление для фотоаппарата.

Закрепляется все на основании при помощи болтов.

Как оцифровать книгу в домашних условиях

Материал: мебельный щит толщиной 18 мм. Закрепляется на направляющие основания.

Как оцифровать книгу в домашних условиях

Материал: мебельный щит толщиной 18 мм. У колыбели угол развала 120 градусов. Что позволяет бережно обращаться с книгой, не повреждая её.

К вертикальным стойкам присоединяется перекладина жесткости.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Материал: деревянный брусок, стальная пластина.

К пластиковым направляющим прикрепляются планки освещения.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Материал: пластик, металлический уголок, светодиодные модули на 4 светодиода общей мощностью 23W, по 8 модулей с каждой стороны.

Крепление для фотоаппарата.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Стандартные от штатива.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Материал: оргстекло толщина 5 мм., используется две пластины соединенных между собой пластиковыми треугольниками.

Вся конструкция закрывается светозащитными шторами.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Ткань плащевка черная.

Вид сканера с рабочего места.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Основание сканера и крепление для камер.

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Как оцифровать книгу в домашних условиях

Пример работы со сканером.

По ссылке ниже можно скачать архив с видео работы со сканером, фото узлов сборки, фото порядка сборки, спецификацию необходимых материалов и метизов для изготовления сканера, чертежи деталей сканера.

Все материалы по сканеру можно скачать тут.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *