Intereting Posts
Установка RPM Добавить репозиторий yum Как напечатать имя базового файла, используя find в Unix? Как аутентифицировать учетные записи Linux с помощью PAM с использованием PHP без предоставления тэга www-data Можно ли приостановить контейнер LXC и перезагрузить хост без потери состояния? Как установить Google Chrome на Amazon Linux со всеми его зависимостями? Как установить sshfs на Linux Mint? Время сбоя точки CIFS при попытке монтировать Как добавить нового пользователя для входа в GUI? Когда начинается отсчет времени, установленного для кеширования пароля в `sudo`? Создание образа Debian с панели запуска Ubuntu Отредактировано /etc/cron.d/anacron, изменения сразу же действуют? Что такое командная строка, эквивалентная «mintupdate» для Linux Mint? Создание новых схем gsettings / dconf Как исправить ошибку «неизвестного чипсета» при загрузке Arch Linux? ipsec rightsubnet для широкого, не может переопределить таблицу маршрутизации | IPSec маршрутизирует некоторые пакеты «локально», а не через туннель; ip xfrm изменить?

Как конвертировать PDF в формат eBook

Есть ли способ конвертировать PDF-документ в формат eBook, такой как epub, azw или mobi? Я ищу приложение, которое быстро конвертируется. Я только что попробовал калибр. Через 10 минут не достигнуто даже 2% конверсии. Поэтому, пожалуйста, ни одного калибра. CLI является предпочтительным.

Вы должны попробовать pdftotext (входит в Ubuntu в пакете poppler-utils ). Это конвертер командной строки. Он предполагает, что PDF-файл имеет текст и не состоит только из изображений.

Если файл PDF состоит из изображений (без информации OCR), вам нужно пойти на решение OCR, которое намного медленнее.

Я успешно использовал метод OCR, а также текст PDF, который был скремблирован (путем позиционирования отдельных символов на странице нелинейным образом). Затем вы используете, например, pdftoppm чтобы получить отдельные изображения страниц и OCR.

Обычно я использую Caliber для преобразования из разных форматов (epub, mobi и pdf). Это довольно просто конвертировать с ним, вот скриншот, есть другие и видео-учебник .

Скриншот

ss калибра

Я должен был сделать это для PDF-файла один раз, и это было результатом (с использованием pdftohtml из poppler):

 #!/bin/bash pwddir="`pwd`" tmpdir="`mktemp -d`" pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index cd "$tmpdir" sed -e :a -e '$!N;s/\n/ /;ta' \ -i index.html sed -e 's@&#160;@ @g' \ -e 's@<hr>@ @g' \ -e 's@<br/>\s*<br/>@</p><p>@g' \ -e 's@<br/>@ @g' \ -i index.html tidy -utf8 -i -wrap 9999999 -m index.html sed -e 's@<a name="[^"]*"></a>@@g' \ -i index.html rm "$pwddir"/"$1".zip zip "$pwddir"/"$1".zip * 

Загрузите zip в Caliber и конвертируйте в EPUB. Отфильтруйте все свойства CSS (например, цвета, шрифты).

Каждый PDF-файл отличается – нет окончательного решения. Вышеописанное работало в одном конкретном случае – вам нужно слабое pdftohtml / pdftotext, а затем настроить выход в соответствии с вашими потребностями.

Если это не удается, и вы должны прибегнуть к OCR, мне повезло с клинописью. Но также попробуйте tesseract, ocrad, gocr. Однако все они требуют ручного труда для хорошего результата.