Как конвертировать PDF в формат eBook

Есть ли способ конвертировать PDF-документ в формат eBook, такой как epub, azw или mobi? Я ищу приложение, которое быстро конвертируется. Я только что попробовал калибр. Через 10 минут не достигнуто даже 2% конверсии. Поэтому, пожалуйста, ни одного калибра. CLI является предпочтительным.

Вы должны попробовать pdftotext (входит в Ubuntu в пакете poppler-utils ). Это конвертер командной строки. Он предполагает, что PDF-файл имеет текст и не состоит только из изображений.

Если файл PDF состоит из изображений (без информации OCR), вам нужно пойти на решение OCR, которое намного медленнее.

Я успешно использовал метод OCR, а также текст PDF, который был скремблирован (путем позиционирования отдельных символов на странице нелинейным образом). Затем вы используете, например, pdftoppm чтобы получить отдельные изображения страниц и OCR.

Обычно я использую Caliber для преобразования из разных форматов (epub, mobi и pdf). Это довольно просто конвертировать с ним, вот скриншот, есть другие и видео-учебник .

Скриншот

ss калибра

Я должен был сделать это для PDF-файла один раз, и это было результатом (с использованием pdftohtml из poppler):

 #!/bin/bash pwddir="`pwd`" tmpdir="`mktemp -d`" pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index cd "$tmpdir" sed -e :a -e '$!N;s/\n/ /;ta' \ -i index.html sed -e 's@&#160;@ @g' \ -e 's@<hr>@ @g' \ -e 's@<br/>\s*<br/>@</p><p>@g' \ -e 's@<br/>@ @g' \ -i index.html tidy -utf8 -i -wrap 9999999 -m index.html sed -e 's@<a name="[^"]*"></a>@@g' \ -i index.html rm "$pwddir"/"$1".zip zip "$pwddir"/"$1".zip * 

Загрузите zip в Caliber и конвертируйте в EPUB. Отфильтруйте все свойства CSS (например, цвета, шрифты).

Каждый PDF-файл отличается – нет окончательного решения. Вышеописанное работало в одном конкретном случае – вам нужно слабое pdftohtml / pdftotext, а затем настроить выход в соответствии с вашими потребностями.

Если это не удается, и вы должны прибегнуть к OCR, мне повезло с клинописью. Но также попробуйте tesseract, ocrad, gocr. Однако все они требуют ручного труда для хорошего результата.