textutil конвертировать PDF в txt, производя искаженный вывод

Я пытаюсь преобразовать файлы PDF в текстовые файлы, используя textutil . Я не делаю, если есть специальные типы PDF-файлов, которые могут и не могут быть преобразованы. Файлы, которые я пытаюсь преобразовать, находятся в формате, доступном для поиска, который, как я полагаю, является минимальным требованием. Когда я конвертирую файл, текстовый документ заполняется искаженным выходом. Вот мой код:

 textutil -convert txt example.pdf 

Вот некоторые из первых строк, в случае, когда это помогает определить, где я ошибаюсь:

 %PDF-1.3 %ƒÂÚÂÎßÛ†–ƒ∆ 4 0 obj << /Length 5 0 R /Filter /FlateDecode >> stream xÌõYè‹∏«flı)8>2”„å,R%Ÿªõ¯fixs9ôM‚<YÅ`„Ô‰W,J¢'íF3”@^2Z›<ädˇ:(ˇl>òüçuπ´Í¶ñ¶nõº.⁄⁄ 4>~˘œ?Ã_ÕøÕ”W_≠˘Ù'·fl◊OL.ò´øÂKI5ÖÀª∫*≥O_ÃÀk”'aH|\1OØØù ±Ê˙'sqv0◊ˇ2oÆ√Vñ©˘÷Êmy2jæ»;P+Ú¢(*s˝ikó3>z¸ãõæ8;èè˙΄·ê—z~=| ¯D˝rËî)WÈå<˝¡ÒˇnÆfl/3¿'UnõÆ4~∫Á;Ú”µ≠J˙4‰JWùîgz8€]êªA@g¸≠kRŸ¯‹÷ùàëeÁÔπUŸÓ÷Ü´≤Œ 

Я предполагаю, что это связано с некоторой функцией кодирования, а не с моей областью знаний, поэтому любая помощь будет принята с благодарностью!

One Solution collect form web for “textutil конвертировать PDF в txt, производя искаженный вывод”

Ссылаясь на страницу руководства TEXTUTIL (1), кажется, что формат pdf не находится между форматами, управляемыми этой утилитой: fmt is one of: txt, html, rtf, rtfd, doc, docx, wordml, odt, or webarchive

В Linux / Unix установка скриптового продукта, такого как XPDF / pdftotext, может быть допустимым решением, например, уже высказанным комментарием.

Для тех, кто в OS X, возможно извлечь текст из PDF с помощью встроенного OS X automator action (… см. этот ответ или последний 4 'этого урока ), тогда рассмотрим, что рабочий процесс автомата может быть «сценарием» с помощью команды автомата CLI

  • Каковы инструменты GNU / Linux для проверки документов PDF перед публикацией?
  • Как сортировать имена файлов в числовом порядке и измененный порядок времени?
  • Преобразование цветов шрифта PDF в монохромный черный
  • Скомпилировать pdf-файл с нескольких изображений, отсканированных с помощью scanimage --batch
  • Как создать индексы в pdf?
  • Сравнить документы PDF со встроенными ссылками?
  • Есть ли какой-то PDF-файл для преобразования текста?
  • Преобразуйте ps в pdf с помощью ps2pdf, но файл pdf не очень хорош
  • Почему эта команда gs не работает на --filename.pdf?
  • Отметить копию идентификатора в PDF-распечатке
  • Средство просмотра / чтения PDF, которое поддерживает циклическое перемещение по документам
  • Interesting Posts

    Как получить неанемические цвета?

    CentOS 6 в слиянии VMWare: Неожиданное изменение MAC-адреса

    Проблема с двойной загрузкой EFI на HP Pavilion 15 с Windows 8 и Debian 8

    Использовать / захватить единственную клавиатуру без локального входа в систему

    Как запретить последовательный прием во время последовательной записи для последовательной линии RS485 (полудуплексная)

    rsync сравнить каталоги?

    Почему выдача одной и той же команды создает больше выходных данных в tty, чем в pts / gnome-terminal?

    Считать файлы в дереве каталогов

    Каков самый простой способ настройки последовательного порта в Linux?

    Каков самый низкий уровень, который я вижу, как работает моя система?

    Сравните первый столбец из 2-х файлов на основе второго столбца, используя разделитель;

    CLICOLOR и LS_COLORS в bash

    Изменение параметров sysctl для всех интерфейсов

    Создайте точку доступа Wi-Fi в Gnome 3 / Arch Linux

    Почему эта команда ffmpeg работает в bash, а не zsh?

    Linux и Unix - лучшая ОС в мире.