Как получить `pdftotext` для вывода текста в читаемом кодировании?

Я преобразовал PDF-файл в txt-файл, используя pdftotext . В качестве примера у меня есть предложение «Это первое исследование функциональной значимости», обратите внимание на f в «первом», когда я обрабатываю это предложение через GATE, я получаю «первый», искаженный как «¬¬rst». Кроме того, в «белках были выделены из эписомно трансфецированных клеток HEK293EBNA и очищены с помощью анизотропной хроматографии», некоторые слова, которые содержат характер, выглядят как f, но это также не срывается, а также «белки были выделены из эписомно трансфецированных клеток hek293ebna и пури- с помощью аффинной хроматографии на ".

Как я могу получить pdftotext для вывода текста в читаемой кодировке?

Обратите внимание, что в тексте, который вы вставили, «fi» в «first» и «ffi» в «affinity» – это лигатуры (несколько символов объединены в один символ). Предположительно, pdftotext печатает каждую из этих лигатур как один символ, который инструменты, используемые для чтения текста, не поддерживаются.

В качестве вопроса суперпользователя, попробуйте следующее:

 pdftotext -enc ASCII7 input.pdf output.txt 

Это должно препятствовать тому, чтобы pdftotext печатал лигатуры дословно, заставляя его расширять их до символов ASCII.