Сканирование файла PDF
Я хочу отсканировать документ в формате pdf, используя команду linux shell. Если я хочу напечатать / отобразить только имя авторов и название статьи, есть ли какой-либо конкретный способ сделать это?
- Как мне спросить пароль по приглашению GUI при использовании sudo в скрипте?
- Как добавить верхний и нижний колонтитулы в плоский файл
- Переменные за пределами цикла while
- Сравнение времени файла в ksh
- получить первый аргумент CLI после опций в shell scipt
One Solution collect form web for “Сканирование файла PDF”
Вам может быть интересна утилита pdfinfo
которая находится в poppler-utils
, по крайней мере, на debian и fedora. С помощью:
Pdfinfo печатает содержимое словаря «Инфо» (плюс другая полезная информация) из файла Portable Document Format (PDF). Словарь «Инфо» содержит следующие значения:
название тема ключевые слова автор создатель дата создания дата модификации
Ниже приведен пример вывода документа для команд AIX:
$ pdfinfo aixcmds2.pdf Title: AIX Version 6.1 Commands Reference, Volume 2 Subject: Keywords: Author: IBM Creator: XPP Producer: Acrobat Distiller 7.0 (Windows) CreationDate: Mon Jul 9 15:38:26 2007 ModDate: Mon Jul 9 15:38:26 2007 Tagged: yes UserProperties: no Suspects: no Form: none JavaScript: no Pages: 746 Encrypted: no Page size: 612 x 792 pts (letter) Page rot: 0 File size: 8588481 bytes Optimized: yes PDF version: 1.3
Если вы хотите только автора («IBM» в этом примере), вы можете сделать, например,
pdfinfo aixcmds2.pdf | sed -n 's/^Author: *//p'
или если вы хотите название и автора, с заголовками:
$ pdfinfo aixcmds2.pdf | sed -n '/^\(Author\|Title\):/p' Title: AIX Version 6.1 Commands Reference, Volume 2 Author: IBM