Извлечь формулы из PDF

Я изучаю машинное обучение, и литература богата формулами.

Я хочу иметь возможность извлекать формулы (которые, по-видимому, созданы TeX), либо:

  • .PNG изображения
  • Латекс

Я пробовал:

  • pdfimagespdfimages только растровые изображения (без формул)
  • pdf2html -c – формулы искажены

  • Как конвертировать libreoffice ODT в PDF в bash
  • concat pdf страницы после pdfcrop
  • Проверка Ghostscript + QPDF и PDF / A-1b: как добавить разделитель EOL до конца
  • Как добавить файл PDF в другой файл PDF после указанной страницы?
  • Как печатать несколько страниц с каждой страницы с одной (правой) страницей?
  • Автоматическая перезагрузка измененного файла теряется в позиции Zathura
  • Печать двух PDF на одном листе без масштабирования
  • Есть ли полнофункциональные читатели в формате PDF, которые интегрируют функцию комментариев?
  • сканировать каталоги файлов .pdf и .ps для ключевого слова в заголовке и авторе
  • PDF-просмотрщик текстовых документов, сохраненных как изображения - плохой рендеринг
  • Unix способ извлечь векторное изображение и его график из файла PDF?
  • Легкие многофункциональные альтернативы OpenOffice и LibreOffice
  • Linux и Unix - лучшая ОС в мире.