pdfimages
pdfimages
- инструмент для извлечения изображений PDF, который сохраняет изображения в PDF-файл в формат (ы) PPM, PBM, JPEG или JPEG 2000.
Это часть пакета poppler-utils
, который вам нужно установить.
Использование: pdfimages [options] <PDF-file> <image-root>
Пример: Следующее извлекает все изображения из файла PDF и сохраняет их в формате JPEG.
pdfimages -j in.pdf /tmp/out
Сохранение изображений из файла PDF in.pdf
в файлах /tmp/out-000.jpg
(или /tmp/out-000.pbm
; см. Ниже), /tmp/out-001.jpg
и т. Д.
Справочная страница pdfimages объясняет:
-j: Normally, all images are written as PBM (for monochrome images) or PPM for
non-monochrome images) files. With this option, images in DCT format are
saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual.
Я часто использую Inkscape для этого. Загрузите страницу и удалите все остальное. Преимущество заключается в том, что вы можете получать векторные изображения в SVG и изменять их по своему усмотрению.
У меня есть двухколонный PDF-файл со встроенными изображениями, созданными с помощью LaTeX, где исходные изображения были представлены в формате EPS. Я попробовал предлагаемое решение на основе pdfimages
, но, к сожалению, оно не вернуло никаких изображений. Тогда я попытался использовать Inkscape, но генерируемые им SVG-изображения были искажены, и мне тоже не повезло, экспортируя их как EPS.
Программное обеспечение, которое работало для нас, было MasterPdfEditor .
Вот процедура
Результат очень высокого качества, но программное обеспечение не бесплатное. Существует демо-версия, которая «позволяет вам попробовать все функции», но поставляется с «добавлением водяного знака в выходной файл». Честно говоря, я не заметил водяных знаков в созданном PDF.
Вы также можете попробовать pdfmod. Это графический интерфейс (GUI), который может извлекать изображения и выполнять другие основные операции с PDF.
Я использую pdfimages, инструмент командной строки, и он отлично работает для меня. Он очень прост в использовании, и вы можете использовать опцию --help, чтобы узнать больше о его использовании. Я использую Ubuntu, и он поставляется предварительно установленным. Если ваши PDF-файлы зашифрованы или защищены паролем, есть варианты для этого, поэтому этот инструмент отлично работает. Вы можете прочитать больше о pdfimages здесь
Если вам нужно обрезанное изображение в формате pdf / eps, извлеките страницу с изображением, используя pdfmod
(в соответствии с предложением To Do).
Затем, используя pdfcrop
, вы можете обрезать его, правильно устанавливая поля методом проб и ошибок:
pdfcrop --margins "-15 -50 0 -140" extracted_page.pdf
С pdfimages извлеченное изображение может состоять из двух или более частей. Простой способ соединить их снова, не беспокоясь о извлеченных форматах, - это импортировать детали в LibreOffice Draw, обрезать с помощью диалогового окна обрезки изображения, расположить детали, настроить размер страницы и экспортировать в любой формат, который вы предпочитаете.
Если вы хотите обрезать изображение из pdf с помощью pdfviewer, вы можете попробовать okular. Он может обрезать все (тексты или изображения) в формате PNG или JPEG. Если вы хотите извлечь изображения в формате png из pdf, вы можете сделать это с помощью минимальной команды с pdftohtml. Он конвертирует PDF в HTML плюс изображения. Здесь вы можете найти пример - https://www.youtube.com/watch?v=CG1rf7k3xo8 . Если вы хотите извлечь много изображений из PDF, я предлагаю вам попробовать это.
-all Write JPEG, JPEG2000, JBIG2, and CCITT images in their native format. CMYK files are written as TIFF files. All other images are written as PNG files. This is equivalent to specifying the options -png -tiff -j -jp2 -jbig2 -ccitt.
– potomok 04.09.2014, 19:01-all
переключатель только поддерживается в недавних poppler-utils изменениях. Например, если Вы находитесь все еще на 12,04 Вы won' t быть в состоянии получить доступ к этой опции – sakibmoon 11.09.2014, 16:22-all
идут для форматов PNM. They' ре, без потерь, и можно постобработать изображения, например, к PNG. – potomok 01.07.2015, 14:12$ pdfimages -list <PDF-file>
для проверки исходного формата в " enc" столбец, таким образом, Вы don' t должны повторно закодировать изображение к другому формату. – sakibmoon 20.05.2017, 04:19