Есть некоторые сайты, которые предоставляют книги в виде HTML-страниц (например, юридические материалы).
Что я могу использовать для создания книги PDF на этих страницах, основываясь на уже существующей структуре?
В Windows есть Adobe Professional (коммерческое программное обеспечение). Я предполагаю, что в Linux есть что-то бесплатное? Решение с использованием сценариев будет в порядке для меня.
В зависимости от HTML-документа, который будет напечатан, вы можете получить наилучшие результаты, используя pandoc . Это один из самых универсальных конвертеров HTML-LaTeX. Полученный файл .tex можно легко превратить в PDF , используя xelatex
или pdflatex
. Множество вариантов доступно, если вы хотите углубиться в синтаксис и пакеты LaTeX. Это может не сработать, если встроенные изображения и причудливые стили HTML должны быть сохранены.
Вы можете попробовать http://www.xhtml2pdf.com/ . Это конвертер для HTML / XHTML и CSS в PDF. Все написано на Python.
Я на самом деле проголосовал за решение калибра. Но вот еще один, который вы можете попробовать. Установите AbiWord . Он может выполнять преобразования между любыми форматами, которые он знает из командной строки. Чтобы преобразовать все файлы .html в папке в .pdf, вы можете сделать:
for file in *.html ; do abiword --to=pdf "$file" ; done
Для высокоуровневой типографии (но, возможно, более сложной), другой вариант будет [112 ] PrinceXML .
Я бы порекомендовал использовать OpenOffice / LibreOffice для создания PDF. В качестве теста я загрузил Wget manul (все на одной странице), а затем открыл HTML-страницу в OponOffice и нажал кнопку «Экспорт напрямую в PDF». Он создал PDF с указателем из оглавления.
В прошлом я обнаружил, что это самый простой способ конвертировать HTML-страницы в PDF. Это также позволяет вносить изменения без особых усилий.
Снимки экрана:
В google-chrome вы можете создать PDF-файл для всего сайта, используя расширение. Я лично использую расширение Web2PDF Converter , которое делает PDF одним кликом.
Вот снимок экрана этого плагина, предоставленный сайтом расширений Google.
Кроме того, вы можете просмотреть PDF-файл, созданный мной с помощью этого инструмента, загрузив следующую (правый клик, сохранить цель как): http: // geppettvs .servehttp.com / resources / askubuntu-com.pdf (некоторые браузеры, такие как google-chrome, могут позволять вам видеть это в Интернете).
И если вы хотите отредактировать PDF-файлы, созданные расширением, чтобы удалить цифровую подпись, размещенную расширением в нижней части каждой страницы, или удалить что-либо еще, взгляните на это: Удалить текстовую информацию из PDF?
Удачи!
Htmldoc может быть полезен, посмотрите здесь; http://www.htmldoc.org/ он доступен в центре программного обеспечения, к сожалению, версия 1.8 имеет проблему с файлами в кодировке Unicode, но во многих случаях она все еще может быть спасителем, проблема устранена в версия для разработки 1.9.
Я обычно использую замечательное расширение альбома для вырезок; http://amb.vis.ne.jp/mozilla/scrapbook/ для Firefox для захвата веб-страниц, используйте инструменты редактирования в записках, чтобы исправить их, если это необходимо, а затем используйте htmldoc для преобразования все страницы в PDF.
Самый простой способ? Файл> Печать из вашего браузера. Выберите Печать в файл в качестве принтера, и он спросит вас, где вы хотите. Обязательно отметьте PDF. Нажмите «Печать», и он будет фактически сохранен на вашем диске вместо фактической печати.
Калибр - довольно мощный инструмент для преобразования вещей в электронные книги в различных форматах. Доступен в ближайшем к вам Центре программного обеспечения!
Не обманывайтесь его не слишком красивым пользовательским интерфейсом, он может многое.
for file in *.html ; do ebook-convert "$file" "${file%.html}.pdf" ; done
и он конвертирует все html-файлы в папке в PDF.
– Community
05.11.2019, 23:21