Я использовал wget для загрузки html-файлов, где хранятся изображения в файле?

CRC32 не слишком труден для реализации на любом языке, это достаточно хорошо для обнаружения простого повреждения данных и когда implemted хорошим способом, это очень быстро. Однако можно также попробовать Adler32, который почти одинаково хорош как CRC32, но еще легче реализовать (и об одинаково быстром).

Adler32 в Википедии

образец реализации CRC32 JavaScript

Или этих двух (или возможно даже обоих) доступны в Java прямо из поля.

14
задан 13.05.2020, 19:11

4 ответа

Я предпочитаю использовать --page-requisites (для краткости -p) вместо -r здесь, поскольку он загружает все, что нужно для отображения страницы, но никаких других страниц, и мне не нужно думать о том, какие файлы Я хочу.

На самом деле я обычно использую что-то вроде

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Это означает:

  • -E: добавить .html к имени файла, если это HTML-файл но не заканчивается на .html или аналогичном
  • -H: скачивать файлы и с других хостов
  • -k: после загрузки преобразуйте в него любую ссылку, чтобы они указывали на загруженные файлы
  • -p: загрузите все, что нужно странице для правильного просмотра в автономном режиме
33
ответ дан 13.05.2020, 19:12
  • 1
    Я приехал, сюда ища -H и был рад учиться [приблизительно 111] и -k также. Спасибо! – viper 13.05.2020, 19:12

Использование параметра -r должно позволить wget загружать всю папку, включая ваши изображения.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
2
ответ дан 13.05.2020, 19:11

Wget просто загружает HTML-файл страницы, а не изображения на странице, так как изображения в HTML-файле страницы записываются в виде URL-адресов. Чтобы сделать то, что вы хотите, используйте опцию -R (рекурсивную), опцию -A с суффиксами файла изображения, опцию --no-parent, чтобы она не поднималась, и опцию --level с 1.

В частности wget -R -A .jpg,.png,.gif --no-parent --level <url>

Более того, большинство браузеров имеют методы для сохранения страниц для просмотра в автономном режиме .

1
ответ дан 13.05.2020, 19:12

Загрузка файлов изображений отдельно

Думаю, эта команда поможет вам начать работу.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Позволяет указать место для сохранения изображений и типы файлов, которые вы хотите. Может быть, загружать изображения как таковые проще.

Источник :

-r включает рекурсивный поиск. См. Рекурсивная загрузка для получения дополнительной информации.

-P устанавливает префикс каталога, в который сохраняются все файлы и каталоги.

-A устанавливает белый список для извлечения только определенных типов файлов. Строки и шаблоны принимаются, и оба могут использоваться в списке через запятую (как показано выше). См. Типы файлов для получения дополнительной информации.

Копирование файлов изображений из вашей папки

Я заметил, что веб-сайт использует файлы изображений PNG. Вы можете просто скопировать их из своей папки. Это следует запустить в папке, где вы сохранили веб-страницу.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;
2
ответ дан 13.05.2020, 19:13

Теги

Похожие вопросы