CRC32 не слишком труден для реализации на любом языке, это достаточно хорошо для обнаружения простого повреждения данных и когда implemted хорошим способом, это очень быстро. Однако можно также попробовать Adler32, который почти одинаково хорош как CRC32, но еще легче реализовать (и об одинаково быстром).
образец реализации CRC32 JavaScript
Или этих двух (или возможно даже обоих) доступны в Java прямо из поля.
Я предпочитаю использовать --page-requisites
(для краткости -p
) вместо -r
здесь, поскольку он загружает все, что нужно для отображения страницы, но никаких других страниц, и мне не нужно думать о том, какие файлы Я хочу.
На самом деле я обычно использую что-то вроде
wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
Это означает:
-E
: добавить .html
к имени файла, если это HTML-файл но не заканчивается на .html
или аналогичном -H
: скачивать файлы и с других хостов -k
: после загрузки преобразуйте в него любую ссылку, чтобы они указывали на загруженные файлы -p
: загрузите все, что нужно странице для правильного просмотра в автономном режиме Wget просто загружает HTML-файл страницы, а не изображения на странице, так как изображения в HTML-файле страницы записываются в виде URL-адресов. Чтобы сделать то, что вы хотите, используйте опцию -R
(рекурсивную), опцию -A
с суффиксами файла изображения, опцию --no-parent
, чтобы она не поднималась, и опцию --level
с 1
.
В частности wget -R -A .jpg,.png,.gif --no-parent --level <url>
Более того, большинство браузеров имеют методы для сохранения страниц для просмотра в автономном режиме .
Думаю, эта команда поможет вам начать работу.
wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
Позволяет указать место для сохранения изображений и типы файлов, которые вы хотите. Может быть, загружать изображения как таковые проще.
Источник :
-r включает рекурсивный поиск. См. Рекурсивная загрузка для получения дополнительной информации.
-P устанавливает префикс каталога, в который сохраняются все файлы и каталоги.
-A устанавливает белый список для извлечения только определенных типов файлов. Строки и шаблоны принимаются, и оба могут использоваться в списке через запятую (как показано выше). См. Типы файлов для получения дополнительной информации.
Я заметил, что веб-сайт использует файлы изображений PNG. Вы можете просто скопировать их из своей папки. Это следует запустить в папке, где вы сохранили веб-страницу.
find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;
-H
и был рад учиться [приблизительно 111] и-k
также. Спасибо! – viper 13.05.2020, 19:12