0%

[原创] Linux 命令 wget 抓取整站

使用 wget 命令抓取整站

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 抓取整站
$ wget -r -p -np -k http://www.purepen.com/

# 仅下载 i386 目录中所有扩展名为 iso 的文件。
$ wget -r -np -nd --accept=iso http://www.qqfdc.com/centos-5/i386/

# 把所有需要下载文件的地址放到 filename.txt 中,然后 wget 就会自动为你下载所有文件了。
$ wget -i filename.txt

# 指定 User Agent
$ wget -r -p -U Mozilla http://www.w3schools.com/

# 限制下载速度及两次下载之间的等待时间
$ wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.w3schools.com/

参数说明:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
-r,  --recursive       指定递归下载。
-p, --page-requisites 下载所有用于显示 HTML 页面的图片之类的元素。
-np, --no-parent 不追溯至父级。
-k, --convert-links 让下载得到的 HTML 或 CSS 中的链接指向本地文件。
-A, --accept=列表 逗号分隔的可接受的扩展名列表。
-nd, --no-directories 不创建目录。
-i, --input-file=文件 下载本地或外部 <文件> 中的 URL。
-H, --span-hosts 递归时转向外部主机。
-N, --timestamping 只获取比本地文件新的文件。
-l, --level=数字 最大递归深度 (inf 或 0 代表无限制,即全部下载)。
-U, --user-agent=代理 标识自己为 <代理> 而不是 Wget/VERSION。
-w, --wait=SECONDS 等待间隔为 SECONDS 秒。
-m, --mirror -N -r -l inf --no-remove-listing 的缩写形式。
--limit-rate=RATE 限制下载速率为 RATE。

参考文献

坚持原创及高品质技术分享,您的支持将鼓励我继续创作!