[原创] Linux 命令 wget 抓取整站

使用 wget 命令抓取整站

# 抓取整站
$ wget -r -p -np -k http://www.purepen.com/

# 仅下载 i386 目录中所有扩展名为 iso 的文件。
$ wget -r -np -nd --accept=iso http://www.qqfdc.com/centos-5/i386/

# 把所有需要下载文件的地址放到 filename.txt 中，然后 wget 就会自动为你下载所有文件了。
$ wget -i filename.txt

# 指定 User Agent
$ wget -r -p -U Mozilla http://www.w3schools.com/

# 限制下载速度及两次下载之间的等待时间
$ wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.w3schools.com/

参数说明：

-r,  --recursive       指定递归下载。
-p,  --page-requisites 下载所有用于显示 HTML 页面的图片之类的元素。
-np, --no-parent       不追溯至父级。
-k,  --convert-links   让下载得到的 HTML 或 CSS 中的链接指向本地文件。
-A,  --accept=列表      逗号分隔的可接受的扩展名列表。
-nd, --no-directories  不创建目录。
-i,  --input-file=文件  下载本地或外部 <文件> 中的 URL。
-H,  --span-hosts      递归时转向外部主机。
-N,  --timestamping    只获取比本地文件新的文件。
-l,  --level=数字       最大递归深度 (inf 或 0 代表无限制，即全部下载)。
-U,  --user-agent=代理  标识自己为 <代理> 而不是 Wget/VERSION。
-w,  --wait=SECONDS    等待间隔为 SECONDS 秒。
-m,  --mirror          -N -r -l inf --no-remove-listing 的缩写形式。
--limit-rate=RATE      限制下载速率为 RATE。

参考文献