写于:2016-03-17	最近一次更新:2016-03-17

Intent:

使用wget下载或镜像网站到本地以便于离线阅读

Oneway:

$ wget -cmpkE --no-parent \ --restrict-file-names=nocontrol \ --user-agent="Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0" \ -P /home/sman/Desktop/test \ -D mirrors.neusoft.edu.cn \ http://mirrors.neusoft.edu.cn/android/repository/ -c,--continue:断点续传 -r,--recursive: 递归下载 -k,--convert-links: 将链接转换为本地链接 -p,--page-requisites: 现在网页包括的所有内容(images, CSS and so on) -E,--adjust-extension:将网页保存为html文件 -m,--mirror:镜像,相当于-N -r -l inf --no-remove-listing 的缩写形式,最终结果和网页目录相似,单独使用时网页显示效果不太好,建议与-p参数一起使用 -t, --tries=NUMBER:设置下载失败时的重试次数为 NUMBER (0 代表无限制),默认尝试20次。 -np,--no-parent: 仅下载repository/文件夹下的网页和网页目录 --restrict-file-names=nocontrol: 设置成nocontrol可以避免下载到本地的中文文件名乱码 -P,--directory-prefix=prefix:保存到本地指定目录下 -D,--domains : 不要下载指定域名之外的网页。 --user-agent=""的取值可以用浏览器自身取得,例如Firefox,在地址栏输入about:即可看到Build identifier,其后的值就是要用到的 有的时候wget下来的网页,是准备用于离线阅读的,但打开网页时半天也打不开, 明明已经wget到本地了,链接也转换为本地链接了,为啥半天不显示网页内容呢? 这时候,请用编辑器看一下网页头部(或其他地方)是不是引用了外部网址, 是的话,直接断开外网,再打开网页,大多数时候一下子就打开了 或者直接删除引用的外部地址