我发现这个命令,可以每隔两秒,以断点重续的方式镜像站点 https://segmentfault.com/
wget -c -w 2 -m https://segmentfault.com/
镜像一个站点有两种方式:
1。获得整个网站的目录结构
2。通过网页链接的方式进行遍历。
先谈方式1。
目前的apache服务器,默认开启了禁止站点目录list的功能。
外部访问者在默认情况下,无法list这个站点的目录结构。
再谈方式2。
wget 先下载第一个网页 index.html之类,然后通过递归的方式,将说有可以找到的链接全部下载。
我用wget -c -w 2 -m https://segmentfault.com/ ,运行了十几秒后的结果。
请问:wget获得了部分网页,是通过方式2获得的吧?还是wget有办法突破apache禁止列目录的功能?
方式2。
-m
等价于-r -N -l inf --no-remove-listing
,其中的-r
就是递归。其实目录list也是递归。