segmentfault可以被站点镜像?

我发现这个命令,可以每隔两秒,以断点重续的方式镜像站点 https://segmentfault.com/
wget -c -w 2 -m https://segmentfault.com/

镜像一个站点有两种方式:
1。获得整个网站的目录结构
2。通过网页链接的方式进行遍历。

先谈方式1。
目前的apache服务器,默认开启了禁止站点目录list的功能。
外部访问者在默认情况下,无法list这个站点的目录结构。

再谈方式2。
wget 先下载第一个网页 index.html之类,然后通过递归的方式,将说有可以找到的链接全部下载。

我用wget -c -w 2 -m https://segmentfault.com/ ,运行了十几秒后的结果。

图片描述

请问:wget获得了部分网页,是通过方式2获得的吧?还是wget有办法突破apache禁止列目录的功能?

阅读 3.7k
1 个回答

方式2。

-m等价于-r -N -l inf --no-remove-listing,其中的-r就是递归。

其实目录list也是递归。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进