什么工具可以把目标网站转换为静态化?

账号忘记了叭
  • 9

我有一个展示网站是以前用PHP写的
都是固定的文字+图片,因为写好之后就没什么动态变化所以想对其静态化处理
有什么工具可以输入网址就能自动抓取并静态化离线化处理呢
这样我直接拷贝html到其他前端托管就可以直接起起来了

因为涉及修改目标网页html中的某些字符串, 所以有N多正则替换规则的需求, 求大佬推荐能增加正则规则的工具

正则替换规则:

  • 比如删除网页底部计数器
  • 删除调试用的js代码或者引入代码
  • 删除特定js代码区
  • 删除特定html区块
  • 不同的路径或者页面都可以对应不同的策略分组组合
回复
阅读 986
2 个回答
Feng_Yu
  • 10.5k
✓ 已被采纳

浏览器右键-另存为

还有wget也支持整站爬取,但是cookie问题你就得自己加header处理了:

wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --restrict-file-names=windows \
     --domains website.org \
     --no-parent \
         www.website.org/tutorials/html/

参考 https://www.linuxjournal.com/... 可能你需要自己调整wget参数以爬取你想要的数据,比如设置爬取的域名范围,递归深度等等,防止整站下载把你的硬盘几百GB给吞了

爬虫呗。把 html 撸下来。然后解析 html。移除一些标签呗。

不一定要用正则。

最后一点看不太懂,但是前面都是可以实现的。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏