我有一个展示网站是以前用PHP写的
都是固定的文字+图片,因为写好之后就没什么动态变化所以想对其静态化处理
有什么工具可以输入网址就能自动抓取并静态化离线化处理呢
这样我直接拷贝html到其他前端托管就可以直接起起来了
因为涉及修改目标网页html中的某些字符串, 所以有N多正则替换规则的需求, 求大佬推荐能增加正则规则的工具
正则替换规则:
- 比如删除网页底部计数器
- 删除调试用的js代码或者引入代码
- 删除特定js代码区
- 删除特定html区块
- 不同的路径或者页面都可以对应不同的策略分组组合
我有一个展示网站是以前用PHP写的
都是固定的文字+图片,因为写好之后就没什么动态变化所以想对其静态化处理
有什么工具可以输入网址就能自动抓取并静态化离线化处理呢
这样我直接拷贝html到其他前端托管就可以直接起起来了
因为涉及修改目标网页html中的某些字符串, 所以有N多正则替换规则的需求, 求大佬推荐能增加正则规则的工具
正则替换规则:
10 回答11.1k 阅读
6 回答3k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3.1k 阅读✓ 已解决
2 回答2.6k 阅读✓ 已解决
3 回答5.1k 阅读✓ 已解决
3 回答1.8k 阅读✓ 已解决
浏览器右键-另存为
还有
wget
也支持整站爬取,但是cookie问题你就得自己加header处理了:参考 https://www.linuxjournal.com/... 可能你需要自己调整wget参数以爬取你想要的数据,比如设置爬取的域名范围,递归深度等等,防止整站下载把你的硬盘几百GB给吞了