爬虫爬取页面就不多说了,框架很多,现在说解析的一部分。
如图
红色框是我们需要的内容,查出地址,电话,邮箱等字段,使用正则匹配,手机和邮箱识别率还行,虽然有误差,就是不是手机或者邮箱页扣出来了。
问题就是地址,正则很难写,请问有人用过类似的框架或问题吗?
在此感谢。
爬虫爬取页面就不多说了,框架很多,现在说解析的一部分。
如图
红色框是我们需要的内容,查出地址,电话,邮箱等字段,使用正则匹配,手机和邮箱识别率还行,虽然有误差,就是不是手机或者邮箱页扣出来了。
问题就是地址,正则很难写,请问有人用过类似的框架或问题吗?
在此感谢。
10 回答11.2k 阅读
15 回答8.2k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3.1k 阅读✓ 已解决
8 回答6k 阅读
2 回答2.8k 阅读✓ 已解决
3 回答2.3k 阅读✓ 已解决
你可能只能以
/地址[::].*\B/
之类的来过滤啊,这个是一个麻烦。