关于爬虫识别联系信息的问题?

爬虫爬取页面就不多说了,框架很多,现在说解析的一部分。
如图
图片描述

红色框是我们需要的内容,查出地址,电话,邮箱等字段,使用正则匹配,手机和邮箱识别率还行,虽然有误差,就是不是手机或者邮箱页扣出来了。
问题就是地址,正则很难写,请问有人用过类似的框架或问题吗?
在此感谢。

阅读 1.8k
2 个回答

你可能只能以/地址[::].*\B/之类的来过滤啊,这个是一个麻烦。

一般地址和联系电话之类的都在一个div里,你可以临近信息匹配,应该能增加识别率

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题