关于爬虫识别联系信息的问题？

发布于
2018-06-04

爬虫爬取页面就不多说了，框架很多，现在说解析的一部分。
如图
图片描述

红色框是我们需要的内容，查出地址，电话，邮箱等字段，使用正则匹配，手机和邮箱识别率还行，虽然有误差，就是不是手机或者邮箱页扣出来了。
问题就是地址，正则很难写，请问有人用过类似的框架或问题吗？
在此感谢。

java javascript 网页爬虫正则表达式

阅读 1.8k

2 个回答

发布于
2018-06-04

你可能只能以/地址[:：].*\B/之类的来过滤啊，这个是一个麻烦。

发布于
2018-06-09

一般地址和联系电话之类的都在一个div里，你可以临近信息匹配，应该能增加识别率

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题