网页信息爬虫的进来讨论一下

图片描述

图片描述

图片描述

如图三个网站,我们需要抓取公司名,地址,手机号;
手机号比较好弄,正则即可;但是准确率不是很高;比如有一串数字 1860126157733;
会扣出18601261577 作为手机号;
公司名,地址 抓取率很低;
不知道有没有做类似的朋友可以讨论一下

ps:图片来源于网络,因为是对公网公开的,信息我没有马赛克

阅读 2.7k
2 个回答

clipboard.png

如果是我来做的话,大概采用这么个思路。首先找到关键信息所在位置。信息都有具体的层级结构,具体到对应到哪个html标签,这个html标签具有什么class属性,这么一步作用是缩小了范围。然后查找关键字:比如公司名称、手机、姓名之类的,找到关联的字段。最后考虑用正则辅助。

这个好办,phpspider了解下

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题