网页信息爬虫的进来讨论一下

发布于
2018-06-28

图片描述

图片描述

图片描述

如图三个网站，我们需要抓取公司名，地址，手机号；
手机号比较好弄，正则即可；但是准确率不是很高；比如有一串数字 1860126157733；
会扣出18601261577 作为手机号；
公司名，地址抓取率很低；
不知道有没有做类似的朋友可以讨论一下

ps：图片来源于网络，因为是对公网公开的，信息我没有马赛克

网页爬虫爬虫图片 php

阅读 2.7k

2 个回答

发布于
2018-06-28

如果是我来做的话，大概采用这么个思路。首先找到关键信息所在位置。信息都有具体的层级结构，具体到对应到哪个html标签，这个html标签具有什么class属性，这么一步作用是缩小了范围。然后查找关键字：比如公司名称、手机、姓名之类的，找到关联的字段。最后考虑用正则辅助。

iebu三毛钱

发布于
2018-06-28

这个好办，phpspider了解下

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题