网页信息爬虫的进来讨论一下

图片描述

图片描述

图片描述

如图三个网站,我们需要抓取公司名,地址,手机号;
手机号比较好弄,正则即可;但是准确率不是很高;比如有一串数字 1860126157733;
会扣出18601261577 作为手机号;
公司名,地址 抓取率很低;
不知道有没有做类似的朋友可以讨论一下

ps:图片来源于网络,因为是对公网公开的,信息我没有马赛克

阅读 688
评论 2018-06-28 提问
    2 个回答
    jzoom
    • 1.1k

    clipboard.png

    如果是我来做的话,大概采用这么个思路。首先找到关键信息所在位置。信息都有具体的层级结构,具体到对应到哪个html标签,这个html标签具有什么class属性,这么一步作用是缩小了范围。然后查找关键字:比如公司名称、手机、姓名之类的,找到关联的字段。最后考虑用正则辅助。

    评论 赞赏 2018-06-28

      这个好办,phpspider了解下

      评论 赞赏 2018-06-28
        撰写回答

        登录后参与交流、获取后续更新提醒