爬取搜索引擎给出的搜索结果,提取页面或子页面中的非结构化联系方式?

新手上路,请多包涵

需求

需要爬取一个特定行业的联系人信息(邮箱、电话),流程是在搜索引擎中输入关键字搜索,遍历搜索结果并在页面中找到联系人子页面并自动获取联系人信息

问题出现的环境背景及自己尝试过哪些方法

不是针对特定网站的结构化数据分析,不同网站有不同的html结构,如何(假装)智能地实现这一功能呢。
简单粗暴的方法,直接正则表达式匹配email、电话,但是如果同一个页面上有多个联系方式,比如一家公司有上海和北京分公司,如何将其分别提取出来呢

求爬虫大佬给个思路

阅读 1.6k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题