需求
需要爬取一个特定行业的联系人信息(邮箱、电话),流程是在搜索引擎中输入关键字搜索,遍历搜索结果并在页面中找到联系人子页面并自动获取联系人信息
问题出现的环境背景及自己尝试过哪些方法
不是针对特定网站的结构化数据分析,不同网站有不同的html结构,如何(假装)智能地实现这一功能呢。
简单粗暴的方法,直接正则表达式匹配email、电话,但是如果同一个页面上有多个联系方式,比如一家公司有上海和北京分公司,如何将其分别提取出来呢
求爬虫大佬给个思路
需要爬取一个特定行业的联系人信息(邮箱、电话),流程是在搜索引擎中输入关键字搜索,遍历搜索结果并在页面中找到联系人子页面并自动获取联系人信息
不是针对特定网站的结构化数据分析,不同网站有不同的html结构,如何(假装)智能地实现这一功能呢。
简单粗暴的方法,直接正则表达式匹配email、电话,但是如果同一个页面上有多个联系方式,比如一家公司有上海和北京分公司,如何将其分别提取出来呢
求爬虫大佬给个思路
2 回答5k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答958 阅读✓ 已解决
3 回答1.1k 阅读✓ 已解决
3 回答1.1k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决