1问题, 抓取的页面链接是 url = 'https://mp.weixin.qq.com/s?ti...'
这是要爬取的页面,自己的想法是把邮箱和发送格式抓取出来。即将每个对应的公司的邮箱和要求的简历发送格式抓取出来
2 自己的解决办法,将整个页面按照空行间隔分为几个部分,每个部分是一个公司的招聘简介和需求,然后再每个部分里分配用正则匹配邮箱和简历格式。如下图
显示的蓝色部分就是公司与公司之间的间隔。
3 问题:1)按照自己分割的思路,首先对于如何按照空行进行分离,自己没有找到好的方法,这一点求大神指教
2)因为页面中有的公司没有写自己的简历发送格式,所以如果直接进行匹配的话,可能导致邮箱的数目大于发送格式的数目,导致不对应,所以自己的想法是按照空行分割之后在每个部分匹配。
如果大神有更好的方法,希望提出建议
以上,谢谢指教。ps(由于页面是微信网页界面,可能链接会失效,如果失效,方便的话,我直接联系您请教,谢谢)
这种情况按照类、ID什么直接提取比较好,正则表达式挺麻烦的。。