python 正则表达式问题?

1问题, 抓取的页面链接是 url = 'https://mp.weixin.qq.com/s?ti...'

这是要爬取的页面,自己的想法是把邮箱和发送格式抓取出来。即将每个对应的公司的邮箱和要求的简历发送格式抓取出来

2 自己的解决办法,将整个页面按照空行间隔分为几个部分,每个部分是一个公司的招聘简介和需求,然后再每个部分里分配用正则匹配邮箱和简历格式。如下图
图片描述

显示的蓝色部分就是公司与公司之间的间隔。

3 问题:1)按照自己分割的思路,首先对于如何按照空行进行分离,自己没有找到好的方法,这一点求大神指教

2)因为页面中有的公司没有写自己的简历发送格式,所以如果直接进行匹配的话,可能导致邮箱的数目大于发送格式的数目,导致不对应,所以自己的想法是按照空行分割之后在每个部分匹配。
如果大神有更好的方法,希望提出建议

以上,谢谢指教。ps(由于页面是微信网页界面,可能链接会失效,如果失效,方便的话,我直接联系您请教,谢谢)

阅读 2.7k
4 个回答

这种情况按照类、ID什么直接提取比较好,正则表达式挺麻烦的。。

其实最简单的方法应该是用pyquery库, 直接去解析这个html,然后就能针对p标签做更细的处理; 不过用正则也可以的, 不过得根据具体的源码来处理

这个需求建议使用xpath解析,不要用正则。

不要手里拿着锤子就不用螺丝起子了。

这种html文档就是用html/xml解析一遍最好使啊。对于问题 3.2,你用程序逻辑去解决不就行了,为什么非要用正则啥的抓呢。

推荐问题
宣传栏