1问题，抓取的页面链接是 url = '<a href="https://link.segmentfault.com/?enc=pwPRUG6R%2BN0mobmJFk000g%3D%3D.mY9QcJTeUIr3wvRqiQQeQOGLobYRNo6heWEQ%2BBdjegVgEnFVnGwSskx2dAQtdTe0xDc99RpCy3wmK0v%2FAxMmuNAAt9OQ8ekNI7s37ehyZ9PLJMsp69Ga8LBx2%2B00Q3afLi0EzrWECg1LfM%2BMpVyX7Z6l1uGxJxd6mEYomxvBtC26%2BsHwjDi54e%2B%2Fh5QtGdIs6P628IajifJLZMTfG3akG2HEOI18UFjx5YwYY%2FB5QUx4cHAqwHtghYiJ3c%2Fju%2Fi3t9nTrno95ykSiae2JVS%2Fb5PzwvFRWY3rpkbbrryf9SYW3%2BUbHHNF%2FdRr25Q1JBzg42FICeiKlwIiWGb6Uu%2BW%2BrP2X90xiDixFARTJPXGlaw%3D" rel="nofollow" target="_blank">https://mp.weixin.qq.com/s?ti... ' 这是要爬取的页面，自己的想法是把邮箱和发送格式抓取出来。即将每个对应的公司的邮箱和要求的简历发送格式抓取出来 2 自己的解决办法，将整个页面按照空行间隔分为几个部分，每个部分是一个公司的招聘简介和需求，然后再每个部分里分配用正则匹配邮箱和简历格式。如下图显示的蓝色部分就是公司与公司之间的间隔。 3 问题：1）按照自己分割的思路，首先对于如何按照空行进行分离，自己没有找到好的方法，这一点求大神指教 2）因为页面中有的公司没有写自己的简历发送格式，所以如果直接进行匹配的话，可能导致邮箱的数目大于发送格式的数目，导致不对应，所以自己的想法是按照空行分割之后在每个部分匹配。如果大神有更好的方法，希望提出建议以上，谢谢指教。ps（由于页面是微信网页界面，可能链接会失效，如果失效，方便的话，我直接联系您请教，谢谢）

这种情况按照类、ID什么直接提取比较好，正则表达式挺麻烦的。。

其实最简单的方法应该是用 pyquery 库, 直接去解析这个 html ,然后就能针对 p 标签做更细的处理; 不过用正则也可以的, 不过得根据具体的源码来处理

这个需求建议使用xpath解析，不要用正则。

不要手里拿着锤子就不用螺丝起子了。这种html文档就是用html/xml解析一遍最好使啊。对于问题 3.2，你用程序逻辑去解决不就行了，为什么非要用正则啥的抓呢。

python 正则表达式问题？

1问题，抓取的页面链接是 url = 'https://mp.weixin.qq.com/s?ti...'

这是要爬取的页面，自己的想法是把邮箱和发送格式抓取出来。即将每个对应的公司的邮箱和要求的简历发送格式抓取出来

2 自己的解决办法，将整个页面按照空行间隔分为几个部分，每个部分是一个公司的招聘简介和需求，然后再每个部分里分配用正则匹配邮箱和简历格式。如下图
图片描述

显示的蓝色部分就是公司与公司之间的间隔。

3 问题：1）按照自己分割的思路，首先对于如何按照空行进行分离，自己没有找到好的方法，这一点求大神指教

2）因为页面中有的公司没有写自己的简历发送格式，所以如果直接进行匹配的话，可能导致邮箱的数目大于发送格式的数目，导致不对应，所以自己的想法是按照空行分割之后在每个部分匹配。
如果大神有更好的方法，希望提出建议

以上，谢谢指教。ps（由于页面是微信网页界面，可能链接会失效，如果失效，方便的话，我直接联系您请教，谢谢）

阅读 2.7k