小白一个,在学爬虫。想爬51job的职业信息。但这个“公司性质:民营企业”和“公司规模:50-150人”好难爬。用xpath、正则、还有bs4都爬不下来。因为有空格在哪里,网上查了一下 也是一种空格(可能还有什么方法我没学到吧....)
我只有一个思路,把空格去了,然后就可以拿到文字了。可是我用了spilt()后,就得到了一个贼多内容的list。这个确实可以用list的快速匹配拿到文字。但我要爬100页,所以这个文字的位置都不同。所以我放弃了。求大神教教我。
html的片段:
<p class="msg ltype">
民营公司 | 50-150人 | 电子技术/半导体/集成电路 </p>
spilt()后获得的list:
[...'<p', 'class="msg', 'ltype">', '民营公司', ' | 50-150人', ' | 电子技术/半导体/集成电路',...]
list前后还有很多,用...代替吧
空格可以用
replace(' ','')
替换掉。关于html转义符,可以看下面的回答
一代键客在问题“pythoh3 下 '<abc>' 遇到这样的html转义符如何自动转义呢?”的回答