正则表达式匹配“\xa0”的问题

发布于
2016-12-28

在scrapy中使用正则表达式匹配“xa0”的问题：

html是这样的

<div>数量：100-200个&nbsp;&nbsp;&nbsp;&nbsp;</div>

要取出100-200个，其他不要。

解析：

response.xpath('/html/body/div/text()').re_first('数量：(.+)\s$')

解析结果是：

100-200个\xa0\xa0\xa0

xa0对应html中的&nbsp，html中有4个&nbsp，解析结果有3个xa0，怎么修改正则表达式可以去掉解析结果的3个xa0？

python

阅读 9.4k

3 个回答

得票最新

oliver_lv

1.8k1112

发布于
2016-12-29

用strip()去掉首尾空格

from scrapy.selector import Selector

content = "<div>数量：100-200个&nbsp;&nbsp;&nbsp;&nbsp;</div>"
strings = Selector(text=content).xpath('//div/text()').re_first(u'数量：(.+)\s$').strip()
print(strings)
print(len(strings))
"""
100-200个
8
"""