做python爬虫的时候,遇到需要提取中文数字的情况,如下
然后我现在的方法是:(content1是文本内容)
r1 = re.compile(u'[一|二|三|四|五|六|七|八|九|十]标段')
r2 = r1.findall(content1)
r3 = re.split(r1, content1)#后面会切割组字典
但问题是当遇到:
就是十一、十二这样是匹配不到的,因为前面有‘一’在了
所有有没有更好的方法把这个标段匹配出来?
做python爬虫的时候,遇到需要提取中文数字的情况,如下
然后我现在的方法是:(content1是文本内容)
r1 = re.compile(u'[一|二|三|四|五|六|七|八|九|十]标段')
r2 = r1.findall(content1)
r3 = re.split(r1, content1)#后面会切割组字典
但问题是当遇到:
就是十一、十二这样是匹配不到的,因为前面有‘一’在了
所有有没有更好的方法把这个标段匹配出来?
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
可以试一下:
r1 = re.compile(u'[一二三四五六七八九十]{1,}标段');其中"{n,}" 重复匹配前一个n次或更多次.
正则表达式参考连接:http://www.cnblogs.com/China3...