python findall()正则表达式问题

Question

python findall()正则表达式问题

发布于
2016-07-22

更新于
2016-07-22

我想在一个网页里抓取金额，格式是这样的:12,123 5,431,867连续三位数字用逗号隔开。
我的表达式是：(\d{1,3}(,\d{3})*) 。。
在线测试工具里通过了，但是在python re模块的findall()却返回了tuple,于是乎看了http://blog.csdn.net/cashey1991/article/details/8875213
明白了道理，请问我该用re里的什么方法把一个网页里所有的金额抓取下来并存在一个list里？

附：如果直接用beautifulsoup的soup.findall(text=regex)，会把包含这个regex的整个text返回。比如<div>asda<div>wqeqwe<div>123,432</div></div></div>，会把整个都返回了。。。。
附：我只想要一个网页里出现的金额，金额出现的格式就是如上所说，一个网页里可能出现多个金额，请问如何用regular expression抓取

python 正则表达式

阅读 4.5k

1 个回答

aristotll

✓ 已被采纳

我猜你的需求是这样的
当然看见你说bs4的时候, 我知道肯定有除了比这个更好的方法...(下次讲清楚需求)

import re
re_obj1 = re.compile(r'(\d{1,3}(,\d{3})*)')
text = "12,123 5,431,867"
all_list = re_obj1.findall(text)
out_list = [f[0].replace(',', '') for f in all_list]
print(out_list)
>>['12123', '5431867']

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python findall()正则表达式问题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？