Python 分割文本使得字母和数字分开？

wjxiz

944916

发布于
2017-08-10

更新于
2017-08-10

有文本如： '3a4b5cdd7e'
如何得到： '3' 'a' 4' 'b' '5' 'cdd' '7' 'e'
尽量不使用正则

python

阅读 35.2k

5 个回答

得票最新

prolifes

11.2k51537

发布于
2017-08-10

✓ 已被采纳

from itertools import groupby

s = '3a4b5cdd7e'
print [''.join(list(g)) for k, g in groupby(s, key=lambda x: x.isdigit())]

当年明月

1.2k119

发布于
2017-08-10

用正则不是很简单吗？

>>> import re
>>> s='3a4b5cdd7e'
>>> re.findall(r'[0-9]+|[a-z]+',s)
['3', 'a', '4', 'b', '5', 'cdd', '7', 'e']

ferstar

1.2k1111

发布于
2017-08-11

更新于
2017-08-11

我写了个不用groupby也不用re正则的

from itertools import groupby
import re


def exp_str(s):
    """只用标准库函数"""
    s += s[-2]
    p = 0
    for index, item in enumerate(s):
        try:
            n = index + 1
            sn = s[n]
        except IndexError:
            _ = s[p: index]
            if _:
                yield _
        if item.isdigit() and sn.isdigit():
            continue
        elif item.isalpha() and sn.isalpha():
            continue
        else:
            yield s[p: n]
            p = index + 1


def use_group(s):
    """这是用groupby的情况"""
    return [''.join(list(g)) for k, g in groupby(s, key=lambda x: x.isdigit())]


def use_re(s):
    """这是用正则表达式的情况"""
    return re.findall(r'[0-9]+|[a-z]+', s)

然后顺路跑了个分，如图

处理长度为10W的字符串：

处理长度为10的字符串：

明显可以看出无论字符长短正则速度完胜，处理10W长度字符串时比最慢的groupby方法快了近5倍，所以你为啥不用正则？

PS：自己写的一坨代码速度居然比groupby快，想想都有点小激动呢。

losingle

3546

发布于
2017-08-10

python有个isdigit函数，可以判断字符串是否是纯数字，你把那串字符一个个字符遍历就行了

同意并接受

7.2k21127

发布于
2017-08-10

python3

>>> from itertools import groupby
>>> s='3a4b5cdd7e'
>>> [''.join(g) for _, g in groupby(s, key=lambda x: x.isdigit()*'d' or x.isalpha()*'a' )]
['3', 'a', '4', 'b', '5', 'cdd', '7', 'e']

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Python 分割文本使得字母和数字分开？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Python 分割文本使得 字母和数字 分开？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Python 分割文本使得字母和数字分开？