比如用正则表达式匹配出 shá 这个拼音。
ps:之前说的可能不明确,我用了 “ 比如 ” 两字哈,就是待处理文本里有拼音,但是不知道具体拼音是什么,需要找出这些拼音,待处理文本会有 中文、拼音、符号(,。:之类的),所以请不要回答诸如re.search(u'shá',text)
要正则哈,不是简单固定的字符串。。。
比如用正则表达式匹配出 shá 这个拼音。
ps:之前说的可能不明确,我用了 “ 比如 ” 两字哈,就是待处理文本里有拼音,但是不知道具体拼音是什么,需要找出这些拼音,待处理文本会有 中文、拼音、符号(,。:之类的),所以请不要回答诸如re.search(u'shá',text)
要正则哈,不是简单固定的字符串。。。
你是要匹配所有合法的拼音吗?
如果是,你去找个字典的拼音索引,把里边的所有拼音全部 |
到一起就可以了。也只能这样,因为拼音不是根据正则,或者其它某种机械的规则定义出来的。你想不漏又不多就只能这样了,反正也没多少个。
>>> import re
>>> d='shá'
>>> data='This is a pinyin about shá'
>>> re.search(d,data)
<_sre.SRE_Match at 0x404e308>
2 回答10.4k 阅读✓ 已解决
1 回答9.5k 阅读✓ 已解决
2 回答5.1k 阅读✓ 已解决
2 回答3.5k 阅读✓ 已解决
3 回答3k 阅读✓ 已解决
3 回答4.4k 阅读
5 回答2.1k 阅读
匹配结果:
['ís', 'à', 'pìnyin', 'abóut', 'shá']
没有匹配第一个Thǐs,因为默认拼音都是小写,排除了大写。