新手上路，请多包涵

假设我有一个巨大的 .txt 充满随机字符的文件，我想找出“稀有字符”。 Python 中是否有一些模块（实际上是什么）（可能是版本 3.x ，但我也有一台机器使用 Python 2.7 ，以防它更好）为此目的编写？如果是肯定的答案，我在哪里可以找到其功能的一些基本解释？非常感谢。

原文由 EM90 发布，翻译遵循 CC BY-SA 4.0 许可协议

python 算法 python-2.7 python-3.x

阅读 717

2 个回答

得票最新

社区维基

发布于
2022-11-17

✓ 已被采纳

from collections import Counter

c = Counter("text")
print(c.most_common())

输出

[('t', 2), ('e', 1), ('x', 1)]

原文由 Luka Rahne 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2022-11-17

要在文本中找到 10 个最稀有的字符：

 from collections import Counter

rarest_chars = Counter(text).most_common()[-10:]

为简单起见，“字符”在这里表示 Unicode 代码点：它表示 "a" 和 "A" 被视为 不同的 字符。这意味着 u'g̈' (U+0067 U+0308) 被认为是两个字符。在相关问题中查看这些问题是如何处理的： Most common character in a string 。

counter.most_common()[-10:] could be written more efficiently using heapq.nsmallest(10, counter.items(), key=itemgetter(1)) : .items() returns pairs (character, its_count) and key=itemgetter(1) extracts the counts so that 10 返回计数最少的对。

原文由 jfs 发布，翻译遵循 CC BY-SA 3.0 许可协议

查看全部 2 个回答

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

使用 Python 查找稀有字符

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

使用 Python 查找稀有字符

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？