新手上路，请多包涵

我有三个输入数据文件。每个对其中包含的数据使用不同的定界符。数据文件一如下所示：

苹果 |香蕉 |橘子 |葡萄

数据文件二如下所示：

 quarter, dime, nickel, 便士

数据文件三如下所示：

马牛猪鸡山羊

（列数的变化也是有意的）

我的想法是计算非字母字符的数量，并假定最高计数是分隔符。但是，具有非空格分隔符的文件在分隔符前后也有空格，因此空格在所有三个文件上都有效。这是我的代码：

 def count_chars(s):
    valid_seps=[' ','|',',',';','\t']
    cnt = {}
    for c in s:
        if c in valid_seps: cnt[c] = cnt.get(c,0) + 1
    return cnt

infile = 'pipe.txt' #or 'comma.txt' or 'space.txt'
records = open(infile,'r').read()
print count_chars(records)

它将打印一个字典，其中包含所有可接受字符的计数。在每种情况下，空格总是获胜，所以我不能依靠它来告诉我分隔符是什么。

但我想不出更好的方法来做到这一点。

有什么建议么？

原文由 Greg Gauthier 发布，翻译遵循 CC BY-SA 4.0 许可协议

python parsing csv text-files textinput

阅读 528

2 个回答

得票最新

社区维基

发布于
2023-01-08

✓ 已被采纳

如果您使用的是 python，我建议只在包含所有有效预期分隔符的行上调用 re.split ：

 >>> l = "big long list of space separated words"
>>> re.split(r'[ ,|;"]+', l)
['big', 'long', 'list', 'of', 'space', 'separated', 'words']

唯一的问题是其中一个文件是否使用分隔符作为数据的一部分。

如果您必须确定分隔符，最好的办法是计算除空格以外的所有内容。如果几乎没有出现，那么它可能是空格，否则，它是映射字符的最大值。

不幸的是，真的没有办法确定。您可能有用逗号填充的空格分隔数据，或者您可能有 |用分号填充的分隔数据。它可能并不总是有效。

原文由 JoshD 发布，翻译遵循 CC BY-SA 2.5 许可协议

社区维基

发布于
2023-01-08

如何尝试 Python CSV 的标准： http ://docs.python.org/library/csv.html#csv.Sniffer

 import csv

sniffer = csv.Sniffer()
dialect = sniffer.sniff('quarter, dime, nickel, penny')
print dialect.delimiter
# returns ','

原文由 eumiro 发布，翻译遵循 CC BY-SA 2.5 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

如何动态识别数据文件中的未知分隔符？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？

Stack Overflow 翻译