新手上路，请多包涵

我正在将数据解析为列表并使用 pandas 构建和写入 CSV 文件。首先，我的数据被放入一个集合中，其中 inv 、 name 和 date 都是包含大量条目的列表。然后我使用 concat 通过我解析的数据集将每次迭代连接到 CSV 文件，如下所示：

 counter = True
data = {'Invention': inv, 'Inventor': name, 'Date': date}

if counter is True:
  df = pd.DataFrame(data)
  df = df[['Invetion', 'Inventor', 'Date']]

else:
  df = pd.concat([df, pd.DataFrame(data)])
  df = df[['Invention', 'Inventor', 'Date']]

  with open('./new.csv', 'a', encoding = utf-8) as f:
    if counter is True:
      df.to_csv(f, index = False, header = True)
    else:
      df.to_csv(f, index = False, header = False)

counter = False

counter = True 语句位于我正在解析的所有数据的迭代循环 _之外_，因此它不会每次都被覆盖。

所以这意味着它只在我的数据中运行一次以获取第一个 df 集，然后将其连接起来。问题是，即使 counter 在第一轮只为 True 并且适用于我的 df 的第一个 _if 语句_，但它不适用于我写入文件。

发生的是标头被一遍又一遍地写入——不管计数器只为真一次的事实。当我将 header = False 交换为 counter 为 True 时，它永远不会写入标题。

我认为这是因为 df 以某种方式连接到标题上，但除此之外我无法弄清楚逻辑错误。

也许有另一种方法我也可以将标题一次且仅一次写入同一个 CSV 文件吗？

原文由 HelloToEarth 发布，翻译遵循 CC BY-SA 4.0 许可协议

python pandas csv dataframe header

阅读 573

2 个回答

得票最新

社区维基

发布于
2023-01-09

✓ 已被采纳

如果不查看其余代码，很难判断可能出了什么问题。我开发了一些有效的测试数据和逻辑；你可以调整它以满足你的需要。

请试试这个：

 import pandas as pd

early_inventions = ['wheel', 'fire', 'bronze']
later_inventions = ['automobile', 'computer', 'rocket']

early_names = ['a', 'b', 'c']
later_names = ['z', 'y', 'x']

early_dates = ['2000-01-01', '2001-10-01', '2002-03-10']
later_dates = ['2010-01-28', '2011-10-10', '2012-12-31']

early_data = {'Invention': early_inventions,
    'Inventor': early_names,
    'Date': early_dates}

later_data = {'Invention': later_inventions,
    'Inventor': later_names,
    'Date': later_dates}

datasets = [early_data, later_data]

columns = ['Invention', 'Inventor', 'Date']
header = True
for dataset in datasets:
    df = pd.DataFrame(dataset)
    df = df[columns]
    mode = 'w' if header else 'a'
    df.to_csv('./new.csv', encoding='utf-8', mode=mode, header=header, index=False)
    header = False

或者，您可以连接循环中的所有数据并在末尾写出数据帧：

 df = pd.DataFrame(columns=columns)
for dataset in datasets:
    df = pd.concat([df, pd.DataFrame(dataset)])
    df = df[columns]
df.to_csv('./new.csv', encoding='utf-8', index=False)

如果您的代码无法符合此 API，您可以完全放弃将标头写入 to_csv。您可以检测输出文件是否存在，如果不存在则先将标头写入其中：

 import os

fn = './new.csv'
if not os.path.exists(fn):
    with open(fn, mode='w', encoding='utf-8') as f:
        f.write(','.join(columns) + '\n')
# Now append the dataframe without a header
df.to_csv(fn, encoding='utf-8', mode='a', header=False, index=False)

原文由 Tom Lynch 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2023-01-09

如果您使用索引迭代 API 调用以在 csv 文件中添加数据，则只需在设置标头属性之前添加此检查。

 if i > 0:
        dataset.to_csv('file_name.csv',index=False, mode='a', header=False)
    else:
        dataset.to_csv('file_name.csv',index=False, mode='a', header=True)

原文由 PraveenS 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

用熊猫写单个 CSV 标题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

用熊猫写单个 CSV 标题

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？