将 Dataframe 保存到 csv 直接到 s3 Python

新手上路,请多包涵

我有一个 pandas DataFrame,我想上传到一个新的 CSV 文件。问题是我不想在将文件传输到 s3 之前将其保存在本地。有没有像 to_csv 这样的方法可以直接将数据帧写入 s3?我正在使用 boto3。

这是我到目前为止所拥有的:

 import boto3
s3 = boto3.client('s3', aws_access_key_id='key', aws_secret_access_key='secret_key')
read_file = s3.get_object(Bucket, Key)
df = pd.read_csv(read_file['Body'])

# Make alterations to DataFrame

# Then export DataFrame to CSV through direct transfer to s3

原文由 user2494275 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 714
2 个回答

您可以使用:

 from io import StringIO # python3; python2: BytesIO
import boto3

bucket = 'my_bucket_name' # already created on S3
csv_buffer = StringIO()
df.to_csv(csv_buffer)
s3_resource = boto3.resource('s3')
s3_resource.Object(bucket, 'df.csv').put(Body=csv_buffer.getvalue())

原文由 Stefan 发布,翻译遵循 CC BY-SA 4.0 许可协议

您可以直接使用 S3 路径。我正在使用 熊猫 0.24.1

 In [1]: import pandas as pd

In [2]: df = pd.DataFrame( [ [1, 1, 1], [2, 2, 2] ], columns=['a', 'b', 'c'])

In [3]: df
Out[3]:
   a  b  c
0  1  1  1
1  2  2  2

In [4]: df.to_csv('s3://experimental/playground/temp_csv/dummy.csv', index=False)

In [5]: pd.__version__
Out[5]: '0.24.1'

In [6]: new_df = pd.read_csv('s3://experimental/playground/temp_csv/dummy.csv')

In [7]: new_df
Out[7]:
   a  b  c
0  1  1  1
1  2  2  2

发行公告:

S3 文件处理

pandas 现在使用 s3fs 来处理 S3 连接。这不应该破坏任何代码。但是,由于 s3fs 不是必需的依赖项,因此您需要单独安装它,就像之前版本的 pandas 中的 boto 一样。 GH11915

原文由 yardstick17 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题