借助 Athena 清理 S3 存储桶

主要观点:S3 提供无限存储容量但数据易堆积,需定期清理不用数据。可利用 S3 访问日志、库存和 Athena 来清理长时间未下载的文件。
关键信息:

  • S3 提供生命周期管理可定义对象寿命,不同用例删除时间不同。
  • 清理 S3 桶中长时间未下载文件的工具:S3 访问日志(写入请求到日志文件)、S3 库存(提供桶内对象列表)、Athena(查询 S3 上的结构化数据)。
  • 配置 S3 库存:创建单独桶存储日志和库存,设置库存配置(类型、目标桶、前缀、交付频率、输出格式等)。
  • 配置 S3 访问日志:为要清理的桶启用访问日志,设置目标桶和前缀。
  • 创建 Athena 表:创建包含库存和访问日志的临时表,需替换桶名。
  • 检测长时间未使用对象:更新库存表分区,运行查询列出 90 天内未读取的对象键,可手动或自动删除。Athena 可灵活调整查询满足特定需求。
    重要细节:
  • 配置 S3 库存时各种参数的设置及作用。
  • 创建 Athena 表的查询语句及表结构定义。
  • 检测未使用对象的查询语句及排除已访问对象的逻辑。
阅读 2
0 条评论