用于可扩展且安全的数据湖存储的 AWS S3 策略

主要观点:Amazon S3 是提供可扩展性、数据可用性、安全性和性能的对象存储服务,是数据湖的主要组件,创建具有正确策略和属性的存储桶可高效安全地使用数据湖数据。
关键信息

  • 要选择正确的区域以优化延迟、降低成本或满足法规要求,可创建多个 S3 存储桶,不同存储桶可有不同生命周期配置等。
  • 数据湖推荐至少使用三层数据层,各层用单独存储桶,如原始数据层、阶段数据层、分析数据层。
  • 需仔细设计 S3 存储桶的前缀、数据集命名等,遵循特定命名结构以简化访问控制等。
  • 应开启对象版本控制用于原始层存储桶,根据需求可开启 S3 生命周期配置管理对象生命周期,还可利用加密等方式保障数据安全。
    重要细节
  • 多个存储桶可根据数据类型等有不同配置,如存储 PII 数据时可设置更严格访问。
  • 三层数据层的具体作用,如原始数据层初始摄入数据并保留原格式开启版本控制等。
  • 命名结构中元素的顺序及含义,如低基数变量开头、固定前缀增加唯一性等。
  • 不同加密方式如 SSE-S3、SSE-KMS、SSE-C 等。
  • 生命周期配置可将旧数据迁移到不同存储类型以降低成本等。
阅读 9
0 条评论