文件系统 <> 数据库:完整循环

主要观点:数据库管理系统(DBMS)发明前,基于文件的系统是原始数据存储系统,存在数据冗余等问题,无法适应数据变化和创新。DBMS 使数据交易符合 ACID 特性,现代 DBMS 系统提供多种功能,但大数据等发展使文件存储再次成为热点。所有领先云服务都提供对象级存储支持文件存储,选择正确的文件系统很重要。
关键信息

  • 70 年代组织手动在服务器中用众多文件存储数据,如平面文件,格式固定,数据冗余。
  • DBMS 使数据交易符合 ACID 特性,现代 DBMS 提供多种功能。
  • 领先云服务提供对象级存储,如 AWS、GCP、Azure。
    重要细节
  • 基于文件的存储的优势:

    • 动态模式:文件或对象级存储无需固定模式,可轻松添加或删除列,ETL 工作更灵活。
    • 文件格式:根据数据用例使用不同格式,如 JSON、Avro、Parquet 等,可合并文件提高查询读取时间。
    • 数据压缩:减少文件大小,节省空间和提高检索时间,常见压缩类型有 Bzip2、Gzip、Xz。
    • 数据加密:领先云提供商提供高级加密技术,如 AES、Base64 编码,保护敏感数据。
    • 数据分区:根据特定列将数据分成小块存储,提高查询速度,减少读取/写入开销。
  • 基于文件的存储的局限性:

    • 直接查询文件数据检索慢,创建多个数据分区会增加文件读写时间。
    • 更新现有文件耗时且可能导致死锁,文件系统和操作增长时存储会显著增加。
阅读 192
0 条评论