主要观点:数据库管理系统(DBMS)发明前,基于文件的系统是原始数据存储系统,存在数据冗余等问题,无法适应数据变化和创新。DBMS 使数据交易符合 ACID 特性,现代 DBMS 系统提供多种功能,但大数据等发展使文件存储再次成为热点。所有领先云服务都提供对象级存储支持文件存储,选择正确的文件系统很重要。
关键信息:
- 70 年代组织手动在服务器中用众多文件存储数据,如平面文件,格式固定,数据冗余。
- DBMS 使数据交易符合 ACID 特性,现代 DBMS 提供多种功能。
- 领先云服务提供对象级存储,如 AWS、GCP、Azure。
重要细节: 基于文件的存储的优势:
- 动态模式:文件或对象级存储无需固定模式,可轻松添加或删除列,ETL 工作更灵活。
- 文件格式:根据数据用例使用不同格式,如 JSON、Avro、Parquet 等,可合并文件提高查询读取时间。
- 数据压缩:减少文件大小,节省空间和提高检索时间,常见压缩类型有 Bzip2、Gzip、Xz。
- 数据加密:领先云提供商提供高级加密技术,如 AES、Base64 编码,保护敏感数据。
- 数据分区:根据特定列将数据分成小块存储,提高查询速度,减少读取/写入开销。
基于文件的存储的局限性:
- 直接查询文件数据检索慢,创建多个数据分区会增加文件读写时间。
- 更新现有文件耗时且可能导致死锁,文件系统和操作增长时存储会显著增加。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。