OushuDB 小课堂丨数据仓库简史

我的博客即将同步至腾讯云开发者社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?invite_code=...

数据仓库存储来自内部系统和各种外部来源的数据。数据仓库旨在通过数据收集、整合、分析和研究来支持决策制定过程。它们可用于分析特定主题领域，例如“销售”，并且是现代分析的重要组成部分商业智能. 数据仓库的体系结构是在 1980 年代开发的，旨在帮助将数据从操作系统转换为决策支持系统。

数据仓库可以是企业大型机服务器的一部分，但通常位于云端。

在数据仓库中，来自许多不同来源的数据被带到一个位置，然后转换为数据仓库可以处理和存储的格式。例如，企业存储有关其客户信息、产品、员工及其薪水、销售额和发票的数据。如果高层管理人员要求采取最新的成本削减措施，要获得答案可能需要分析前面提到的所有数据。下面，我们重点介绍从 1950 年代至今的数据仓库和数据存储的历史。

早期数据存储
打孔卡是第一个用于存储计算机生成数据的解决方案。到 1950 年代，穿孔卡片是美国政府和企业的重要组成部分。“Do not fold, spindle, or mulitate” 警告最初来自穿孔卡片。直到 20 世纪 80 年代中期，打孔卡仍被经常使用。它们仍然用于记录投票和标准化测试的结果。

从 1960 年代开始，“磁存储”逐渐取代了穿孔卡片。磁盘存储是数据存储的下一个进化步骤。磁盘存储（硬盘驱动器和软盘）于 1964 年开始流行并允许直接访问数据，显着改进了笨重的磁带。

IBM 主要负责磁盘存储的早期发展。他们发明了软盘驱动器和硬盘驱动器。他们还因现在支持其产品的几项改进而受到赞誉。IBM 于 1956 年开始开发和制造磁盘存储设备。2003 年，他们卖了他们的“硬盘”业务给了日立。

数据库管理系统
紧随磁盘存储之后的是一种名为数据库管理系统（数据库管理系统）。1966 年，IBM 提出了自己的 DBMS，当时称为信息管理系统。DBMS 软件旨在管理“磁盘上的存储”并包括以下功能：

确定数据的正确位置
当多个数据单元映射到同一位置时解决冲突
允许删除数据
当存储的数据不适合特定的、有限的物理位置时寻找空间
快速查找数据（这是最大的好处）
网上申请
在 20 世纪 60 年代末和 70 年代初，在磁盘存储和 DBMS 软件流行之后不久，商业在线应用程序开始发挥作用。一旦意识到可以直接访问数据，信息就开始在计算机之间共享。因此，有大量的商业应用可以应用于在线处理。一些例子包括：

索赔处理
银行柜员处理
自动柜员机 (ATM)
航空公司预订处理
零售销售点处理
制造控制处理
尽管有这些改进，但查找特定数据可能很困难，而且不一定值得信赖。找到的数据可能基于“旧”信息。当时，公司生成的数据如此之多，以至于人们无法相信他们所使用数据的准确性。

个人电脑和 4GL 技术
为了应对这种混乱和缺乏信任，个人电脑成为合理的、实用的解决方案。

个人计算机技术让任何人都可以在方便的时候带着他们的计算机工作和进行处理。这导致了个人计算机软件的出现，并认识到个人计算机的所有者可以将他们的“个人”数据存储在他们的计算机上。随着工作文化的这种变化，人们认为可能不再需要集中的 IT 部门。

同时，开发并推广了一种称为4GL的技术。 4GL技术（在 1970 年代到 1990 年代开发）基于编程和系统开发应该简单明了并且任何人都可以做到的理念。这种新技术也促使集中式 IT 部门解体。

4GL 技术和个人电脑解放了最终用户，使他们能够更多地控制计算机系统并快速有效地查找信息。释放最终用户并允许他们访问自己的数据的目标是一个非常受欢迎的进步。个人电脑和 4GL 在企业环境中迅速普及。但一路上，意想不到的事情发生了。最终用户发现：

不正确的数据可能会产生误导。
不完整的数据可能不是很有用。
旧数据是不可取的。
同一数据的多个版本可能会造成混淆。
缺乏文件的数据值得怀疑。
关系数据库
关系数据库在 1980 年代开始流行。关系数据库比他们的前辈明显更加用户友好。结构化查询语言 (SQL) 是关系数据库管理系统 (RDBMS) 使用的语言。到 20 世纪 80 年代后期，许多企业已经不再使用大型计算机。现在为员工分配了一台个人电脑，办公应用程序（Excel、Microsoft Word 和 Access）开始受到青睐。

对数据仓库的需求
1990 年代发生了重大的文化和技术变革。互联网人气飙升。由于新的自由贸易协定、计算机化、全球化和网络化，竞争加剧了。这种新的现实需要更大的商业智能，从而需要真正的数据仓库。在此期间，应用系统的使用呈爆炸式增长。

到了2000年，很多企业发现，随着数据库和应用系统的膨胀，系统集成度很差，数据不一致。他们发现他们正在接收和存储大量零散的数据。不知何故，需要整合数据以提供在竞争激烈、不断变化的全球经济中进行决策所需的关键“业务信息”。

数据仓库由企业开发，用于整合他们从各种数据库中获取的数据，并帮助支持他们的战略决策制定工作。

NoSQL的使用
随着数据仓库的出现，大数据的积累开始发展。这种积累需要计算机、智能手机、互联网和物联网的发展来提供数据。信用卡和社交媒体也发挥了作用。

Facebook 于 2008 年开始使用 NoSQL 系统。无SQL 是一个“非关系型”数据库管理系统，使用相当简单的架构。在处理大数据时非常有用。NoSQL 数据库系统多种多样，虽然 SQL 系统通常比 NoSQL 系统具有更大的灵活性，但 SQL 中缺乏可扩展性（尽管最近有所改变）使 NoSQL 系统具有决定性优势。

非关系数据库（或 NoSQL）使用两个新颖的概念：水平扩展（存储和工作的扩展）和消除使用结构化查询语言来安排和组织数据的需要。NoSQL 数据库已逐渐发展为包括各种不同的模型。Cassandra 和 Hadoop 是 225 多种可用的 NoSQL 风格数据库中的两个例子。

数据仓库替代品
数据湖，除了数据湖屋, 最近受到欢迎。数据湖使用比数据仓库更灵活的结构来收集和存储数据。数据湖保留了数据的原始结构，可以作为大数据的检索和存储系统，理论上可以无限向上扩展。（“大数据”这个词已经不再使用了，因为现在大数据很正常，不再是“大”了。）

数据集市是一个存储数据的区域，服务于特定的社区或工作组。它是一个具有固定数据的存储区域，并且被有意地置于组织内的一个部门的控制之下。

数据立方体是将数据存储在三个或更多维矩阵中的软件。数据中的任何转换都表示为已处理信息的表格和数组。在表格将数据字符串的行与数据类型的列匹配后，数据立方体然后交叉引用来自单个数据源或多个数据源的表格，增加每个数据点的细节。这种安排使研究人员能够找到比其他技术更深入的见解。

大型组织中自然会出现数据孤岛，每个部门都有不同的目标、职责和优先级。数据孤岛是固定数据的存储区域，这些区域由一个部门控制，并且为了隐私和安全而与其他部门的访问隔离开来。当部门相互竞争而不是共同努力实现共同目标时，也会发生数据孤岛。它们通常被认为是协作和高效业务实践的障碍。

数据沼泽可能是由设计不当或被忽视的数据湖造成的。数据沼泽描述了未能正确记录存储的数据。这种情况使得数据难以有效地分析和使用。虽然原始数据可能仍然存在，但如果没有适当的上下文元数据，数据沼泽就无法恢复它。

我的博客即将同步至腾讯云开发者社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?invite_code=...

OushuDB 小课堂丨数据仓库简史

宗恩

引用和评论

OushuDB 小课堂丨如何在数据科学领域建立职业生涯

OushuDB 小课堂丨利用数据流处理改进实时数据分析

OushuDB 小课堂丨产品开发的人工智能伦理与创新

OushuDB 小课堂丨推动保险业的数字化转型：采用 AI 驱动的解决方案

OushuDB 小课堂丨数据仓库简史

宗恩

引用和评论

OushuDB 小课堂丨如何在数据科学领域建立职业生涯

OushuDB 小课堂丨利用数据流处理改进实时数据分析

OushuDB 小课堂 丨产品开发的人工智能伦理与创新

OushuDB 小课堂丨推动保险业的数字化转型：采用 AI 驱动的解决方案

OushuDB 小课堂丨产品开发的人工智能伦理与创新