图数据库:工作原理、何时使用以及其优势
1. 什么是图数据库?
图数据库是一种专门的 NoSQL 数据库,旨在存储和查询通过定义的关系连接的数据。图数据库中的数据点称为节点,这些节点通过边连接到相关数据。附加到每个节点的数据称为属性。图数据库不受关系数据库等预定义架构的限制,这种灵活性允许数据在应用程序的整个生命周期中自然连接。
由于其简单易用,图数据库迅速成为数据管理中增长最快的类别之一。
2. 图数据库用例
开发人员和分析师将图数据库用于各种用例场景。当您使用关系来处理图数据库中的交易时,您可以检测到单笔购买与客户、产品、区域数据和其他数据相关的场景。
2.1 欺诈检测
使用图数据库,您可以(几乎)实时处理购买和金融交易,这意味着您可以防止欺诈。使用图数据库,您可以轻松检测某个电子邮件地址和信用卡是否与其他欺诈性收费有关。
通过欺诈检测,您还可以区分多个人使用同一个电子邮件地址的帐户。您可以发现,即使不同的人拥有不同的物理地址,但他们却与同一个 IP 地址相关联。
2.2 主数据管理 (MDM)
主数据管理 (MDM) 记录了公司运营的所有基本信息。它可能包括有关帐户、业务部门、客户、位置、合作伙伴、产品和用户的所有信息。借助图数据库,您可以连接所有主数据来解决紧迫的业务问题。凭借其直接的业务价值,您可以获得竞争优势,因为您能够更好地管理连接的数据并了解您的网络。
2.3 网络和 IT 运营
您可以使用图数据库轻松地将网络和 IT 运营中的监控工具连接起来。您不仅可以获得有价值的性能见解,还可以更好地评估漏洞、排除解决方案故障、进行容量规划,并通过基于用户指南的影响分析更好地为您的组织做好准备。
2.4 身份和访问管理 (IAM)
您可以使用图数据库识别和管理不断变化的授权、组、角色和产品。随着这些相互关系变得越来越复杂,您可以跟踪所有数据,并通过实时结果更好地控制本机图形的访问。借助图数据库的互连特性,您可以支持直观的访问管理关系。您可以更快、更准确地确保整个组织的效率更高。
2.5 推荐引擎
您可以使用图数据库轻松存储客户的好友、兴趣和购买历史记录。根据对这些变量之间关系的分析,您可以提供一个推荐引擎,该引擎将提供用户喜欢和偏好的想法。例如,您可以高度准确地推断出,如果客户与另一位用户有相同的购买历史和行为,他们可能会喜欢其他用户购买的产品。
3. 为什么要使用图数据库?
图数据库允许您快速轻松地存储数据并分析数据之间的关系,以便您可以更好地了解各种可能的结果。
3.1 图无处不在
图数据库最明显的例子是社交网络,但您可以在商业交易、基于连接的建议、路由以及与供应链管理等相关的最佳路径所涉及的物流中看到它们。
3.2 支持简单建模
使用图数据库,您可以根据对问题的理解进行建模,因此它更加清晰和简化。它是一种易于理解的模型,您可以使用它来表示和存储复杂数据。
3.3 使用结构化或非结构化数据
通过图数据库,您可以通过结构化、非结构化甚至混合解决方案支持一系列数据需求,以满足您的需求。
3.4 简单查询
虽然几乎任何图查询都可以使用 SQL 在关系数据库上执行,但查询会非常复杂。大多数图数据库都具有围绕使用边和节点以及遍历图形结构的理念构建的查询语言。结果是查询更简单,编写速度更快,更容易理解。
以下示例展示了标准 SQL 与 Neo4J 图数据库使用的 Cypher 查询语言之间的查询复杂性差异。该查询使用公司雇用的销售代表的姓名来获取地域描述。
SQL:
SELECT e.LastName, et.Description
FROM Employee AS e
JOIN EmployeeTerritory AS et ON (et.EmployeeID = e.EmployeeID)
JOIN Territory AS t ON (et.TerritoryID = t.TerritoryID);
Cypher:
MATCH (t:Territory)<-[:IN_TERRITORY]-(e:Employee)
RETURN t.description, collect(e.lastName);
Cypher 的查询只有 2 行,而 SQL 则有 4 行。当你想从更多关系中获取信息时,行数和复杂性的差异只会变得更大。
连接在性能方面也非常昂贵,尝试连接许多表之间的值将导致对大型数据集的查询非常缓慢。相比之下,使用图数据库的这些类型的查询即使在大规模的情况下仍然会很快。
3.5 直接从关系查询
使用图数据库,您可以直接从一个关系中进行查询。因此,您无需创建三个查询,就可以更快地得到答案,而无需执行多个步骤。
3.6 实现更佳性能
图数据库使用简单索引,因此查询性能的效率会提高。由于查询被分解为子查询,因此它们会并发运行以实现高吞吐量和低延迟。而且由于图数据库专为运行图形遍历而设计,因此它们在所需硬件资源方面效率更高。
3.7 获取可视化效果
使用图数据库,可视化数据以更好地理解数据并得出结论非常重要。您可以查看存储的关系和实体的各个部分以及相关属性。大多数图数据库将提供各种工具或集成,以便轻松可视化数据。
3.8 合格关系
您可以使用图数据库快速轻松地向关系添加属性。虽然您可以选择其他数据库模型,但图数据库仍能提供您按时、按预算交付所需的高质量解决方案。它们也是避免使用其他方法实现相同结果的巨大麻烦的好方法。
4. 图数据库有哪些类型?
图数据库通常根据其数据模型分为两种主要类型:RDF 图和属性图。RDF 图侧重于数据集成,而属性图涉及查询和分析。这些数据库类型的相似之处在于它们都由点(顶点)以及这些点(边)之间的相互关系组成。
4.1 RDF 图
RDF 图(RDF 代表资源描述框架)的设计符合 W3C(万维网联盟)标准。它是一种从将数据存储为关系数据库的转变。它使用 3 个部分以图形形式表达信息:对象、谓词和主题。
4.2 属性图
属性图是一种更通用的表示方法,因此在各个行业中更常用。属性图模拟数据点之间的关系,提供有关主题的详细信息以及数据如何相互关联。
5. 图和图数据库如何工作?
图和图数据库基于关系原理。您可以在数据生命周期中跟踪这些连接,因为连接的数据与任何单个数据点同等重要甚至更重要。您从想法开始,然后进行设计,然后使用查询语言实施和操作。由于您没有推断数据连接,因此您的数据比其他关系数据库结构更具性能力且更简单。
5.1 图数据库的组件
图数据库有 3 个主要组件。
第一个是节点,它代表一个实体,比如产品、用户、事件或地点。
图数据库的第二个组件是属性,可以将其添加到这些节点以提供更多上下文,例如,用户节点可能具有用户名、电子邮件地址、兴趣和许多其他潜在属性。
第三个组件是连接图中节点的边或关系。这些边可以是有向的,也可以是无向的。例如,如果您要连接经理和他们的直接下属,那么有向边可能是有意义的。边也可以附加值,对于像地图这样的东西来说,边代表城市之间的道路,边可以代表两个城市之间的英里数。
具有属性和边的图节点示例。 来源
5.2 图数据库架构和设计
从设计角度来看,与更通用的数据库相比,图数据库由于进行了各种优化而提供了更好的性能。最明显的是数据在内存中的映射方式与在磁盘上的存储方式相比。
原生图数据库使用所谓的无索引邻接。这意味着磁盘上每个节点实际上存储指向连接节点的指针。结果是,为了获得出色的性能,数据库不需要在 RAM 中存储大型索引,因为它已经可以通过节点本身获得。这也意味着无论图形有多大,性能都保持不变。它仅取决于您遍历的节点数
相比之下,如果您使用关系数据库,则必须在查询时将表连接在一起,并且随着表变大,这会变得更慢。另一种方法是在内存中建立大量索引,但这也很昂贵。
6. 图数据库有哪些优点?
6.1 性能
当您处理本质上高度相关的数据时,图数据库可提供更高的性能,并且随着数据不断增长,一致性至关重要。当您有涉及大数据分析的实时查询时,即使数据不断扩大,图数据库也是一个很好的解决方案。
6.2 更好地解决问题
使用图数据库,您可以更好地解决关系数据库无法解决的问题。在锁定图数据库之前,请考虑将为您的互连数据提供最实用的图数据库情况的假设情况。
6.3 人工智能和机器学习友好
图数据库非常适合用于机器学习和人工智能。通过使用图数据库,您可以通过查找数据之间的模式和联系来获得有价值的业务见解,而这些模式和联系可能会被忽略。通过使用图数据库,您可以拥有一个可扩展的数据存储,可以快速用于训练模型并对数据进行预测。
通过将图数据库与机器学习相结合可以解决的一些问题包括:在客户获取过程中找到有价值的步骤、个性化服务和平台、跨多个平台查找用户、通过查找不明显但相关的行为来预防欺诈等等。
6.4 面向对象思维
使用图数据库,不存在任何隐藏的假设。语义清晰明确。使用面向对象的思维,您可以精细地控制数据,而无需任何隐藏的假设。
6.5 灵活性
借助图数据库,您可以拥有一个灵活的平台来发现连接。您可以根据与数据库中其他数据相比的质量或强度来分析数据。随着应用程序的增长,您还可以简单地添加更多属性或节点类型,而不必担心架构更改。
6.6 可访问的递归路径查询
您可以使用图数据库找到数据与实际查询之间的直接和间接联系。这种可访问性非常重要,因为您可以将查询捆绑在一起并寻找与您的产品相关的模式以及它如何与您的受众数据相互关联。
6.7 多个维度
您可以使用图数据库通过组合和分层多个维度来管理大数据。因此,您可以根据不同的维度细分群体:时间、人口统计、地理维度等。
6.8 聚合查询
使用图数据库,您可以轻松地聚合和分组相关数据,而这在关系数据库下是不切实际的。因此,业务分析师和数据科学家几乎可以在图数据库上执行任何分析查询。
7. 图数据库有什么缺点?
任何技术都有其弊端。它并不完美,您应该了解使用图数据库的缺点和局限性。以下是您可能不想使用图数据库的几个原因。
7.1 没有标准查询语言
对于图数据库,没有标准化的查询语言。语言取决于所使用的平台,根据您的情况,这可能是优势也可能是劣势。这通常意味着开发人员需要学习一种新的查询语言,这会增加采用图数据库的时间,也会增加新员工的入职时间。
这种情况在不久的将来可能会改变,2019 年提出了一种名为 GQL (图形查询语言)的标准语言提案,并得到了 ISO/IEC 委员会的批准。GQL 旨在成为一种类似于 SQL 的声明性语言,但借用了 Cypher 和 GSQL 等当前图形查询实现的功能。
7.2 没有事务
对于需要事务的应用程序来说,图并不是正确的选择。它们在处理大量事务数据时效率不高。它们也很难处理跨整个数据库的查询。
与关系数据库相比,图数据库的用户群相对较小,因此随着公司不断发展,可能很难找到进一步优化、维护或扩展图数据库所需的支持。
8. 图数据库示例
8.1 Neo4J
Neo4J 是目前市场上最受欢迎的图数据库。它是开源的,具有出色的性能以及非常高效的 Cypher 查询语言,可让您轻松处理数据。除了开源产品外,Neo4J 还提供其数据库的云和自托管企业版本。它们还与数据科学生态系统紧密集成,并提供一个数据科学平台,允许您构建自定义模型或使用 65 种预构建的算法和模型来深入了解您的数据。
8.2 TigerGraph
TigerGraph 是一家同名公司提供的专有图数据库。TigerGraph 内置了创建可视化、执行与处理图形数据相关的常见任务的支持,还具有用于常见数据科学任务的功能。它有自己的查询语言 GSQL,用于访问您的数据。性能是 TigerGraph 的主要卖点,声称支持可以遍历 10 个或更多跳数并扩展到万亿条边的查询。
8.3 AWS Neptune
AWS Neptune 是 Amazon Web Services 提供的托管图数据库,它支持两种类型的图数据模型、属性和 RDF。它自动提供跨数据中心的读取副本、备份和复制。对于查询,Neptune 支持 Gremlin 和 SPARQL。
9. 图数据库常见问题解答
9.1 图数据库和图分析如何工作?
图数据库与图分析完美同步。图分析或网络分析探索客户、设备、操作和产品之间的关系。然后,您可以利用这些信息来收集见解,这些见解对您的销售和营销工作以及如何通过社交媒体与受众互动很有帮助。
到 2024 年,图分析市场规模预计将超过 20 亿美元。随着市场如此迅猛的增长,图分析变得比以往任何时候都更加重要。您可以使用图分析来推断项目是否具有贵公司的增长潜力,并与对供应链的影响直接相关。
9.2 图数据库与关系数据库
图数据库和关系数据库之间的根本区别在于其数据的存储和格式。最重要的是要记住,一个并不一定比另一个更好,它们都会做出权衡以更好地满足其预期用例。
关系数据库的优势在于,数据库可以了解其列结构,这带来了许多好处。另一方面,这也意味着与图数据库或任何其他无模式数据库相比,更改该结构并不那么容易。
对于经常查找特定值或搜索符合某种类别或值的数据的工作负载,关系数据库会更好。对于需要执行涉及连接关系数据库中的表的查询的情况,图数据库会很有用。
9.3 图数据库为何越来越受欢迎?
随着图数据库成为现代数据分析功能的基础,其受欢迎程度不断提高。一些专家预测,它们可能占当前数据和分析创新的 80%。随着组织继续寻找通过数据点或节点之间的关系或边缘更好地利用数据的方法,这一趋势预计将持续下去。
凭借其在网络中的有效性和可扩展性,图数据库、图形技术和图形关系将继续证明其价值,并在技术领域中成为业务用途中越来越紧密和不可或缺的一部分。图数据库是存储数据的理想选择,因此您可以更轻松地检索独立但仍以多种方式相关的数据。
原文链接:https://www.influxdata.com/graph-database/
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。