1. 什么是图数据库

  1. 图数据库是基于数学里图论的思想和算法而实现的高效处理复杂关系网络的新型数据库系统。
  2. 图形数据库善于高效处理大量的、复杂的、互联的、多变的数据。其计算效率远远高于传统的关系型数据库。
  3. 图形数据库在社交网络、实时推荐、征信系统、人工只能等领域有着广泛的应用

2. 为什么要使用图数据库

  1. 世界本身就是由关系组成的

  2. 关系型数据库处理不好关系

  3. 图数据库最适合处理关系
    图数据库:图数据库以及图数据库的使用场景

  4. 关系型数据库不能很好的处理关系

  • 4.1 建模难:不复杂就不能检模和存储数据和关系
  • 4.2 性能低:随着关系数量和层次的增加数据库尺寸的增加,性能低
  • 4.3 查询难:需要使用Join操作,查询复杂性增加
  • 4.4 扩展难:增加新类型的数据和关系需要重新设计模式
    最终导致传统数据库不适用于有实时价值的数据关系
  1. 非图数据库的NoSql数据库也不处理关系
  • 5.1 没有数据结构建模或存储数据关系
  • 5.2 没有查询结构支持数据关系
  • 5.3 在应用中连接数据需要"Join逻辑"
  • 5.4 对事务没有ACID支持{原子性、隔离性、持续性、一致性}
    导致NoSql数据库不适用于有实时价值的数据关系

3. 关系型数据库于图数据库数据存储结构对比

图数据库:图数据库以及图数据库的使用场景

4. 图数据库的应用场景

图数据库技术已经应用于现实生活中的方方面面,诸如 Google、Facebook 等科技巨头已经开始使用图数据库的力量来蓬勃发展业务。据 Gartner 在《十大数据分析技术趋势》预测,2012 年至 2022 年,全球图处理及图数据库的应用都将以每年 100% 的速度迅猛增长。

如果说知识图谱是图数据库的底层应用场景,充分利用了图模型在存储和查询的优势为多行业提供知识服务。那么金融风控则是具有行业特点的高阶应用场景。

4.1 知识图谱

  1. 知识图谱作为图数据库的底层应用,已服务于多种行业,包括:智能问答、搜索、个性化推荐等。以智能问答为例,产品主要分为聊天机器人、行业智能问答系统两种。开放领域的知识图谱能为聊天机器人提供广泛知识,机器不仅能和使用者聊天还能提供日常知识。行业智能问答系统则使用行业知识图谱,能够为用户有针对性的提供专业领域知识,在法律、医疗行业已得到运用。

  2. 在知识图谱的应用落地上,主要有两点因素影响着知识图谱的质量和实现 -NLP 自然语言处理引擎、算法库。NLP 自然语言处理引擎决定了 NLP 爬虫平台获取数据的质量和数量,而这些原始数据作为知识图谱的知识原料又决定了知识图谱的水平。算法库中的图算法决定了图构建、图存储和图操作的能力,知识原料丰富而图算法落后,依然不能构建出强大的知识图谱。

4.2 金融反欺诈

  1. 图数据库通过利用多维交叉关联信息深度刻画申请和交易行为,可以有效识别规模化、隐蔽性的欺诈网络和洗钱网络;结合机器学习、聚类分析、风险传播等相关算法,可以实时计算用户的风险评分,在风险行为发生前预先识别,有效帮助金融机构提升效率、降低风险。应用图数据库的金融风控场景很多,例如个人信贷、洗钱路径追踪、个人 / 企业征信等

  2. 基于图数据库在金融风控的优异表现,很多企业表示对这项技术的看好,在这之中也有一些前瞻性的企业已率先使用此技术并取得竞争性优势。图技术发展多年,这项技术仍然有很多企业没有使用,是什么原因阻碍了技术的推进?

  3. 首先是数据存储的问题,在反洗钱的场景中,需对用户的借记卡和信用卡数据存储分析。在存储时发现,仅 10 个月借记卡数据 +1 个月信用卡数据规模就有 5 个 T,这样的数据量是过去图数据库无法支持的。

  4. 第二点是多步分析问题。在反洗钱应用场景中需要做到 3-10 步以上的分析,而目前的图数据库在企业级场景下,2 度到 3 度查询时就会出现超时或者内存溢出的问题。这样的性能对于欺诈甄别的帮助很小。

  5. 针对这些问题,图数据库厂商正在积极构建成熟的解决方案来满足这两点要求,市面上有越来越多高性能图数据库出现。目前,部分企业采取的替代方案是通过图数据库 + 大数据平台的方式实现大数据量的效果,但是这样的解决方案由于技术门槛较高无法轻易掌握。

分类:

技术点:

相关文章: