AI离我们如此之近,与我们的生活如此交织,了解AI还有助于了解一门正在从根本上改变科技、改变行业、改变我们所处的世界的重要技术——图数据库技术(图计算)。在这里我们先前置一个概念:人工智能发展的终极目标是实现强人工智能,强人工智能指的是让机器和算法像人类一样具备图的思维方式。图思维方式在本质上是用高维图的方式100%映射和还原世界——实际上是一种依托图数据库的计算与分析方式。如果人脑是终极的数据库,图数据库就是迈进并实现它的最佳路径。
图:与人类大脑神经网络类似,深度学习就是试图模仿大脑神经元之间的递质的传导和信息的处理
第三代人工智能(AI)是2019—2021年间由中国人工智能之父、中科院院士、清华大学人工智能研究院院长张钹教授率先提出的。区别于第一代人工智能(1950—1980年代)着重于计算机推理运算;第二代人工智能(1990—当下)以机器学习与深度学习,广泛存在算法黑盒化、计算不可解释且算力浪费严重、计算效率低下等问题,第三代人工智能需要数据、知识、算法与算力“四要素”协同,注重算法白盒化可解释,以及算力的大幅提升。图计算(图数据库)被认为是一种典型的通过增强智能方式实现的稳健的、更贴近人类智能的——第三代人工智能技术。
图:《中国科学》2020年第50卷 第9期:1281—1302
张钹教授指出,世界范围内的AI已经触碰到了天花板,后续突破可能的途径包括知识图谱、图计算(图数据库)等新的体系架构的发展。这番话背后的逻辑是清晰的:人类庞杂的知识体系的逻辑化、结构化与可视化表达最好的途径就是知识图谱(关系图谱),而对知识图谱进行逻辑推理、推导、演算、查询,尤其是进行深度的运算与查询最可行的工具就是实时的、深度的图计算引擎。而当计算引擎与存储引擎有机地统一的时候就形成了图数据库。可以进行深度、实时、高并发图计算与分析的图数据库是推动AI向前发展的核心武器。
图:欧拉开创了数学的一个新的分支——图论与几何拓扑
图计算(图数据库)肇始于学术界对图论的研究,从最早的200多年前的欧拉的七桥问题演化出早期图论,再到后来的地图上色问题、20世纪60年代的随机图理论研究、多种最短路径算法,以及过去20年间随着大数据框架和理论发展而形成的各种社交图谱(图数据集)研究。
图:地图上色问题是数学中典型的NP完全问题。随着计算机的算力的提升被不断演进,直至2005年,通过复杂的人机交互理论证明软件的帮助,以通用的方式证明了四色地图的可行性,后期又演进到五色图
那么,学术研究的图数据和工业界的图数据有哪些区别呢?
学术界 | 工业界 |
简单图(单边图) | 多边图 |
同构图 | 异构图 |
静态图 | 动态图 |
无属性 | 多属性 |
小图形式 | 中大图形式 |
忽略用户体验 | 注重用户体验 |
表:学术界VS.工业界图数据的特点对比
偏学术界图数据的特点有哪些?
简单图 | 简单图,也可以叫单边图,英文是simple-graph。任意两个顶点间只能存在一条边的情况在图论中的定义为单边图。 |
同构图 | 学术界的图基本都是同构数据,比如路网、社交网络数据…… |
静态图 | 图数据集一次性导入计算框架,之后不再更改,如果更改,则需要重新加载。 |
无属性 | 除了可能的方向之外,几乎没有属性,完全依赖图集所形成的拓扑结构(topology)来进行计算分析。 |
通常学术研究的都是小图 | 通常学术研究的都是小图(比如一般都是几千个点的图),大图几乎都是合成出来的,为了造出大图而生产出大图,而且只有一张图,图与图之间不会有任何关联关系,更不用说联动。 |
用户体验 | 根本无需考虑用户体验。 |
工业化图数据的特点有哪些?
多边图 | 多边图,英文称为Multi-graph。任意两个顶点间可以存在多条边的情况为多边图。要更自然的表达真实的世界,显然是需要多边图的。否则的话,就需要制造大量的实体和没有太多意义的关联边来构图。单边图的构图会有数倍于多边图构图所消耗的顶点与边,并且效率低下。 |
异构图 | 工业界不能仅限于同构图,这个太理想化了,异构图、多源融合数据需要被支持…… |
动态图 | 数据不断动态变化,包括增、删、改、查等操作。 |
多属性 | 例如金融行业、交易图谱等,点、边都会有多种属性。 |
中大图、多图、有联动 | 一般都是中大图,从几百万到几亿、几十亿的规模;也会有千亿规模的图,但是往往会形成多张图,图与图之间可能会联动。 |
用户体验 | 一流的用户体验。 |
上面这几点已经能简要地说明学术界和工业界的区别了。此外,双方的研究对象、解决问题的思路和出发点也都不同。值得一提的是,今天几乎所有学术界产出的图计算框架都符合学术界的特点——静态、无属性、单边……其实,很多工业界的图数据库是从学术界出发的,可想而知在底层架构上面他们就会遇到各种各样的挑战,例如无法很好的应对动态的、海量的数据,无法对多边模式进行直观、便捷的数据建模,不注重用户体验……是的,很多人才都源自于学术界的培养,但是很多时候,象牙塔里面做了太多的假设,理论很丰富,工程能力和实践落实却很骨感,久而久之一定会与工业界脱节。
总结陈词,最好的、最流行的关系型数据库不是象牙塔里面构建的,无论是从IBM的System R到后面的Oracle,还是Sun Microsystems的Mysql或者是PostgreSQL;图数据库大抵也会遵循类似的思路,工业界的解决方案更贴近应用、贴近客户需求,或可在很大程度上反哺学界。理论到实践,基本就是实验室与实际应用之间的“大不同”之所在!