修改密码

请输入密码
请输入密码 请输入8-64长度密码 和 email 地址不相同 至少包括数字、大写字母、小写字母、半角符号中的 3 个
请输入密码
提交

修改昵称

当前昵称:
提交

申请证书

证书详情

Please complete this required field.

  • Ultipa Graph V4

Standalone

Please complete this required field.

Please complete this required field.

服务器的MAC地址

Please complete this required field.

Please complete this required field.

取消
申请
ID
产品
状态
核数
申请天数
审批时间
过期时间
MAC地址
申请理由
审核信息
关闭
基础信息
  • 用户昵称:
  • 手机号:
  • 公司名称:
  • 公司邮箱:
  • 地区:
  • 语言:
修改密码
申请证书

当前未申请证书.

申请证书
Certificate Issued at Valid until Serial No. File
Serial No. Valid until File

Not having one? Apply now! >>>

ProductName CreateTime ID Price File
ProductName CreateTime ID Price File

No Invoice

人工智能从高校实验室到工业界实际应用有何不同? - 嬴图
2021-10-15
人工智能从高校实验室到工业界实际应用有何不同? - 嬴图

AI离我们如此之近,与我们的生活如此交织,了解AI还有助于了解一门正在从根本上改变科技、改变行业、改变我们所处的世界的重要技术——图数据库技术(图计算)。在这里我们先前置一个概念:人工智能发展的终极目标是实现强人工智能,强人工智能指的是让机器和算法像人类一样具备图的思维方式。图思维方式在本质上是用高维图的方式100%映射和还原世界——实际上是一种依托图数据库的计算与分析方式。如果人脑是终极的数据库,图数据库就是迈进并实现它的最佳路径。

图:与人类大脑神经网络类似,深度学习就是试图模仿大脑神经元之间的递质的传导和信息的处理

第三代人工智能(AI)是2019—2021年间由中国人工智能之父、中科院院士、清华大学人工智能研究院院长张钹教授率先提出的。区别于第一代人工智能(1950—1980年代)着重于计算机推理运算;第二代人工智能(1990—当下)以机器学习与深度学习,广泛存在算法黑盒化、计算不可解释且算力浪费严重、计算效率低下等问题,第三代人工智能需要数据、知识、算法与算力“四要素”协同,注重算法白盒化可解释,以及算力的大幅提升。图计算(图数据库)被认为是一种典型的通过增强智能方式实现的稳健的、更贴近人类智能的——第三代人工智能技术。

图:《中国科学》2020年第50卷 第9期:1281—1302

张钹教授指出,世界范围内的AI已经触碰到了天花板,后续突破可能的途径包括知识图谱、图计算(图数据库)等新的体系架构的发展。这番话背后的逻辑是清晰的:人类庞杂的知识体系的逻辑化、结构化与可视化表达最好的途径就是知识图谱(关系图谱),而对知识图谱进行逻辑推理、推导、演算、查询,尤其是进行深度的运算与查询最可行的工具就是实时的、深度的图计算引擎。而当计算引擎与存储引擎有机地统一的时候就形成了图数据库。可以进行深度、实时、高并发图计算与分析的图数据库是推动AI向前发展的核心武器。

图:欧拉开创了数学的一个新的分支——图论与几何拓扑

图计算(图数据库)肇始于学术界对图论的研究,从最早的200多年前的欧拉的七桥问题演化出早期图论,再到后来的地图上色问题、20世纪60年代的随机图理论研究、多种最短路径算法,以及过去20年间随着大数据框架和理论发展而形成的各种社交图谱(图数据集)研究。

图:地图上色问题是数学中典型的NP完全问题。随着计算机的算力的提升被不断演进,直至2005年,通过复杂的人机交互理论证明软件的帮助,以通用的方式证明了四色地图的可行性,后期又演进到五色图

那么,学术研究的图数据和工业界的图数据有哪些区别呢?

学术界 工业界
简单图(单边图) 多边图
同构图 异构图
静态图 动态图
无属性 多属性
小图形式 中大图形式
忽略用户体验 注重用户体验

表:学术界VS.工业界图数据的特点对比

偏学术界图数据的特点有哪些?

简单图 简单图,也可以叫单边图,英文是simple-graph。任意两个顶点间只能存在一条边的情况在图论中的定义为单边图。
同构图 学术界的图基本都是同构数据,比如路网、社交网络数据……
静态图 图数据集一次性导入计算框架,之后不再更改,如果更改,则需要重新加载。
无属性 除了可能的方向之外,几乎没有属性,完全依赖图集所形成的拓扑结构(topology)来进行计算分析。
通常学术研究的都是小图 通常学术研究的都是小图(比如一般都是几千个点的图),大图几乎都是合成出来的,为了造出大图而生产出大图,而且只有一张图,图与图之间不会有任何关联关系,更不用说联动。
用户体验 根本无需考虑用户体验。

 

工业化图数据的特点有哪些?

多边图 多边图,英文称为Multi-graph。任意两个顶点间可以存在多条边的情况为多边图。要更自然的表达真实的世界,显然是需要多边图的。否则的话,就需要制造大量的实体和没有太多意义的关联边来构图。单边图的构图会有数倍于多边图构图所消耗的顶点与边,并且效率低下。
异构图 工业界不能仅限于同构图,这个太理想化了,异构图、多源融合数据需要被支持……
动态图 数据不断动态变化,包括增、删、改、查等操作。
多属性 例如金融行业、交易图谱等,点、边都会有多种属性。
中大图、多图、有联动 一般都是中大图,从几百万到几亿、几十亿的规模;也会有千亿规模的图,但是往往会形成多张图,图与图之间可能会联动。
用户体验 一流的用户体验。

上面这几点已经能简要地说明学术界和工业界的区别了。此外,双方的研究对象、解决问题的思路和出发点也都不同。值得一提的是,今天几乎所有学术界产出的图计算框架都符合学术界的特点——静态、无属性、单边……其实,很多工业界的图数据库是从学术界出发的,可想而知在底层架构上面他们就会遇到各种各样的挑战,例如无法很好的应对动态的、海量的数据,无法对多边模式进行直观、便捷的数据建模,不注重用户体验……是的,很多人才都源自于学术界的培养,但是很多时候,象牙塔里面做了太多的假设,理论很丰富,工程能力和实践落实却很骨感,久而久之一定会与工业界脱节。

总结陈词,最好的、最流行的关系型数据库不是象牙塔里面构建的,无论是从IBM的System R到后面的Oracle,还是Sun Microsystems的Mysql或者是PostgreSQL;图数据库大抵也会遵循类似的思路,工业界的解决方案更贴近应用、贴近客户需求,或可在很大程度上反哺学界。理论到实践,基本就是实验室与实际应用之间的“大不同”之所在!