欢迎光临北京软件和信息服务业协会官方网站
新闻报道|汽车之家:图神经网络在汽车之家场景的实践 ——“创新案例 北京实践”系列分享第十四期成功举办
发布日期:2022-09-28    来源:北京软件和信息服务业协会    分享到:

图神经网络是近几年业界学界的一个重要研究方向。近年来,图神经网络(GNN)在社交网络、知识图谱、推荐系统甚至生命科学等各个领域都得到了越来越广泛的应用。目前,对于语音、图像、文本等结构化的数据,深度学习善于处理,但对于社交网络、知识图谱、复杂的文件系统等非结构化的数据,图神经网络则比较擅长。图神经网络处理非结构化数据的出色能力使其在网络数据分析、推荐系统、物理建模、自然语言处理和图像的组合优化方面都取得了新的突破。

那么,图神经网络是什么?图神经网络是如何应用到具体场景的呢?它在应用场景中发挥了怎样的作用呢?

针对这些问题,9月22日,由北京软件和信息服务业协会主办的“创新案例 北京实践”系列分享第十四期邀请到汽车之家高级总监韩友进行了分享。韩友以《图神经网络在汽车之家场景的实践》为主题,介绍了图神经网络的相关背景和图神经网络的几种算法,分享了图算法在汽车之家的落地应用案例,展示了图算法的实际应用价值。

image.png

汽车之家高级总监韩友在直播分享

一、图神经网络的背景

韩友表示,图神经网络是一种基于图结构的深度学习方法。今天要介绍的图和大家平常理解的图片不一样,这里的图指的是网络图,主要由节点和边构成。网络图的应用很多,如社交网络图、分子结构图、互联网图、地铁站点图、论文引用图、大脑神经元网络图等等。图网络的一个主要优点是擅长推理、可解释性强。

汽车之家是提供一站式看车、买车和用车的服务平台,提供了优质的汽车消费和汽车生活服务。其中汽车之家APP拥有月活跃用户约五千万,每天可产生海量的用户行为数据,包括比如用户浏览的车品牌、车型、车资讯,以及参与哪些款车的论坛讨论等,这些用户行为及车的属性构成了一个复杂的网络关系。图网络能反映出哪些用户喜欢关注车的外观或发动机;对于新能源用户,哪些人关注续航里程等。

二、图神经网络的几种经典算法

在介绍图的应用之前,韩友先介绍了几个经典的图算法。

深度游走(DeepWalk)。Deepwalk的思想类似word2vec,结合random walk,使用图中节点与节点的共现关系来学习节点的向量表示,该算法主要有两个步骤:step1: 在图中的节点上执行随机游走生成节点序列;step2: 运行skip-gram等算法,根据step1中生成的节点序列学习每个节点的嵌入。

DeepWalk主要缺点有无法有效的对远距离的具有结构相似性的节点进行建模,且优化过程中未使用明确的目标函数,使得模型保持网络结构的能力受到限制。

Node2Vec。node2vec是一种综合考虑DFS邻域和BFS邻域的graph embedding方法,也可以看作是deepwalk的一种扩展,通过增加引入两个参数来控制随机游走。

GraphSage。GCN即属于一种直推式(transductive)的学习,而Graphsage是一种归纳式(inductive)学习,其核心思想是通过学习对邻居顶点进行聚合表示的函数来产生目标顶点的embedding向量。出于对计算效率的考虑,对每个顶点采样一定数量的邻居顶点作为待聚合信息的顶点。

图注意力网络(GAT)。GAT在传播过程引入自注意力机制,即利用神经网络学习中心节点的各个邻居节点的权重因子,再通过学习到的权重因子乘以邻居节点的特征来聚合表征中心节点,以此来更新中心节点的特征。

基于图卷积的协同过滤推荐算法(NGCF)。主要用在推荐领域,从字面来看是图神经网络的协同过滤算法。其传播过程分为message construction(消息构造)和message aggregation(消息聚合)两部分。

LightGCN。和NGCF的不同点在于,lightGCN将GCN中最常见的两种设计:特征转换和非线性激活弃用,在多组试验数据下,它们对模型并无实质性作用,所以在工业界被广泛应用。

三、图神经网络在汽车之家的落地应用

汽车之家是一个典型的场景化服务平台,看车、买车、用车三大场景贯穿用户整个生命周期,并通过信息流、搜索等五大类业务线承载这些场景的建设。场景本身复杂,且部分场景之间转化难度很大;不同类型的用户在不同场景下诉求差异大,而且买车、用车本身是低频场景,用户决策路径长、每类场景的行为稀疏;同时由于资讯和活动的特性,业务对推荐准确性、冷启效率的要求都比较高;因此如何能够智能化地理解用户与车,场景化串联业务域,给用户丝滑般的看买用体验,是汽车之家亟待解决的问题。

当前,传统推荐算法主要存在三大问题:一是基于直接关系,稀疏数据拟合困难;二是探索期长,冷启效率差,且易产生马太效应;三是汽车行业结构化数据融合能力差,推理能力弱等问题。针对这些问题,汽车之家通过图预训练优化、Side information优化等方法来解决,图模型可以有效的利用行为关系和结构化数据,提升推荐的准确率和冷启效率,提高用户看买用体验。

许多场景中都存在大量无标签数据,如何更加有效地利用这部分数据与信息是个很重要的问题。一种合理的解决方案是通过自监督任务进行预训练。另外,由于传统交叉特征的长尾稀疏性导致的泛化性不足、存储开销大,因此,汽车之家还通过交互特征的图预训练模型挖掘交互特征,并在实际应用中取得不错效果。

由于汽车垂类场景存在丰富的结构化知识数据,传统的side information主要融入一阶的KG特征,存在高阶结构化特征难以捕捉等问题。传统的融入图推荐算法中的side information更多考虑flat特征,忽略了KG这种结构化的数据之间的关系,限制了KG作为特征的效果。

因此,汽车之家引入知识图谱,针对目前的图谱关系引入R-GCN进行信息的聚合,RGCN是一种在知识图谱领域用于多元关系聚合的方法,针对每种关系定义一个聚合参数,每个节点的对多种关系的邻居进行节点进行聚合,最终得到节点在图谱中的表征。采用这种方式得到特征表达,融入到下游的推荐场景中,得到不错的提升。

总之,针对汽车之家业务场景中存在稀疏及冷启问题,可引入图算法解决;通过图预训练及side information进行优化,可应用于推荐、搜索、点后推等场景。未来,汽车之家将在多模态预训练、多域跨场景、基于图的因果推断与可解释性、鲁棒性优化、联邦学习与隐私保护方面,进一步优化其能力。

在访谈互动环节,主持人与韩友就图神经网络的相关问题进行了热烈互动。

image.png

汽车之家韩友接受北京软协主持人采访

针对图神经网络在汽车之家落地的场景、效果及采用图神经网络的原因,韩友表示,目前图神经网络已经全方位的在之家的看车、买车、用车等各个场景都得到了落地应用,包括看车场景首页推荐、看买转化场景点后推、买车场景的搜索等重要产品,贯穿召回、粗排、精排等各个系统链路,并取了较好的效果,比如在推荐等场景的CTR AUC、CTCVR提升效果非常明显,其中搜索场景(相关搜索推荐\sug\选车推荐)线索转化率提升+5%。至于为什么选用图模型,是因为图模型对于结构化的数据具有非常好的刻画能力,非常契合之家海量用户看车买车用场景目前面临的新户、新物料的冷启及稀疏问题,能大大提升用户体验及客户经营效率。

提到为什么要用对比学习来做图的预训练,以及预训练模型用到的场景或者业务线,韩友表示,首先,丰富的有标签数据通常是有限的,获取代价昂贵。其次,系统的长尾流量通常表征能力不足,反应到图上是低度的节点学习困难;另一方面是鲁棒性问题,即如何在有噪声数据上更好的学习。交互数据中包含着很多噪声,而基于邻域节点汇聚的范式,会扩大“噪声观测边”的影响力,导致最终学习的表征受到噪声交互数据的影响比较大。其次,对比学习是自监督学习中非常简洁有用的一种范式,着重于学习同类实例之间的共同特征,区分非同类实例之间的不同之处。与生成式学习比较,对比式学习不需要关注实例上繁琐的细节,只需要在抽象语义级别的特征空间上学会对数据的区分即可,因此模型以及其优化变得更加简单,且泛化能力更强。最后,采用对比学习进行图预训练,能够获得更加均匀的表示空间,解决长尾上表示不足的问题,同时通过graph-level以及feature-level的增强操作,通过对比loss充分挖掘利用难负例,有效对抗系统噪声,提升图模型鲁棒性。

预训练模型接入较多的场景,例如看车以及买车的推荐,搜索点后推荐的排序等,可作为CTR模型的输入特征(特别是交叉特征),丰富特征表达,提升排序模型的效果。

关于汽车之家在AI方向的布局,韩友表示,汽车之家AI方向的员工从之前几十人已发展到目前100多人。AI技术应用场景有推荐、搜索、精准广告推荐、语音识别、视频生成技术等,有效提升了看买用车的用户体验,多次在CVPR等国际大赛中获奖。

关于当前我国图神经网络的主要应用领域,韩友认为,图神经网络技术已经广泛运用于我国互联网,智慧金融、智能交通(比如预测城市交通流量)、化工领域(化学分子性质预测)、生物医药等重要领域。具体而言,在互联网的推荐领域中,比如汽车之家用图算法来改善汽车及相关资讯的推荐的用户体验;在生物医药领域,图目前已经广泛在新药研发、有机物合成上,极大提升了药物研发效率;在金融领域,图模型在风险控制、黑产挖掘等,也发挥着重要的作用。

本次分享活动,让与会人员对图神经网络有了一定的了解,对图神经网络在汽车之家的应用有了更清晰的认识。北京软协希望相关厂商和应用企业能通过北京软协平台有更多的交流互动机会,共同促进图神经网络的发展,推动人工智能在各产业落地。

回放二维码 (9.22).png

扫码回放


你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.