度量相似性数学建模_链路预测之基于准局部信息的3个相似性指标

6a23f077157c081a9cd4e2ef4e07c8d7.png

本篇文章对链路预测中的3个准局部相似性指标做阐述。

准局部相似性指标考虑的信息比局部指标更多,而放弃对预测精度没有贡献或贡献很小的多余信息。

(1)

。其作用范围比
更广,定义为:

是自由参数。显然,当
时,这个度量退化为
。如果
不是直接连接的,
等于连接x和y的长度为3的不同路径的数目,有:

为最大阶数。随着
的增加,这一指标对信息量和计算量提出了更高的要求。特别地,当
时,
将等价于考虑网络中所有路径的
指数。该指标在不相关网络中的计算复杂度为
,随
的增加而迅速增长,当
较大时,将超过
指标的计算复杂度(近似于
)。实验结果表明,最优
与网络的平均最短距离呈正相关。

指标的性能明显优于基于邻域的索引,如
。这是因为邻域信息的可区分性较差,并且两个节点对被分配相同的相似度分数的概率很高。以INT网络为例,其共有
多个节点对,其中
的节点对被
赋值为零。对于得分高于
的所有节点对,
被分配得分
被分配得分
。使用更多涉及下一个最近邻居的信息可能会打破状态的退化,并使相似性得分更容易区分。这就是
指标大幅提高预测精度的原因。

指标与另外两个依赖路径的全局指标(
指标)的比较如图所示,根据
值,
指标执行得最好,而
指标对于
而言是最好的。对于平均最短距离较小的网络(例如,USAIR和PB),
指标对
给出了最准确的预测。总而言之,与全局指标相比,而
指标提供了具有竞争力的良好预测,同时计算量要少得多。

23e29200a7c2aef0bc22e038cc64cd8f.png

(2)

。为了测量节点
之间的相似性,首先在节点
上放置一个随机游走器,因此初始密度向量
。当
时,该密度向量演化为
,则
指标在时间步长
定义为:

其中

是初始配置函数。在文献
Link Prediction based on Local Random Walk
应用了一个由节点度决定的简单形式,即

(3)

。与
类似,在起始点连续释放随机游走者,使得目标节点与附近节点具有更高的相似度。数学表达式为

为时间步长。

将指标

与三个局部(或准局部)指标
,以及另外两个基于随机游走的全局指数
和层次结构方法
进行比较。结果如图:

f54a9eb486ed719215f345ef4ef6fd54.png

的参数
(在
),
的参数
。括号内的数字表示LRW和SRW标数的最佳步长。例如,
表示在
的第二步获得最佳
值。

方法的性能优于其他指标,它们各自的最优步行步长与网络的平均最短距离呈正相关。此外,
的计算复杂度低于
,其求逆和伪逆的时间复杂度约为
,而
的时间复杂度约为
,忽略了网络的异构度。也就是说,当
较小时,
的运行速度远远快于其他基于随机游走的全局相似性指数。
具有计算复杂度低的优点,在大型(即大
)和稀疏(即小
)网络中尤为突出。
动机相似。
应用于解决分类问题,既能降低时间复杂度,又能降低空间复杂度。

版权声明:本文为weixin_30841011原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。