参考文献为Link Prediction in Complex Networks: A Survey
链接预测方法最简单的框架是基于相似度的算法,其中为每对节点x xx和y yy分配一个分数S x y S_{xy}Sxy,该分数直接定义为x xx和y yy之间的相似度(或邻近度)。所有未观察到的链接均根据其得分进行排名,并且连接更多相似节点的链接被认为具有较高的存在可能性。节点相似性可以通过使用节点的基本属性来定义:如果两个节点具有许多共同特征,则认为它们是相似的。
本文主要介绍10个基于局部信息的相似性指标。
1 局部相似性指标
(1)C o m m o n N e i g h b o u r s ( C N ) \small Common\ Neighbours(CN)Common Neighbours(CN)。对于一个节点x \small xx,让Γ ( x ) \small Γ(x)Γ(x)表示x \small xx的邻域集合。一般来说,两个节点,x \small xx和y \small yy,如果有许多共同的邻居,则更有可能有一条链接。此邻域重叠的最简单度量是有向计数,即s x y C N = ∣ Γ ( x ) ∩ Γ ( y ) ∣ . \small s^{CN}_{xy}= |Γ(x) ∩ Γ(y)|.sxyCN=∣Γ(x)∩Γ(y)∣.
显然,S x y = ( A 2 ) x y \small S_{xy}=(A^2)_{xy}Sxy=(A2)xy,A \small AA为邻接矩阵。若x xx和y yy直接相连,则A x y = 1 \small A_{xy}=1Axy=1,否则A x y = 0 \small A_{xy}=0Axy=0。( A 2 ) x y \small (A^2)_{xy}(A2)xy是连接x xx和y yy的长度为2的不同路径的数目。
(2)S a l t o n I n d e x \small Salton\ IndexSalton Index(称余弦相似性)。
s x y S a l t o n = ∣ Γ ( x ) ∩ Γ ( y ) ∣ k x × k y . \small s^{Salton}_{xy}= \frac{|Γ(x) ∩ Γ(y)|}{\sqrt{k_x × k_y}}.sxySalton=kx×ky∣Γ(x)∩Γ(y)∣.
其中k x \small k_xkx为节点x xx的度数。
(3) J a c c a r d I n d e x \small Jaccard\ IndexJaccard Index
S x y J a c c a r d = ∣ Γ ( x ) ∩ Γ ( y ) ∣ ∣ Γ ( x ) ∪ Γ ( y ) \small S^{Jaccard}_{xy} = \frac{|Γ(x) ∩ Γ(y)|}{|Γ(x) ∪ Γ(y)}SxyJaccard=∣Γ(x)∪Γ(y)∣Γ(x)∩Γ(y)∣
(4)S o r e n s e n I n d e x \small Sorensen\ IndexSorensen Index。该指标主要用于生态群落数据,定义为
S x y s o r e n s e n = 2 ∣ Γ ( x ) ∩ Γ ( y ) ∣ k x + k y \small S^{sorensen}_{xy} = \frac{2|Γ(x) ∩ Γ(y)|}{k_x+k_y}Sxysorensen=kx+ky2∣Γ(x)∩Γ(y)∣
(5)H u b P r o m o t e d I n d e x ( H P I ) \small Hub\ Promoted\ Index (HPI)Hub Promoted Index(HPI)。该指标是为了量化代谢网络中底物对的拓扑重叠而提出的,其定义为:
S x y H P I = ∣ Γ ( x ) ∩ Γ ( y ) ∣ m i n { k x , k y } \small S^{HPI}_{xy} = \frac{|Γ(x) ∩ Γ(y)|}{min\lbrace k_x,k_y\rbrace}SxyHPI=min{kx,ky}∣Γ(x)∩Γ(y)∣
在这一衡量标准下,由于分母仅由较小的度数决定,因此与中心节点相邻的链路可能会被分配高分。因为离中心节点越近,分母越小,H P I \small HPIHPI数值就越大。
(6)H u b D e p r e s s e d I n d e x ( H D I ) \small Hub\ Depressed\ Index (HDI)Hub Depressed Index(HDI)
S x y H D I = ∣ Γ ( x ) ∩ Γ ( y ) ∣ m a x { k x , k y } \small S^{HDI}_{xy} = \frac{|Γ(x) ∩ Γ(y)|}{max\lbrace k_x,k_y\rbrace}SxyHDI=max{kx,ky}∣Γ(x)∩Γ(y)∣
(7)L e i c h t − H o l m e − N e w m a n I n d e x ( L H N 1 ) \small Leicht-Holme-Newman Index(LHN1)Leicht−Holme−NewmanIndex(LHN1)。该指标为具有许多公共邻居的节点对分配高相似度,不是与可能的最大值相比,而是与此类邻居的预期数量相比。它被定义为
S x y L H N 1 = ∣ Γ ( x ) ∩ Γ ( y ) ∣ k x × k y \small S^{LHN1}_{xy} = \frac{|Γ(x) ∩ Γ(y)|}{k_x × k_y}SxyLHN1=kx×ky∣Γ(x)∩Γ(y)∣
其中分母k x × k y k_x×k_ykx×ky与配置模型中节点x和y的公共邻居的预期数量成比例
(8)P r e f e r e n t i a l A t t a c h m e n t I n d e x ( P A ) \small Preferential\ Attachment\ Index(PA)Preferential Attachment Index(PA)。优先连接机制可用于生成演化的无标度网络,其中新链路连接到节点x xx的概率与k x k_xkx成正比。在每一个时间戳,一个旧的链路被移除,一个新的链路被生成。这种新的链路连接x xx和y yy的概率与k x × k y k_x×k_ykx×ky成正比,在这种机制的激励下,相应的相似性指数可以定义为
S x y P A = k x × k y \small S^{PA}_{xy} = k_x × k_ySxyPA=kx×ky
它被广泛用于量化受各种网络动力学影响的链路的功能重要性,如渗滤、同步和运输。该指标不需要每个节点的邻域信息,因此,它的计算复杂性最小。
(9)A d a m i c − A d a r I n d e x ( A A ) \small Adamic-Adar\ Index (AA)Adamic−Adar Index(AA)。该指标通过赋予较少连接的邻域更多的权重来细化公共邻域的简单计数,定义为
S x y A A = ∑ z ∈ Γ ( x ) ∩ Γ ( y ) 1 l o g k z \small S^{AA}_{xy} = \sum_{z\in Γ(x) ∩ Γ(y)} \frac{1}{log k_z}SxyAA=z∈Γ(x)∩Γ(y)∑logkz1
(10)R e s o u r c e A l l o c a t i o n I n d e x ( R A ) \small Resource\ Allocation\ Index (RA)Resource Allocation Index(RA)。这个指数是由复杂网络上的资源分配动态引起的。考虑一对节点x xx和y yy,它们不是直接连接的。节点x xx可以向y yy发送一些资源,它们的公共邻居扮演发送器的角色。在最简单的情况下,我们假设每个发送器都有一个资源单元,并将其平均分配给它的所有邻居。x xx和y yy之间的相似性可以定义为从x xx接收到的资源y yy的数量,即
S x y R A = ∑ z ∈ Γ ( x ) ∩ Γ ( y ) 1 k z \small S^{RA}_{xy} = \sum_{z\in Γ(x) ∩ Γ(y)} \frac{1}{k_z}SxyRA=z∈Γ(x)∩Γ(y)∑kz1