Yin Z , Shen Y . On the Dimensionality of Word Embedding[J]. 2018.
https://github.com/ziyin-dl/word-embedding-dimensionality-selection
引入
本文是探讨 Word Embedding 维度的 bias-variance trade-off,提出了 Pairwise Inner Product (PIP) loss 来作为 Word Embedding 的指标,并且探讨一些 Word Embedding 方法的鲁棒性。
本文基于下面两个 preliminaries:
- Word embeddings 是 unitary-invariant 的(体现了旋转特性不变,具体而言就是进行酉变换,就是词向量乘一个酉矩阵,不改变词向量特性。酉矩阵:U U T = U T U = I d UU^T=U^TU=IdUUT=UTU=Id)
- 大多数 Word Embedding 是共现矩阵显式或隐式的低秩近似
- Latent Semantics Analysis (LSA) 是将共现矩阵 SVD 分解为 M = U D V T M=UDV^TM=UDVT,然后取U 1 : k D 1 : k α U_{1:k}D_{1:k}^{\alpha}U1:kD1:kα作为 Embedding(显式)
- Skip-gram 和 GloVe 都是对 Pointwise Mutual Information (PMI) matrix 用低纬的向量的乘积作为矩阵元素的近似(隐式)
PIP Loss: a Novel Unitary-invariant Loss Function for Embeddings
下面先给出两个定义:
- 对于给定的 embedding matrix E EE,定义 Pairwise Inner Product (PIP) matrix 为 P I P ( E ) = E E T PIP(E)=EE^TPIP(E)=EET
- 定义 PIP loss 为 ∣ ∣ P I P ( E ^ ) − P I P ( E ) ∣ ∣ ||PIP(\hat{E}) − PIP(E)||∣∣PIP(E^)−PIP(E)∣∣(元素之间的均方根,E ^ \hat{E}E^为用给定数据训练的词向量,E EE为理想下的词向量,两个 Word Embedding 越相似,PIP loss 越小)
How Does Dimensionality Affect the Quality of Embedding?
这一部分是理论推导,太数学了,我按我的理解翻译成比较通俗的话,理论推导暂时舍去,有啥理解不对的地方希望有缘人指正。
由于 Word embeddings 的本质是对共现矩阵M MM的低阶近似,那么可以看作是E = U 1 : d D 1 : d α E = U_{1:d}D_{1:d}^{\alpha}E=U1:dD1:dα,α \alphaα是由词向量方法确定的,d dd为向量的维度。M MM的奇异值为{ λ i } \{\lambda_i\}{λi},训练数据的共现矩阵为M ^ = M + Z \hat{M}=M+ZM^=M+Z,Z ZZ的奇异值独立同分布,均值为0,方差为σ \sigmaσ。
根据随机矩阵的性质可得 PIP loss 的 upper bound approximation:
E [ ∣ ∣ E E T − E ^ E ^ T ∣ ∣ ] = ∑ i = k + 1 d λ i 4 α + 2 2 n α σ ∑ i = 1 k λ i 4 α − 2 + 2 ∑ i = 0 k ( λ i 2 α − λ i + 1 2 α ) σ ∑ r ≤ i < s ( λ r − λ s ) − 2 E[||EE^T-\hat{E}\hat{E}^T||]=\sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}}+2\sqrt{2n}\alpha\sigma\sqrt{\sum_{i=1}^{k}\lambda_i^{4\alpha-2}}+\sqrt{2}\sum_{i=0}^{k}(\lambda_i^{2\alpha}-\lambda_{i+1}^{2\alpha})\sigma\sqrt{\sum_{r\leq i<s}(\lambda_r-\lambda_s)^{-2}}E[∣∣EET−E^E^T∣∣]=i=k+1∑dλi4α+22nασi=1∑kλi4α−2+2i=0∑k(λi2α−λi+12α)σr≤i<s∑(λr−λs)−2
d dd为理想情况下的维度,k kk为实际选择的维度。可以看出∑ i = k + 1 d λ i 4 α \sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}}∑i=k+1dλi4α表示的是 bias,k kk越大偏差越小,其他部分为 variance,在噪声(σ \sigmaσ)一定的情况下,k kk越小越好。文中说将∑ i = k + 1 d λ i 4 α \sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}}∑i=k+1dλi4α作为 zeroth-order term,我的理解是只保留其中的第一项,因为奇异值随着i ii变小的速度很快,主要他的大小取决于第一项,这样也省去了对与d的估计。
PIP loss 的效果
结合论文和作者在 Neural Information Processing Systems 上的演讲我们来看看 PIP loss 的作用



Spectrum and Noise Estimation from Corpus
下面我们就具体看看公式中的参数{ λ i } \{\lambda_i\}{λi}、σ \sigmaσ如何求。根据假设M ^ = M + Z \hat{M}=M+ZM^=M+Z,我们把数据集等分为两份,M ^ 1 = M + Z 1 \hat{M}_1=M+Z_1M^1=M+Z1,M ^ 2 = M + Z 2 \hat{M}_2=M+Z_2M^2=M+Z2,Z 1 Z_1Z1、Z 2 Z_2Z2的方差为2 σ 2 2\sigma^22σ2,那么M ^ 1 − M ^ 2 = Z 2 − Z 1 \hat{M}_1-\hat{M}_2=Z_2-Z_1M^1−M^2=Z2−Z1的方差为4 σ 2 4\sigma^24σ2,根据随机矩阵的性质我们得倒σ \sigmaσ的估算值
σ ^ = 1 2 n ∣ ∣ M ^ 1 − M ^ 2 ∣ ∣ \hat{\sigma}=\frac{1}{2n}||\hat{M}_1-\hat{M}_2||σ^=2n1∣∣M^1−M^2∣∣
n nn为词表的大小。根绝随机矩阵的性质我们可得
λ ^ i = ( λ ^ i − 2 σ n ) + \hat{\lambda}_i=(\hat{\lambda}_i-2\sigma\sqrt{n})_+λ^i=(λ^i−2σn)+
读后感
Word Embedding 实际上看一看做是 nlp 中神经网络的第一层,onehot 为输入的一个全链接,这样像自然会有 bias-variance trade-off。因为 Word Embedding 可以无监督的预训练,给我们带来了很多的好处,这篇文章就从理论上说明了词向量维度对结果的影响。