【阅读笔记】On the Dimensionality of Word Embedding

Yin Z , Shen Y . On the Dimensionality of Word Embedding[J]. 2018.
https://github.com/ziyin-dl/word-embedding-dimensionality-selection

引入

本文是探讨 Word Embedding 维度的 bias-variance trade-off，提出了 Pairwise Inner Product (PIP) loss 来作为 Word Embedding 的指标，并且探讨一些 Word Embedding 方法的鲁棒性。
本文基于下面两个 preliminaries：

Word embeddings 是 unitary-invariant 的（体现了旋转特性不变，具体而言就是进行酉变换，就是词向量乘一个酉矩阵，不改变词向量特性。酉矩阵： $UU^T=U^TU=Id$ ）
大多数 Word Embedding 是共现矩阵显式或隐式的低秩近似
- Latent Semantics Analysis (LSA) 是将共现矩阵 SVD 分解为 $M=UDV^T$ ，然后取 $U_{1:k}D_{1:k}^{\alpha}$ 作为 Embedding（显式）
- Skip-gram 和 GloVe 都是对 Pointwise Mutual Information (PMI) matrix 用低纬的向量的乘积作为矩阵元素的近似（隐式）

PIP Loss: a Novel Unitary-invariant Loss Function for Embeddings

下面先给出两个定义：

对于给定的 embedding matrix $E$ ，定义 Pairwise Inner Product (PIP) matrix 为 $PIP(E)=EE^T$
定义 PIP loss 为 $||PIP(\hat{E}) − PIP(E)||$ （元素之间的均方根， $\hat{E}$ 为用给定数据训练的词向量， $E$ 为理想下的词向量，两个 Word Embedding 越相似，PIP loss 越小）

How Does Dimensionality Affect the Quality of Embedding?

这一部分是理论推导，太数学了，我按我的理解翻译成比较通俗的话，理论推导暂时舍去，有啥理解不对的地方希望有缘人指正。
由于 Word embeddings 的本质是对共现矩阵 $M$ 的低阶近似，那么可以看作是 $U_{1:d}D_{1:d}^{\alpha}$ ， $\alpha$ 是由词向量方法确定的， $d$ 为向量的维度。 $M$ 的奇异值为 $\{\lambda_i\}$ ，训练数据的共现矩阵为 $\hat{M}=M+Z$ ， $Z$ 的奇异值独立同分布，均值为0，方差为 $\sigma$ 。
在这里插入图片描述
根据随机矩阵的性质可得 PIP loss 的 upper bound approximation：
$E[||EE^T-\hat{E}\hat{E}^T||]=\sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}}+2\sqrt{2n}\alpha\sigma\sqrt{\sum_{i=1}^{k}\lambda_i^{4\alpha-2}}+\sqrt{2}\sum_{i=0}^{k}(\lambda_i^{2\alpha}-\lambda_{i+1}^{2\alpha})\sigma\sqrt{\sum_{r\leq i<s}(\lambda_r-\lambda_s)^{-2}}$

$d$ 为理想情况下的维度， $k$ 为实际选择的维度。可以看出 $\sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}}$ 表示的是 bias， $k$ 越大偏差越小，其他部分为 variance，在噪声（ $\sigma$ ）一定的情况下， $k$ 越小越好。文中说将 $\sqrt{\sum_{i=k+1}^d\lambda_i^{4\alpha}}$ 作为 zeroth-order term，我的理解是只保留其中的第一项，因为奇异值随着 $i$ 变小的速度很快，主要他的大小取决于第一项，这样也省去了对与d的估计。

PIP loss 的效果

结合论文和作者在 Neural Information Processing Systems 上的演讲我们来看看 PIP loss 的作用
在这里插入图片描述

Spectrum and Noise Estimation from Corpus

下面我们就具体看看公式中的参数 $\{\lambda_i\}$ 、 $\sigma$ 如何求。根据假设 $\hat{M}=M+Z$ ，我们把数据集等分为两份， $\hat{M}_1=M+Z_1$ ， $\hat{M}_2=M+Z_2$ ， $Z_1$ 、 $Z_2$ 的方差为 $2\sigma^2$ ，那么 $\hat{M}_1-\hat{M}_2=Z_2-Z_1$ 的方差为 $4\sigma^2$ ，根据随机矩阵的性质我们得倒 $\sigma$ 的估算值
$\hat{\sigma}=\frac{1}{2n}||\hat{M}_1-\hat{M}_2||$

$n$ 为词表的大小。根绝随机矩阵的性质我们可得
$\hat{\lambda}_i=(\hat{\lambda}_i-2\sigma\sqrt{n})_+$

读后感

Word Embedding 实际上看一看做是 nlp 中神经网络的第一层，onehot 为输入的一个全链接，这样像自然会有 bias-variance trade-off。因为 Word Embedding 可以无监督的预训练，给我们带来了很多的好处，这篇文章就从理论上说明了词向量维度对结果的影响。

原文链接：https://blog.csdn.net/SrdLaplace/article/details/86073133