语音分离：语音和非语音（噪音）；人声分离：多个说话者的声音分离。

Speaker Separation：输入一段声音序号，输出两段声音序号。目前聚焦在两个说话者声音序号混在一起、单一麦克风的情况下，训练和测试是不同的语者；输入和输出的声音长度是一样的，所以一般不用Seq2Seq模型。

一、评估

1.Signal-to-noise ratio（SNR）

模型的输出和真实语音越接近就代表模型的性能越好；E越小，SNR就无穷大。

SNR缺点：每个声音序号当作向量来表示，模型输出和真实语音完全平行，但模型输出声音小些，结果SNR的值相差较大，但只要将声音调大，SNR就会得到一个较好的值。

2.Scale invariant signal-to-distortion ratio(SI-SDR)

有时文献里SI-SDR=SI-SNR，将模型输出 $X^{*}$ 投影到真实语音 $\hat{X}$ 上得到 $X_{T}$ ，另一部分与 $\hat{X}$ 垂直，则 $SISDR=10log_{10}\frac{\left \| X_{T} \right \|^{2}}{\left \| X_{E} \right \|^{2}}$ ， $X^{*}$ 与 $\hat{X}$ 越平行，SISDR越大； $X^{*}$ 与 $\hat{X}$ 越垂直，SISDR越小。

论文中常见的是SI-SDR的改进： $SI-SDR_{i}=SI-SDR_{2}-SI-SDR_{1}$

还有一些其他评价指标：PESQ和STOI(短时客观可懂度)。

3.Permutation Issue

在单通道语音分离中，几个语音信号被混合在一起 $y=\sum _{n=1}^{N}x_{n}$ ，（其中N表示声音源的个数），目的是将N个信号从y中提取出来。举个简单例子：用两个声音源y=x1+x2,使用一个具有两个输出口（o1,o2）的模型。这里存在两种可能的标签分配：（1）o1对应x1和o2对应x2；（2）o1对应x2和o2对应x1，这两个标签分配导致两个不同的损失函数用于模型训练。当N>=2时就有N！个标签分配，不正确的标签分配自然会迫使分离模型更新到错误的方向，甚至可能破坏之前学到的内容。

原文链接：https://blog.csdn.net/Mianbao_/article/details/123217075