音频人声分离

语音分离:语音和非语音(噪音);人声分离:多个说话者的声音分离。

Speaker Separation:输入一段声音序号,输出两段声音序号。目前聚焦在两个说话者声音序号混在一起、单一麦克风的情况下,训练和测试是不同的语者;输入和输出的声音长度是一样的,所以一般不用Seq2Seq模型。

一、评估

1.Signal-to-noise ratio(SNR)

模型的输出真实语音越接近就代表模型的性能越好;E越小,SNR就无穷大。

SNR缺点:每个声音序号当作向量来表示,模型输出和真实语音完全平行,但模型输出声音小些,结果SNR的值相差较大,但只要将声音调大,SNR就会得到一个较好的值。

 2.Scale invariant signal-to-distortion ratio(SI-SDR)

有时文献里SI-SDR=SI-SNR,将模型输出X^{*}投影到真实语音\hat{X}上得到X_{T},另一部分与\hat{X}垂直,则SISDR=10log_{10}\frac{\left \| X_{T} \right \|^{2}}{\left \| X_{E} \right \|^{2}}X^{*}\hat{X}越平行,SISDR越大; X^{*}\hat{X}越垂直,SISDR越小。

 论文中常见的是SI-SDR的改进:SI-SDR_{i}=SI-SDR_{2}-SI-SDR_{1}

还有一些其他评价指标:PESQ和STOI(短时客观可懂度)。

3.Permutation Issue

在单通道语音分离中,几个语音信号被混合在一起y=\sum _{n=1}^{N}x_{n},(其中N表示声音源的个数),目的是将N个信号从y中提取出来。举个简单例子:用两个声音源y=x1+x2,使用一个具有两个输出口(o1,o2)的模型。这里存在两种可能的标签分配:(1)o1对应x1和o2对应x2;(2)o1对应x2和o2对应x1,这两个标签分配导致两个不同的损失函数用于模型训练。当N>=2时就有N!个标签分配,不正确的标签分配自然会迫使分离模型更新到错误的方向,甚至可能破坏之前学到的内容。


版权声明:本文为Mianbao_原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。