摘要

  PercepNet是RNNoise的最新扩展,是一种高效、高质量和实时的全频带语音增强技术,在各种公共深度噪声抑制任务中显示出了良好的性能。本文提出了一种名为PercepNet+的新方法,通过四个显著改进来进一步扩展PercepNet。首先,我们引入一种相位感知结构,通过分别添加复数特征和复数子带增益作为深度网络的输入和输出,将相位信息利用到PercepNet中。然后,专门设计了信噪比(SNR)估计器和SNR切换后处理,以缓解原始PercepNet在高信噪比条件下出现的过衰减(OA)。此外,用TF-GRU代替GRU层来建模时间和频率依赖性。最后,我们提出以多目标学习的方式集成复数子带增益损失、信噪比、基音滤波强度和OA损失,以进一步提高语音增强性能。实验结果表明,提出的PercepNet+无论在PESQ还是STOI上都明显优于原PercepNet,且模型规模没有增加太多。

索引术语: 语音增强,相位感知结构,信噪比开关后处理,多目标学习

1  引言

  语音增强(SE)旨在提高噪声条件下的语音感知质量和可理解性。最近,基于深度学习的SE方法[1,2]表现出优于大多数传统方法的性能,如对数谱幅度估计[3]、谱减法[4]等。在许多场景中,如电信和在线会议,要求SE系统同时满足良好的去噪性能和实时约束。对于实时SE,目前主流的方法可以分为两类。

  1. 一种是基于U-Net结构的端到端系统[5,6],如DCCRN[7]、DCCRN+[8]、DPCRN[9]等。
  2. 一种是感知驱动的混合信号处理/深度学习方法,如RNNoise[10]及其扩展,如PercepNet[11]、Personalized PercepNet[12]等。

  我们的工作重点是改进PercepNet,因为它在提高语音感知质量和噪声抑制方面具有出色的能力。

  PerceptNet[11]旨在以低复杂度增强全频带(48 kHz采样)噪声语音,并已被证明即使在少于5%的CPU核心(1.8 GHz Intel i7-8565U CPU)上运行也能实时提供高质量的语音增强。与最先进的端到端SE方法的傅里叶变换bin不同,PerceptNet的特点是语音短时傅里叶变换(STFT)频谱从0到20 kHz只有34个频段,根据人类听力等效矩形带宽(ERB)尺度[13],这大大降低了系统的计算复杂度。结合基音滤波器和包络后滤波的设计,PercepNet可以产生高质量的增强语音。

  然而,我们发现,与低信噪比的增强带噪语音相比,当输入带噪语音的信噪比相对较高时,PercepNet的过衰减(OA)要严重得多,它显著地损害了增强语音的感知质量(甚至比原始噪声语音更严重)。这种更严重的质量损害可能是由于对频带增益的不准确估计,以及通过包络后滤波进一步增强语音以去除残留噪声,因为从人类的感知来看,高信噪比噪声语音实际上是一个纯净语音。此外,在PercepNet处理过程中,只对语音谱包络进行增强,直接利用噪声语音的相位重构目标纯净语音。所有这些提到的问题可能会限制PercepNet的性能。

  为了开发一个性能更好、更健壮的实时SE系统,在本研究中,我们重点对PercepNet进行改进,进一步增强其语音去噪能力,实现更好的语音感知质量。主要贡献如下:

  1. 引入相位感知结构,通过添加复数子带特征作为附加的深度网络输入,用子带实部和虚部增益代替原有的能量增益,利用相位信息实现纯净语音的构建;
  2. 为了解决增强高信噪比带噪语音的过衰减问题,减轻感知质量的损害,设计了信噪比估计器和信噪比开关后处理来控制残余噪声的去除程度;
  3. 我们用TF-GRU结构替换PercepNet中的前两个GRU[14]层,以很好地学习时间尺度的时间和频率依赖性;
  4. 基于上述修正,我们最终提出通过多目标训练的方式学习复增益、信噪比、原基音滤波强度以及OA损耗,进一步提高SE性能。

  与PercepNet相比,我们提出的PercepNet+在公共VCTK[17]测试集上实现了0.19 PESQ[15]和2.25% STOI[16]的绝对增益,在模拟测试集[18]上实现了0.15 PESQ和2.93% STOI增益。

2  PercepNet

  PercepNet是一种感知驱动的方法,用于对全频频段语音[11]进行低复杂度的实时增强。它从34个三角形频带中提取各种手工制作的基于erb的子带声学特征作为模型输入。该模型输出能量增益,然后将$\hat{g}_b$与带噪语音的基音滤波频谱相乘以去除背景噪声,其中基音滤波器为梳状滤波器,旨在去除基音谐波[19]之间的噪声。每个ERB频段的基音滤波器的效果由基音滤波器强度$\hat{r}_b$控制。$\hat{g}_b$和$\hat{r}_b$都是由一个深度神经网络(DNN)自动学习的,该神经网络主要由两个卷积层和五个GRU层组成。DNN模型利用当前帧和三个额外的未来帧的特征来计算其输出,这使PercepNet实现了30毫秒的 lookahead。通过包络后滤波,进一步增强去噪后的语音。更多细节可在[11]中找到。

3  提出的PercepNet+

  如第一节所述,我们将PercepNet扩展到PercepNet+的四个新方面: 相位感知结构、信噪比估计器和信噪比切换后处理、多目标损失函数和更新的TF-GRU块。图1展示了PercepNet+的整个框架,所有暗红色的块和线都是我们对原始PercepNet[11]的改进。

论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement-LMLPHP

图1:拟议的PercepNet+算法框架。所有暗红色的块和线是我们对原来的PercepNet[11]的改进

(a) PercepNet+概述

(b) PercepNet+的DNN模型架构

3.1 相位感知结构

  由于PercepNet的DNN输入特征与34个ERB频段绑定,如图1所示,原始70维声学特征$f_o$由68维频段相关特征(34为频谱能量,34为pitch coherence(相干))、一个基音周期[20]和一个基音相关[21]组成。对于每个频段$b$,DNN模型输出两个元素:能量增益$\hat{g}_b$和基音滤波强度$\hat{r}_b$。这些特征只关注增强噪声谱包络和基音谐波,而忽略了相位信息[22]对人的感知有显著影响的重要性。

  为了利用PercepNet+中的相位信息,我们将噪声语音$y(n)$的STFT的实部和虚部直接连接到每个ERB频段,形成一个共68维的复特征$f_c$。然后,如图1(b)所示,将线性变换后的(FC层)$f_o$和$f_c$连接起来,训练改进后的DNN模型。在增加复特征的同时,我们还将原有的能量增益替换为复数增益,以更加关注相位,如图1(b)所示。具体而言,我们提出网络学习实部增益和虚部增益$g_b^r$和$g_b^i$,以重建目标纯净语音幅值和相位谱,并定义为:

$$公式1:g_b^r(t)=\frac{\left\|X_b^r(t)\right\|_2}{\left\|Y_b^r(t)\right\|_2}, \quad g_b^i(t)=\frac{\left\|X_b^i(t)\right\|_2}{\left\|Y_b^i(t)\right\|_2}$$

其中,$X_b(t)$和$Y_b(t)$为帧$t$中ERB频段$b$的纯净信号$x(n)$及其噪声信号$y(n)$的复值频谱,$||·||_2$表示L2-norm运算。

3.2 SNR估计和SNR切换后处理

  在去除噪声的过程中容易产生语音失真,严重损害语音感知质量[23]。在PercepNet中,这种失真可能是由于能量增益估计的不准确和包络后滤波设计的不适当。在PercepNet+中,我们提出了一个信噪比估计器,并设计了一个切换信噪比的后处理,以缓解PercepNet中的语音失真。

  信噪比估计器:该估计器的灵感来自于文献[8,24]。如图1(b)所示,它由一个GRU和一个具有sigmoid激活函数的全连接(FC)层组成,在多目标学习框架下预测帧级信噪比,以保持良好的语音质量。第$t$帧$y(n)$归一化ground-truth信噪比$S(t)$[0,1]定义为

$$公式2:\begin{aligned}
&S(t)=\frac{Q(t)-\mu}{\sigma} \text { with } \\
&Q(t)=20 \log _{10}\left(X_m(t) / N_m(t)\right)
\end{aligned}$$

式中,$\mu$和$\sigma $为全噪声语音信噪比$Q(t)$的均值和标准差,$X_m(t)$和$N_m(t)$分别为纯净语音和噪声的幅度谱。

  SNR切换的MMSE-LSA后处理:尽管后处理模块被证明在去除残留噪声方面非常有效[25,26],但我们在实验中发现,在几乎没有噪声的测试样本中,后处理模块可能会损害感知质量。因此,在我们的PercepNet+中,如图1(a)所示,使用每一帧的预测信噪比$\hat{S}$来控制是否需要执行后处理模块。我们称这种策略为SNR切换后处理。如果$\hat{S}$大于预先设定的阈值,经$\hat{g}_b^r$和$\hat{g}_b^i$增强的频谱$\hat{X}_c$将直接成为最终输出。否则,$\hat{X}_c$将通过后处理进一步增强,去除残留噪声。

  此外,我们发现,传统的基于MMSE-LSA[3]的后处理在最近的端到端SE系统中取得了显著的效果[8,27]。因此,在PercepNet+中,我们还将信噪比切换后处理模块中的原始包络后滤波替换为MMSE-LSA,如下所示

$$公式3:G(t)=\operatorname{MMSE-LSA}(\xi(t), \gamma(t))$$

$$公式4:\hat{X}(t)=G(t)*\hat{X}_c(t)$$

其中,$G(t)$为MMSE-LSA帧级增益,$\hat{X}_c(t)$为经过帧$t$复增益增强的频谱,$\hat{X}(t)$为最终增强的清晰语音,如图1(a)所示,$\xi (t)$、$\gamma (t)$为先验和后验帧级信噪比,定义为[3]。

3.3  多目标损失函数

  PercepNet中DNN模型的原始损失函数$L_P$有两个部分:能量增益损失$L_g$和基音滤波强度损失$Lr$定义为:

$$公式5:\begin{aligned}
L_g &=\sum_b\left(g_b^\lambda-\hat{g}_b^\lambda\right)^2+C_1 \sum_b\left(g_b^\lambda-\hat{g}_b^\lambda\right)^4 \\
L_r &=\sum_b\left(\left(1-r_b\right)^\lambda+\left(1-\hat{r}_b\right)^\lambda\right)^2 \\
L_P &=\alpha L_g+\beta L_r
\end{aligned}$$

其中$g_b$,$\hat{g_b}$, $r_b$, $\hat{r_b}$是 ground-truth和DNN的预测的频带能量增益和基音滤波强度。$C_1$、$\lambda$、$\alpha $、$\beta$为调试参数。

  除了信噪比开关后处理,[28]的结果表明[29]中提出的不对称损耗$L_{OA}$可以有效地缓解过衰减问题。因此,我们将其适应于$L_g$,以解决在高信噪比条件下的质量下降问题

$$公式6:h(x)= \begin{cases}0, & \text { if } x \leq 0 \\ x, & \text { if } x>0\end{cases}$$

$$公式7:L_{O A}(g_b, \hat{g}_b)=|h(g_b-\hat{g}_b)|^2$$

$$公式8:L_g^{\prime}=\delta L_g+(1-\delta) L_{O A}$$

在PercepNet+中,我们没有使用$L_P$,而是使用Eq.(8)分别度量估计的$\hat{g}_b^r$、$\hat{g}_b^i$与它们的ground truth之间的差值。综合考虑原$L_r$和信噪比$L_{SNR}(S, \hat{S})$的均方误差(MSE)损失,最后使用以下整体多目标损失函数$L_{P+}$联合训练PercepNet+的DNN模型

$$公式9:\begin{aligned}
&L_{P+}=C_2 L_g^{\prime}\left(g_b^r, \hat{g}_b^r\right)+C_2 L_g^{\prime}\left(g_b^i, \hat{g}_b^i\right) \\
&\quad+C_3 L_{S N R}(S, \hat{S})+C_4 L_r\left(r_b, \hat{r}_b\right)
\end{aligned}$$

其中$C_2$, $C_3$, $C_4$是微调损失权重参数。

3.4  TF-GRU Block

  PercepNet在时间维度上用GRU层建模时间依赖性。受[30]的启发,我们使用另一个GRU层来建模频谱模式的频率演化。具体而言,如图1(b)所示,我们将PercepNet中的两个GRU层替换为两个提议的TF-GRU块,每个TF-GRU由一个Time-GRU (TGRU)层和一个Frequenecy-GRU (FGRU)层组成。FGRU学习频率方面的依赖关系,TGRU学习时间方面的依赖关系。然后将TGRU和FGRU的输出连接起来,形成最终的TF-GRU输出。调整一个TF-GRU的参数数量,使其与原始PercepNet中的一个GRU层保持一致。

4  实验步骤

4.1  数据集

  在最初的PercepNet[11]中使用的训练数据是不公开的,因此我们使用在[10]中用于训练RNNoise模型的公共数据集作为我们的训练集。纯净语音数据来自McGill TSP语音数据库[31]和NTT多语种语音数据库[32]。各种噪声源的使用,包括电脑风扇,办公室,人群,飞机,汽车,火车,建筑。总的来说,我们有6小时的纯净语音和4小时的噪声数据,这远远少于PercepNet[11]中使用的120小时语音加80小时噪声数据。该训练对通过动态混合噪声和语音进行模拟,随机信噪比范围为-5 ~ 20dB。一半的语音是由来自RIR噪声设置[33]的房间脉冲响应(RIR)卷积的。

  使用两个评估集来检验所提出的技术,一个是公共噪声VCTK测试集[17],来自8个说话人的824个样本。另一个是我们自己模拟的一个名为DNOISE[18]的测试集,信噪比范围为-5 ~ 20dB。DNOISE由108个样本组成,语音数据来自WSJ0[34]数据集,噪声数据来自RNNoise演示网站[35],包括办公室、厨房、汽车、街道和嘈杂声。

4.2  配置

  所有训练和测试数据采样为48kHz。帧的提取使用Vorbis窗口[36],大小为20毫秒,重叠为10毫秒。批大小设置为32。使用Adam优化器[37],初始收益率设置为0.001。我们将损失函数权重$\lambda$、$\alpha$、$\beta$、$\delta $分别设为0.5、4.0、1.0和0.7。$C_1$、$C_2$、$C_3$、$C_4$分别设为10、4、1和1。PercepNet+的DNN网络层参数如图1(b)所示。为了使结果具有可比性,所有其他配置都与[11]中的原始PercepNet和[10]中的RNNoise相同。用PESQ和STOI分别衡量语音质量和可解性。

5  结果和讨论

5.1  基线

  RNNoise(开源的)和它的扩展percepnet(非开源的)都被作为我们的基线。表1给出了VCTK测试集上的比较结果。模型1和3是在PercepNet[11]中发表的结果,其中模型在非公开的120小时语音和80小时噪声数据上进行训练,而模型2和4是我们实现的RNNoise和PercepNet模型,仅在6小时语音和4小时噪声数据上进行训练。很明显,PercepNet的表现明显优于它最初的RNNoise,我们的模型的PESQ分数只比[11]中的那些略差,即使我们的模型和模型1,3之间有一个非常大的训练数据大小差距(190小时)。因此,我们认为我们对PercepNet的实现是正确的,可以作为我们PercepNet+的基线。

表1:VCTK测试集上的PESQ和STOI(%)模型2, 4的训练数据比模型1, 3少190小时
论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement-LMLPHP

  另外,详细的基线结果分析如图2和图3所示,将整个VCTK测试集分为4级信噪比范围,观察PecepNet在不同信噪比条件下的去噪性能和行为。从图2中,我们发现SNR>14dB的样本在增强后的PESQ降低了。同时,在图3中,对比红色和对应的淡蓝色部分的直方图,可以看出PESQ的下降大部分发生在较高信噪比的情况下,PESQ下降的样本共202个,其中76.35%的样本信噪比大于14dB。这说明原来的PercepNet OA较重,或者在高信噪比条件下不能很好地运行。因此,在本研究中,我们将14dB作为我们提出的信噪比切换后处理阈值。

论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement-LMLPHP
图2:不同信噪比范围下噪声和PecepNet增强VCTK测试样本的PESQ
论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement-LMLPHP
图3:在VCTK测试集不同信噪比条件下,PercepNet增强后PESQ降低的细节样本分布

5.2  PercepNet+结果

表2:各种模型在VCTK和D-NOISE测试集上的PESQ和STOI(%)

论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement-LMLPHP

表3:在VCTK子测试集上,PercepNet+具有(或不具有)过衰减(OA)损失和SNR开关的PESQ得分

论文翻译:2022_PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement-LMLPHP

  表2显示了PercepNet+中所有提出的技术在VCTK和我们模拟的DNOISE测试集上的性能比较。与PercepNet相比,在VCTK测试集上,提出的PercepNet+显著提高了PESQ从2.46提高到2.65,STOI从93.43%提高到95.68%。具体而言,附加的复杂特征和增益导致PESQ和STOI的绝对增长分别为0.08和1.11%。在信噪比估计器的帮助下,我们获得了0.04的PESQ和0.27%的STOI改进。当采用信噪比切换后处理(PP)和过衰减损失时,PESQ和STOI分别达到2.62和95.49%。最后,我们看到更新后的TF-GRU结果进一步提高了性能。此外,在D-NOISE测试集上,我们从所有提出的PercepNet+技术中获得了一致的性能收益,总体PESQ为0.15,STOI为2.93%。此外,提出的PercepNet+有8.5M可训练参数,与PercepNet相比增加了0.5M,实时因子(RTF)等于0.351,这是在一台Intel(R) Xeon(R) CPU E5-2650 v2@2.60GHz单线程机器上测试的。因此,我们可以得出结论,PercepNet+在没有显著增加神经网络参数的情况下,已经大大超过了PercepNet。

5.3  SNR-sensitive 技术的性能

  我们进一步研究了所提出的OA loss和SNR切换PP在解决高信噪比条件下增强后语音感知质量下降问题上的有效性。两个VCTK子测试集($>$14dB和$\le $14dB)的结果如表3所示。对比前两行的pesq,我们发现在高信噪比的情况下,PercepNet确实会损害感知质量,如图2所示。然而,在PercepNet+中,我们看到这个问题被提出的OA 损失或信噪比切换PP有效地缓解了。当两种技术都被应用时,性能进一步略有提高,而不影响低信噪比条件下的语音感知质量。

6  结论

  在本文中,我们提出PercepNet+,通过在几个方面扩展高质量、实时和低复杂度的PercepNet来进一步提高语音增强,包括学习相位信息的相位感知结构,两个SNRsensitive改进,在去除噪声的同时保持语音感知质量,更新的TF-GRU,同时建模时间和频率尺度依赖,以及进一步提高系统性能的多目标学习。重要的是,由于提出的OA损失和信噪比切换的后期处理,原始PercepNet在高信噪比条件下对语音感知质量的严重损害已经很好地解决了。实验结果表明,所提出的PercepNet+在PESQ和STOI方面都明显优于原始的PercepNet。一些有噪声和增强的样本,包括D-NOISE测试集可以从[18]中找到。

7  参考文献

[1] Y. Xu, J. Du, L. Dai, and C. Lee, A regression approach to speech enhancement based on deep neural networks, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 23, no. 1, 2015, pp. 7 19.

[2] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 22, no. 12, 2014, pp. 1849 1858.

[3] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 33, no. 2, 1985, pp. 443 445.

[4] S. F. Boll, Suppression of acoustic noise in speech using spectral subtraction, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 27, no. 2, 1979, pp. 113 120.

[5] O. Ronneberger, P. Fischer, and T. Brox, U-net: Convolutional networks for biomedical image segmentation, in International Conference on Medical image computing and computer-assisted intervention, 2015, pp. 234 241.

[6] X. Li, H. Chen, X. Qi, Q. Dou, C.-W. Fu, and P.-A. Heng, Hdenseunet: Hybrid densely connected unet for liver and tumor segmentation from ct volumes, in IEEE Transactions on Medical Imaging, vol. 37, no. 12, 2018, pp. 2663 2674.

[7] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie, DCCRN: deep complex convolution recurrent network for phase-aware speech enhancement, in Proceedings of INTERSPEECH, 2020, pp. 2472 2476.

[8] S. Lv, Y. Hu, S. Zhang, and L. Xie, DCCRN+: Channel-Wise Subband DCCRN with SNR Estimation for Speech Enhancement, in Proceedings of INTERSPEECH, 2021, pp. 2816 2820.

[9] X. Le, H. Chen, K. Chen, and J. Lu, DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech Enhancement, in Proceedings of INTERSPEECH, 2021, pp. 2811 2815.

[10] J.-M. Valin, A Hybrid DSP/Deep Learning Approach to RealTime Full-Band Speech Enhancement, in Proceedings of IEEE Multimedia Signal Processing (MMSP), 2018, pp. 1 5.

[11] J.-M. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, and A. Krishnaswamy, A Perceptually-Motivated Approach for LowComplexity, Real-Time Enhancement of Fullband Speech, in Proceedings of INTERSPEECH, 2020, pp. 2482 2486.

[12] R. Giri, S. Venkataramani, J.-M. Valin, U. Isik, and A. Krishnaswamy, Personalized PercepNet: Real-Time, LowComplexity Target Voice Separation and Enhancement, in Proceedings of INTERSPEECH, 2021, pp. 1124 1128.

[13] B. Moore, An introduction to the psychology of hearing, Brill, 2021.

[14] K. Cho, B. van Merrienboer, D. Bahdanau, and Y. Bengio, On the properties of neural machine translation: Encoder-decoder approaches, in Proceedings of Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation (SSST-8), 2014, pp. 103 111.

[15] I. Rec, P.862.2: Wideband extension to recommendation p.862 for the assessment of wideband telephone networks and speech codecs, International Telecommunication Union,CH Geneva, 2005.

[16] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, An algorithm for intelligibility prediction of time frequency weighted noisy speech, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 19, no. 7, 2011, pp. 2125 2136.

[17] C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi, Investigating rnn-based speech enhancement methods for noiserobust text-to-speech, in Proceedings of ISCA Speech Synthesis Workshop (SSW), 2016, pp. 146 152.

[18] https://github.com/orcan369/PercepNet-plus-samples.

[19] J. H. Chen, Gersho, and A., Adaptive postfiltering for quality enhancement of coded speech, in IEEE/ACM Transactions on Acoustics, Speech, and Signal Processing, vol. 3, no. 1, 1995, pp. 59 71.

[20] D. Talkin., A robust algorithm for pitch tracking (RAPT), in Speech Coding and Synthesis, 1995, pp. 495 518.

[21] K. Vos, K. V. Sorensen, S. S. Jensen, and J.-M. Valin., Voice coding with opus, in Proceedings of AES Convention, 2013.

[22] K. K. Paliwal, K. K. W ojcicki, and B. J. Shannon, The importance of phase in speech enhancement, Speech Communication, vol. 53, no. 4, pp. 465 494, 2011.

[23] C. Zheng, X. Peng, Y. Zhang, S. Srinivasan, and Y. Lu, Interactive speech and noise modeling for speech enhancement, in AAAI, 2021, pp. 14 549 14 557.

[24] A. Nicolson and K. K. Paliwal, Masked multi-head self-attention for causal speech enhancement, Speech Communication, vol. 125, no. 3, pp. 80 96, 2020.

[25] A. Li, W. Liu, X. Luo, C. Zheng, and X. Li, ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network, in Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 6628 6632.

[26] Y.-H. Tu, J. Du, L. Sun, and C.-H. Lee, Lstm-based iterative mask estimation and post-processing for multi-channel speech enhancement, in Proceedings of Asia-Pacific Signal and Information Processing Association (APSIPA), 2017, pp. 488 491.

[27] A. Li, W. Liu, X. Luo, G. Yu, C. Zheng, and X. Li, A Simultaneous Denoising and Dereverberation Framework with Target Decoupling, in Proceedings of INTERSPEECH, 2021, pp. 2801 2805.

[28] S. E. Eskimez, T. Yoshioka, H. Wang, X. Wang, Z. Chen, and X. Huang, Personalized speech enhancement: New models and comprehensive evaluation, arXiv preprint arXiv:2110.09625, 2021.

[29] Q. Wang, I. L. Moreno, M. Saglam, K. Wilson, A. Chiao, R. Liu, Y. He, W. Li, J. Pelecanos, M. Nika, and A. Gruenstein, VoiceFilter-Lite: Streaming Targeted Voice Separation for OnDevice Speech Recognition, in Proceedings of INTERSPEECH, 2020, pp. 2677 2681.

[30] J. Li, A. Mohamed, G. Zweig, and Y. Gong, Lstm time and frequency recurrence for automatic speech recognition, in Proceedings of Automatic Speech Recognition and Understanding  (ASRU), 2015, pp. 187 191. [31] http://www-mmsp.ece.mcgill.ca/Documents/Data/.

[32] https://www.ntt-at.com/product/artificial/.

[33] T. Ko, V. Peddinti, D. Povey, M. L. Seltzer, and S. Khudanpur, A study on data augmentation of reverberant speech for robust speech recognition, in Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 5220 5224.

[34] D. B. Paul and J. M. Baker, The design for the wall street journalbased csr corpus, in Proceedings of Second International Conference on Spoken Language Processing (ICSLP), 1992, pp. 357 362. [35] https://jmvalin.ca/demo/rnnoise/.

[36] X. O. Foundation, Vorbis I specification, 2004. [37] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, in Proceedings of International Conference on Learning Representations (ICLR), 2015.

02-05 20:35