本技术针对卫星通信和保密通信应用场景对低码率语音编解码的需求,实现了一种基于梅尔倒谱系数的低码率语音编解码器。该语音编解码器利用基于人耳听觉特性的梅尔倒谱系数作为参数,实现了低复杂度的编码端和高质量语音重建的解码端。利用非均匀标量量化和矢量量化对参数进行压缩编码,在保证语音质量的前提下,实现了能工作在2400bps、1200bps、600bps和300bps四种码率的低码率语音编解码器。
本技术的特色和优势:
采用 VAD (Voice Active Detector) 实现自适应的环境噪声功率谱估计及语音降噪技术,以应对实际应用场景的环境复杂多变。
采用梅尔倒谱系数 MFCC作为语音信号的特征进行传输,有利于提升人耳的主观听觉感受、有利于提升参数的鲁棒性、有利于与分布式语音识别系统无缝融合。
突破传统算法需要在编码端完成清浊音、基音的估计,本技术在解码端完成预测估计,从而进一步降低码率。
上图:原始语音信号,下图:编解码后的语音信号(300bps)
扫码关注,查看更多科技成果