设计应用

基于IP包拆分重组技术的混合语音压缩编码算法研究

作者：李凌云，李肖克，陈奕钊，王国法，王辉

发布日期：2025-02-19

来源：电子技术应用

引言

语音压缩编码是指为提高通信网中的信息传输效率及实现语音的高效存储，对编码后的数字语音进行压缩的技术。由于现代通信网对传输带宽、数据保密性等各种特殊场景的需要，低速率语音压缩编码技术因其占用带宽少、抗干扰、保密性强及系统容量高等特点而成为语音研究领域中的一个重要课题。

在某特殊通信网业务系统中，既要在平均通信速率仅有10 kb/s的信道上传输1路基于IP的语音传输VoIP语音，又要求话音编码标准采用G.729标准。传统G.729标准话音数据需要34.4 kb/s的传输带宽，仅采用一种语音压缩编码技术已明显不能满足要求。

研究人员提出一种基于混合激励线性预测（Mixed Excited Linear Prediction，MELP）的0.6 kb/s的声码器算法，将多个连续语音帧合成一个超级帧，充分利用参数的帧间相关性进行联合量化，通过仿真验证了该算法可得到一个可懂度较高、清晰度和自然度较好的合成语音[1-5]。常亮等提出一种基于正弦激励线性预测（Sinusoidal Excitation Linear Prediction，SELP）的0.56 kb/s多帧联合分模式矢量量化算法，获得接近电话质量的语音[6]。Huang等提出一种矩阵量化方案和低速率的声码器算法，在低速率通信链路中获得了高质量语音[7]。Ozaydin等针对窄带通信链路中语音信号特征，基于共轭结构代数码激励线性预测编码（Conjugate Structure-Algebraic Code Excited Linear Prediction，CS-ACELP）设计了一种低复杂度、高效的语音激活检测（Voice Activity Detection，VAD）算法，该算法的实现将语音的平均通信速率约降至4 kb/s[8]。上述语音压缩编码算法的速率虽都达到了4.6 kb/s以下，甚至达到了0.56 kb/s，具有一定的借鉴意义，但上述算法并未使用G.729语音编码标准。

鉴于此，本文提出一种基于IP包拆分重组技术的混合语音压缩编码算法，在使用G.729标准的基础上，利用改进的多带激励（Advanced Multi-Band Excitation，AMBE）语音编码技术对语音数据进行二次压缩解压，结合IP包拆分重组技术，使语音数据传输比特率达到5.7 kb/s，有效避免开销数据消耗过多信道带宽，提高语音有效载荷的传输效率和质量。

本文详细内容请下载：

https://www.chinaaet.com/resource/share/2000006328

作者信息：

李凌云，李肖克，陈奕钊，王国法，王辉

（中国电子科技集团公司第三十四研究所，广西桂林 541004）

Magazine.Subscription.jpg