T/AI 109.10-2024 信息技术 智能媒体编码 第10部分:实时通信语音编码
- 文件大小:4.46 MB
- 标准类型:电子信息
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-03-07
- 下载次数:
- 标签:
资料介绍
ICS 35.040
CCS L 71
团体标准
T/AI 109.10—2024
信息技术 智能媒体编码 第10部分: 实时通信语音编码
Information technology – Intelligent media coding –Part 10: Real-time Communication (RTC) Speech Coding
2024 - 10 - 14发布2024 - 10 - 14实施
中关村视听产业技术创新联盟 发布
目 次
前言 ................................................................................ II
引言 ............................................................................... III
1 范围 ............................................................................... 1
2 规范性引用文件 ..................................................................... 1
3 术语和定义 ......................................................................... 1
4 缩略语 ............................................................................. 2
5 串行流语法规则 ..................................................................... 3
6 约定 ............................................................................... 5
6.1 概述 ........................................................................... 5
6.2 算术运算符 ..................................................................... 5
6.3 逻辑运算符 ..................................................................... 5
6.4 关系运算符 ..................................................................... 5
6.5 位运算符 ....................................................................... 5
6.6 赋值 ........................................................................... 6
6.7 助记符 ......................................................................... 6
7 实时通信语音编解码框架 ............................................................. 6
8 实时通信语音解码 ................................................................... 7
8.1 概述 ........................................................................... 7
8.2 AVS3P10位流解析 ................................................................ 8
8.3 宽带特征向量信息和宽带特征向量 ................................................ 20
8.4 解码神经网络 .................................................................. 28
8.5 MCR立体声解码 ................................................................. 38
8.6 带宽扩展解码 .................................................................. 40
附录A (规范性) ARSTF语法及语义 ................................................... 51
附录B (规范性) AVS3P10解码神经网络信息 ........................................... 54
附录C (资料性) AVS3P10参考编码器 ................................................. 55
附录D (资料性) 丢包隐藏 ........................................................... 74
T/AI 109.10—2024
II
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
本文件是T/AI 109《信息技术 智能媒体编码》的第10部分:实时通信语音编码。T/AI 109已经发布了如下部分:
——第2部分: 视频;
——第3部分: 沉浸式音频;
——第4部分: 视频符合性测试;
——第6部分:智能媒体格式。
本文件由数字音视频编解码技术标准工作组提出。
本文件由中关村视听产业技术创新联盟归口。
本文件起草单位:清华大学、腾讯科技(深圳)有限公司、中国电子技术标准化研究院、华为技术有限公司、北京理工大学、北京全景声信息科技有限公司、清华大学天津电子信息研究院、广东博华超高清创新中心有限公司。
本文件主要起草人:窦维蓓、肖玮、张亚军、商世东、李婧欣、朱博成、王喆、王晶、许舒敏、潘兴德、张伟民、高文、黄铁军、赵海英、崔晓冉、汪邦虎、李志永、袁俊崧。
T/AI 109.10—2024
III
引 言
T/AI 109旨在规定智能媒体的编码、封装与传输规范,旨在为异构网络中的智能媒体数据提供编码、封装和传输服务,拟由10个部分构成。
——第1部分:系统。目的在于确立沉浸媒体虚拟现实数据的系统信令。
——第2部分:视频。目的在于确立智能媒体高效视频压缩方法的解码过程。
——第3部分:沉浸式音频。目的在于确立适用沉浸式音频高效压缩方法的解码过程。
——第4部分:视频符合性测试。目的在于确立测试验证编码位流和解码器是否满足T/AI 109所规定的要求。
——第5部分:参考软件。目的在于确立对智能媒体高效视频压缩方法和沉浸式音频高效压缩方法的参考实现。
——第6部分: 智能媒体格式。目的在于确立异构网络中智能媒体编码数据的存储格式和传输信令。
——第7部分;音频封装与传输。目的在于确立异构网络中的沉浸式音频数据提供封装和传输。
——第10部分;实时通信语音编码。目的在于确立面向实时通信的语音编码位流和解码过程。
本文件的发布机构提请注意,声明符合本文件时,可能涉及到如下专利:
序号
专利申请号/专利号
专利名称
专利申请人/专利权人
标准条款涉及专利的(章、条编号)
1
202210681816.X
音频编码及解码方法、装置、设备、介质及程序产品
腾讯科技(深圳)有限公司
8.1至8.4, 8.6
附录A、B
2
202210681365.X
音频处理方法、装置、设备、存储介质及计算机程序产品
腾讯科技(深圳)有限公司
8.1至8.4, 8.6
附录A、B
3
202210676984.X
音频解码、编码方法、装置、电子设备及存储介质
腾讯科技(深圳)有限公司
8.1至8.4, 8.6
附录A、B
4
200810106460.7
立体声信号编解码方法、装置及编解码系统
华为技术有限公司、清华大学
8.5
本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。
该专利持有人已向本文件的发布机构保证,他愿意同任何申请人在合理且无歧视的条款和条件下,就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案,相关信息可以通过以下联系方式获得:
专利持有人:腾讯科技(深圳)有限公司
地址:深圳市南山区高新区科技中一路腾讯大厦35层
专利持有人:华为技术有限公司
地址:深圳市龙岗区坂田华为基地
专利持有人:清华大学
地址:北京市海淀区清华大学电子工程馆4-102
请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
联 系 人:黄铁军(数字音视频编解码技术标准工作组秘书长)
通讯地址:北京大学理科2号楼2641室
邮政编码:100871
T/AI 109.10—2024
IV
电子邮件:tjhuang@pku.edu.cn
电话:+8610-62756172
传真:+8610-62751638
网址:http://www.avs.org.cn
T/AI 109.10—2024
1
信息技术 智能媒体编码 第10部分: 实时通信语音编码
1 范围
本文件规定了面向实时通信的语音编码位流和解码过程。
本文件适用于在线会议、协同办公、社交、互动娱乐等领域低码率高质量语音编解码器的开发和应用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注明日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 5271.1 信息技术 词汇 第1部分:基本术语
GB/T 33475.3 信息技术 高效多媒体编码 第3部分:音频
GB/T 41867 信息技术 人工智能 术语
3 术语和定义
GB/T 5271.1、GB/T 33475.3 和 GB/T 41867中界定的以及下列术语和定义适用于本文件。
3.1
位流 bitstream
符合本文件规范的实时通信语音编码表示的一组二进制数据流。
3.2
编码 encoding
读入音频采样流,并产生一个符合本文件规定的有效位流的过程。
3.3
编码器 encoder
执行编码处理的实体。
3.4
采样频率 sampling frequency
每秒从连续信号中提取离散信号的采样个数。
注:单位为赫兹(Hz)。
T/AI 109.10—2024
2
3.5
解码 decoding
本文件规定的一种数据处理,即读入编码位流并输出音频采样流的过程。
3.6
解码器 decoder
执行解码处理的实体。
3.7
熵编码 entropy coding
在数据压缩中,按熵原理进行的一种变长无损编码,用以减少数据统计特性上的冗余。
3.8
声道 channel
声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。
3.9
正交镜像滤波器组 quadrature mirror filterbank 将信号分成子带信号实现分频效果的滤波器组。
3.10
深度神经网络 deep neural network 由多层神经元组成的网络,通过权值可调的加权连接,接收输入数据并产生输出。
3.11
神经网络通道 neural network channel 神经网络提取特征时使用的卷积核的数量。
3.12
带宽扩展 bandwidth extension 基于低频成分和边信息生成高频成分的编解码方法。
3.13
丢包隐藏 packet loss concealment 基于已恢复语音帧预测丢失帧的解码方法。
4 缩略语
T/AI 109.10—2024
3
下列缩略语适用于本文件。
ARSTF:
AVS3实时通信语音传输格式
(AVS3 RTC Speech Transport Format)
AVS:
数字音视频编解码技术标准
(Audio Video Coding Standard)
AVS3:
第三代AVS标准
(The Third-generation AVS Standards)
AVS3P10
AVS3第10部分
(AVS3 Part 10)
BWE:
带宽扩展
(Bandwidth Extension)
CNN:
卷积神经网络
(Convolutional Neural Network)
CRC:
循环冗余校验
(Cyclic Redundancy Check)
IMDCT:
修正离散余弦反变换
(Inverse Modified Discrete Cosine Transform)
MCR:
极大相关旋转
(Maximum Correlation Rotation)
MDCT:
修正离散余弦变换
(Modified Discrete Cosine Transform)
PLC:
丢包隐藏
(Packet Loss Concealment)
PReLU:
参数修正线性单元
(Parametric Rectified Linear Unit)
QMF:
正交镜像滤波器组
(Quadrarature Mirror Filterbank)
RTC:
实时通信
(Real-Time Communication)
RU:
残差单元
(Residual Unit)
SQ:
标量量化
(Scalar Quantization)
VBR:
变长位率
(Variable Bit Rate)
5 串行流语法规则
位流中的每一个数据项用黑体。通过名字、按位的长度及其类型和传输顺序的助记符来描述。
位流中被解码的数据元素所导致的操作依赖于该数据的值及以前解码的数据元素。下面的语法结构表示数据元素以标准类型出现时的情形。
注
1:如无特殊说明,本文件中的“位”指二进制位。
注
2:本文件语法用“C”代码规定,变量或表达式为非零值时等价于条件为真,变量或表达式为零值时等价于条件为非真。
if(condition){
data_element
…
} else{
data_element
…
}
若条件为真,在数据流中产生第一组数据元素,若条件为非真,在数据流中产生第二组数据元素。
for(expr1;expr2 ; expr3){
data_element
…
}
expr1是指定循环初始状态表达式,通常它指定了计数器的初始状态,expr2是指定的每次循环前的测试条件。条件为非真时循环终止,expr3是每次循环结束时执行的表达式,一般是增加计数器。
注
3:本结构的最通常用法为
for(i=0;i T/AI 109.10—2024
4
data_element
…
}
数据元素组产生n次。数据元素组内的条件结构可能依赖循环控制变量i的值。第一次出现时被置为‘0’,第二次增加到‘1’,如此往复。
switch(expr){
根据表达式expr的值,产生对应的数据元素。expr的值为
case constcase1:
constcase1时产生数据元素data_element1,expr的值为
data_element1
constcase2时产生数据元素data_element2,以此类推,expr的值
break
为constcasen时产生数据元素data_elementn。当expr的值不等于
case constcase2:
constcase1, constcase2, …, constcasen中的任何一个值时,产生
data_element2
数据元素data_elementdefault
break
…
case constcasen:
data_elementn
break
default:
data_elementdefault
break
}
本结构的一类变体是在case后不出现break,如:
switch(expr){
expr的值constcasex时,从对应的case constcasex开始产生数
case constcase1:
据元素,直到break出现。
data_element1
expr的值constcase1时产生数据元素data_element1和
case constcase2:
data_element2,expr的值为constcasen时产生数据元素
data_element2
data_elementn
break
…
case constcasen:
data_elementn
break
default:
data_elementdefault
break
}
注
4:数据元素组中可能含有嵌套结构。为简便起见,当后面只有一个数据元素时“[]”省略。
data_element[ ]
data_element是一数组数据,数据元素的个数由上下文而定;
data_element[n]
data_element[n]是数组数据的第n+1个元素;
data_element[m][n]
data_element[m][n]是二维数组的第m+1,n+1个元素;
data_element[l][m][n]
data_element[l][m][n]是三维数组的第l+1,m+1,n+1个元素;
data_element[m…n]
data_element[m…n]是位m到位n之间包括的位。
T/AI 109.10—2024
5
6 约定
6.1 概述
本文件中使用的数学运算符和优先级与C语言使用的类似。但对整型除法和算术移位操作进行了特
定的定义。除特别说明外,约定编号和计数从0开始。
6.2 算术运算符
下列算术运算符适用于本文件。
+ 加法运算
- 减(二元运算符)或取反(一元前缀运算符)
× 乘法运算
ab 幂,表示a的b次幂,也可表示上标。
b
a
除法运算,不做取整或四舍五入。
平方根
自变量i取由a到b(含b)的所有整数值时,函数f(i)的累加和。
log2 以2为底的对数
6.3 逻辑运算符
下列逻辑运算符适合于本文件。
|| 逻辑或运算
&& 逻辑与运算
! 逻辑非运算
6.4 关系运算符
下列关系运算符适用于本文件。
> 大于
大于或等于
< 小于
小于或等于
== 等于
不等于
6.5 位运算符
下列位运算符适用于本文件。
& 与运算
| 或运算
~ 取反运算
a >> b 将a以2的补码整数表示的形式向右移b位。仅当b取正数时定义此运算。向右
移至最高有效位时,其值与a 移位运算前的最高有效位相等。
x
=
b
a i
f (i)
T/AI 109.10—2024
6
a << b 将a以2的补码整数表示的形式向左移b位。仅当b取正数时定义此运算。向左移至最低有效位时,其值等于0。
6.6 赋值
下列赋值运算适用于本文件。
=
赋值运算符
x = a..b
x取从a至b(含b)的值,其中x、a和b是整数。
++
自加,x++相当于x=x+1。当用于数组下标时,在自加运算前先求变量值。
--
自减,x--相当于x=x-1。当用于数组下标时,在自减运算前先求变量值。
+=
自加指定值,例如,x+=3相当于x=x+3,x+=(-3)相当于x=x+(-3)。
-=
自减指定值,例如,x-=3相当于x=x+(-3),x-=(-3)相当于x=x–(-3)。
6.7 助记符
下列助记符适用于本文件。
rpchof
多项式余数,高阶在先;
bslbf
位串,左位在前。位串是带单引号的1和0串。如‘1000 0001’。位串内的空格是便于阅读的,无特殊意义。(bitstream left bit first)
uimsbf
无符号整数,最高有效位优先。(unsigned integer, most significant bit first)
7 实时通信语音编解码框架
本文件规定的实时通信语音编码规范(RTC Speech Coding)是AVS3系列标准中的第10部分,以下简称AVS3P10。AVS3P10是一种基于子带编码的多模式编码方案,其编码框架见图1:按声道数划分,支持单声道和立体声两种编码模式;按采样频率划分,支持宽带(16000Hz采样频率)和超宽带(32000Hz采样频率)两种模式。
图
1 AVS3P10编码框架
对于单声道宽带信号,AVS3P10编码直接采用宽带语音编码。对于单声道超宽带信号,AVS3P10编码将输入信号,划分为低频和高频两个子带;分别采用宽带语音编码和带宽扩展编码。
对于立体声宽带信号,AVS3P10编码采用宽带语音编码和立体声编码。对于立体声超宽带信号,
T/AI 109.10—2024
7
AVS3P10编码采用宽带语音编码、立体声编码和带宽扩展编码。
AVS3P10编码将编码器提取的信息,进行量化并按照附录A中规定的AVS3P10位流复用,获得AVS3P10编码位流。
AVS3P10编码的位流封装的传输格式ARSTF,包含同步字和解码必需的信息,见附录A。
AVS3P10编码的参数配置如下:
a)支持采样频率为:16000Hz、32000Hz
b)支持采样精度为:16bit
c)支持编码位率为:
——单声道宽带: 5.9、7.1、8.0、9.2kbit/s
——单声道超宽带:7.9、11.2、12.6、14.5kb/s
——立体声宽带:7.6、8.7kb/s
——立体声超宽带:11.4、14.5kb/s
AVS3P10解码框架见图2。解码器是编码器的逆过程。通过解析位流和解量化,可以获得相应的变量。根据编码模式,使用不同的解码流程。
对于单声道宽带编码模式,经过宽带语音解码,获得单声道宽带重建信号。对于单声道超宽带编码模式,经过宽带语音解码和带宽扩展解码,获得单声道超宽带重建信号。
对于立体声宽带编码模式,经过宽带语音解码和立体声解码,获得立体声宽带重建信号。对于立体声超宽带编码模式,经过宽带语音解码、立体声解码和带宽扩展解码,获得立体声超宽带重建信号。
本文件第8章规定了AVS3P10解码过程,包括解码器的完整解码流程,以及编码位流解析、宽带特征向量信息和宽带特征向量、解码神经网络、MCR立体声解码和带宽扩展解码的具体操作步骤。
图
2 AVS3P10解码框架
AVS3P10的编码位流ARSTF的语法及语义见附录A(规范性),AVS3P10解码神经网络信息见附录B(规范性)。作为资料性附录,附录C提供了AVS3P10编码器的参考实现,附录D提供了AVS3P10解码过程中的一种丢包隐藏方案。
8 实时通信语音解码
8.1 概述
AVS3P10解码包括单声道宽带解码、单声道超宽带解码、立体声宽带解码、立体声超宽带解码。
AVS3P10解码器单声道模式流程图见图3。AVS3P10解码器单声道模式由解码、逆量化、解码神经网络、带宽扩展解码、QMF合成滤波器等构成,将位流解码为单声道宽带重建信号或者单声道超宽带
T/AI 109.10—2024
8
重建信号。
AVS3P10解码器立体声模式流程图见图4。AVS3P10解码器立体声模式由解码、逆量化、解码神经网络、MCR立体声解码、带宽扩展解码、QMF合成滤波器等构成,将位流解码为立体声宽带重建信号或者立体声超宽带重建信号。
图
3 AVS3P10解码器单声道模式流程图
图
4 AVS3P10解码器立体声模式流程图
8.2 AVS3P10位流解析
8.2.1 语法
AVS3P10编码位流中的实时通信语音编码数据块RtcSpeechRawDataBlock()的解析语法,见表1。
T/AI 109.10—2024
9
表
1 实时通信语音编码数据块解析语法
语法
位数
助记符
RtcSpeechRawDataBlock() {
switch(NumChans) {
1
uimsbf
case 0x0: RtcSpeechMonoDec()
case 0x1: RtcSpeechStereoDec()
}
实时通信语音编码单声道解码语法RtcSpeechMonoDec(),见表2。
表
2 实时通信语音编码单声道解码语法
语法
位数
助记符
RtcSpeechMonoDec () {
switch(BandwidthMode) {
1
uimsbf
case 0x0: RtcSpeechMonoWbDec()
case 0x1: RtcSpeechMonoSwbDec()
}
RateMode
2
uimsbf
}
实时通信语音编码单声道宽带解码语法RtcSpeechMonoWbDec(),见表3。
表
3 实时通信语音编码单声道宽带解码语法
语法
位数
助记符
RtcSpeechMonoWbDec () {
DecodeWbInforBits()
WbInvQuanCod()
WbNeuralNet()
}
实时通信语音编码单声道超宽带解码语法RtcSpeechMonoSwbDec(),见表4。
表
4 实时通信语音编码单声道超宽带解码语法
语法
位数
助记符
RtcSpeechMonoSwbDec () {
DecodeWbInforBits()
DecodeSwbInforBits()
WbInvQuanCod ()
SwbInvQuanCod()
WbNNetDec()
T/AI 109.10—2024
10
表4(续)
语法
位数
助记符
SwbBweDec()
QMFSynthesis()
}
实时通信语音编码立体声解码语法RtcSpeechStereoDec(),见表5。
表
5 实时通信语音编码立体声解码语法
语法
位数
助记符
RtcSpeechStereoDec () {
switch(BandwidthMode) {
1
uimsbf
case 0x0: RtcSpeechStereoWbDec()
case 0x1: RtcSpeechStereoSwbDec()
}
RateMode
2
uimsbf
}
实时通信语音编码立体声宽带解码语法RtcSpeechStereoWbDec(),见表6。
表
6 实时通信语音编码立体声宽带解码语法
语法
位数
助记符
RtcSpeechStereoWbDec () {
DecodeWbInforBits()
DecodeMcrInforBits()
WbInvQuanCod()
McrInvQuanCod()
WbNeuralNet()
McrDec()
}
实时通信语音编码立体声超宽带解码语法RtcSpeechStereoSwbDec(),见表7。
表
7 实时通信语音编码立体声超宽带解码语法
语法
位数
助记符
RtcSpeechMonoSwbDec() {
DecodeWbInforBits()
DecodeSwbInforBits()
DecodeMcrInforBits ()
DecodeSwbRInforBits ()
WbInvQuanCod()
T/AI 109.10—2024
11
表
7 (续)
语法
位数
助记符
SwbInvQuanCod()
McrInvQuanCod()
SwbRInvQuanCod()
WbNNetDec ()
SwbBweDec()
McrDec()
SwbBweRDec()
QMFSynthesis()
}
8.2.2 语义
NumChans 声道数,0为单声道,1为立体声
BandwidthMode 带宽模式,0为宽带编码,1为超宽带编码
RateMode 位率模式,2比特,包含4种编码位率模式
RtcSpeechMonoDec() 实时通信语音单声道解码函数
RtcSpeechStereoDec() 实时通信语音立体声解码函数
RtcSpeechMonoWbDec() 实时通信语音单声道宽带模式解码函数
RtcSpeechMonoSwbDec() 实时通信语音单声道超宽带模式解码函数
RtcSpeechStereoWbDec() 实时通信语音立体声宽带模式解码函数
RtcSpeechStereoSwbDec() 实时通信语音立体声超宽带模式解码函数
DecodeWbInforBits() 解析宽带特征信息函数
DecodeSwbInforBits() 解析超宽带特征信息函数
DecodeMcrInforBits() 解析立体声特征信息函数
DecodeSwbRInforBits() 解析超宽带特征信息函数(仅限立体声超宽带解码)
WbInvQuanCod() 宽带解码和逆量化函数
SwbInvQuanCod() 超宽带解码和逆量化函数
McrInvQuanCod() 立体声解码和逆量化函数
SwbRInvQuanCod() 超宽带解码和逆量化函数(仅限立体声超宽带解码)
WbNNetDec () 宽带解码神经网络函数
SwbBweDec () 带宽扩展解码函数
McrDec () MCR立体声解码函数
SwbBweRDec () 带宽扩展解码函数(仅限立体声超宽带解码)
QMFSynthesis() QMF合成滤波函数
8.2.3 通用信息
8.2.3.1 概述
AVS3P10解码器可以分为逆量化和解码、第一级解码卷积神经网络、多级解码块神经网络、后处理神经网络、第二级解码卷积神经网络、带宽扩展、MCR立体声解码、QMF合成滤波器(适用于超宽带
T/AI 109.10—2024
12
编码模式)等模块。根据输入信号声道数、带宽模式等编码模式参数,调用相关模块进行解码。解码过程涉及的解码神经网络结构描述性信息和网络权值参数,见本文件附录B。
8.2.3.2 单声道宽带解码
AVS3P10单声道宽带解码流程图见图5。单声道解码器通过熵解码和逆量化从位流中解析得到宽带特征向量量化值,经过包含多个神经网络的计算,生成单声道宽带重建信号。
a)
熵解码和逆量化
从位流中获取与宽带特征向量编码相关的位流信息,进行熵解码和逆量化处理以得到宽带特征向量量化值,作为深度神经网络计算的输入。
——输入:位流
——输出:宽带特征向量量化值
b)
第一级解码卷积神经网络
将宽带特征向量量化值,经过1维卷积运算后,生成第一级解码向量。宽带特征向量的第一维度是神经网络通道数,设置为56;宽带特征向量的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。
——输入:宽带特征向量量化值
——输出:第一级解码向量
图
5 AVS3P10解码器单声道宽带解码流程图
c)
多级解码块神经网络
T/AI 109.10—2024
13
将第一级解码向量,经过4级解码块神经网络,生成第二级解码向量。每一级解码块神经网络包含多层神经网络计算。每一级解码块神经网络通过计算,将输入向量的通道数减少1倍,同时通过不同因子的复制,增加输出向量第二维度的数据量。第二级编码向量的第一维度是神经网络通道数,经过4级编码块神经网络,由256减少为16;第二级编码向量的第二维度是样本数,设置为160。多级解码块神经网络的模块细节见8.4.3.3至8.4.3.6。
——输入:第一级解码向量
——输出:第二级解码向量
d)
后处理解码神经网络
后处理神经网络,将第二级解码向量进行一次一维因果卷积计算并激活后,生成第三级解码向量。第三级编码向量的第一维度是是神经网络通道数,设置为16;第三级编码向量的第二维度是样本数,设置为320。
——输入:第二级解码向量
——输出:第三级解码向量
e)
第二级解码卷积神经网络
将第三级解码向量,进行一次一维因果卷积计算,生成单声道宽带重建信号。单声道宽带重建信号长度为320。
——输入:第三级解码向量
——输出:单声道宽带重建信号
8.2.3.3 单声道超宽带解码
AVS3P10单声道超宽带解码流程见图6。单声道解码器通过熵解码和逆量化从位流中解析得到宽带特征向量量化值和超宽带特征向量量化值。对宽带特征向量量化值,经过包含多个神经网络的计算,生成低频子带信号。对低频子带信号和超宽带特征向量量化值,经过带宽扩展解码,生成高频子带信号。对低频子带重建信号和高频子带重建信号,经过QMF合成滤波器处理,生成单声道超宽带重建信号。
a)
熵解码和逆量化
从位流中获取与宽带特征向量编码和超宽带特征向量编码相关的位流信息,进行熵解码和逆量化处理以得到宽带特征向量量化值和超宽带特征向量量化值,作为深度神经网络计算和带宽扩展解码的输入。
——输入:位流
——输出:宽带特征向量量化值和超宽带特征向量量化值
b)
第一级解码卷积神经网络
将宽带特征向量量化值,经过1维卷积运算后,生成第一级解码向量。宽带特征向量量化值的第一维度是神经网络通道数,设置为56;宽带特征向量量化值的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。
——输入:低频特征向量量化值
——输出:第一级解码向量
c)
多级解码块神经网络
将第一级解码向量,经过4级解码块神经网络,生成第二级解码向量。每一级解码块神经网络包含多层神经网络计算。每一级解码块神经网络通过计算,将输入向量的通道数减少1倍,同时通过不同因子的复制,增加输出向量第二维度的数据量。第二级编码向量的第一维度是神经网络通道数,经过4级编码块神经网络,由256减少为16;第二级编码向量的第二维度是样本数,设置为160。多级解码块神经网络的模块细节见8.4.3.3至8.4.3.6。
T/AI 109.10—2024
14
——输入:第一级解码向量
——输出:第二级解码向量
d)
后处理解码神经网络
后处理神经网络,将第二级解码向量进行一次一维因果卷积计算并激活后,生成第三级解码向量。第三级编码向量的第一维度是是神经网络通道数,设置为16;第三级编码向量的第二维度是样本数,设置为320。
——输入:第二级解码向量
——输出:第三级解码向量
e)
第二级解码卷积神经网络
将第三级解码向量,进行一次一维因果卷积计算,生成低频子带信号。低频子带信号长度设置为320。
——输入:第三级解码向量
——输出:低频子带重建信号
图
6 AVS3P10解码器单声道超宽带解码流程图
f)
带宽扩展解码
将低频带子重建信号和超宽带特征向量量化值,经过带宽扩展解码,获得高频子带重建信号。带宽扩展解码对低频子带重建信号进行2次长度320点MDCT变换,并通过频带复制,生成高频子带重建
T/AI 109.10—2024
15
信号对应的MDCT系数;然后,通过超宽带特征向量量化值,对高频MDCT系数进行增益控制;最后,通过MDCT逆变换,获得高频子带重建信号。高频子带信号的长度设置为320。
——输入:低频子带重建信号和超宽带特征向量量化值
——输出:高频子带重建信号
g)
QMF合成滤波器
对于低频子带重建信号和高频子带重建信号,经过升2采样和合成滤波,生成单声道超宽带重建信号。单声道超宽带重建信号的长度设置为640。
——输入:低频带子重建信号和高频子带重建信号
——输出:单声道超宽带重建信号
8.2.3.4 立体声宽带解码
AVS3P10立体声宽带解码流程图见图7。解码器通过熵解码和逆量化从位流中解析得到宽带特征向量量化值和MCR参数量化值。对宽带特征向量量化值,经过包含多个神经网络的计算,生成左声道宽带重建信号。然后,对宽带特征向量量化值和MCR参数量化值,经过MCR立体声解码,生成立体声宽带重建信号。
图
7 AVS3P10解码器立体声宽带解码流程图
a)
熵解码和逆量化
从位流中获取与宽带特征向量编码相关的位流信息,进行熵解码和逆量化处理以得到宽带特征向
T/AI 109.10—2024
16
量量化值,作为深度神经网络计算的输入。
——输入:位流
——输出:宽带特征向量量化值和MCR参数量化值
b)
第一级解码卷积神经网络
将宽带特征向量量化值,经过1维卷积运算后,生成第一级解码向量。宽带特征向量的第一维度是神经网络通道数,设置为56;宽带特征向量的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。
——输入:宽带特征向量量化值
——输出:第一级解码向量
c)
多级解码块神经网络
将第一级解码向量,经过4级解码块神经网络,生成第二级解码向量。每一级解码块神经网络包含多层神经网络计算。每一级解码块神经网络通过计算,将输入向量的通道数减少1倍,同时通过不同因子的复制,增加输出向量第二维度的数据量。第二级编码向量的第一维度是神经网络通道数,经过4级编码块神经网络,由256减少为16;第二级编码向量的第二维度是样本数,设置为160。多级解码块神经网络的模块细节见8.4.3.3至8.4.3.6。
——输入:第一级解码向量
——输出:第二级解码向量
d)
后处理解码神经网络
后处理神经网络,将第二级解码向量进行一次一维因果卷积计算并激活后,生成第三级解码向量。第三级编码向量的第一维度是是神经网络通道数,设置为16;第三级编码向量的第二维度是样本数,设置为320。
——输入:第二级解码向量
——输出:第三级解码向量
e)
第二级解码卷积神经网络
将第三级解码向量,进行一次一维因果卷积计算,生成单声道宽带重建信号。单声道宽带重建信号长度为320。
——输入:第三级解码向量
——输出:左声道宽带重建信号
f)
MCR立体声解码
将左声道宽带重建信号和MCR参数量化值,进行MCR立体声解码,生成立体声宽带重建信号。立体声宽带重建信号每个声道的长度为320。
——输入:左声道宽带重建信号和MCR参数量化值
——输出:立体声宽带重建信号
8.2.3.5 立体声超宽带解码
AVS3P10立体声超宽带解码流程图见图8。解码器通过熵解码和逆量化从位流中解析得到宽带特征向量量化值、MCR参数量化值和超宽带特征向量量化值。对宽带特征向量量化值,经过包含多个神经网络的计算,生成左声道低频子带信号。对左声道低频子带信号和MCR参数量化值,经过MCR立体声解码,生成低频子带信号。对低频子带信号和超宽带特征向量量化值,经过带宽扩展解码,生成高频子带信号。对低频子带重建信号和高频子带重建信号,经过QMF合成滤波器处理,生成立体声超宽带重建信号。
a)
熵解码和逆量化
T/AI 109.10—2024
17
从位流中获取与宽带特征向量编码和超宽带特征向量编码相关的位流信息,进行熵解码和逆量化处理以得到宽带特征向量量化值和超宽带特征向量量化值,作为深度神经网络计算和带宽扩展解码的输入。
——输入:位流
——输出:宽带特征向量量化值和超宽带特征向量量化值
b)
第一级解码卷积神经网络
将宽带特征向量量化值,经过1维卷积运算后,生成第一级解码向量。宽带特征向量量化值的第一维度是神经网络通道数,设置为56;宽带特征向量量化值的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。
——输入:低频特征向量量化值
——输出:第一级解码向量
图
8 AVS3P10解码器立体声超宽带解码流程图
c)
多级解码块神经网络
将第一级解码向量,经过4级解码块神经网络,生成第二级解码向量。每一级解码块神经网络包含
T/AI 109.10—2024
18
多层神经网络计算。每一级解码块神经网络通过计算,将输入向量的通道数减少1倍,同时通过不同因子的复制,增加输出向量第二维度的数据量。第二级编码向量的第一维度是神经网络通道数,经过4级编码块神经网络,由256减少为16;第二级编码向量的第二维度是样本数,设置为160。多级解码块神经网络的模块细节见8.4.3.3至8.4.3.6。
——输入:第一级解码向量
——输出:第二级解码向量
d)
后处理解码神经网络
后处理神经网络,将第二级解码向量进行一次一维因果卷积计算并激活后,生成第三级解码向量。第三级编码向量的第一维度是是神经网络通道数,设置为16;第三级编码向量的第二维度是样本数,设置为320。
——输入:第二级解码向量
——输出:第三级解码向量
e)
第二级解码卷积神经网络
将第三级解码向量,进行一次一维因果卷积计算,生成低频子带信号。低频子带信号长度设置为320。
——输入:第三级解码向量
——输出:左声道低频子带重建信号
f)
MCR立体声解码
将左声道宽带重建信号和MCR参数量化值,进行MCR立体声解码,生成立体声宽带重建信号。立体声宽带重建信号长度为320。
——输入:左声道宽带重建信号和MCR参数量化值
——输出:低频子带重建信号
g)
带宽扩展解码
低频带子重建信号和超宽带特征向量量化值,分左右声道单独处理,经过带宽扩展解码,获得高频子带重建信号。带宽扩展解码对低频子带重建信号进行2次长度320点MDCT变换,并通过频带复制,生成高频子带重建信号对应的MDCT系数;然后,通过超宽带特征向量量化值,对高频MDCT系数进行增益控制;最后,通过MDCT逆变换,获得高频子带重建信号。高频子带信号的长度设置为320。
——输入:低频子带重建信号和超宽带特征向量量化值
——输出:高频子带重建信号
h)
QMF合成滤波器
对于低频子带重建信号和高频子带重建信号,分左右声道单独处理,经过升2采样和合成滤波,生成立体声超宽带重建信号。立体声超宽带重建信号每个声道的长度设置为640。
——输入:低频带子重建信号和高频子带重建信号
——输出:立体声超宽带重建信号
8.2.4 解码过程
实时通信语音编码原始数据块语法(RtcSpeechRawDataBlock)是构成ARSTF编码位流的基本单位,可获得一帧的音频样本。ARSTF格式见附录A。
解码器根据NumChans选择实时通信语音单声道解码(RtcSpeechMonoDec)或者实时通信语音立体声解码(RtcSpeechStereoDec)。单声道解码根据BandwidthMode选择单声道宽带解码(RtcSpeechMonoWbDec)或者单声道超宽带解码(RtcSpeechMonoSwbDec)。立体声解码根据BandwidthMode选择立体声宽带解码(RtcSpeechStereoWbDec)或者立体声超宽带解码(RtcSpeechStereoSwbDec)。
T/AI 109.10—2024
19
单声道宽带解码,首先解析宽带特征向量信息(DecodeWbInforBits)。然后进行宽带解码和逆量化(WbInvQuanCod)获得宽带特征向量量化值。最后,进行解码神经网络(WbNNetDec),得到单声道宽带重建信号。
单声道超宽带解码,首先解析宽带特征向量信息(DecodeWbInforBits)和解析超宽带特征向量信息(DecodeSwbInforBits)。然后进行宽带解码和逆量化(WbInvQuanCod)和进行超宽带解码和逆量化(SwbInvQuanCod)获得宽带特征向量量化值和超宽带特征向量量化值。进行解码神经网络(WbNNetDec)获得低频子带重建信号;进行带宽扩展解码(SwbBweDec)获得高频子带重建信号;最后,进行QMF合成滤波(QMFSynthesis),获得单声道超宽带重建信号。
立体声宽带解码,首先解析宽带特征向量信息(DecodeWbInforBits)和解析立体声特征信息(DecodeMcrInforBits)。然后,进行宽带解码和逆量化(WbInvQuanCod)获得宽带特征向量量化值;进行立体声解码和逆量化(McrInvQuanCod)获得MCR参数量化值。进行解码神经网络(WbNNetDec),得到左声道宽带重建信号;最后,进行MCR立体声解码(McrDec),得到立体声宽带重建信号。
立体声超宽带解码,首先解析宽带特征向量信息(DecodeWbInforBits)、解析超宽带特征向量信息(DecodeSwbInforBits)、解析立体声特征信息(DecodeMcrInforBits)和解析右声道相关的超宽带特征向量信息(DecodeSwbRInforBits)。然后进行宽带解码和逆量化(WbInvQuanCod)获得宽带特征向量量化值、进行立体声解码和逆量化(McrInvQuanCod)获得MCR参数量化值、进行超宽带解码和逆量化(SwbInvQuanCod)获得左声道相关超宽带特征向量量化值和进行超宽带解码和逆量化(SwbRInvQuanCod)获得右声道相关超宽带特征向量量化值。进行解码神经网络(WbNNetDec),得到左声道宽带重建信号;进行MCR立体声解码(McrDec),得到低频子带重建信号;进行带宽扩展解码(SwbBweDec和SwbBweRDec)获得高频子带重建信号;最后,进行QMF合成滤波(QMFSynthesis),获得立体声超宽带重建信号。
AVS3P10编码是一种基于子带编码的多模式编码方案。单声道宽带编码模式和单声道超宽带编码模式均支持4个位率,根据每种编码模式下每一种位率模式对应的运行模式见表8和表9。
表
8 单声道宽带编码模式的位率模式信息
编码位率模式
编码位率(kbit/s)
宽带运行模式
0
5.9
WB_Rate1
1
7.1
WB_Rate2
2
8.0
WB_Rate3
3
9.2
WB_Rate4
表
9 单声道超宽带编码模式的位率模式信息
编码位率模式
编码位率(kbit/s)
宽带运行模式
超宽带运行模式
0
7.9
WB_Rate1
SWB_Rate1
1
11.2
WB_Rate4
SWB_Rate2
2
12.6
WB_Rate4
SWB_Rate3
3
14.5
WB_Rate4
SWB_Rate4
立体声宽带编码模式和立体声超宽带编码模式,是在对应的单声道编码模式下增加必要的立体声信息和超宽带特征向量信息;其中,对左声道的重建与单声道模式一致。立体声宽带编码模式和立体声超宽带编码模式均支持2个位率。根据每种编码模式下每一种位率模式对应的运行模式见表10和表11。
T/AI 109.10—2024
20
表
10 立体声宽带编码模式的位率模式信息
编码位率模式
编码位率(kbit/s)
宽带运行模式
0
7.6
WB_Rate1
1
8.7
WB_Rate2
表
11 立体声超宽带编码模式的位率模式信息
编码位率模式
编码位率(kbit/s)
宽带运行模式
超宽带运行模式
0
11.4
WB_Rate1
SWB_Rate1
1
14.5
WB_Rate4
SWB_Rate2
8.3 宽带特征向量信息和宽带特征向量
8.3.1 语法
解码宽带特征向量信息(索引值)和宽带特征向量,见表12至13。
表
12 解析宽带特征向量索引值语法
语法
位数
助记符
DecodeWbInforBits() {
for (i = 0; i < 56; i++) {
WbIndice[i]
2;3
uimsbf
}
}
表
13 宽带解码和逆量化语法
语法
位数
助记符
WbInvQuanCod() {
for (i = 0; i < 56; i++) {
WbEmbedding[i]
}
8.3.2 语义
WbIndice 解析获得56维宽带特征向量索引值
WbEmbedding 通过每一维度的宽带特征向量索引值(WbIndice),获得第一维度的宽带特征向量量化值。
8.3.3 解码过程
T/AI 109.10—2024
21
从AVS3P10位流中解析宽带特征信息函数DecodeWbInforBits()(见表12),利用熵解码,解析出56维宽带特征向量索引值;通过宽带特征向量索引值(WbIndice)和表15至18,获得宽带特征向量量化值,用于解码神经网络。
对于表8至表11所示的任意一种宽带运行模式,熵解码具有唯一性。根据对应宽带运行模式下包含的码表中的标识数量和统计概率,通过熵解码可以获得对应的宽带特征向量索引值。每种宽带运行模式包含的标识数量和标识,见表14。
表
14 宽带运行模式包含的标识数量和标识信息
宽带运行模式
标识数量
标识
WB_Rate1
5
-1.0, 0.5, 0, 0.5, 1.0
WB_Rate2
7
-1.0, -0.66667, -0.33333, 0, 0.33333, 0.66667, 1.0
WB_Rate3
9
-1.0, -0.75, -0.50, -0.25, 0, 0.25, 0.50, 0.75, 1.0
WB_Rate4
11
-1.0, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0
每种宽带运行模式进行熵解码所需的统计概率表,见表15至18。标识概率统计值的最大值为255。根据标识概率统计值各分量,计算出对应标识的概率后,调用熵解码,获得宽带特征向量索引值。需要操作56次。
表
15 宽带运行模式WB_Rate1标识统计表
宽带特征向量维度
标识概率统计值
1
224,113,36,4,0
2
245,162,61,5,0
3
245,174,63,3,0
4
245,179,74,10,0
5
252,198,88,6,0
6
247,199,105,17,0
7
250,177,71,6,0
8
238,180,88,9,0
9
250,186,76,5,0
10
247,169,62,2,0
11
237,179,88,18,0
12
243,182,81,5,0
13
239,147,49,4,0
14
240,157,57,6,0
15
228,133,43,3,0
16
250,195,89,3,0
17
250,177,80,8,0
18
245,174,66,5,0
19
247,195,100,10,0
20
240,146,62,13,0
T/AI 109.10—2024
22
表
15 (续)
宽带特征向量维度
标识概率统计值
21
246,150,54,2,0
22
243,192,113,17,0
23
239,154,50,3,0
24
250,185,75,3,0
25
249,200,94,9,0
26
234,174,87,6,0
27
248,166,68,5,0
28
244,173,63,3,0
29
249,189,82,8,0
30
250,181,69,5,0
31
244,194,117,23,0
32
246,183,77,6,0
33
250,204,107,9,0
34
230,171,117,44,0
35
229,152,85,34,0
36
240,160,57,6,0
37
241,143,53,6,0
38
244,184,77,7,0
39
240,147,54,8,0
40
247,172,64,5,0
41
243,169,75,13,0
42
248,227,195,130,0
43
235,146,48,5,0
44
245,155,55,4,0
45
196,144,83,21,0
46
249,205,116,13,0
47
248,186,80,3,0
48
238,151,62,10,0
49
246,163,59,5,0
50
246,169,59,2,0
51
249,173,66,5,0
52
247,204,119,22,0
53
248,185,72,4,0
54
240,140,51,7,0
55
242,174,70,6,0
T/AI 109.10—2024
23
表
15 (续)
宽带特征向量维度
标识概率统计值
56
251,189,81,9,0
表
16 宽带运行模式WB_Rate2标识统计表
宽带特征向量维度
标识概率统计值
1
238,166,96,45,16,1,0
2
251,212,143,73,27,1,0
3
251,217,156,77,23,1,0
4
251,224,164,91,37,4,0
5
254,235,181,106,36,1,0
6
251,228,185,120,54,6,0
7
253,224,157,84,30,1,0
8
247,212,169,104,41,1,0
9
253,228,168,92,27,1,0
10
251,220,149,76,22,1,0
11
245,217,169,107,50,9,0
12
250,218,170,99,34,1,0
13
248,198,128,61,19,1,0
14
248,207,138,70,25,2,0
15
240,184,115,53,16,1,0
16
253,231,180,107,34,1,0
17
253,223,156,91,38,1,0
18
251,216,158,80,27,1,0
19
252,225,183,118,44,2,0
20
248,201,127,71,33,5,0
21
252,207,132,67,21,1,0
22
248,221,181,129,63,4,0
23
248,209,138,65,20,1,0
24
253,227,170,95,25,1,0
25
252,230,184,111,38,1,0
26
244,208,164,105,35,1,0
27
252,216,147,81,28,1,0
28
251,216,158,80,23,1,0
29
253,228,174,98,40,1,0
30
253,227,162,84,28,1,0
31
249,222,182,130,69,6,0
T/AI 109.10—2024
24
表
16 (续)
宽带特征向量维度
标识概率统计值
32
252,222,169,95,33,1,0
33
253,234,190,124,48,1,0
34
240,201,162,126,89,19,0
35
244,188,135,90,58,20,0
36
248,208,142,70,25,1,0
37
248,195,121,62,22,1,0
38
250,220,168,90,34,1,0
39
249,203,129,65,24,2,0
40
252,219,154,77,27,1,0
41
249,213,152,88,37,5,0
42
251,240,225,205,173,110,0
43
245,201,129,61,21,1,0
44
251,210,134,66,23,1,0
45
211,175,140,98,54,11,0
46
252,233,194,135,59,1,0
47
252,226,172,100,29,1,0
48
249,196,132,72,29,4,0
49
251,214,143,71,25,1,0
50
252,217,151,73,22,1,0
51
252,224,153,80,27,1,0
52
251,230,193,135,65,9,0
53
253,224,170,90,28,1,0
54
249,194,121,61,23,3,0
55
250,213,159,84,30,1,0
56
254,230,171,94,35,1,0
表
17 宽带运行模式WB_Rate3标识统计表
宽带特征向量维度
标识概率统计值
1
244,196,139,88,50,25,9,1,0
2
253,230,188,133,81,43,15,1,0
3
253,233,198,146,87,42,11,1,0
4
251,234,201,150,95,51,19,1,0
5
254,245,218,172,116,59,17,1,0
6
252,238,214,178,129,79,34,2,0
7
254,239,201,146,92,48,15,1,0
T/AI 109.10—2024
25
表
17 (续)
宽带特征向量维度
标识概率统计值
8
249,223,194,159,111,61,22,1,0
9
254,241,208,158,102,49,13,1,0
10
252,236,195,138,84,39,9,1,0
11
246,226,197,158,112,66,32,4,0
12
252,231,200,160,106,55,15,1,0
13
250,220,172,119,68,32,9,1,0
14
249,225,181,128,77,38,13,1,0
15
243,205,156,105,58,25,6,1,0
16
254,243,216,173,118,61,13,1,0
17
254,239,201,148,100,59,22,1,0
18
253,231,196,148,89,45,14,1,0
19
253,237,210,176,126,70,23,1,0
20
251,223,172,120,78,46,22,1,0
21
253,230,176,121,73,35,8,1,0
22
250,232,206,174,136,87,38,1,0
23
250,224,179,123,69,30,7,1,0
24
254,241,208,161,105,49,10,1,0
25
253,241,217,178,124,66,22,1,0
26
247,220,189,154,111,57,15,1,0
27
253,236,189,137,87,44,12,1,0
28
252,230,194,148,89,40,10,1,0
29
254,240,210,165,106,59,21,1,0
30
254,241,206,152,94,47,14,1,0
31
251,233,207,175,136,92,46,3,0
32
253,235,203,159,104,52,16,1,0
33
254,244,221,184,135,77,25,1,0
34
244,214,184,155,129,102,70,9,0
35
248,209,172,132,97,70,47,15,0
36
250,224,184,131,78,39,14,1,0
37
251,221,169,115,70,36,13,1,0
38
252,233,203,158,99,54,18,1,0
39
251,223,174,118,71,36,14,1,0
40
253,234,196,142,85,44,14,1,0
41
251,229,191,143,96,53,23,1,0
42
251,242,231,218,202,180,149,85,0
43
246,216,170,114,65,31,10,1,0
T/AI 109.10—2024
26
表
17 (续)
宽带特征向量维度
标识概率统计值
44
253,229,184,123,73,37,11,1,0
45
210,179,154,127,97,64,34,4,0
46
253,241,219,185,140,83,32,1,0
47
253,238,207,162,109,52,11,1,0
48
252,217,174,125,80,44,18,1,0
49
253,233,189,133,79,41,14,1,0
50
253,233,194,140,81,38,9,1,0
51
253,239,201,144,90,47,16,1,0
52
253,241,220,189,146,94,42,6,0
53
253,236,203,159,98,46,12,1,0
54
252,220,168,114,69,35,13,1,0
55
251,226,192,148,92,48,15,1,0
56
254,242,211,160,103,56,20,1,0
表
18 宽带运行模式WB_Rate4标识统计表
宽带特征向量维度
标识概率统计值
1
247,214,168,124,84,52,30,14,3,1,0
2
253,239,211,172,126,85,52,26,6,1,0
3
254,241,217,184,139,92,53,24,5,1,0
4
253,242,221,189,145,101,63,33,11,1,0
5
254,249,234,205,165,119,73,34,7,1,0
6
253,244,228,205,173,133,93,54,21,1,0
7
254,246,222,185,140,96,58,28,6,1,0
8
252,233,211,187,157,118,77,42,14,1,0
9
254,247,227,194,152,107,64,28,6,1,0
10
253,243,219,179,132,88,50,20,2,1,0
11
249,234,214,186,152,114,76,45,20,1,0
12
253,239,217,189,155,112,69,33,7,1,0
13
252,232,198,156,112,72,41,19,5,1,0
14
251,235,206,168,124,82,48,23,6,1,0
15
246,220,183,143,102,64,35,15,3,1,0
16
254,247,230,202,164,120,74,33,5,1,0
17
254,246,222,186,142,104,70,39,12,1,0
18
254,240,215,183,142,95,57,28,7,1,0
19
254,244,225,201,172,133,87,44,13,1,0
T/AI 109.10—2024
27
表
18 (续)
宽带特征向量维度
标识概率统计值
20
252,234,200,156,115,81,54,32,14,1,0
21
254,242,207,162,118,79,46,20,2,1,0
22
251,238,220,197,171,141,103,63,24,1,0
23
252,234,205,164,118,74,39,16,2,1,0
24
254,246,226,194,153,107,61,23,2,1,0
25
254,246,231,207,173,129,81,40,11,1,0
26
250,229,206,180,151,116,74,34,7,1,0
27
254,244,215,174,132,92,56,27,6,1,0
28
253,239,214,181,142,95,52,22,3,1,0
29
254,246,227,198,160,113,73,40,12,1,0
30
254,247,226,191,145,98,58,27,6,1,0
31
252,239,221,198,171,140,104,67,29,1,0
32
254,243,221,192,155,111,67,33,9,1,0
33
254,247,232,209,177,137,91,46,11,1,0
34
246,222,199,176,153,132,111,89,55,3,0
35
250,222,191,160,128,101,79,60,39,10,0
36
252,236,208,171,126,82,48,24,8,1,0
37
253,234,197,152,110,74,45,23,8,1,0
38
253,239,218,191,152,105,67,35,10,1,0
39
252,236,203,160,116,78,47,25,10,1,0
40
254,242,217,181,136,90,54,26,6,1,0
41
252,238,213,177,139,100,64,36,14,1,0
42
252,245,237,228,217,204,188,166,137,66,0
43
249,228,197,156,110,69,39,18,4,1,0
44
254,240,210,168,119,79,48,24,6,1,0
45
217,191,171,150,127,102,75,49,25,2,0
46
253,245,231,209,180,144,100,55,16,1,0
47
254,245,225,195,157,113,67,28,5,1,0
48
254,232,199,161,121,85,55,31,13,1,0
49
253,241,213,173,127,84,51,26,8,1,0
50
254,242,216,179,134,87,50,22,3,1,0
51
254,245,223,185,138,94,57,28,7,1,0
52
253,244,229,209,182,147,107,66,28,2,0
53
254,244,222,192,154,105,60,26,4,1,0
54
253,233,196,153,111,74,44,22,7,1,0
55
253,236,211,182,144,99,60,30,8,1,0
T/AI 109.10—2024
28
表
18 (续)
宽带特征向量维度
标识概率统计值
56
254,247,228,196,153,107,67,34,9,1,0
8.4 解码神经网络
8.4.1 语法
AVS3P10解码神经网络信息,见附录B。解码神经网络语法WbNNetDec(),见表19。
表
19 解码神经网络语法
语法
位数
助记符
WbNNetDec() {
DecConvLayer1()
DecBlocks1()
DecBlocks2()
DecBlocks3()
DecBlocks4()
DecPostProc()
DecConvLayer2()
}
8.4.2 语义
DecConvLayer1() 第一级解码卷积神经网络,基于56维宽带特征向量量化值,获得第一级解码向量。
DecBlocks1 () 解码块神经网络1,基于第一级解码向量,获得第一级解码块向量。
DecBlocks2 () 解码块神经网络2,基于第一级解码块向量,获得第二级解码块向量。
DecBlocks3 () 解码块神经网络3,基于第二级解码块向量,获得第三级解码块向量。
DecBlocks4 () 解码块神经网络4,基于第三级解码块向量,获得第二级解码向量。
DecPostProc () 后处理解码神经网络,基于第二级解码向量,获得第三级解码向量。
DecConvLayer2 () 第二级解码卷积神经网络,基于第三级解码向量,获得单声道宽带重建信号或者超宽带低频子带重建信号。
8.4.3 解码过程
8.4.3.1 概述
本节规定了宽带解码神经网络的解码过程,见图9,包含图5至8中的第一级解码卷积神经网络、多级解码块神经网络、后处理神经网络和第二级解码卷积神经网络。每个箭头右侧的[x, y]符号表示当前向量的维度,其中,第一维度是神经网络通道数,第二维度是样本数。宽带解码神经网络,将解码获得
T/AI 109.10—2024
29
的56维宽带特征向量量化值(WbEmbedding),转换成宽带重建信号或者超宽带低频子带重建信号。解码过程涉及的解码神经网络结构描述性信息和网络权值参数,见本文件附录B。
8.4.3.2 第一级解码卷积神经网络
将宽带特征向量量化值WbEmbedding,经过1维卷积运算DecConvLayer1 ()后,生成第一级解码向量DecVector1。宽带特征向量量化值的第一维度是神经网络通道数,设置为56;宽带特征向量量化值的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。第一级解码卷积神经网络包含因果卷积,对于特定的卷积核,需要前向填充对应长度的零值,即填充数(Padding)。
图
9 宽带解码神经网络结构图
第一级解码卷积神经网络的卷积配置见表20。
表
20 第一级解码卷积神经网络配置参数
网络参数
参数配置
输入神经网络通道数
56
T/AI 109.10—2024
30
表
20 (续)
网络参数
参数配置
输出神经网络通道数
256
卷积核大小
1x3
步长
1
填充数
2
8.4.3.3 解码块神经网络1
多级解码块神经网络处理包括4个解码块神经网络。将第一级解码向量DecVector1,经过解码块神经网络1(DecBlocks1)运算后,生成第一级解码块向量DecBlockVector1。第一级解码向量的第一维度是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。第一级解码块向量的第一维度是是神经网络通道数,设置为128;第一级解码块向量的第二维度是样本数,设置为5。
解码块神经网络1的结构,见图10。每个箭头右侧的[x, y]符号表示当前向量的维度,其中,第一维度是神经网络通道数,第二维度是样本数。
图
10 解码块神经网络1结构图
T/AI 109.10—2024
31
解码块神经网络1的第一部分是上采样卷积神经网络。上采样卷积神经网络包括一维因果卷积,和上采样因子(UpFactor)为5的上采样模块。其中,上采样通过复制,增加向量第二维度的数据量;复制的倍数由上采样因子指定。
解码块神经网络1的上采样卷积神经网络的卷积配置见表21。
表
21 解码块神经网络1的上采样卷积神经网络配置参数
网络参数
参数配置
输入神经网络通道数
256
输出神经网络通道数
128
卷积核大小
1x3
步长
1
填充数
2
上采样因子
5
解码块神经网络1的上采样卷积神经网络后,级连5个不同空洞率(DilationRate)的残差单元。其中,任意一个残差单元,包含一个指定空洞率的空洞卷积和一个一维因果卷积再加一个跳连接。残差单元示意图,见图11。残差单元的输入(Input [x, y])和输出(Output [x, y])维度信息一致。
解码块神经网络1包含的5个残差单元,见图10,空洞率分别是1、3、5、7、9。每个残差单元中包含的空洞卷积设置为分组卷积,根据设置的分组数,将输入通道分成若干组,只在每个组内,输入和输出通道产生关联。该空洞卷积的配置见表22。
图
11 残差单元示意图
表
22 解码块神经网络1的残差单元中空洞卷积配置参数
网络参数
参数配置
输入神经网络通道数
128
输出神经网络通道数
128
卷积核大小
1x5
步长
1
T/AI 109.10—2024
32
表
22 (续)
网络参数
参数配置
填充数
5个残差单元的填充数分别是4、12、20、28、36
分组数
4
激活函数
PReLU
所有残差单元中的因果卷积配置见表23。
表
23 解码块神经网络1的残差单元中因果卷积配置参数
网络参数
参数配置
输入神经网络通道数
128
输出神经网络通道数
128
卷积核大小
1x1
步长
1
填充数
0
激活函数
PReLU
8.4.3.4 解码块神经网络2
将第一级解码块向量DecBlockVector1,经过解码块神经网络2(DecBlocks2)运算后,生成第二级解码块向量DecBlockVector2。第一级解码向量的第一维度是神经网络通道数,设置为128;第一级解码向量的第二维度是样本数,设置为5。第二级解码块向量的第一维度是是神经网络通道数,设置为64;第二级解码块向量的第二维度是样本数,设置为20。
解码块神经网络2的结构,见图12。每个箭头右侧的[x, y]符号表示当前向量的维度,其中,第一维度是神经网络通道数,第二维度是样本数。
解码块神经网络2的第一部分是上采样卷积神经网络。上采样卷积神经网络包括一维因果卷积,和上采样因子上采样因子为4的上采样模块。其中,上采样通过复制,增加向量第二维度的数据量;复制的倍数由上采样因子指定。
解码块神经网络2的上采样卷积神经网络的卷积配置见表24。
表
24 解码块神经网络2的上采样卷积神经网络配置参数
网络参数
参数配置
输入神经网络通道数
128
输出神经网络通道数
64
卷积核大小
1x3
步长
1
填充数
2
上采样因子
4
T/AI 109.10—2024
33
解码块神经网络2包含的5个残差单元,见图12,空洞率分别是1、3、5、7、9。每个残差单元中包含的空洞卷积设置为分组卷积,根据设置的分组数,将输入通道分成若干组,只在每个组内,输入和输出通道产生关联。该空洞卷积的配置见表25。
表
25 解码块神经网络2的残差单元中空洞卷积配置参数
网络参数
参数配置
输入神经网络通道数
64
输出神经网络通道数
64
卷积核大小
1x5
步长
1
填充数
5个残差单元的填充数分别是4、12、20、28、36
分组数
4
激活函数
PReLU
图
12 解码块神经网络2结构图
所有残差单元中的因果卷积配置见表26。
T/AI 109.10—2024
34
表
26 解码块神经网络2的残差单元中因果卷积配置参数
网络参数
CCS L 71
团体标准
T/AI 109.10—2024
信息技术 智能媒体编码 第10部分: 实时通信语音编码
Information technology – Intelligent media coding –Part 10: Real-time Communication (RTC) Speech Coding
2024 - 10 - 14发布2024 - 10 - 14实施
中关村视听产业技术创新联盟 发布
目 次
前言 ................................................................................ II
引言 ............................................................................... III
1 范围 ............................................................................... 1
2 规范性引用文件 ..................................................................... 1
3 术语和定义 ......................................................................... 1
4 缩略语 ............................................................................. 2
5 串行流语法规则 ..................................................................... 3
6 约定 ............................................................................... 5
6.1 概述 ........................................................................... 5
6.2 算术运算符 ..................................................................... 5
6.3 逻辑运算符 ..................................................................... 5
6.4 关系运算符 ..................................................................... 5
6.5 位运算符 ....................................................................... 5
6.6 赋值 ........................................................................... 6
6.7 助记符 ......................................................................... 6
7 实时通信语音编解码框架 ............................................................. 6
8 实时通信语音解码 ................................................................... 7
8.1 概述 ........................................................................... 7
8.2 AVS3P10位流解析 ................................................................ 8
8.3 宽带特征向量信息和宽带特征向量 ................................................ 20
8.4 解码神经网络 .................................................................. 28
8.5 MCR立体声解码 ................................................................. 38
8.6 带宽扩展解码 .................................................................. 40
附录A (规范性) ARSTF语法及语义 ................................................... 51
附录B (规范性) AVS3P10解码神经网络信息 ........................................... 54
附录C (资料性) AVS3P10参考编码器 ................................................. 55
附录D (资料性) 丢包隐藏 ........................................................... 74
T/AI 109.10—2024
II
前 言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
本文件是T/AI 109《信息技术 智能媒体编码》的第10部分:实时通信语音编码。T/AI 109已经发布了如下部分:
——第2部分: 视频;
——第3部分: 沉浸式音频;
——第4部分: 视频符合性测试;
——第6部分:智能媒体格式。
本文件由数字音视频编解码技术标准工作组提出。
本文件由中关村视听产业技术创新联盟归口。
本文件起草单位:清华大学、腾讯科技(深圳)有限公司、中国电子技术标准化研究院、华为技术有限公司、北京理工大学、北京全景声信息科技有限公司、清华大学天津电子信息研究院、广东博华超高清创新中心有限公司。
本文件主要起草人:窦维蓓、肖玮、张亚军、商世东、李婧欣、朱博成、王喆、王晶、许舒敏、潘兴德、张伟民、高文、黄铁军、赵海英、崔晓冉、汪邦虎、李志永、袁俊崧。
T/AI 109.10—2024
III
引 言
T/AI 109旨在规定智能媒体的编码、封装与传输规范,旨在为异构网络中的智能媒体数据提供编码、封装和传输服务,拟由10个部分构成。
——第1部分:系统。目的在于确立沉浸媒体虚拟现实数据的系统信令。
——第2部分:视频。目的在于确立智能媒体高效视频压缩方法的解码过程。
——第3部分:沉浸式音频。目的在于确立适用沉浸式音频高效压缩方法的解码过程。
——第4部分:视频符合性测试。目的在于确立测试验证编码位流和解码器是否满足T/AI 109所规定的要求。
——第5部分:参考软件。目的在于确立对智能媒体高效视频压缩方法和沉浸式音频高效压缩方法的参考实现。
——第6部分: 智能媒体格式。目的在于确立异构网络中智能媒体编码数据的存储格式和传输信令。
——第7部分;音频封装与传输。目的在于确立异构网络中的沉浸式音频数据提供封装和传输。
——第10部分;实时通信语音编码。目的在于确立面向实时通信的语音编码位流和解码过程。
本文件的发布机构提请注意,声明符合本文件时,可能涉及到如下专利:
序号
专利申请号/专利号
专利名称
专利申请人/专利权人
标准条款涉及专利的(章、条编号)
1
202210681816.X
音频编码及解码方法、装置、设备、介质及程序产品
腾讯科技(深圳)有限公司
8.1至8.4, 8.6
附录A、B
2
202210681365.X
音频处理方法、装置、设备、存储介质及计算机程序产品
腾讯科技(深圳)有限公司
8.1至8.4, 8.6
附录A、B
3
202210676984.X
音频解码、编码方法、装置、电子设备及存储介质
腾讯科技(深圳)有限公司
8.1至8.4, 8.6
附录A、B
4
200810106460.7
立体声信号编解码方法、装置及编解码系统
华为技术有限公司、清华大学
8.5
本文件的发布机构对于该专利的真实性、有效性和范围无任何立场。
该专利持有人已向本文件的发布机构保证,他愿意同任何申请人在合理且无歧视的条款和条件下,就专利授权许可进行谈判。该专利持有人的声明已在本文件的发布机构备案,相关信息可以通过以下联系方式获得:
专利持有人:腾讯科技(深圳)有限公司
地址:深圳市南山区高新区科技中一路腾讯大厦35层
专利持有人:华为技术有限公司
地址:深圳市龙岗区坂田华为基地
专利持有人:清华大学
地址:北京市海淀区清华大学电子工程馆4-102
请注意除上述专利外,本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别这些专利的责任。
联 系 人:黄铁军(数字音视频编解码技术标准工作组秘书长)
通讯地址:北京大学理科2号楼2641室
邮政编码:100871
T/AI 109.10—2024
IV
电子邮件:tjhuang@pku.edu.cn
电话:+8610-62756172
传真:+8610-62751638
网址:http://www.avs.org.cn
T/AI 109.10—2024
1
信息技术 智能媒体编码 第10部分: 实时通信语音编码
1 范围
本文件规定了面向实时通信的语音编码位流和解码过程。
本文件适用于在线会议、协同办公、社交、互动娱乐等领域低码率高质量语音编解码器的开发和应用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注明日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 5271.1 信息技术 词汇 第1部分:基本术语
GB/T 33475.3 信息技术 高效多媒体编码 第3部分:音频
GB/T 41867 信息技术 人工智能 术语
3 术语和定义
GB/T 5271.1、GB/T 33475.3 和 GB/T 41867中界定的以及下列术语和定义适用于本文件。
3.1
位流 bitstream
符合本文件规范的实时通信语音编码表示的一组二进制数据流。
3.2
编码 encoding
读入音频采样流,并产生一个符合本文件规定的有效位流的过程。
3.3
编码器 encoder
执行编码处理的实体。
3.4
采样频率 sampling frequency
每秒从连续信号中提取离散信号的采样个数。
注:单位为赫兹(Hz)。
T/AI 109.10—2024
2
3.5
解码 decoding
本文件规定的一种数据处理,即读入编码位流并输出音频采样流的过程。
3.6
解码器 decoder
执行解码处理的实体。
3.7
熵编码 entropy coding
在数据压缩中,按熵原理进行的一种变长无损编码,用以减少数据统计特性上的冗余。
3.8
声道 channel
声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。
3.9
正交镜像滤波器组 quadrature mirror filterbank 将信号分成子带信号实现分频效果的滤波器组。
3.10
深度神经网络 deep neural network 由多层神经元组成的网络,通过权值可调的加权连接,接收输入数据并产生输出。
3.11
神经网络通道 neural network channel 神经网络提取特征时使用的卷积核的数量。
3.12
带宽扩展 bandwidth extension 基于低频成分和边信息生成高频成分的编解码方法。
3.13
丢包隐藏 packet loss concealment 基于已恢复语音帧预测丢失帧的解码方法。
4 缩略语
T/AI 109.10—2024
3
下列缩略语适用于本文件。
ARSTF:
AVS3实时通信语音传输格式
(AVS3 RTC Speech Transport Format)
AVS:
数字音视频编解码技术标准
(Audio Video Coding Standard)
AVS3:
第三代AVS标准
(The Third-generation AVS Standards)
AVS3P10
AVS3第10部分
(AVS3 Part 10)
BWE:
带宽扩展
(Bandwidth Extension)
CNN:
卷积神经网络
(Convolutional Neural Network)
CRC:
循环冗余校验
(Cyclic Redundancy Check)
IMDCT:
修正离散余弦反变换
(Inverse Modified Discrete Cosine Transform)
MCR:
极大相关旋转
(Maximum Correlation Rotation)
MDCT:
修正离散余弦变换
(Modified Discrete Cosine Transform)
PLC:
丢包隐藏
(Packet Loss Concealment)
PReLU:
参数修正线性单元
(Parametric Rectified Linear Unit)
QMF:
正交镜像滤波器组
(Quadrarature Mirror Filterbank)
RTC:
实时通信
(Real-Time Communication)
RU:
残差单元
(Residual Unit)
SQ:
标量量化
(Scalar Quantization)
VBR:
变长位率
(Variable Bit Rate)
5 串行流语法规则
位流中的每一个数据项用黑体。通过名字、按位的长度及其类型和传输顺序的助记符来描述。
位流中被解码的数据元素所导致的操作依赖于该数据的值及以前解码的数据元素。下面的语法结构表示数据元素以标准类型出现时的情形。
注
1:如无特殊说明,本文件中的“位”指二进制位。
注
2:本文件语法用“C”代码规定,变量或表达式为非零值时等价于条件为真,变量或表达式为零值时等价于条件为非真。
if(condition){
data_element
…
} else{
data_element
…
}
若条件为真,在数据流中产生第一组数据元素,若条件为非真,在数据流中产生第二组数据元素。
for(expr1;expr2 ; expr3){
data_element
…
}
expr1是指定循环初始状态表达式,通常它指定了计数器的初始状态,expr2是指定的每次循环前的测试条件。条件为非真时循环终止,expr3是每次循环结束时执行的表达式,一般是增加计数器。
注
3:本结构的最通常用法为
for(i=0;i
4
data_element
…
}
数据元素组产生n次。数据元素组内的条件结构可能依赖循环控制变量i的值。第一次出现时被置为‘0’,第二次增加到‘1’,如此往复。
switch(expr){
根据表达式expr的值,产生对应的数据元素。expr的值为
case constcase1:
constcase1时产生数据元素data_element1,expr的值为
data_element1
constcase2时产生数据元素data_element2,以此类推,expr的值
break
为constcasen时产生数据元素data_elementn。当expr的值不等于
case constcase2:
constcase1, constcase2, …, constcasen中的任何一个值时,产生
data_element2
数据元素data_elementdefault
break
…
case constcasen:
data_elementn
break
default:
data_elementdefault
break
}
本结构的一类变体是在case后不出现break,如:
switch(expr){
expr的值constcasex时,从对应的case constcasex开始产生数
case constcase1:
据元素,直到break出现。
data_element1
expr的值constcase1时产生数据元素data_element1和
case constcase2:
data_element2,expr的值为constcasen时产生数据元素
data_element2
data_elementn
break
…
case constcasen:
data_elementn
break
default:
data_elementdefault
break
}
注
4:数据元素组中可能含有嵌套结构。为简便起见,当后面只有一个数据元素时“[]”省略。
data_element[ ]
data_element是一数组数据,数据元素的个数由上下文而定;
data_element[n]
data_element[n]是数组数据的第n+1个元素;
data_element[m][n]
data_element[m][n]是二维数组的第m+1,n+1个元素;
data_element[l][m][n]
data_element[l][m][n]是三维数组的第l+1,m+1,n+1个元素;
data_element[m…n]
data_element[m…n]是位m到位n之间包括的位。
T/AI 109.10—2024
5
6 约定
6.1 概述
本文件中使用的数学运算符和优先级与C语言使用的类似。但对整型除法和算术移位操作进行了特
定的定义。除特别说明外,约定编号和计数从0开始。
6.2 算术运算符
下列算术运算符适用于本文件。
+ 加法运算
- 减(二元运算符)或取反(一元前缀运算符)
× 乘法运算
ab 幂,表示a的b次幂,也可表示上标。
b
a
除法运算,不做取整或四舍五入。
平方根
自变量i取由a到b(含b)的所有整数值时,函数f(i)的累加和。
log2 以2为底的对数
6.3 逻辑运算符
下列逻辑运算符适合于本文件。
|| 逻辑或运算
&& 逻辑与运算
! 逻辑非运算
6.4 关系运算符
下列关系运算符适用于本文件。
> 大于
大于或等于
< 小于
小于或等于
== 等于
不等于
6.5 位运算符
下列位运算符适用于本文件。
& 与运算
| 或运算
~ 取反运算
a >> b 将a以2的补码整数表示的形式向右移b位。仅当b取正数时定义此运算。向右
移至最高有效位时,其值与a 移位运算前的最高有效位相等。
x
=
b
a i
f (i)
T/AI 109.10—2024
6
a << b 将a以2的补码整数表示的形式向左移b位。仅当b取正数时定义此运算。向左移至最低有效位时,其值等于0。
6.6 赋值
下列赋值运算适用于本文件。
=
赋值运算符
x = a..b
x取从a至b(含b)的值,其中x、a和b是整数。
++
自加,x++相当于x=x+1。当用于数组下标时,在自加运算前先求变量值。
--
自减,x--相当于x=x-1。当用于数组下标时,在自减运算前先求变量值。
+=
自加指定值,例如,x+=3相当于x=x+3,x+=(-3)相当于x=x+(-3)。
-=
自减指定值,例如,x-=3相当于x=x+(-3),x-=(-3)相当于x=x–(-3)。
6.7 助记符
下列助记符适用于本文件。
rpchof
多项式余数,高阶在先;
bslbf
位串,左位在前。位串是带单引号的1和0串。如‘1000 0001’。位串内的空格是便于阅读的,无特殊意义。(bitstream left bit first)
uimsbf
无符号整数,最高有效位优先。(unsigned integer, most significant bit first)
7 实时通信语音编解码框架
本文件规定的实时通信语音编码规范(RTC Speech Coding)是AVS3系列标准中的第10部分,以下简称AVS3P10。AVS3P10是一种基于子带编码的多模式编码方案,其编码框架见图1:按声道数划分,支持单声道和立体声两种编码模式;按采样频率划分,支持宽带(16000Hz采样频率)和超宽带(32000Hz采样频率)两种模式。
图
1 AVS3P10编码框架
对于单声道宽带信号,AVS3P10编码直接采用宽带语音编码。对于单声道超宽带信号,AVS3P10编码将输入信号,划分为低频和高频两个子带;分别采用宽带语音编码和带宽扩展编码。
对于立体声宽带信号,AVS3P10编码采用宽带语音编码和立体声编码。对于立体声超宽带信号,
T/AI 109.10—2024
7
AVS3P10编码采用宽带语音编码、立体声编码和带宽扩展编码。
AVS3P10编码将编码器提取的信息,进行量化并按照附录A中规定的AVS3P10位流复用,获得AVS3P10编码位流。
AVS3P10编码的位流封装的传输格式ARSTF,包含同步字和解码必需的信息,见附录A。
AVS3P10编码的参数配置如下:
a)支持采样频率为:16000Hz、32000Hz
b)支持采样精度为:16bit
c)支持编码位率为:
——单声道宽带: 5.9、7.1、8.0、9.2kbit/s
——单声道超宽带:7.9、11.2、12.6、14.5kb/s
——立体声宽带:7.6、8.7kb/s
——立体声超宽带:11.4、14.5kb/s
AVS3P10解码框架见图2。解码器是编码器的逆过程。通过解析位流和解量化,可以获得相应的变量。根据编码模式,使用不同的解码流程。
对于单声道宽带编码模式,经过宽带语音解码,获得单声道宽带重建信号。对于单声道超宽带编码模式,经过宽带语音解码和带宽扩展解码,获得单声道超宽带重建信号。
对于立体声宽带编码模式,经过宽带语音解码和立体声解码,获得立体声宽带重建信号。对于立体声超宽带编码模式,经过宽带语音解码、立体声解码和带宽扩展解码,获得立体声超宽带重建信号。
本文件第8章规定了AVS3P10解码过程,包括解码器的完整解码流程,以及编码位流解析、宽带特征向量信息和宽带特征向量、解码神经网络、MCR立体声解码和带宽扩展解码的具体操作步骤。
图
2 AVS3P10解码框架
AVS3P10的编码位流ARSTF的语法及语义见附录A(规范性),AVS3P10解码神经网络信息见附录B(规范性)。作为资料性附录,附录C提供了AVS3P10编码器的参考实现,附录D提供了AVS3P10解码过程中的一种丢包隐藏方案。
8 实时通信语音解码
8.1 概述
AVS3P10解码包括单声道宽带解码、单声道超宽带解码、立体声宽带解码、立体声超宽带解码。
AVS3P10解码器单声道模式流程图见图3。AVS3P10解码器单声道模式由解码、逆量化、解码神经网络、带宽扩展解码、QMF合成滤波器等构成,将位流解码为单声道宽带重建信号或者单声道超宽带
T/AI 109.10—2024
8
重建信号。
AVS3P10解码器立体声模式流程图见图4。AVS3P10解码器立体声模式由解码、逆量化、解码神经网络、MCR立体声解码、带宽扩展解码、QMF合成滤波器等构成,将位流解码为立体声宽带重建信号或者立体声超宽带重建信号。
图
3 AVS3P10解码器单声道模式流程图
图
4 AVS3P10解码器立体声模式流程图
8.2 AVS3P10位流解析
8.2.1 语法
AVS3P10编码位流中的实时通信语音编码数据块RtcSpeechRawDataBlock()的解析语法,见表1。
T/AI 109.10—2024
9
表
1 实时通信语音编码数据块解析语法
语法
位数
助记符
RtcSpeechRawDataBlock() {
switch(NumChans) {
1
uimsbf
case 0x0: RtcSpeechMonoDec()
case 0x1: RtcSpeechStereoDec()
}
实时通信语音编码单声道解码语法RtcSpeechMonoDec(),见表2。
表
2 实时通信语音编码单声道解码语法
语法
位数
助记符
RtcSpeechMonoDec () {
switch(BandwidthMode) {
1
uimsbf
case 0x0: RtcSpeechMonoWbDec()
case 0x1: RtcSpeechMonoSwbDec()
}
RateMode
2
uimsbf
}
实时通信语音编码单声道宽带解码语法RtcSpeechMonoWbDec(),见表3。
表
3 实时通信语音编码单声道宽带解码语法
语法
位数
助记符
RtcSpeechMonoWbDec () {
DecodeWbInforBits()
WbInvQuanCod()
WbNeuralNet()
}
实时通信语音编码单声道超宽带解码语法RtcSpeechMonoSwbDec(),见表4。
表
4 实时通信语音编码单声道超宽带解码语法
语法
位数
助记符
RtcSpeechMonoSwbDec () {
DecodeWbInforBits()
DecodeSwbInforBits()
WbInvQuanCod ()
SwbInvQuanCod()
WbNNetDec()
T/AI 109.10—2024
10
表4(续)
语法
位数
助记符
SwbBweDec()
QMFSynthesis()
}
实时通信语音编码立体声解码语法RtcSpeechStereoDec(),见表5。
表
5 实时通信语音编码立体声解码语法
语法
位数
助记符
RtcSpeechStereoDec () {
switch(BandwidthMode) {
1
uimsbf
case 0x0: RtcSpeechStereoWbDec()
case 0x1: RtcSpeechStereoSwbDec()
}
RateMode
2
uimsbf
}
实时通信语音编码立体声宽带解码语法RtcSpeechStereoWbDec(),见表6。
表
6 实时通信语音编码立体声宽带解码语法
语法
位数
助记符
RtcSpeechStereoWbDec () {
DecodeWbInforBits()
DecodeMcrInforBits()
WbInvQuanCod()
McrInvQuanCod()
WbNeuralNet()
McrDec()
}
实时通信语音编码立体声超宽带解码语法RtcSpeechStereoSwbDec(),见表7。
表
7 实时通信语音编码立体声超宽带解码语法
语法
位数
助记符
RtcSpeechMonoSwbDec() {
DecodeWbInforBits()
DecodeSwbInforBits()
DecodeMcrInforBits ()
DecodeSwbRInforBits ()
WbInvQuanCod()
T/AI 109.10—2024
11
表
7 (续)
语法
位数
助记符
SwbInvQuanCod()
McrInvQuanCod()
SwbRInvQuanCod()
WbNNetDec ()
SwbBweDec()
McrDec()
SwbBweRDec()
QMFSynthesis()
}
8.2.2 语义
NumChans 声道数,0为单声道,1为立体声
BandwidthMode 带宽模式,0为宽带编码,1为超宽带编码
RateMode 位率模式,2比特,包含4种编码位率模式
RtcSpeechMonoDec() 实时通信语音单声道解码函数
RtcSpeechStereoDec() 实时通信语音立体声解码函数
RtcSpeechMonoWbDec() 实时通信语音单声道宽带模式解码函数
RtcSpeechMonoSwbDec() 实时通信语音单声道超宽带模式解码函数
RtcSpeechStereoWbDec() 实时通信语音立体声宽带模式解码函数
RtcSpeechStereoSwbDec() 实时通信语音立体声超宽带模式解码函数
DecodeWbInforBits() 解析宽带特征信息函数
DecodeSwbInforBits() 解析超宽带特征信息函数
DecodeMcrInforBits() 解析立体声特征信息函数
DecodeSwbRInforBits() 解析超宽带特征信息函数(仅限立体声超宽带解码)
WbInvQuanCod() 宽带解码和逆量化函数
SwbInvQuanCod() 超宽带解码和逆量化函数
McrInvQuanCod() 立体声解码和逆量化函数
SwbRInvQuanCod() 超宽带解码和逆量化函数(仅限立体声超宽带解码)
WbNNetDec () 宽带解码神经网络函数
SwbBweDec () 带宽扩展解码函数
McrDec () MCR立体声解码函数
SwbBweRDec () 带宽扩展解码函数(仅限立体声超宽带解码)
QMFSynthesis() QMF合成滤波函数
8.2.3 通用信息
8.2.3.1 概述
AVS3P10解码器可以分为逆量化和解码、第一级解码卷积神经网络、多级解码块神经网络、后处理神经网络、第二级解码卷积神经网络、带宽扩展、MCR立体声解码、QMF合成滤波器(适用于超宽带
T/AI 109.10—2024
12
编码模式)等模块。根据输入信号声道数、带宽模式等编码模式参数,调用相关模块进行解码。解码过程涉及的解码神经网络结构描述性信息和网络权值参数,见本文件附录B。
8.2.3.2 单声道宽带解码
AVS3P10单声道宽带解码流程图见图5。单声道解码器通过熵解码和逆量化从位流中解析得到宽带特征向量量化值,经过包含多个神经网络的计算,生成单声道宽带重建信号。
a)
熵解码和逆量化
从位流中获取与宽带特征向量编码相关的位流信息,进行熵解码和逆量化处理以得到宽带特征向量量化值,作为深度神经网络计算的输入。
——输入:位流
——输出:宽带特征向量量化值
b)
第一级解码卷积神经网络
将宽带特征向量量化值,经过1维卷积运算后,生成第一级解码向量。宽带特征向量的第一维度是神经网络通道数,设置为56;宽带特征向量的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。
——输入:宽带特征向量量化值
——输出:第一级解码向量
图
5 AVS3P10解码器单声道宽带解码流程图
c)
多级解码块神经网络
T/AI 109.10—2024
13
将第一级解码向量,经过4级解码块神经网络,生成第二级解码向量。每一级解码块神经网络包含多层神经网络计算。每一级解码块神经网络通过计算,将输入向量的通道数减少1倍,同时通过不同因子的复制,增加输出向量第二维度的数据量。第二级编码向量的第一维度是神经网络通道数,经过4级编码块神经网络,由256减少为16;第二级编码向量的第二维度是样本数,设置为160。多级解码块神经网络的模块细节见8.4.3.3至8.4.3.6。
——输入:第一级解码向量
——输出:第二级解码向量
d)
后处理解码神经网络
后处理神经网络,将第二级解码向量进行一次一维因果卷积计算并激活后,生成第三级解码向量。第三级编码向量的第一维度是是神经网络通道数,设置为16;第三级编码向量的第二维度是样本数,设置为320。
——输入:第二级解码向量
——输出:第三级解码向量
e)
第二级解码卷积神经网络
将第三级解码向量,进行一次一维因果卷积计算,生成单声道宽带重建信号。单声道宽带重建信号长度为320。
——输入:第三级解码向量
——输出:单声道宽带重建信号
8.2.3.3 单声道超宽带解码
AVS3P10单声道超宽带解码流程见图6。单声道解码器通过熵解码和逆量化从位流中解析得到宽带特征向量量化值和超宽带特征向量量化值。对宽带特征向量量化值,经过包含多个神经网络的计算,生成低频子带信号。对低频子带信号和超宽带特征向量量化值,经过带宽扩展解码,生成高频子带信号。对低频子带重建信号和高频子带重建信号,经过QMF合成滤波器处理,生成单声道超宽带重建信号。
a)
熵解码和逆量化
从位流中获取与宽带特征向量编码和超宽带特征向量编码相关的位流信息,进行熵解码和逆量化处理以得到宽带特征向量量化值和超宽带特征向量量化值,作为深度神经网络计算和带宽扩展解码的输入。
——输入:位流
——输出:宽带特征向量量化值和超宽带特征向量量化值
b)
第一级解码卷积神经网络
将宽带特征向量量化值,经过1维卷积运算后,生成第一级解码向量。宽带特征向量量化值的第一维度是神经网络通道数,设置为56;宽带特征向量量化值的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。
——输入:低频特征向量量化值
——输出:第一级解码向量
c)
多级解码块神经网络
将第一级解码向量,经过4级解码块神经网络,生成第二级解码向量。每一级解码块神经网络包含多层神经网络计算。每一级解码块神经网络通过计算,将输入向量的通道数减少1倍,同时通过不同因子的复制,增加输出向量第二维度的数据量。第二级编码向量的第一维度是神经网络通道数,经过4级编码块神经网络,由256减少为16;第二级编码向量的第二维度是样本数,设置为160。多级解码块神经网络的模块细节见8.4.3.3至8.4.3.6。
T/AI 109.10—2024
14
——输入:第一级解码向量
——输出:第二级解码向量
d)
后处理解码神经网络
后处理神经网络,将第二级解码向量进行一次一维因果卷积计算并激活后,生成第三级解码向量。第三级编码向量的第一维度是是神经网络通道数,设置为16;第三级编码向量的第二维度是样本数,设置为320。
——输入:第二级解码向量
——输出:第三级解码向量
e)
第二级解码卷积神经网络
将第三级解码向量,进行一次一维因果卷积计算,生成低频子带信号。低频子带信号长度设置为320。
——输入:第三级解码向量
——输出:低频子带重建信号
图
6 AVS3P10解码器单声道超宽带解码流程图
f)
带宽扩展解码
将低频带子重建信号和超宽带特征向量量化值,经过带宽扩展解码,获得高频子带重建信号。带宽扩展解码对低频子带重建信号进行2次长度320点MDCT变换,并通过频带复制,生成高频子带重建
T/AI 109.10—2024
15
信号对应的MDCT系数;然后,通过超宽带特征向量量化值,对高频MDCT系数进行增益控制;最后,通过MDCT逆变换,获得高频子带重建信号。高频子带信号的长度设置为320。
——输入:低频子带重建信号和超宽带特征向量量化值
——输出:高频子带重建信号
g)
QMF合成滤波器
对于低频子带重建信号和高频子带重建信号,经过升2采样和合成滤波,生成单声道超宽带重建信号。单声道超宽带重建信号的长度设置为640。
——输入:低频带子重建信号和高频子带重建信号
——输出:单声道超宽带重建信号
8.2.3.4 立体声宽带解码
AVS3P10立体声宽带解码流程图见图7。解码器通过熵解码和逆量化从位流中解析得到宽带特征向量量化值和MCR参数量化值。对宽带特征向量量化值,经过包含多个神经网络的计算,生成左声道宽带重建信号。然后,对宽带特征向量量化值和MCR参数量化值,经过MCR立体声解码,生成立体声宽带重建信号。
图
7 AVS3P10解码器立体声宽带解码流程图
a)
熵解码和逆量化
从位流中获取与宽带特征向量编码相关的位流信息,进行熵解码和逆量化处理以得到宽带特征向
T/AI 109.10—2024
16
量量化值,作为深度神经网络计算的输入。
——输入:位流
——输出:宽带特征向量量化值和MCR参数量化值
b)
第一级解码卷积神经网络
将宽带特征向量量化值,经过1维卷积运算后,生成第一级解码向量。宽带特征向量的第一维度是神经网络通道数,设置为56;宽带特征向量的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。
——输入:宽带特征向量量化值
——输出:第一级解码向量
c)
多级解码块神经网络
将第一级解码向量,经过4级解码块神经网络,生成第二级解码向量。每一级解码块神经网络包含多层神经网络计算。每一级解码块神经网络通过计算,将输入向量的通道数减少1倍,同时通过不同因子的复制,增加输出向量第二维度的数据量。第二级编码向量的第一维度是神经网络通道数,经过4级编码块神经网络,由256减少为16;第二级编码向量的第二维度是样本数,设置为160。多级解码块神经网络的模块细节见8.4.3.3至8.4.3.6。
——输入:第一级解码向量
——输出:第二级解码向量
d)
后处理解码神经网络
后处理神经网络,将第二级解码向量进行一次一维因果卷积计算并激活后,生成第三级解码向量。第三级编码向量的第一维度是是神经网络通道数,设置为16;第三级编码向量的第二维度是样本数,设置为320。
——输入:第二级解码向量
——输出:第三级解码向量
e)
第二级解码卷积神经网络
将第三级解码向量,进行一次一维因果卷积计算,生成单声道宽带重建信号。单声道宽带重建信号长度为320。
——输入:第三级解码向量
——输出:左声道宽带重建信号
f)
MCR立体声解码
将左声道宽带重建信号和MCR参数量化值,进行MCR立体声解码,生成立体声宽带重建信号。立体声宽带重建信号每个声道的长度为320。
——输入:左声道宽带重建信号和MCR参数量化值
——输出:立体声宽带重建信号
8.2.3.5 立体声超宽带解码
AVS3P10立体声超宽带解码流程图见图8。解码器通过熵解码和逆量化从位流中解析得到宽带特征向量量化值、MCR参数量化值和超宽带特征向量量化值。对宽带特征向量量化值,经过包含多个神经网络的计算,生成左声道低频子带信号。对左声道低频子带信号和MCR参数量化值,经过MCR立体声解码,生成低频子带信号。对低频子带信号和超宽带特征向量量化值,经过带宽扩展解码,生成高频子带信号。对低频子带重建信号和高频子带重建信号,经过QMF合成滤波器处理,生成立体声超宽带重建信号。
a)
熵解码和逆量化
T/AI 109.10—2024
17
从位流中获取与宽带特征向量编码和超宽带特征向量编码相关的位流信息,进行熵解码和逆量化处理以得到宽带特征向量量化值和超宽带特征向量量化值,作为深度神经网络计算和带宽扩展解码的输入。
——输入:位流
——输出:宽带特征向量量化值和超宽带特征向量量化值
b)
第一级解码卷积神经网络
将宽带特征向量量化值,经过1维卷积运算后,生成第一级解码向量。宽带特征向量量化值的第一维度是神经网络通道数,设置为56;宽带特征向量量化值的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。
——输入:低频特征向量量化值
——输出:第一级解码向量
图
8 AVS3P10解码器立体声超宽带解码流程图
c)
多级解码块神经网络
将第一级解码向量,经过4级解码块神经网络,生成第二级解码向量。每一级解码块神经网络包含
T/AI 109.10—2024
18
多层神经网络计算。每一级解码块神经网络通过计算,将输入向量的通道数减少1倍,同时通过不同因子的复制,增加输出向量第二维度的数据量。第二级编码向量的第一维度是神经网络通道数,经过4级编码块神经网络,由256减少为16;第二级编码向量的第二维度是样本数,设置为160。多级解码块神经网络的模块细节见8.4.3.3至8.4.3.6。
——输入:第一级解码向量
——输出:第二级解码向量
d)
后处理解码神经网络
后处理神经网络,将第二级解码向量进行一次一维因果卷积计算并激活后,生成第三级解码向量。第三级编码向量的第一维度是是神经网络通道数,设置为16;第三级编码向量的第二维度是样本数,设置为320。
——输入:第二级解码向量
——输出:第三级解码向量
e)
第二级解码卷积神经网络
将第三级解码向量,进行一次一维因果卷积计算,生成低频子带信号。低频子带信号长度设置为320。
——输入:第三级解码向量
——输出:左声道低频子带重建信号
f)
MCR立体声解码
将左声道宽带重建信号和MCR参数量化值,进行MCR立体声解码,生成立体声宽带重建信号。立体声宽带重建信号长度为320。
——输入:左声道宽带重建信号和MCR参数量化值
——输出:低频子带重建信号
g)
带宽扩展解码
低频带子重建信号和超宽带特征向量量化值,分左右声道单独处理,经过带宽扩展解码,获得高频子带重建信号。带宽扩展解码对低频子带重建信号进行2次长度320点MDCT变换,并通过频带复制,生成高频子带重建信号对应的MDCT系数;然后,通过超宽带特征向量量化值,对高频MDCT系数进行增益控制;最后,通过MDCT逆变换,获得高频子带重建信号。高频子带信号的长度设置为320。
——输入:低频子带重建信号和超宽带特征向量量化值
——输出:高频子带重建信号
h)
QMF合成滤波器
对于低频子带重建信号和高频子带重建信号,分左右声道单独处理,经过升2采样和合成滤波,生成立体声超宽带重建信号。立体声超宽带重建信号每个声道的长度设置为640。
——输入:低频带子重建信号和高频子带重建信号
——输出:立体声超宽带重建信号
8.2.4 解码过程
实时通信语音编码原始数据块语法(RtcSpeechRawDataBlock)是构成ARSTF编码位流的基本单位,可获得一帧的音频样本。ARSTF格式见附录A。
解码器根据NumChans选择实时通信语音单声道解码(RtcSpeechMonoDec)或者实时通信语音立体声解码(RtcSpeechStereoDec)。单声道解码根据BandwidthMode选择单声道宽带解码(RtcSpeechMonoWbDec)或者单声道超宽带解码(RtcSpeechMonoSwbDec)。立体声解码根据BandwidthMode选择立体声宽带解码(RtcSpeechStereoWbDec)或者立体声超宽带解码(RtcSpeechStereoSwbDec)。
T/AI 109.10—2024
19
单声道宽带解码,首先解析宽带特征向量信息(DecodeWbInforBits)。然后进行宽带解码和逆量化(WbInvQuanCod)获得宽带特征向量量化值。最后,进行解码神经网络(WbNNetDec),得到单声道宽带重建信号。
单声道超宽带解码,首先解析宽带特征向量信息(DecodeWbInforBits)和解析超宽带特征向量信息(DecodeSwbInforBits)。然后进行宽带解码和逆量化(WbInvQuanCod)和进行超宽带解码和逆量化(SwbInvQuanCod)获得宽带特征向量量化值和超宽带特征向量量化值。进行解码神经网络(WbNNetDec)获得低频子带重建信号;进行带宽扩展解码(SwbBweDec)获得高频子带重建信号;最后,进行QMF合成滤波(QMFSynthesis),获得单声道超宽带重建信号。
立体声宽带解码,首先解析宽带特征向量信息(DecodeWbInforBits)和解析立体声特征信息(DecodeMcrInforBits)。然后,进行宽带解码和逆量化(WbInvQuanCod)获得宽带特征向量量化值;进行立体声解码和逆量化(McrInvQuanCod)获得MCR参数量化值。进行解码神经网络(WbNNetDec),得到左声道宽带重建信号;最后,进行MCR立体声解码(McrDec),得到立体声宽带重建信号。
立体声超宽带解码,首先解析宽带特征向量信息(DecodeWbInforBits)、解析超宽带特征向量信息(DecodeSwbInforBits)、解析立体声特征信息(DecodeMcrInforBits)和解析右声道相关的超宽带特征向量信息(DecodeSwbRInforBits)。然后进行宽带解码和逆量化(WbInvQuanCod)获得宽带特征向量量化值、进行立体声解码和逆量化(McrInvQuanCod)获得MCR参数量化值、进行超宽带解码和逆量化(SwbInvQuanCod)获得左声道相关超宽带特征向量量化值和进行超宽带解码和逆量化(SwbRInvQuanCod)获得右声道相关超宽带特征向量量化值。进行解码神经网络(WbNNetDec),得到左声道宽带重建信号;进行MCR立体声解码(McrDec),得到低频子带重建信号;进行带宽扩展解码(SwbBweDec和SwbBweRDec)获得高频子带重建信号;最后,进行QMF合成滤波(QMFSynthesis),获得立体声超宽带重建信号。
AVS3P10编码是一种基于子带编码的多模式编码方案。单声道宽带编码模式和单声道超宽带编码模式均支持4个位率,根据每种编码模式下每一种位率模式对应的运行模式见表8和表9。
表
8 单声道宽带编码模式的位率模式信息
编码位率模式
编码位率(kbit/s)
宽带运行模式
0
5.9
WB_Rate1
1
7.1
WB_Rate2
2
8.0
WB_Rate3
3
9.2
WB_Rate4
表
9 单声道超宽带编码模式的位率模式信息
编码位率模式
编码位率(kbit/s)
宽带运行模式
超宽带运行模式
0
7.9
WB_Rate1
SWB_Rate1
1
11.2
WB_Rate4
SWB_Rate2
2
12.6
WB_Rate4
SWB_Rate3
3
14.5
WB_Rate4
SWB_Rate4
立体声宽带编码模式和立体声超宽带编码模式,是在对应的单声道编码模式下增加必要的立体声信息和超宽带特征向量信息;其中,对左声道的重建与单声道模式一致。立体声宽带编码模式和立体声超宽带编码模式均支持2个位率。根据每种编码模式下每一种位率模式对应的运行模式见表10和表11。
T/AI 109.10—2024
20
表
10 立体声宽带编码模式的位率模式信息
编码位率模式
编码位率(kbit/s)
宽带运行模式
0
7.6
WB_Rate1
1
8.7
WB_Rate2
表
11 立体声超宽带编码模式的位率模式信息
编码位率模式
编码位率(kbit/s)
宽带运行模式
超宽带运行模式
0
11.4
WB_Rate1
SWB_Rate1
1
14.5
WB_Rate4
SWB_Rate2
8.3 宽带特征向量信息和宽带特征向量
8.3.1 语法
解码宽带特征向量信息(索引值)和宽带特征向量,见表12至13。
表
12 解析宽带特征向量索引值语法
语法
位数
助记符
DecodeWbInforBits() {
for (i = 0; i < 56; i++) {
WbIndice[i]
2;3
uimsbf
}
}
表
13 宽带解码和逆量化语法
语法
位数
助记符
WbInvQuanCod() {
for (i = 0; i < 56; i++) {
WbEmbedding[i]
}
8.3.2 语义
WbIndice 解析获得56维宽带特征向量索引值
WbEmbedding 通过每一维度的宽带特征向量索引值(WbIndice),获得第一维度的宽带特征向量量化值。
8.3.3 解码过程
T/AI 109.10—2024
21
从AVS3P10位流中解析宽带特征信息函数DecodeWbInforBits()(见表12),利用熵解码,解析出56维宽带特征向量索引值;通过宽带特征向量索引值(WbIndice)和表15至18,获得宽带特征向量量化值,用于解码神经网络。
对于表8至表11所示的任意一种宽带运行模式,熵解码具有唯一性。根据对应宽带运行模式下包含的码表中的标识数量和统计概率,通过熵解码可以获得对应的宽带特征向量索引值。每种宽带运行模式包含的标识数量和标识,见表14。
表
14 宽带运行模式包含的标识数量和标识信息
宽带运行模式
标识数量
标识
WB_Rate1
5
-1.0, 0.5, 0, 0.5, 1.0
WB_Rate2
7
-1.0, -0.66667, -0.33333, 0, 0.33333, 0.66667, 1.0
WB_Rate3
9
-1.0, -0.75, -0.50, -0.25, 0, 0.25, 0.50, 0.75, 1.0
WB_Rate4
11
-1.0, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0
每种宽带运行模式进行熵解码所需的统计概率表,见表15至18。标识概率统计值的最大值为255。根据标识概率统计值各分量,计算出对应标识的概率后,调用熵解码,获得宽带特征向量索引值。需要操作56次。
表
15 宽带运行模式WB_Rate1标识统计表
宽带特征向量维度
标识概率统计值
1
224,113,36,4,0
2
245,162,61,5,0
3
245,174,63,3,0
4
245,179,74,10,0
5
252,198,88,6,0
6
247,199,105,17,0
7
250,177,71,6,0
8
238,180,88,9,0
9
250,186,76,5,0
10
247,169,62,2,0
11
237,179,88,18,0
12
243,182,81,5,0
13
239,147,49,4,0
14
240,157,57,6,0
15
228,133,43,3,0
16
250,195,89,3,0
17
250,177,80,8,0
18
245,174,66,5,0
19
247,195,100,10,0
20
240,146,62,13,0
T/AI 109.10—2024
22
表
15 (续)
宽带特征向量维度
标识概率统计值
21
246,150,54,2,0
22
243,192,113,17,0
23
239,154,50,3,0
24
250,185,75,3,0
25
249,200,94,9,0
26
234,174,87,6,0
27
248,166,68,5,0
28
244,173,63,3,0
29
249,189,82,8,0
30
250,181,69,5,0
31
244,194,117,23,0
32
246,183,77,6,0
33
250,204,107,9,0
34
230,171,117,44,0
35
229,152,85,34,0
36
240,160,57,6,0
37
241,143,53,6,0
38
244,184,77,7,0
39
240,147,54,8,0
40
247,172,64,5,0
41
243,169,75,13,0
42
248,227,195,130,0
43
235,146,48,5,0
44
245,155,55,4,0
45
196,144,83,21,0
46
249,205,116,13,0
47
248,186,80,3,0
48
238,151,62,10,0
49
246,163,59,5,0
50
246,169,59,2,0
51
249,173,66,5,0
52
247,204,119,22,0
53
248,185,72,4,0
54
240,140,51,7,0
55
242,174,70,6,0
T/AI 109.10—2024
23
表
15 (续)
宽带特征向量维度
标识概率统计值
56
251,189,81,9,0
表
16 宽带运行模式WB_Rate2标识统计表
宽带特征向量维度
标识概率统计值
1
238,166,96,45,16,1,0
2
251,212,143,73,27,1,0
3
251,217,156,77,23,1,0
4
251,224,164,91,37,4,0
5
254,235,181,106,36,1,0
6
251,228,185,120,54,6,0
7
253,224,157,84,30,1,0
8
247,212,169,104,41,1,0
9
253,228,168,92,27,1,0
10
251,220,149,76,22,1,0
11
245,217,169,107,50,9,0
12
250,218,170,99,34,1,0
13
248,198,128,61,19,1,0
14
248,207,138,70,25,2,0
15
240,184,115,53,16,1,0
16
253,231,180,107,34,1,0
17
253,223,156,91,38,1,0
18
251,216,158,80,27,1,0
19
252,225,183,118,44,2,0
20
248,201,127,71,33,5,0
21
252,207,132,67,21,1,0
22
248,221,181,129,63,4,0
23
248,209,138,65,20,1,0
24
253,227,170,95,25,1,0
25
252,230,184,111,38,1,0
26
244,208,164,105,35,1,0
27
252,216,147,81,28,1,0
28
251,216,158,80,23,1,0
29
253,228,174,98,40,1,0
30
253,227,162,84,28,1,0
31
249,222,182,130,69,6,0
T/AI 109.10—2024
24
表
16 (续)
宽带特征向量维度
标识概率统计值
32
252,222,169,95,33,1,0
33
253,234,190,124,48,1,0
34
240,201,162,126,89,19,0
35
244,188,135,90,58,20,0
36
248,208,142,70,25,1,0
37
248,195,121,62,22,1,0
38
250,220,168,90,34,1,0
39
249,203,129,65,24,2,0
40
252,219,154,77,27,1,0
41
249,213,152,88,37,5,0
42
251,240,225,205,173,110,0
43
245,201,129,61,21,1,0
44
251,210,134,66,23,1,0
45
211,175,140,98,54,11,0
46
252,233,194,135,59,1,0
47
252,226,172,100,29,1,0
48
249,196,132,72,29,4,0
49
251,214,143,71,25,1,0
50
252,217,151,73,22,1,0
51
252,224,153,80,27,1,0
52
251,230,193,135,65,9,0
53
253,224,170,90,28,1,0
54
249,194,121,61,23,3,0
55
250,213,159,84,30,1,0
56
254,230,171,94,35,1,0
表
17 宽带运行模式WB_Rate3标识统计表
宽带特征向量维度
标识概率统计值
1
244,196,139,88,50,25,9,1,0
2
253,230,188,133,81,43,15,1,0
3
253,233,198,146,87,42,11,1,0
4
251,234,201,150,95,51,19,1,0
5
254,245,218,172,116,59,17,1,0
6
252,238,214,178,129,79,34,2,0
7
254,239,201,146,92,48,15,1,0
T/AI 109.10—2024
25
表
17 (续)
宽带特征向量维度
标识概率统计值
8
249,223,194,159,111,61,22,1,0
9
254,241,208,158,102,49,13,1,0
10
252,236,195,138,84,39,9,1,0
11
246,226,197,158,112,66,32,4,0
12
252,231,200,160,106,55,15,1,0
13
250,220,172,119,68,32,9,1,0
14
249,225,181,128,77,38,13,1,0
15
243,205,156,105,58,25,6,1,0
16
254,243,216,173,118,61,13,1,0
17
254,239,201,148,100,59,22,1,0
18
253,231,196,148,89,45,14,1,0
19
253,237,210,176,126,70,23,1,0
20
251,223,172,120,78,46,22,1,0
21
253,230,176,121,73,35,8,1,0
22
250,232,206,174,136,87,38,1,0
23
250,224,179,123,69,30,7,1,0
24
254,241,208,161,105,49,10,1,0
25
253,241,217,178,124,66,22,1,0
26
247,220,189,154,111,57,15,1,0
27
253,236,189,137,87,44,12,1,0
28
252,230,194,148,89,40,10,1,0
29
254,240,210,165,106,59,21,1,0
30
254,241,206,152,94,47,14,1,0
31
251,233,207,175,136,92,46,3,0
32
253,235,203,159,104,52,16,1,0
33
254,244,221,184,135,77,25,1,0
34
244,214,184,155,129,102,70,9,0
35
248,209,172,132,97,70,47,15,0
36
250,224,184,131,78,39,14,1,0
37
251,221,169,115,70,36,13,1,0
38
252,233,203,158,99,54,18,1,0
39
251,223,174,118,71,36,14,1,0
40
253,234,196,142,85,44,14,1,0
41
251,229,191,143,96,53,23,1,0
42
251,242,231,218,202,180,149,85,0
43
246,216,170,114,65,31,10,1,0
T/AI 109.10—2024
26
表
17 (续)
宽带特征向量维度
标识概率统计值
44
253,229,184,123,73,37,11,1,0
45
210,179,154,127,97,64,34,4,0
46
253,241,219,185,140,83,32,1,0
47
253,238,207,162,109,52,11,1,0
48
252,217,174,125,80,44,18,1,0
49
253,233,189,133,79,41,14,1,0
50
253,233,194,140,81,38,9,1,0
51
253,239,201,144,90,47,16,1,0
52
253,241,220,189,146,94,42,6,0
53
253,236,203,159,98,46,12,1,0
54
252,220,168,114,69,35,13,1,0
55
251,226,192,148,92,48,15,1,0
56
254,242,211,160,103,56,20,1,0
表
18 宽带运行模式WB_Rate4标识统计表
宽带特征向量维度
标识概率统计值
1
247,214,168,124,84,52,30,14,3,1,0
2
253,239,211,172,126,85,52,26,6,1,0
3
254,241,217,184,139,92,53,24,5,1,0
4
253,242,221,189,145,101,63,33,11,1,0
5
254,249,234,205,165,119,73,34,7,1,0
6
253,244,228,205,173,133,93,54,21,1,0
7
254,246,222,185,140,96,58,28,6,1,0
8
252,233,211,187,157,118,77,42,14,1,0
9
254,247,227,194,152,107,64,28,6,1,0
10
253,243,219,179,132,88,50,20,2,1,0
11
249,234,214,186,152,114,76,45,20,1,0
12
253,239,217,189,155,112,69,33,7,1,0
13
252,232,198,156,112,72,41,19,5,1,0
14
251,235,206,168,124,82,48,23,6,1,0
15
246,220,183,143,102,64,35,15,3,1,0
16
254,247,230,202,164,120,74,33,5,1,0
17
254,246,222,186,142,104,70,39,12,1,0
18
254,240,215,183,142,95,57,28,7,1,0
19
254,244,225,201,172,133,87,44,13,1,0
T/AI 109.10—2024
27
表
18 (续)
宽带特征向量维度
标识概率统计值
20
252,234,200,156,115,81,54,32,14,1,0
21
254,242,207,162,118,79,46,20,2,1,0
22
251,238,220,197,171,141,103,63,24,1,0
23
252,234,205,164,118,74,39,16,2,1,0
24
254,246,226,194,153,107,61,23,2,1,0
25
254,246,231,207,173,129,81,40,11,1,0
26
250,229,206,180,151,116,74,34,7,1,0
27
254,244,215,174,132,92,56,27,6,1,0
28
253,239,214,181,142,95,52,22,3,1,0
29
254,246,227,198,160,113,73,40,12,1,0
30
254,247,226,191,145,98,58,27,6,1,0
31
252,239,221,198,171,140,104,67,29,1,0
32
254,243,221,192,155,111,67,33,9,1,0
33
254,247,232,209,177,137,91,46,11,1,0
34
246,222,199,176,153,132,111,89,55,3,0
35
250,222,191,160,128,101,79,60,39,10,0
36
252,236,208,171,126,82,48,24,8,1,0
37
253,234,197,152,110,74,45,23,8,1,0
38
253,239,218,191,152,105,67,35,10,1,0
39
252,236,203,160,116,78,47,25,10,1,0
40
254,242,217,181,136,90,54,26,6,1,0
41
252,238,213,177,139,100,64,36,14,1,0
42
252,245,237,228,217,204,188,166,137,66,0
43
249,228,197,156,110,69,39,18,4,1,0
44
254,240,210,168,119,79,48,24,6,1,0
45
217,191,171,150,127,102,75,49,25,2,0
46
253,245,231,209,180,144,100,55,16,1,0
47
254,245,225,195,157,113,67,28,5,1,0
48
254,232,199,161,121,85,55,31,13,1,0
49
253,241,213,173,127,84,51,26,8,1,0
50
254,242,216,179,134,87,50,22,3,1,0
51
254,245,223,185,138,94,57,28,7,1,0
52
253,244,229,209,182,147,107,66,28,2,0
53
254,244,222,192,154,105,60,26,4,1,0
54
253,233,196,153,111,74,44,22,7,1,0
55
253,236,211,182,144,99,60,30,8,1,0
T/AI 109.10—2024
28
表
18 (续)
宽带特征向量维度
标识概率统计值
56
254,247,228,196,153,107,67,34,9,1,0
8.4 解码神经网络
8.4.1 语法
AVS3P10解码神经网络信息,见附录B。解码神经网络语法WbNNetDec(),见表19。
表
19 解码神经网络语法
语法
位数
助记符
WbNNetDec() {
DecConvLayer1()
DecBlocks1()
DecBlocks2()
DecBlocks3()
DecBlocks4()
DecPostProc()
DecConvLayer2()
}
8.4.2 语义
DecConvLayer1() 第一级解码卷积神经网络,基于56维宽带特征向量量化值,获得第一级解码向量。
DecBlocks1 () 解码块神经网络1,基于第一级解码向量,获得第一级解码块向量。
DecBlocks2 () 解码块神经网络2,基于第一级解码块向量,获得第二级解码块向量。
DecBlocks3 () 解码块神经网络3,基于第二级解码块向量,获得第三级解码块向量。
DecBlocks4 () 解码块神经网络4,基于第三级解码块向量,获得第二级解码向量。
DecPostProc () 后处理解码神经网络,基于第二级解码向量,获得第三级解码向量。
DecConvLayer2 () 第二级解码卷积神经网络,基于第三级解码向量,获得单声道宽带重建信号或者超宽带低频子带重建信号。
8.4.3 解码过程
8.4.3.1 概述
本节规定了宽带解码神经网络的解码过程,见图9,包含图5至8中的第一级解码卷积神经网络、多级解码块神经网络、后处理神经网络和第二级解码卷积神经网络。每个箭头右侧的[x, y]符号表示当前向量的维度,其中,第一维度是神经网络通道数,第二维度是样本数。宽带解码神经网络,将解码获得
T/AI 109.10—2024
29
的56维宽带特征向量量化值(WbEmbedding),转换成宽带重建信号或者超宽带低频子带重建信号。解码过程涉及的解码神经网络结构描述性信息和网络权值参数,见本文件附录B。
8.4.3.2 第一级解码卷积神经网络
将宽带特征向量量化值WbEmbedding,经过1维卷积运算DecConvLayer1 ()后,生成第一级解码向量DecVector1。宽带特征向量量化值的第一维度是神经网络通道数,设置为56;宽带特征向量量化值的第二维度是样本数,设置为1。第一级解码向量的第一维度是是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。第一级解码卷积神经网络包含因果卷积,对于特定的卷积核,需要前向填充对应长度的零值,即填充数(Padding)。
图
9 宽带解码神经网络结构图
第一级解码卷积神经网络的卷积配置见表20。
表
20 第一级解码卷积神经网络配置参数
网络参数
参数配置
输入神经网络通道数
56
T/AI 109.10—2024
30
表
20 (续)
网络参数
参数配置
输出神经网络通道数
256
卷积核大小
1x3
步长
1
填充数
2
8.4.3.3 解码块神经网络1
多级解码块神经网络处理包括4个解码块神经网络。将第一级解码向量DecVector1,经过解码块神经网络1(DecBlocks1)运算后,生成第一级解码块向量DecBlockVector1。第一级解码向量的第一维度是神经网络通道数,设置为256;第一级解码向量的第二维度是样本数,设置为1。第一级解码块向量的第一维度是是神经网络通道数,设置为128;第一级解码块向量的第二维度是样本数,设置为5。
解码块神经网络1的结构,见图10。每个箭头右侧的[x, y]符号表示当前向量的维度,其中,第一维度是神经网络通道数,第二维度是样本数。
图
10 解码块神经网络1结构图
T/AI 109.10—2024
31
解码块神经网络1的第一部分是上采样卷积神经网络。上采样卷积神经网络包括一维因果卷积,和上采样因子(UpFactor)为5的上采样模块。其中,上采样通过复制,增加向量第二维度的数据量;复制的倍数由上采样因子指定。
解码块神经网络1的上采样卷积神经网络的卷积配置见表21。
表
21 解码块神经网络1的上采样卷积神经网络配置参数
网络参数
参数配置
输入神经网络通道数
256
输出神经网络通道数
128
卷积核大小
1x3
步长
1
填充数
2
上采样因子
5
解码块神经网络1的上采样卷积神经网络后,级连5个不同空洞率(DilationRate)的残差单元。其中,任意一个残差单元,包含一个指定空洞率的空洞卷积和一个一维因果卷积再加一个跳连接。残差单元示意图,见图11。残差单元的输入(Input [x, y])和输出(Output [x, y])维度信息一致。
解码块神经网络1包含的5个残差单元,见图10,空洞率分别是1、3、5、7、9。每个残差单元中包含的空洞卷积设置为分组卷积,根据设置的分组数,将输入通道分成若干组,只在每个组内,输入和输出通道产生关联。该空洞卷积的配置见表22。
图
11 残差单元示意图
表
22 解码块神经网络1的残差单元中空洞卷积配置参数
网络参数
参数配置
输入神经网络通道数
128
输出神经网络通道数
128
卷积核大小
1x5
步长
1
T/AI 109.10—2024
32
表
22 (续)
网络参数
参数配置
填充数
5个残差单元的填充数分别是4、12、20、28、36
分组数
4
激活函数
PReLU
所有残差单元中的因果卷积配置见表23。
表
23 解码块神经网络1的残差单元中因果卷积配置参数
网络参数
参数配置
输入神经网络通道数
128
输出神经网络通道数
128
卷积核大小
1x1
步长
1
填充数
0
激活函数
PReLU
8.4.3.4 解码块神经网络2
将第一级解码块向量DecBlockVector1,经过解码块神经网络2(DecBlocks2)运算后,生成第二级解码块向量DecBlockVector2。第一级解码向量的第一维度是神经网络通道数,设置为128;第一级解码向量的第二维度是样本数,设置为5。第二级解码块向量的第一维度是是神经网络通道数,设置为64;第二级解码块向量的第二维度是样本数,设置为20。
解码块神经网络2的结构,见图12。每个箭头右侧的[x, y]符号表示当前向量的维度,其中,第一维度是神经网络通道数,第二维度是样本数。
解码块神经网络2的第一部分是上采样卷积神经网络。上采样卷积神经网络包括一维因果卷积,和上采样因子上采样因子为4的上采样模块。其中,上采样通过复制,增加向量第二维度的数据量;复制的倍数由上采样因子指定。
解码块神经网络2的上采样卷积神经网络的卷积配置见表24。
表
24 解码块神经网络2的上采样卷积神经网络配置参数
网络参数
参数配置
输入神经网络通道数
128
输出神经网络通道数
64
卷积核大小
1x3
步长
1
填充数
2
上采样因子
4
T/AI 109.10—2024
33
解码块神经网络2包含的5个残差单元,见图12,空洞率分别是1、3、5、7、9。每个残差单元中包含的空洞卷积设置为分组卷积,根据设置的分组数,将输入通道分成若干组,只在每个组内,输入和输出通道产生关联。该空洞卷积的配置见表25。
表
25 解码块神经网络2的残差单元中空洞卷积配置参数
网络参数
参数配置
输入神经网络通道数
64
输出神经网络通道数
64
卷积核大小
1x5
步长
1
填充数
5个残差单元的填充数分别是4、12、20、28、36
分组数
4
激活函数
PReLU
图
12 解码块神经网络2结构图
所有残差单元中的因果卷积配置见表26。
T/AI 109.10—2024
34
表
26 解码块神经网络2的残差单元中因果卷积配置参数
网络参数
