T/AI 109.7-2024 信息技术智能媒体编码第7部分：音频封装与传输

文件大小：2.01 MB
标准类型：电子信息
标准语言：中文版
文件类型：PDF文档
更新时间：2025-03-07
下载次数：
标签：

资料介绍

ICS 35.040
CCS L 71
团体标准
T/AI 109.7—2024
信息技术智能媒体编码第7部分：音频封装与传输
Information technology – Intelligent media codingPart 7: Audio encapsulation and transport
2024 - 11 - 29发布2024 - 11 - 29实施
中关村视听产业技术创新联盟发布

目次
前言 ................................................................................ II
引言 ............................................................................... III
1 范围 ............................................................................... 1
2 规范性引用文件 ..................................................................... 1
3 术语和定义 ......................................................................... 1
4 缩略语 ............................................................................. 3
5 音频基本文件封装格式 ............................................................... 4
6 CMAF轨道和媒体配置 ................................................................ 13
7 DASH传输技术要求 .................................................................. 15
8 传输流和节目流技术要求 ............................................................ 18
9 SMT传输技术要求 .................................................................. 28
10 RTP传输技术要求 .................................................................. 36
附录A （规范性） MIME类型的'codecs'参数 .............................................. 41
T/AI 109.7—2024
II
前言
本文件按照GB/T 1.1—2020《标准工作导则第1部分：标准文件的结构和起草规则》的规定起草。
本文件是T/AI 109《信息技术智能媒体编码》的第7部分。T/AI 109已经发布了如下部分：
——第2部分: 视频；
——第3部分: 沉浸式音频；
——第4部分: 符合性测试；
——第6部分：智能媒体格式；
——第7部分：音频封装与传输。
本文件由数字音视频编解码技术标准工作组提出。
本文件由中关村视听产业技术创新联盟归口。
本部分起草单位：清华大学、北京工业大学、鹏城实验室、上海交通大学、华为技术有限公司、北
京全景声信息科技有限公司、咪咕文化科技有限公司、杭州当虹科技股份有限公司、中兴通讯股份有限
公司、北京大学、中国电子技术标准化研究院、广东博华超高清创新中心有限公司、腾讯科技（深圳）
有限公司、上海数字电视国家工程研究中心有限公司、上海海思技术有限公司、清华大学天津电子信息
研究院、全景声(北京)智能科技有限公司、北京博雅睿视科技有限公司。
本部分主要起草人：窦维蓓、牟伦田、郑建铧、徐异凌、李婧欣、刘帅、许舒敏、李琳、王雪辉、
韩建、高原、王一帆、杨开发、黄成、陈智敏、张伟民、王尧、胡颖、邹志铭、马思伟、潘兴德、夏丙
寅、王喆、袁乐、孙彦龙、徐嵩、单华琦、李康敬、吴迪、杨川、赵海英、朱博成、魏建超、黄铁军、
高文、崔晓冉。
T/AI 109.7—2024
III
引言
T/AI 109旨在规定智能媒体的编码、封装与传输规范，旨在为异构网络中的智能媒体数据提供编码、封装和传输服务。
T/AI 109拟由10个部分组成：
——第1部分：系统。目的在于确立沉浸媒体虚拟现实数据的系统信令。
——第2部分：视频。目的在于确立智能媒体高效视频压缩方法的解码过程。
——第3部分：沉浸式音频。目的在于确立适用沉浸式音频高效压缩方法的解码过程。
——第4部分：符合性测试。目的在于确立测试验证编码位流和解码器是否满足T/AI 109所规定的要求。
——第5部分：参考软件。目的在于确立对智能媒体高效视频压缩方法和沉浸式音频高效压缩方法的参考实现。
——第6部分：智能媒体格式。目的在于确立异构网络中智能媒体编码数据的存储格式和传输信令。
——第7部分；音频封装与传输。目的在于确立异构网络中的沉浸式音频数据的封装和传输。
——第10部分；实时语音。目的在于确立面向下一代实时语音通信的解码过程。
本文件是T/AI 109的第7部分。本文件第5章和第6章规定了符合AVS3智能媒体编码音频数据和AVS2的高效多媒体编码音频数据的基本文件封装格式和CMAF轨道和媒体配置，并进一步规定了基于第5章和第6章定义的AVS3/AVS2音频封装格式进行DASH传输的技术要求、传输流和节目流的技术要求、SMT传输的技术要求以及RTP传输的技术要求。
本文件的发布机构提请注意，声明符合本文件时，可能涉及如下2项与数字音视频编解码技术相关的专利的使用。专利申请号及名称如下：
序号
专利申请号
专利名称
专利申请人/专利权人
标准条款涉及专利的（章、条编号）
1
CN202311676524.8
音频数据传输方法、装置、电子设备及可读存储介质
咪咕文化科技有限公司，中国移动通信集团有限公司
10.1
2
CN202310150695.0
一种音频编解码方法、装置、设备及介质
腾讯科技（深圳有限公司）
5.1.3,9.1.2,9.1.3
本文件的发布机构对上述专利的真实性、有效性和范围无任何立场。
上述专利持有人已向本文件的发布机构保证，愿意同任何申请人在合理且无歧视的条款和条件下，就专利授权许可进行谈判。上述专利持有人的声明已在本文件的发布机构备案，相关信息可以通过以下联系方式获得：
联系人：黄铁军（数字音视频编解码技术标准工作组秘书长）
通讯地址：北京大学理科2号楼2641室
邮政编码：100871
电子邮件：tjhuang@pku.edu.cn
电话：+8610-62756172
传真：+8610-62751638
网址：http://www.avs.org.cn
请注意除上述专利外，本文件的某些内容仍可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

T/AI 109.7—2024
1
信息技术智能媒体编码第7部分：音频封装与传输
1 范围
本文件规定了符合AVS3智能媒体编码音频数据的基本文件封装格式、CMAF轨道和媒体配置、DASH传输技术要求、传输流和节目流技术要求、SMT传输技术要求以及RTP传输技术要求；符合AVS2的高效多媒体编码音频数据的基本文件封装格式、CMAF轨道和媒体配置、DASH传输技术要求、传输流和节目流技术要求、SMT传输技术要求以及RTP传输技术要求。
本文件适用于智能媒体编码系统中的音视频直播、音视频点播、网络流媒体等应用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中，注日期的引用文件，仅该日期对应的版本适用于本文件；不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。
GB/T 33475.3-2018 信息技术高效多媒体编码第3部分：音频
注：在本文件中GB/T 33475.3-2018简称为AVS2音频
GB/T 18793-2002信息技术可扩展置标语言( Extensible Markup Language (XML)) 1.0
T/AI 109.3-2023信息技术智能媒体编码第3部分：沉浸式音频
注：在本文件中T/AI 109.3简称为AVS3音频
T/AI 114-2021 信息技术高效多媒体编码第6部分：智能媒体传输
ISO/IEC 13818-1:2023信息技术运动图像及其伴音信息的通用编码第1部分：系统 (Information technology -- Generic coding of moving pictures and associated audio information -- Part 1: Systems)
ISO/IEC 14496-12:2022 信息技术音视频对象的编码第12部分：ISO基本媒体文件格式 (Information technology – Coding of audio-visual objects – Part 12: ISO base media file format)
ISO/IEC 23000-19:2024 信息技术多媒体应用格式第19部分：片段媒体的通用媒体应用格式 (Information technology — Multimedia application format (MPEG-A) — Part 19: Common media application format (CMAF) for segmented media)
ISO/IEC 23009-1:2022信息技术基于HTTP的动态自适应流媒体第1部分：媒体呈现描述和片段格式(Information technology — Dynamic adaptive streaming over HTTP (DASH) — Part 1: Media presentation description and segment formats)
IETF RFC 3550 实时传输协议 (A Transport Protocol for Real-Time Applications)
IETF RFC 6381 "Bucket"媒体类型'Codecs'和'Profiles'参数 (The 'Codecs' and 'Profiles' Parameters for "Bucket" Media Types)
IETF RFC 8866 会话描述协议 (SDP: Session Description Protocol)
3 术语和定义
下列术语和定义适用于本文件。
T/AI 109.7—2024
2
3.1
位流 bitstream
用作数据编码表示的有一定次序的一组二进制数据流。
3.2
AVS3音频编码位流 AVS3 audio bitstream
符合T/AI 109.3的编码音频信号所形成的二进制数据流。
3.3
AVS2音频编码位流 AVS2 audio bitstream
符合GB/T 33475.3-2018的编码音频信号所形成的二进制数据流。
3.4
采样频率 sampling frequency
每秒从连续信号中提取离散信号的采样个数。
注：单位为赫兹（Hz）。
3.5
声道 channel
声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。
3.6
保留 reserved
在文件格式或传输信令中的暂时未被使用的字段，可能在将来的标准扩展中被用到。
3.7
初始化片段 initialization segment
包含有媒体流解码所必需元数据的片段。
3.8
表示 representation
封装有一个或多个具有描述性元数据的媒体成分（编码的音频、视频等）的结构化数据集合。
3.9
轨道 track
文件中一系列相关样本的集合。
3.10
媒体呈现描述 media presentation description
用于提供流媒体服务的规范化描述媒体呈现的文件。
T/AI 109.7—2024
3
3.11
媒体片段 media segment
符合一定的媒体格式、可播放的片段。播放时可能需要与其前面的0个或多个片段以及初始化片段配合。
3.12
媒体资源 asset
任何与唯一标识符联系的用作构建一个多媒体演示的多媒体数据实体。
3.13
片段 segment
媒体呈现描述中的HTTP统一资源定位符引用的媒体单元。
3.14
样本 sample
在非提示轨道中，一个样本是一个单独的音频帧，时间连续的一个音频帧序列，或者时间连续的一段压缩音频；在提示轨道中，一个样本定义了一个或多个流式分组的构成。一个轨道中任何两个样本不能具有相同的时间戳。
3.15
智能媒体传输协议 smart media transport protocol
用于在IP网络上传输有效载荷的应用层传送协议。
3.16
切换集 switching set
同一媒体内容的多个可切换的编码版本的集合。
4 缩略语
下列缩略语适用于本文件。
AVS
AVS2
AVS3
AASF
AATF
CMAF
DASH
DTS
HOA
音视频编解码标准
第二代音视频编解码标准
第三代音视频编解码标准
AVS音频存储格式
AVS音频传输格式
通用媒体应用格式
基于HTTP的动态自适应流媒体
解码时间戳
高阶立体声场信号
(Audio and Video coding Standard)
(the second generation AVS standard)
(the third generation AVS standard)
(AVS Audio Storage Format)
(AVS Audio Transport Format)
(Common Media Application Format)
(Dynamic Adaptive Streaming over HTTP)
(Decoding Time-Stamp)
(Higher Order Ambisonics)
T/AI 109.7—2024
4
HTTP
ISO BMFF
MIME
MP
MPD
MTU
PES
PMT
PS
PSI
RTP
SAP
SDP
SMT
STD
TS
T-STD
URI
URN
UTC
XML
超文本传输协议
ISO基本媒体文件格式
多用途互联网邮件扩展类型
媒体呈现
媒体呈现描述
最大传输单元
分组化基本流
节目映射表
节目流
节目特定信息
实时传输协议
流访问点
会话描述协议
智能媒体传输
系统目标解码器
传输流
传输系统目标解码器
统一资源标识符
统一资源名称
协调世界时
可扩展置标语言
(HyperText Transfer Protocol)
(ISO Base Media File Format)
(Multipurpose Internet Mail Extensions)
(Media Presentation)
(Media Presentation Description)
(Maximum Transmission Unit)
(Packetized Elementary Stream)
(Program Map Table)
(Program Stream)
(Program-Specific Information)
(Real-time Transport Protocol)
(Stream Access Point)
(Session Description Protocol)
(Smart Media Transport)
(System Target Decoder)
(Transport Stream)
(Transport System Target Decoder)
(Uniform Resource Identifier)
(Uniform Resource Name)
(Coordinated Universal Time)
(eXtensible Markup Language)
5 音频基本文件封装格式
5.1 AVS3音频的基本文件封装格式
5.1.1 AVS3音频的基本流定义
5.1.1.1 通则
本文件对符合T/AI 109.3规范的AVS3音频的基本流结构和基本流格式进行定义。
5.1.1.2 AVS3音频编码系统
本文件规定的符合T/AI 109.3的AVS3音频编码系统包括：声道信号编码系统、对象信号编码系统、HOA信号编码系统、元数据编码系统。
5.1.1.3 基本流结构
本文件规定的符合T/AI 109.3的AVS3音频的基本流结构包括：通用全码率音频编码位流、通用高码率音频编码位流和无损音频编码位流，对应的audio_codec_id分别为2、0、1。
5.1.1.4 基本流格式
T/AI 109.7—2024
5
本文件规定的符合T/AI 109.3的AVS3音频基本流格式分为两种：存储格式AASF和传输格式AATF。
5.1.2 AVS3音频配置信息
5.1.2.1 AVS3音频通用全码率音频编码特有配置
5.1.2.1.1 定义
本条定义符合T/AI 109.3的通用全码率音频编码内容的特有配置Avs3AudioGASpecificConfig的语法和语义。
5.1.2.1.2 语法
class Avs3AudioGASpecificConfig {
unsigned int(4) sampling_frequency_index;
unsigned int(3) nn_type;
unsigned int(1) reserved;
unsigned int(4) content_type;
if (content_type==0) {
unsigned int(7) channel_number_index;
unsigned int(1) reserved;
} else if(content_type==1) {
unsigned int(7) number_objects;
unsigned int(1) reserved;
} else if(content_type==2) {
unsigned int(7) channel_number_index;
unsigned int(1) reserved;
unsigned int(7) number_objects;
unsigned int(1) reserved;
} else if(content_type==3) {
unsigned int(4) hoa_order;
}
unsigned int(16) total_bitrate;
unsigned int(2) resolution;
if (content_type==3) {
unsigned int(2) reserved;
} else {
unsigned int(6) reserved;
}
}
5.1.2.1.3 语义
sampling_frequency_index：应符合T/AI 109.3的附录A。
nn_type：应符合T/AI 109.3的附录A。
content_type：表示音频内容类型，见表1。
T/AI 109.7—2024
6
channel_number_index：应符合T/AI 109.3的附录A。
number_objects：表示音频对象数量，等于T/AI 109.3的附录A中object_channel_number +1。
hoa_order：表示HOA信号阶数，应符合T/AI 109.3的附录A中order的计算方法。
total_bitrate：表示音频总比特率，单位kbps，根据content_type的值计算方式不同，见表2。
resolution：应符合T/AI 109.3的附录A
表1 content_type配置表
content_type值
音频内容类型
映射关系
0
声道信号
coding_profile值为0时
1
对象信号
coding_profile值为1且soundBedType值为0时
2
声道信号和对象信号混合
coding_profile值为1且soundBedType值为1时
3
HOA信号
coding_profile值为2时
4-15
保留
表2 total_bitrate配置表
content_type值
total_bitrate计算方式
0
声道信号的bitrate_index对应的比特率
1
对象信号的bitrate_index_per_channel对应的比特率×number_objects
2
声道信号的bitrate_index对应的比特率＋对象信号的bitrate_index_per_channel对应的比特率×number_objects
3
HOA信号的bitrate_index对应的比特率
4-15
保留
表1中的coding_profile和soundBedType，以及表2中的bitrate_index和bitrate_index_per_channel应符合T/AI 109.3的附录A。
5.1.2.2 AVS3音频通用高码率音频编码特有配置
5.1.2.2.1 定义
本条定义符合T/AI 109.3的通用高码率音频编码内容的特有配置Avs3AudioGHSpecificConfig的语法和语义。
5.1.2.2.2 语法
class Avs3AudioGHSpecificConfig {
unsigned int(4) sampling_frequency_index;
unsigned int(1) anc_data_index;
unsigned int(3) coding_profile;
unsigned int(1) bitstream_type;
unsigned int(7) channel_number_index;
unsigned int(4) bitrate_index;
unsigned int(16) raw_frame_length;
unsigned int(2) resolution;
T/AI 109.7—2024
7
unsigned int(16) addition_info_length;
if (addition_info_length > 0) {
bit(8*addition_info_length) addition_info;
}
unsigned int(6) reserved;
}
5.1.2.2.3 语义
sampling_frequency_index：应符合T/AI 109.3的附录A。
anc_data_index：应符合T/AI 109.3的附录A。
coding_profile：应符合T/AI 109.3的附录A。
bitstream_type：应符合T/AI 109.3的附录A。
channel_number_index：应符合T/AI 109.3的附录A。
bitrate_index：应符合T/AI 109.3的附录A。
raw_frame_length：应符合T/AI 109.3的附录A。
resolution：应符合T/AI 109.3的附录A。
addition_info_length：指示addition_info的长度，以字节为单位
addition_info：指示Avs3AudioGHSpecificConfig配置中的额外信息。
5.1.2.3 AVS3音频无损音频编码特有配置
5.1.2.3.1 定义
本条定义符合T/AI 109.3的音频无损音频编码内容的特有配置Avs3AudioLLSpecificConfig的语法和语义。
5.1.2.3.2 语法
class Avs3AudioLLSpecificConfig {
unsigned int(4) sampling_frequency_index;
if (sampling_frequency_index==0xF) {
unsigned int(24) sampling_frequency;
} unsigned int(1) anc_data_index;
unsigned int(3) coding_profile;
unsigned int(8) channel_number;
unsigned int(2) resolution;
unsigned int(16) addition_info_length;
if (addition_info_length > 0) {
bit(8*addition_info_length) addition_info;
}
unsigned int(2) reserved;
}
T/AI 109.7—2024
8
5.1.2.3.3 语义
sampling_frequency_index：应符合T/AI 109.3的附录A。
sampling_frequency：应符合T/AI 109.3的附录A。
anc_data_index：应符合T/AI 109.3的附录A。
coding_profile：应符合T/AI 109.3的附录A。
channel_number：应符合T/AI 109.3的附录A。
resolution：应符合T/AI 109.3的附录A。
addition_info_length：指示addition_info的长度，以字节为单位
addition_info：指示Avs3AudioLLSpecificConfig配置中的额外信息。
5.1.3 ISO基本媒体文件格式扩展
5.1.3.1 AVS3音频解码器配置数据盒
5.1.3.1.1 定义
数据盒类型：'dca3' 容器：'av3a'或'a3as'类型的样本入口强制性：强制包含于'av3a'或'a3as'类型的样本入口数量：一个
本条根据5.1.2中定义的音频编码特有配置，定义了AVS3音频解码器配置数据盒CA3SpecificBox的语法和语义。
5.1.3.1.2 语法
class CA3SpecificBox extends Box('dca3') {
unsigned int(4) audio_codec_id; if (audio_codec_id == 2){
Avs3AudioGASpecificConfig() Avs3AudioGAConfig;
}
else if (audio_codec_id == 0) {
Avs3AudioGHSpecificConfig() Avs3AudioGHConfig;
}
else if (audio_codec_id == 1) {
Avs3AudioLLSpecificConfig() Avs3AudioLLConfig;
} }
5.1.3.1.3 语义
Avs3AudioSpecificGAConfig在5.1.2.1中定义，Avs3AudioSpecificGHConfig在5.1.2.2中定义, Avs3AudioSpecificLLConfig在5.1.2.3中定义。
audio_codec_id：应符合T/AI 109.3的附录A。
5.1.3.2 AVS3音频样本入口
T/AI 109.7—2024
9
5.1.3.2.1 定义
样本入口类型：'av3a'或'a3as' 容器：Sample Description Box ('stsd') 强制性：封装AVS3音频编码位流的轨道必须包含一个'av3a'或'a3as'样本入口数量：一个
本条定义了AVS3音频样本入口的语法和语义。其中，
对于AATF类型的AVS3音频编码位流在'av3a'类型的音频轨道中进行传输，其轨道样本入口中应包含一个CA3SpecificBox数据盒。
对于AASF类型的AVS3音频编码位流在文件中应被存储为'a3as'类型的音频轨道，其轨道样本入口中应包含aasf_header()以及一个CA3SpecificBox数据盒。
5.1.3.2.2 语法
class AVS3ATSampleEntry() extends AudioSampleEntry ('av3a'){
CA3SpecificBox config;
}
class AVS3ASSampleEntry() extends AudioSampleEntry ('a3as'){
CA3SpecificBox config;
unsigned int(16) avs3_as_header_length;
bit(8*avs3_as_header_length) avs3_as_header;
}
5.1.3.2.3 语义
CA3SpecificBox 提供AVS3音频编码位流的解码配置信息。
由于CA3SpecificBox已经提供并扩展了对ChannelCount、SampleSize、SampleRate的描述，所以本文件规定解码器应忽略AudioSampleEntry中的ChannelCount、SampleSize、SampleRate。
avs3_as_header_length：指示avs3_as_header的长度，以字节为单位。
avs3_as_header：指示aasf_header()的信息，aasf_header()应符合T/AI 109.3的附录A。
5.1.3.3 AVS3音频样本格式
本条定义了AVS3音频样本格式，其中，
若音频轨道的样本入口类型为'av3a'，则其轨道中的每个样本对应一个aatf_frame()，其中aatf_frame()的定义应符合T/AI 109.3附录A。
若音频轨道的样本入口类型为'a3as'，则其轨道中的每个样本对应aasf_sequence()的一部分数据，其中aasf_sequence()的定义应符合T/AI 109.3的附录A。
5.2 AVS2音频的基本文件封装格式
5.2.1 AVS2音频基本流定义
5.2.1.1 通则
本文件对符合GB/T 33475.3-2018规范的AVS2音频基本流结构和基本流格式进行定义。
T/AI 109.7—2024
10
5.2.1.2 AVS2音频编码系统
本文件规定的符合GB/T 33475.3-2018的AVS2音频编码系统包括：声道信号编码系统、对象信号编码系统和元数据编码系统。
5.2.1.3 基本流结构
本文件规定的符合GB/T 33475.3-2018的AVS2音频的基本流结构包括：通用音频编码位流和无损音频编码位流，对应的audio_codec_id分别为0、1。
5.2.1.4 基本流格式
本文件规定的符合GB/T 33475.3-2018的AVS2音频基本流格式分为两种：存储格式AASF和传输格式AATF。
5.2.2 AVS2音频配置信息
5.2.2.1 AVS2音频通用音频编码特有配置
5.2.2.1.1 定义
本条定义符合GB/T 33475.3-2018的通用音频编码内容的特有配置AVSAGASpecificConfig的语法和语义。
5.2.2.1.2 语法
class AVSAGASpecificConfig {
unsigned int(4) sampling_frequency_index;
unsigned int(1) anc_data_index;
unsigned int(3) coding_profile;
unsigned int(1) bitstream_type;
unsigned int(7) channel_number_index;
unsigned int(4) bitrate_index;
unsigned int(16) raw_frame_length;
unsigned int(2) resolution;
if (anc_data_index == 1) {
anc_data_block();
}
}
5.2.2.1.3 语义
sampling_frequency_index：应符合GB/T 33475.3-2018的附录A。
anc_data_index：应符合GB/T 33475.3-2018的附录A。
coding_profile：应符合GB/T 33475.3-2018的附录A。
bitstream_type：应符合GB/T 33475.3-2018的附录A。
channel_number_index：应符合GB/T 33475.3-2018的附录A。
bitrate_index：应符合GB/T 33475.3-2018的附录A。
T/AI 109.7—2024
11
raw_frame_length：应符合GB/T 33475.3-2018的附录A。
resolution：应符合GB/T 33475.3-2018的附录A。
anc_data_block()：应符合GB/T 33475.3-2018的附录A。
5.2.2.2 AVS2音频无损音频编码特有配置
5.2.2.2.1 定义
本条定义符合GB/T 33475.3-2018的无损音频编码内容的特有配置AVSALLSpecificConfig的语法和语义。
5.2.2.2.2 语法
class AVSALLSpecificConfig {
unsigned int(4) sampling_frequency_index;
if (sampling_frequency_index==0xF){
unsigned int(24) sampling_frequency;
} unsigned int(1) anc_data_index;
unsigned int(3) coding_profile;
unsigned int(8) channel_number;
unsigned int(2) resolution;
if (anc_data_index == 1) {
anc_data_block();
}
}
5.2.2.2.3 语义
sampling_frequency_index：应符合GB/T 33475.3-2018的附录A。
sampling_frequency：应符合GB/T 33475.3-2018的附录A。
anc_data_index：应符合GB/T 33475.3-2018的附录A。
coding_profile：应符合GB/T 33475.3-2018的附录A。
channel_number：应符合GB/T 33475.3-2018的附录A。
resolution：应符合GB/T 33475.3-2018的附录A。
anc_data_block()：应符合GB/T 33475.3-2018的附录A。
5.2.3 ISO基本媒体文件格式扩展
5.2.3.1 AVS2音频解码器配置数据盒
5.2.3.1.1 定义
数据盒类型：'avac' 容器：'cavs'或'a2as'类型的样本入口强制性：强制包含于'cavs'或'a2as'类型的样本入口数量：一个
T/AI 109.7—2024
12
本条根据5.2.2中定义的音频编码特有配置，定义了AVS2音频解码器配置数据盒AVSASpecificBox的语法和语义。
5.2.3.1.2 语法
class AVSASpecificBox extends Box('avac') {
unsigned int(4) audio_codec_id; if (audio_codec_id == 0){
AVSAGASpecificConfig();
}
else if (audio_codec_id == 1){
AVSALLSpecificConfig();
}
unsigned int(16) addition_info_length;
if (addition_info_length > 0) {
bit(8*addition_info_length) addition_info;
}
byte_alignment(); }
5.2.3.1.3 语义
AVSAGASpecificConfig在5.2.2.1中定义，AVSALLSpecificConfig在5.2.2.25.1.2.2中定义。
audio_codec_id：应符合GB/T 33475.3-2018的附录A。
addition_info_length：指示addition_info的长度，以字节为单位。
addition_info：指示AVS2音频位流配置中的额外信息。
byte_alignment()：应符合GB/T 33475.3-2018。
5.2.3.2 AVS2音频样本入口
5.2.3.2.1 定义
样本入口类型：'cavs'或'a2as' 容器：Sample Description Box ('stsd') 强制性：封装AVS3音频编码位流的轨道必须包含一个'cavs'或'a2as'样本入口数量：一个
本条定义了AVS2音频样本入口的语法和语义。其中，
对于AATF类型的AVS2音频编码位流在'cavs'类型的音频轨道中进行传输，其轨道样本入口中应包含一个AVSASpecificBox数据盒。
对于AASF类型的AVS2音频编码位流在文件中应被存储为'a2as'类型的音频轨道，其轨道样本入口中应包含aasf_header()以及一个AVSASpecificBox数据盒。
5.2.3.2.2 语法
class AVSAATSampleEntry() extends AudioSampleEntry ('cavs'){
T/AI 109.7—2024
13
AVSASpecificBox config
}
class AVSAASSampleEntry() extends AudioSampleEntry ('a2as'){
AVSASpecificBox config;
unsigned int(16) avsa_as_header_length;
bit(8*avsa_as_header_length) avsa_as_header;
}
5.2.3.2.3 语义
AVSASpecificBox提供AVS2音频编码位流的解码配置信息。
由于AVSASpecificBox已经提供并扩展了对ChannelCount、SampleSize、SampleRate的描述，所以本文件规定解码器应忽略AudioSampleEntry中的ChannelCount、SampleSize、SampleRate。
avsa_as_header_length：指示avsa_as_header的长度，以字节为单位。
avsa_as_header：指示aasf_header()的信息，aasf_header()应符合GB/T 33475.3-2018的附录A。
5.2.3.3 AVS2音频样本格式
本条定义了AVS2音频样本格式，其中，
若音频轨道的样本入口类型为'cavs'，则其轨道中的每个样本对应一个aatf_frame()其中aatf_frame()应符合GB/T 33475.3-2018附录A。
若音频轨道的样本入口类型为'a2as'，则其轨道中的每个样本对应aasf_sequence()的一部分数据，其中aasf_sequence()的应符合GB/T 33475.3-2018的附录A。
6 CMAF轨道和媒体配置
6.1 AVS3音频CMAF轨道和媒体配置
6.1.1 通则
AVS3音频CMAF轨道格式应符合ISO/IEC 23000-19:2024中9.2指定的通用音频CMAF轨道格式，同时应符合本文件第5章中指定的AVS3音频轨道格式以及第6章中指定的约束。
如果CMAF轨道符合上述技术要求，则它被称为AVS3音频CMAF轨道，并且其品牌标识定义为'ca3a'。
6.1.2 AVS3音频CMAF轨道约束
6.1.2.1 通则
任何符合AVS3音频媒体配置文件的CMAF轨道都应符合：
a)
本文件5.1.3中定义的AVS3音频轨道；
b)
ISO/IEC 23000-19:2024中定义的通用视频CMAF轨道格式：
-
每个presentation必须对应一个唯一的presentation_id；
-
每个AVS3音频Sample只能包含一帧且只有一帧aatf_frame()。
6.1.2.2 样本描述数据盒 ('stsd')
T/AI 109.7—2024
14
AVS3音频轨道中的SampleDescriptionBox应包含符合ISO/IEC 14496-12:2022中规定的一个音频样本入口。
符合 AVS3 音频特有数据盒的 CMAF 轨道的音频样本入口的语法和取值应符合5.1.3中定义的AVS3ATSampleEntry ('av3a') 样本入口。
6.1.3 AVS3音频CMAF切换集约束
6.1.3.1 通则
对于符合AVS3音频媒体配置文件的CMAF切换集，适用以下约束：
a)
CMAF交换集中的每个CMAF轨道应符合6.1.2中定义的 CMAF 轨道约束；
b)
CMAF切换集中的每个CMAF轨道应符合ISO/IEC 23000-19:2024中7.3.4规定的通用CMAF切换集约束要求；
c)
单一初始化AVS3音频CMAF切换集应符合6.1.3.2中定义的约束。
6.1.3.2 单一初始化CMAF切换集约束
AVS3音频CMAF切换集应符合如下单一初始化约束：
a)
应符合ISO/IEC 23000-19:2024中7.3.4规定的通用CMAF切换集约束要求；
b)
应符合ISO/IEC 23000-19:2024中7.3.4.2规定的通用单一初始化约束；
c)
CMAF头部中的音频样本的audio_codec_id应保持不变。
6.1.4 音频编解码参数
呈现应用程序应使用符合RFC 6381中规定的参数发送AVS3音频CMAF轨道和CMAF切换集的音频编解码器配置和级别。
AVS3音频媒体配置的MIME类型的“编解码器”参数应符合本文件附录A。
6.2 AVS2音频CMAF轨道和媒体配置
6.2.1 通则
AVS2音频CMAF轨道格式应该符合ISO/IEC 23000-19:2024中9.2指定的通用音频CMAF轨道格式，同时应符合本文件第5章中指定的AVS2音频轨道格式以及第6章中指定的约束。
如果CMAF轨道符合上述技术要求，则它被称为AVS2音频CMAF轨道，并且其品牌标识定义为‘ca2a’。
6.2.2 AVS2音频CMAF轨道约束
6.2.2.1 通则
任何符合 AVS2音频媒体配置文件的CMAF轨道都应符合：
a)
本文件5.2.3中定义的AVS2音频轨道；
b)
ISO/IEC 23000-19:2024中定义的通用视频CMAF轨道格式：
-
每个presentation必须对应一个唯一的presentation_id；
-
每个AVS2音频Sample只能包含一帧且只有一帧aatf_frame()。
T/AI 109.7—2024
15
6.2.2.2 样本描述数据盒 ('stsd')
AVS2音频轨道中的SampleDescriptionBox应包含符合ISO/IEC 14496-12:2022中规定的一个音频样本入口。
符合AVS2音频特有数据盒的 CMAF 轨道的音频样本入口的语法和取值应符合5.2.3中定义的AVSAATSampleEntry ('cavs') 样本入口。
6.2.3 AVS2音频CMAF切换集约束
6.2.3.1 通则
对于符合AVS2音频媒体配置文件的CMAF切换集，适用以下约束：
a)
CMAF交换集中的每个CMAF轨道应符合6.2.2中定义的CMAF轨道约束；
b)
CMAF切换集中的每个CMAF轨道应符合 ISO/IEC 23000-19:2024中7.3.4规定的通用 CMAF切换集约束要求；
c)
单一初始化AVS2音频CMAF切换集应符合6.2.3.2节中定义的约束。
6.2.3.2 单一初始化CMAF切换集约束
AVS2音频CMAF切换集应符合如下单一初始化约束：
a)
应符合ISO/IEC 23000-19 :2024的7.3.4中规定的通用CMAF切换集约束要求；
b)
应符合ISO/IEC 23000-19:2024的7.3.4.2中规定的通用单一初始化约束；
c)
CMAF头部中的音频样本的audio_codec_id应保持不变。
6.2.4 音频编解码参数
呈现应用程序应使用符合RFC 6381中规定的参数发送AVS2音频CMAF轨道和CMAF切换集的音频编解码器配置和级别。
AVS2音频媒体配置的MIME类型的“编解码器”参数应符合本文件附录A。
7 DASH传输技术要求
7.1 AVS3音频DASH传输技术要求
7.1.1 通则
本条规定符合T/AI 109.3的AVS3音频编码位流通过基于HTTP的动态自适应流媒体传输协议（ISO/IEC 23009-1:2022）进行传输时的媒体呈现描述（MPD）与片段格式。
7.1.2 DASH片段格式
7.1.2.1 通则
DASH片段格式应符合第5章规定的AVS3音频的基本文件封装格式，其样本入口类型为'av3a'。
7.1.2.2 初始化片段
每个DASH初始化片段应包含一个CA3SpecificBox解码器配置记录。
T/AI 109.7—2024
16
7.1.2.3 媒体片段
每个DASH媒体片段应包含一个或多个T/AI 109.3标准中规定的音频编码数据。
每个DASH媒体片段中的第一个媒体样本应符合以下任意一个约束：
a)
每个AVS3音频样本只能包含一帧且只有一帧aatf_frame()；
b)
每个AVS3音频样本的audio_codec_id应保持不变；
c)
每个AVS3音频样本的SAP的类型，在ISO/IEC 14496-12:2022附录I定义，值都为1。
7.1.2.4 索引片段
AVS3音频索引片段应满足以下约束：
a)
每个子片段由一个ISO/IEC 14496-12:2022中8.16.3中定义的'sidx'类型的片段索引数据盒索引；
b)
sidx'数据盒指示引用的子片段的starts_with_SAP为1，SAP_type为1。
7.1.3 DASH MPD编码器参数
AVS3音频编码位流在MPD中的@codecs属性使用本文件附录A中定义的MIME类型的'codecs'参数。
7.1.4 DASH MPD描述子
7.1.4.1 通则
本条定义了媒体呈现描述（MPD）中用于描述AVS3音频的一些新的XML (GB/T 18793-2002)元素和属性，及命名空间和规则。
7.1.4.2 @mimeType属性
@mimeType属性应设置为"audio/mp4"。
7.1.4.3 @audioSampleRate属性
音频采样率的属性源于CA3SpecificBox的sampling_frequency_index。
7.1.4.4 @startWithSAP属性
@startWithSAP属性应该设置成1。
7.1.4.5 AudioChannelConfiguration描述子
@schemeIdUri属性设置为"urn:avs:avs3:p7:2024:audio_channel_configuration"，用于描述编码位流包含的音频配置。
@value属性值为3个字节，计算方式如下：
a)
如果AVS3音频编码位流在MPD中的@codecs属性为'av3a.00'，则@value的属性值
-
第1个字节为0xF0；
-
第2个字节的最高1位等于0，低7位等于5.1.2.2.2中channel_number_index的值；
-
第3个字节为0；
b)
如果AVS3音频编码位流在MPD中的@codecs属性为'av3a.01'，则@value的属性值
-
第1个字节为0xF0；
T/AI 109.7—2024
17
-
第2个字节等于5.1.2.3.2中channel_number的值；
-
第3个字节为0；
c)
如果AVS3音频编码位流在MPD中的@codecs属性为'av3a.02 '，则@value的属性值：
-
第1个字节的高4位为0xF，低4位等于5.1.2.1.2中content_type的值，其中，content_type的取值范围为0~3;
-
第2个字节：如果第1个字节等于0xF0、0xF2或者0xF3，则第2个字节最高1位等于0，低7位等于5.1.2.1.2中channel_number_index的值；否则，如果第1个字节等于0xF1，第2个字节等于5.1.2.1.2中object_channel_number + 1的值；
-
第3个字节：如果第1个字节的值等于0xF2，则第3个字节的值等于5.1.2.1.2中object_channel_number + 1的值；否则，第3个字节的值等于0；
7.2 AVS2音频DASH传输技术要求
7.2.1 通则
本条规定符合GB/T 33475.3-2018的AVS2音频编码位流通过基于HTTP的动态自适应流媒体传输协议（ISO/IEC 23009-1:2022）进行传输时的媒体呈现描述（MPD）与片段格式。
7.2.2 DASH片段格式
7.2.2.1 通则
DASH片段格式应符合本文件第5章规定的AVS2音频的基本文件封装格式，其样本入口类型为'cavs'。
7.2.2.2 初始化片段
每个DASH初始化片段应包含一个AVSASpecificBox解码器配置记录。
7.2.2.3 媒体片段
每个DASH媒体片段应包含一个或多个GB/T 33475.3-2018标准中规定的音频编码数据。
每个DASH媒体片段中的第一个媒体样本应符合以下任意一个约束：
a)
每个AVS2音频样本只能包含一帧且只有一帧aatf_frame()；
b)
每个AVS2音频样本的audio_codec_id应保持不变；
c)
每个AVS2音频样本的SAP的类型，在ISO/IEC 14496-12:2022附录I定义，值都为1。
7.2.2.4 索引片段
AVS2音频索引片段应满足以下约束：
a)
每个子片段由一个ISO/IEC 14496-12:2022中8.16.3定义的'sidx'类型的片段索引数据盒索引；
b)
sidx'数据盒指示引用的子片段的starts_with_SAP为1，SAP_type为1。
7.2.3 DASH MPD编码器参数
AVS2音频编码位流在MPD中的@codecs属性使用本文件附录A中定义的MIME类型的'codecs'参数。
T/AI 109.7—2024
18
7.2.4 DASH MPD描述子
7.2.4.1 通则
本条定义了媒体呈现描述（MPD）中用于描述AVS2音频的一些新的XML (GB/T 18793-2002)元素和属性，及命名空间和规则。
7.2.4.2 @mimeType属性
@mimeType属性应设置为"audio/mp4"。
7.2.4.3 @audioSampleRate属性
音频采样率的属性源于AVSASpecificBox的sampling_frequency_index。
7.2.4.4 @startWithSAP属性
@startWithSAP属性应该设置成1。
7.2.4.5 AudioChannelConfiguration描述子
@schemeIdUri属性设置为"urn:avs:avs3:p7:2024:audio_channel_configuration"，用于描述编码位流包含的音频配置。
@value属性值为3个字节，计算方式如下：
a)
如果AVS2音频编码位流在MPD中的@codecs属性为'cavs.00'，则@value的属性值
-
第1个字节为0xF0；
-
第2个字节的最高1位等于0，低7位等于5.2.2.1.2中channel_number_index的值；
-
第3个字节为0；
b)
如果AVS2音频编码位流在MPD中的@codecs属性为'cavs.01'，则@value的属性值
-
第1个字节为0xF0；
-
第2个字节等于5.2.2.2.2中channel_number的值；
-
第3个字节为0；
8 传输流和节目流技术要求
8.1 AVS3音频传输流和节目流技术要求
8.1.1 通则
本条规定符合T/AI 109.3的AVS3音频编码位流的在传输流中封装格式与传输要求。
AVS3音频编码位流的传输流应满足以下约束：
a)
AVS3音频流应是ISO/IEC 13818-1:2023中节目的一个节目元素，基本流的stream_type字段值应等于 '0xD5'；
b)
AVS3音频使用AATF的封装格式，即封装成aatf_frame()；
c)
AVS3音频流的常见编码参数，如audio_codec_id应使用AVS3音频流描述符标识。如果存在与AVS3音频流相关联的AVS3音频流描述符，则该描述符应包含在节目映射表中相应基本流条目的描述符循环中。
T/AI 109.7—2024
19
8.1.2 PES分组的流标识
AVS3音频应作为PES_packet_data_bytes携带在PES分组数据包中，并通过PMT中分配的stream_type字段值（0xD5）标识。
AVS3音频的PES数据包应满足以下约束：
a)
PES分组的stream_id取值'1111 1101'（extended_stream_id）；
b)
PES分组包头中stream_id_extension_flag取值'0'，stream_id_extension字段的取值'100 1111'用于表示AVS3音频；
c)
elementary stream在PES payload里应该是字节对齐的，即AVS3音频的首字节必须位于PES payload的首字节中；
d)
一个PES包可以包含一帧或多帧aatf_frame()。
8.1.3 节目和节目元素描述符
8.1.3.1 节目和节目元素描述子中各字段的语义定义
以下语义适用于从8.1.3.2到8.1.3.3中定义的描述符。
描述符标签字段 descriptor_tag
该字段为8位，用于标识每一描述符，其中registration_descriptor描述符标签值在ISO/IEC 138181-1中已规定为0x05。
本条定义的注册描述符和AVS3音频流描述符标签值，见表3。TS或PS栏中'X'表示该描述符可分别用于传输流或节目流。
表3 节目和节目元素描述子
描述符标签值
TS
PS
标识
210
X
X
AVS3_audio_descriptor
描述子长度字段 descriptor_length
该字段为8位。规定了紧跟在该字段之后的描述子的字节数。
8.1.3.2 注册描述符
registration_descriptor 提供了一种唯一且明确地识别私有数据格式的方法。
8.1.3.3 注册描述符中各字段语义定义
registration_descriptor()的定义应参考ISO/IEC 13818-1:2023，AVS3音频的format_identifier应为0x41-56-53-41('AVSA')。
8.1.3.4 AVS3 音频流描述符
AVS3_audio_descriptor()位于PMT中的ES_info_length字段后面，其语法见表4。
T/AI 109.7—2024
20
表4 AVS3音频流描述符语法
语法
位数
助记符
AVS3_audio_descriptor(){
descriptor_tag
8
uimsbf
descriptor_length
8
uimsbf
audio_codec_id
4
uimsbf
sampling_frequency_index
4
uimsbf
if(audio_codec_id == 0){
anc_data_index
1
bslbf
coding_profile
3
uimsbf
bitrate_index
4
uimsbf
bitstream_type
1
bslbf
channel_number_index
7
uimsbf
raw_frame_length
16
uimsbf
}
if(audio_codec_id==1) {
if(sampling_frequency_index==0xf) {
sampling_frequency
24
uimsbf
}
anc_data_index
1
bslbf
coding_profile
3
uimsbf
reserved
4
bslbf
channel_number
8
uimsbf
}
if(audio_codec_id==2) {
nn_type
3
uimsbf
reserved
1
bslbf
content_type
4
uimsbf
if(content_type==0) {
channel_number_index
7
uimsbf
reserved
1
bslbf
}else if(content_type==1) {
object_channel_number
7
uimsbf
reserved
1
bslbf
}else if(content_type==2) {
channel_number_index
7
uimsbf
reserved
1
bslbf
object_channel_number
7
uimsbf
reserved
1
bslbf
}else if(content_type==3) {
T/AI 109.7—2024
21
表4（续）
8.1.3.5 AVS3音频流描述符中各字段的语义定义
descriptor_tag：该字段为8位，取值为210(0xD2)。
descriptor_length：该字段为8位，表示AVS3音频描述符的长度。
audio_codec_id：该字段为4位，应符合T/AI 109.3的附录A。
sampling_frequency_index：该字段为4位，应符合T/AI 109.3的附录A。
anc_data_index：该字段为1位，应符合T/AI 109.3的附录A。
coding_profile：该字段为3位，应符合T/AI 109.3的附录A。
bitrate_index：该字段为4位，应符合T/AI 109.3的附录A。
bitstream_type：该字段为1位，应符合T/AI 109.3的附录A。
channel_number_index：该字段为7位，应符合T/AI 109.3的附录A。
raw_frame_length：该字段为16位，应符合T/AI 109.3的附录A。
sampling_frequency：该字段为24位，应符合T/AI 109.3的附录A。
channel_number: 该字段为8位，应符合T/AI 109.3的附录A。
nn_type：该字段为3位，应符合T/AI 109.3的附录A。
content_type：该字段为4位，表示音频内容类型，见表5。
object_channel_number：该字段为7位，应符合T/AI 109.3附录A。
hoa_order：该字段为4位，表示HOA信号阶数，应符合T/AI 109.3的附录A中order的计算方法。
total_bitrate：该字段为16位，表示音频总比特率，单位kbps，计算方法见表6。
resolution：该字段为2位，应符合T/AI 109.3的附录A。
addition_info：可选字段，附加信息。
语法
位数
助记符
hoa_order
4
uimsbf
reserved
4
bslbf
}
total_bitrate
16
uimsbf
}
resolution
2
uimsbf
reserved
6
bslbf
for (i=0; iaddition_info[i]
8
bslbf
}
}
T/AI 109.7—2024
22
表5 content_type 配置表
content_type 值音频内容类型映射关系
0 声道信号 coding_profile 值为0 时
1 对象信号 coding_profile 值为1 且soundBedType 值为0 时
2 声道信号和对象信号混合 coding_profile 值为1 且soundBedType 值为1 时
3 HOA 信号 coding_profile 值为2 时
4-15 保留
表6 total_bitrate 配置表
content_type 值 total_bitrate 计算方式
0 声道信号的bitrate_index 对应的比特率
1 对象信号的bitrate_index_per_channel 对应的比特率×(object_channel_number + 1)
2 声道信号的bitrate_index 对应的比特率＋对象信号的bitrate_index_per_channel 对
应的比特率×(object_channel_number + 1)
3 HOA 信号的bitrate_index 对应的比特率
4-15 保留
。
表5中的coding_profile和soundBedType，以及表6中的bitrate_index和bitrate_index_per_channel
应符合T/AI 109.3的附录A
8.1.4 AVS3 音频T-STD 模型拓展
本条定义了AVS3 音频传输流的T-STD 模型扩展。AVS3 音频T-STD 模型拓展中访问单元AU
（Access Unit）表示使用AATF 封装格式的一个音频帧。对于包含AVS3 音频的传输流应符合T-STD 模
型，见图1。
TBn Bn
Rxn
Dn
An(j)
tdn(j) Pn(k)
tpn(k)
t(i)
传输流解复
用
其它传输流
图1 面向AVS3 音频的T-STD 模型拓展
图1 中符号说明：
- t(i)：传输流的第i 个字节进入系统目标解码器的时间，单位秒。
- TBn：基本流n 的传输缓存。
- Bn：基本流n 的主缓存。
- Rxn：从TBn到Bn的传输速率。
- An(j)：AVS3 音频基本流的第j 个存储单元。
- td(j)：An(j)在系统目标解码器中解码的时间，单位秒。
T/AI 109.7—2024
23
-
Dn：基本流n对应的解码器。
-
Pn(k)：基本流n中第k个呈现单元。
-
tpn(k)：基本流n中第k个呈现单元对应的时间，单位秒。
8.1.4.1 缓存管理
AVS3音频T-STD模型扩展中从TBn到Bn的传输速率Rxn计算公式如下： Rxn=1.2 ×Rmax×N
式中：
Rmax——AVS3音频单通道最大速率；
N——基本流中包含的音频通道总数。
AVS3音频T-STD模型拓展中对应Rxn取值，见表7。
表7 Rxn取值范围
通道数
Rxn [bit/s]
1-8
2 000 000
9-16
3 686 400
17-48
11 059 200
49-128
29 491 200
AVS3音频T-STD模型扩展中主缓存BSn计算公式如下： BSn= BSmux+BSdec + BSoh
式中：
BSmux——额外复用缓存，计算公式如下： BSmux=0.004×Rmax×N
BSdec——基本流存储单元缓存，取值为6144 bits；
BSoh——PES包头缓存，取值为528 bytes。
AVS3音频-T-STD模型拓展中对应BSn取值，见表8。
表8 BSn取值范围
通道数
BSn [bytes]
1-8
7440
9-16
14 352
17-48
42 000
49-128
111 120
8.1.4.2 缓存延时
T/AI 109.7—2024
24
AVS3音频传输流STD延时应该满足：对于所有j对应的存取单元An(j)中的所有字节i，对应 tdn(j)−t(i)≤10 (s) 。
8.1.4.3 缓存管理条件
缓存管理条件应该满足：
-
TBn不应上溢，且应在每一秒中至少有一次处于清空状态；
-
Bn既不能上溢，也不能下溢。
8.2 AVS2音频传输流和节目流技术要求
8.2.1 通则
本条规定符合GB/T 33475.3-2018的AVS2音频编码位流在传输流中封装格式与传输要求。
AVS2音频编码位流的传输流应满足以下约束：
a)
AVS2音频流应是ISO/IEC 13818-1:2023中节目的一个节目元素，基本流的stream_type字段值应等于 '0xD3'；
b)
AVS2音频使用AATF的封装格式，即封装成aatf_frame()；
c)
AVS2音频流的常见编码参数，如audio_codec_id应使用AVS2音频流描述符标识。如果存在与AVS2音频流相关联的AVS2音频流描述符，则该描述符应包含在节目映射表中相应基本流条目的描述符循环中。
8.2.2 PES分组的流标识
AVS2音频应作为PES_packet_data_bytes携带在PES分组数据包中，并通过PMT中分配的stream_type字段值（0xD3）标识。
AVS2音频的PES数据包应满足以下约束：
a)
PES分组的stream_id取值'1011 1101'（private_stream_1）。
b)
elementary stream在PES payload里应该是字节对齐的，即AVS2音频的首字节必须位于PES payload的首字节中。
c)
一个PES包可以包含一帧或多帧aatf_frame()。
8.2.3 节目和节目元素描述符
8.2.3.1 节目和节目元素描述子中各字段的语义定义
以下语义适用于从8.2.3.2到8.2.3.3中定义的描述符。
描述符标签字段 descriptor_tag
该字段为8位，用于标识每一描述符，其中registration_descriptor描述符标签值在ISO/IEC 138181-1中已规定为0x05。
本部分定义的注册描述符和AVS2音频流描述符标签值，见表9。TS或PS栏中‘X’表示该描述符可分别用于传输流或节目流。
T/AI 109.7—2024
25
表9 节目和节目元素描述子
描述符标签值
TS
PS
标识
211
X
X
AVS2_audio_descriptor
描述子长度字段 descriptor_length
该字段为8位。规定了紧跟在该字段之后的描述子的字节数。
8.2.3.2 注册描述符
registration_descriptor 提供了一种唯一且明确地识别私有数据格式的方法。
8.2.3.3 注册描述符中各字段语义定义
registration_descriptor()的定义应参考ISO/IEC 13818-1:2023，AVS2音频的format_identifier应为0x41-56-53-41('AVSA')。
8.2.3.4 AVS2 音频流描述符
AVS2_audio_descriptor()位于PMT中的ES_info_length字段后面，其语法见表10。
表10 AVS2音频流描述符语法
语法
位数
助记符
AVS2_audio_descriptor() {
descriptor_tag
8
uimsbf
descriptor_length
8
uimsbf
num_channels
8
uimsbf
sample_rate_index
4
uimsbf
avs_version_flag
1
bslbf
text_present_flag
1
bslbf
language_present_flag
1
bslbf
reserved
1
‘0’
if (text_present_flag == 1) {
text_length
8
uimsbf
for (i=0; itext[i]
16
bslbf
}
}
if (language_present_flag == 1) {
T/AI 109.7—2024
26
表10（续）
语法
位数
助记符
language
24
bslbf
}
if (avs_version_flag == 1) {
audio_codec_id
4
uimsbf
anc_data_index
1
bslbf
coding_profile
3
uimsbf
if (audio_codec_id==0) {
bitrate_index
4
uimsbf
bitstream_type
1
bslbf
reserved
3
bslbf
raw_frame_length
16
uimsbf
}
resolution
2
uimsbf
reserved
6
bslbf
if (anc_data_index) {
anc_data_block()
}
}
for (i=0; iaddition_info[i]
8
bslbf
}
}
8.2.3.5 AVS2音频流描述符中各字段的语义定义
descriptor_tag：该字段为8位，取值为0xD3。
descriptor_length：该字段为8位，表示AVS2音频流描述子长度。对于AVS2音频流描述子，最小值是2，即该字段后至少需要2字节的描述子内容。
num_channels：该字段为8位，表示AVS2音频流声道数。
sample_rate_index：该字段为4位，应符合GB/T33475.3附录A.2。
avs_version_flag：该字段为1位，表示AVS2版本号，通常设置为1。
text_present_flag：该字段为1位，表示AVS2音频流描述子中是否包含描述性的文本。若text_present_flag的值为1，表示音频流中包含文本；若text_present_flag的值为0，则不包含。
T/AI 109.7—2024
27
language_present_flag：该字段为1位，说明AVS2音频流描述子中是否包含3字节的语言字段。若language_present_flag的值为1，表示后面包含语言字段；若language_present_flag的值为0，则不包含语言字段。
text_length：该字段为8位，表示描述性文本字段长度。
text[i]：文本字段，AVS2音频流的文本描述，使用2字节的unicode字符集编码。
language：该字段为24位，编码规定应符合GB/T4880.2—2000。
audio_codec_id: 该字段为4位，应符合GB/T33475.3的附录A.2。
anc_data_index: 该字段为1位，应符合GB/T33475.3的附录A.2。
coding_profile: 该字段为3位，应符合GB/T33475.3的附录A.2。
bitrate_index: 该字段为4位，应符合GB/T33475.3的附录A.2。
bitstream_type: 该字段为1位，应符合GB/T33475.3的附录A.2。
raw_frame_length：该字段为16位，应符合GB/T33475.3的附录A.2。
resolution: 该字段为2位，应符合GB/T33475.3的附录A.2。
anc_data_block(): 应符合GB/T33475.3的附录A.2。
additional_info：可选字段，附加信息。
8.2.4 STD音频缓冲器大小
AVS2基本流有一个或多个声道组成，每个声道的最大码率为audio_codec_id为0时,192kbps，因此AVS2音频在传输缓存中的漏率计算为：
RXn = 1.2×Rmax×N bps
式中：
Rmax恒为audio_codec_id为0时，192kbps，AVS2音频码流每个声道的码率上限的值；
N——AVS2音频基本流中包含的音频声道总数。
AVS2音频T-STD模型扩展中对应RXn的取值，见表11。
表11 Rxn取值范围
通道数
Rxn [bit/s] (audio_codec_id=0)
1-8
2 000 000
9-16
3 686 400
17-48
11 059 200
49-128
29 491 200
AVS2音频T-STD模型扩展中主缓存BSn大小定义为：
BSn = BSmux + BSdec + BSoh
式中：
BSmux——额外复用缓存，计算公式如下：
BSmux = 0.004×Rmax×N；
BSdec——基本流存储单元缓存，audio_codec_id为0时，6144bits×N。
T/AI 109.7—2024
28
BSoh——PES头大小，528字节。
其中Rmax和N的定义同上。
AVS2音频T-STD模型扩展中对应BSn的取值，见表12。
表12 BSn取值范围
通道数
BSn [bytes]
(audio_codec_id=0)
1-8
7 440
9-16
14 352
17-48
42 000
49-128
111 120
对于节目流，设置主缓存大小在P-STD_buffer_scale和P-STD_buffer_size中，见表13。
表13 P-STD_buffer_size取值范围
Number of Channels
P-STD_buffer_scale
P-STD_buffer_size
(audio_codec_id=0)
1-8
0
59
9-16
0
113
17-48
0
329
49-128
0
869
8.2.5 字节对齐
音频ES流在GB/T 17975.1-2010或MPEG-2 TS传输流中应是字节对齐的，即编码帧的最初8比特应包含在GB/T 17975.1-2010或MPEG-2 TS传输流中的一个完整的独立字节中。
9 SMT传输技术要求
9.1 AVS3音频SMT传输技术要求
9.1.1 通则
本条规定符合T/AI 109.3的AVS3音频编码位流基于智能媒体传输协议SMT（T/AI 114-2021）进行传输的技术要求，应符合如下约束：
a)
AVS3音频编码位流应符合本文件第5章中基于ISO BMFF的文件封装格式；
b)
AVS3音频文件应符合SMT的文件封装要求，以通用封装单元的形式通过SMT进行传输；
c)
AVS3音频文件传输过程中使用的信令消息，应符合SMT中信令消息的定义以及本章的扩展定义。
9.1.2 AVS音频媒体资源描述符
9.1.2.1 定义
T/AI 109.7—2024
29
AVS音频媒体资源描述符用于指示AVS3音频编码位流的编码类别、编码档次、存储模式等信息。AVS音频媒体资源描述符在SMT的MP表中进行扩展，用于解决AVS3音频在SMT协议下灵活传输与个性化消费的需求。
9.1.2.2 语法
AVS音频媒体资源描述符语法，见表14。
表14 AVS音频媒体资源描述符
语法
值
比特数
备注
Audio_info_descriptor () {
descriptor_tag
descriptor_length
audio_format_type
audio_codec_id
coding_profile
average_bitrate_flag
hoa_order_flag
channel_number_flag
object_info_flag
reserved
if(average_bitrate_flag==1)
average_bitrate
else {
max_bitrate
min_bitrate
}
if(hoa_order_flag){
max_hoa_order
}
if(channel_number_flag){
max_channel_number
}
if(object_info_flag){
max_object_channel_number
}
bit_depth_resolution
sample_rate
}
‘1’
16
16
4
4
3
1
1
1
1
1
16
16
16
8
8
8
8
24
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
bslbf
bslbf
bslbf
bslbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
9.1.2.3 语义
descriptor_tag：用于标识descriptor的类型。
descriptor_length：指示标识符的长度，单位为字节。
audio_format_type：指示AVS音频编码位流的类别。该字段取值为0表示位流为AVS3音频AASF存储格式的位流；该字段取值为1表示位流为AVS3音频AATF传输格式的位流；该字段取值为2表示位流为AVS2音频AASF存储格式的位流；该字段取值为3表示位流为AVS2音频AATF传输格式的位流。
T/AI 109.7—2024
30
audio_codec_id：指示音频媒体资源的编码类别。对于AVS3音频位流，该字段取值为0时表示媒体资源为通用高码率音频编码数据；取值为1表示媒体资源为无损音频编码数据；该字段取值为2表示媒体资源为通用全码率音频编码数据；其余取值保留。
coding_profile：指示音频媒体资源的编解码档次。该字段取值为0表示音频媒体资源的编解码遵循基本框架；该字段取值为1表示音频媒体资源的编解码遵循对象元数据编码框架；该字段取值为2表示音频媒体资源的编解码遵循HOA数据编码框架。
average_bitrate_flag：取值为0时表示音频媒体资源不具备平均码率；取值为1时表示音频媒体资源具备平均码率。
max_bitrate：指示音频媒体资源的最大码率，单位kbps。
average_bitrate：指示音频媒体资源的平均码率，单位kbps。
min_bitrate：指示音频媒体资源的最小码率，单位kbps。
hoa_order_flag：取值为1时表示当前描述符中指示HOA阶数；取值为0时表示当前描述符中不指示HOA阶数。
channel_number_flag：取值为1时表示当前描述符中指示声道数；取值为0时表示当前描述符中不指示声道数。
object_info_flag：取值为1时表示当前描述符中指示声音对象信息；取值为0时表示当前描述符中不指示声音对象信息。
max_hoa_order：指示当前媒体资源支持的最大HOA阶数。
max_channel_number：指示当前媒体资源支持的最大声道数。
max_object_channel_number：指示当前媒体资源包含的全部对象支持的最大声道数量。
bit_depth_resolution：指示音频输入信号的量化比特数。
sample_rate：指示音频输入信号的采样频率。
9.1.3 交互反馈信令表
9.1.3.1 定义
交互反馈消息提供沉浸式媒体消费时，服务器与客户端之间的交互反馈。当沉浸式媒体消费中的服务器与客户端之间需要发送交互反馈信息时，使用此消息进行会话。一个交互反馈消息信令中可包含一个或多个交互反馈信令表。交互反馈信令表中包含了服务器和客户端之间交互反馈的信息，不同类型的交互反馈信令表用于指示不同类型的交互反馈信息。
对于AVS3音频编码位流的媒体资源，若其包含可交互的声音对象，则用户对于声音对象的交互操作可以通过交互反馈信令表进行反馈,其中声音对象的交互反馈信令表的字段取值应遵循如下约束：
a)
table_type应取值为3；
b)
asset_group_flag应取值为0。
9.1.3.2 语法
交互反馈信令表语法，见表15。
T/AI 109.7—2024
31
表15 交互反馈信令表
语法
值
比特数
类型
interaction_feedback_table() {
table_id
version
length
table_payload {
table_type
timestamp
message_source
asset_group_flag
reserved
if(asset_group_flag){
asset_group_id
}
else{
asset_id()
}
if(table_type == 3){
coordinate_type
if(coordinate_type == 0){
ClientPosition()
}
if(coordinate_type == 1){
azimuth
elevation
distance
}
}
}
}
8
8
16
8
32
1
1
6
8
8
8
8
8
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
bslbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
uimsbf
9.1.3.3 语义
table_type指示交互反馈信令表携带的信息类型。其取值含义见表16。
T/AI 109.7—2024
32
表16 交互反馈信令表类型
取值
描述
0
全景视频用户位置变动信息
1
容积视频用户位置变动信息
2
自由视角视频用户位置变动信息
3
音频声音对象交互信息
4-255
未定义
timestamp：指示当前交互产生的时间，使用UTC时间。
message_source：指示消息源，0表示交互反馈消息是客户端发往服务器，1表示交互反馈消息是服务器发往客户端。该值此处置0。
asset_group_flag：指示当前消费内容是否属于一个媒体资源组。取值为1表示客户端当前消费内容属于一个媒体资源组；取值为0表示客户端当前消费内容不属于媒体资源组。
asset_group_id：指示客户端当前消费内容的媒体资源组标识符
asset_id：指示客户端当前消费内容的媒体资源标识符。
coordinate_type：指示用户交互位置的坐标类型，该字段取值为0表示交互位置以笛卡尔坐标系指示；该字段取值为1表示交互位置以球面坐标系指示。
ClientPosition()指示全局坐标系下用户交互位置的x、y、z坐标，其具体定义如下。
aligned(8) class ClientPosition () {
signed int(16) position_x;
signed int(16) position_y;
signed int(16) position_z;
}
其中，position_x指示用户实时位置相对起始位置沿着x轴位移，取值范围为（-215，215 − 1），以毫米为单位。
position_y指示用户实时位置相对起始位置沿着y轴位移，取值范围为（-2

下载地址

>>> 进入下载地址列表(Download Now)

T/AI 109.7-2024 信息技术智能媒体编码第7部分：音频封装与传输

资料介绍

下载地址

下载说明

本栏热门标准

本栏随机标准

T/AI 109.7-2024 信息技术 智能媒体编码 第7部分：音频封装与传输

资料介绍

下载地址

下载说明

本栏热门标准

本栏随机标准

T/AI 109.7-2024 信息技术智能媒体编码第7部分：音频封装与传输