超清版 GB/T 44089-2024 信息技术 全双工语音交互系统通用技术要求
- 文件大小:3.72 MB
- 标准类型:电子信息
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-03-19
- 下载次数:
- 标签:
资料介绍
ICS35.240.01
CCS L77
中华人民共和国国家标准
GB/T44089—2024
信息技术 全双工语音交互系统
通用技术要求
Informationtechnology—Generaltechnicalrequirementsof
fullduplexspeechinteractionsystem
2024-05-28发布2024-05-28实施
国家市场监督管理总局
国家标准化管理委员会发布
目 次
前言………………………………………………………………………………………………………… Ⅲ
1 范围……………………………………………………………………………………………………… 1
2 规范性引用文件………………………………………………………………………………………… 1
3 术语和定义……………………………………………………………………………………………… 1
4 缩略语…………………………………………………………………………………………………… 2
5 系统参考功能框架及交互过程………………………………………………………………………… 2
5.1 系统参考功能框架………………………………………………………………………………… 2
5.2 系统交互过程……………………………………………………………………………………… 4
6 功能要求………………………………………………………………………………………………… 5
6.1 核心要求…………………………………………………………………………………………… 5
6.2 声学处理层………………………………………………………………………………………… 6
6.3 语音识别层………………………………………………………………………………………… 6
6.4 对话处理层………………………………………………………………………………………… 6
6.5 语音合成层………………………………………………………………………………………… 6
7 性能要求………………………………………………………………………………………………… 6
7.1 语音识别层………………………………………………………………………………………… 6
7.2 对话处理层………………………………………………………………………………………… 7
7.3 语音合成层………………………………………………………………………………………… 7
7.4 交互响应时间……………………………………………………………………………………… 7
附录A (资料性) FDX语音交互过程案例……………………………………………………………… 8
A.1 车载终端场景……………………………………………………………………………………… 8
A.2 智能客服场景……………………………………………………………………………………… 8
A.3 智慧办公场景……………………………………………………………………………………… 9
A.4 智能家居场景…………………………………………………………………………………… 10
参考文献…………………………………………………………………………………………………… 11
前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
本 文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、美的集团(上海)有限公司、
深圳市腾讯计算机系统有限公司、北京百度网讯科技有限公司、中国电信集团有限公司、小米通讯技术
有限公司、中移(杭州)信息技术有限公司、青岛海尔科技有限公司、福州数据技术研究院有限公司、深圳
云天励飞技术股份有限公司、北京电信规划设计院有限公司、思必驰科技股份有限公司、杭州方得智能
科技有限公司、羚羊工业互联网股份有限公司、合肥智能语音创新发展有限公司、深圳市矽赫科技有限
公司、上海智能制造功能平台有限公司、北京捷通华声科技股份有限公司、马上消费金融股份有限公司。
本文件主要起草人:董建、徐洋、贾一君、刘颖、宋文林、何永春、于磊、苏丹、袁杰、鄂磊、蔡亚森、
梅林海、赵培、刘聪、杨震、雷宗、龚晟、樊帅、洪鹏达、黄超、李林璐、方斌、陈明、胡国平、杨一帆、刘志强、
毕盛楠、丁强、高羽、李旭。
1 范围
本文件规定了全双工语音交互系统的参考功能框架、交互过程,以及功能要求、性能要求。
本文件适用于全双工语音交互系统的设计、开发、应用、测试和维护。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
全双工 fullduplex
能够同时双向传递数据的通信方法。
3.2
功能单元 functionalunit
能够完成特定目标的硬件或软件实体。
3.3
语音识别 speechrecognition
将人类的声音信号转化为文字或者指令的过程。
[来源:GB/T21023—2007,3.1]
3.4
语义理解 semanticunderstanding
使功能单元理解人说话的意图。
[来源:GB/T36464.1—2020,3.11]
3.5
语音合成 speechsynthesis
通过机械的、电子的方法合成人类语言的过程。
[来源:GB/T21024—2007,3.1]
3.6
话术 telephony
交互过程中使用的具有一定逻辑的对话文本内容。
3.7
对话管理 dialoguemanagement
跟进当前的对话状态和上下文输入,对对话的状态进行更新,同时依据对话处理逻辑生成需要实施
的对话动作。
1
GB/T44089—2024
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(ArtificialIntelligence)
FDX:全双工(FullDuplex)
MOS:平均意见得分(MeanOpinionScore)
VAD:声音活动检测(VoiceActivityDet
CCS L77
中华人民共和国国家标准
GB/T44089—2024
信息技术 全双工语音交互系统
通用技术要求
Informationtechnology—Generaltechnicalrequirementsof
fullduplexspeechinteractionsystem
2024-05-28发布2024-05-28实施
国家市场监督管理总局
国家标准化管理委员会发布
目 次
前言………………………………………………………………………………………………………… Ⅲ
1 范围……………………………………………………………………………………………………… 1
2 规范性引用文件………………………………………………………………………………………… 1
3 术语和定义……………………………………………………………………………………………… 1
4 缩略语…………………………………………………………………………………………………… 2
5 系统参考功能框架及交互过程………………………………………………………………………… 2
5.1 系统参考功能框架………………………………………………………………………………… 2
5.2 系统交互过程……………………………………………………………………………………… 4
6 功能要求………………………………………………………………………………………………… 5
6.1 核心要求…………………………………………………………………………………………… 5
6.2 声学处理层………………………………………………………………………………………… 6
6.3 语音识别层………………………………………………………………………………………… 6
6.4 对话处理层………………………………………………………………………………………… 6
6.5 语音合成层………………………………………………………………………………………… 6
7 性能要求………………………………………………………………………………………………… 6
7.1 语音识别层………………………………………………………………………………………… 6
7.2 对话处理层………………………………………………………………………………………… 7
7.3 语音合成层………………………………………………………………………………………… 7
7.4 交互响应时间……………………………………………………………………………………… 7
附录A (资料性) FDX语音交互过程案例……………………………………………………………… 8
A.1 车载终端场景……………………………………………………………………………………… 8
A.2 智能客服场景……………………………………………………………………………………… 8
A.3 智慧办公场景……………………………………………………………………………………… 9
A.4 智能家居场景…………………………………………………………………………………… 10
参考文献…………………………………………………………………………………………………… 11
前 言
本文件按照GB/T1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
本 文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。
本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、美的集团(上海)有限公司、
深圳市腾讯计算机系统有限公司、北京百度网讯科技有限公司、中国电信集团有限公司、小米通讯技术
有限公司、中移(杭州)信息技术有限公司、青岛海尔科技有限公司、福州数据技术研究院有限公司、深圳
云天励飞技术股份有限公司、北京电信规划设计院有限公司、思必驰科技股份有限公司、杭州方得智能
科技有限公司、羚羊工业互联网股份有限公司、合肥智能语音创新发展有限公司、深圳市矽赫科技有限
公司、上海智能制造功能平台有限公司、北京捷通华声科技股份有限公司、马上消费金融股份有限公司。
本文件主要起草人:董建、徐洋、贾一君、刘颖、宋文林、何永春、于磊、苏丹、袁杰、鄂磊、蔡亚森、
梅林海、赵培、刘聪、杨震、雷宗、龚晟、樊帅、洪鹏达、黄超、李林璐、方斌、陈明、胡国平、杨一帆、刘志强、
毕盛楠、丁强、高羽、李旭。
1 范围
本文件规定了全双工语音交互系统的参考功能框架、交互过程,以及功能要求、性能要求。
本文件适用于全双工语音交互系统的设计、开发、应用、测试和维护。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
3.1
全双工 fullduplex
能够同时双向传递数据的通信方法。
3.2
功能单元 functionalunit
能够完成特定目标的硬件或软件实体。
3.3
语音识别 speechrecognition
将人类的声音信号转化为文字或者指令的过程。
[来源:GB/T21023—2007,3.1]
3.4
语义理解 semanticunderstanding
使功能单元理解人说话的意图。
[来源:GB/T36464.1—2020,3.11]
3.5
语音合成 speechsynthesis
通过机械的、电子的方法合成人类语言的过程。
[来源:GB/T21024—2007,3.1]
3.6
话术 telephony
交互过程中使用的具有一定逻辑的对话文本内容。
3.7
对话管理 dialoguemanagement
跟进当前的对话状态和上下文输入,对对话的状态进行更新,同时依据对话处理逻辑生成需要实施
的对话动作。
1
GB/T44089—2024
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(ArtificialIntelligence)
FDX:全双工(FullDuplex)
MOS:平均意见得分(MeanOpinionScore)
VAD:声音活动检测(VoiceActivityDet
