T/CIATCM 111-2024 中医四诊合参病案数据处理和融合规范
- 文件大小:473.63 KB
- 标准类型:医药卫生
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-02-22
- 下载次数:
- 标签:
资料介绍
ICS 35.240.80
团体标准
T/CIATCM 111—2024
中医四诊合参病案数据处理和融合规范
Data Processing and Integration Standards for Medical Cases with Combined Four
Diagnostic Methods of Traditional Chinese Medicine
2024 - 07 - 01 发布2024 - 08 - 01 实施
中国中医药信息学会发布
I
目次
前 言.............................................................................. II
引 言............................................................................. III
1 范围................................................................................ 1
2 规范性引用文件...................................................................... 1
3 术语和定义.......................................................................... 1
4 规范性技术要素...................................................................... 1
4.1 总体规范内容.................................................................... 1
4.2 总体数据流程图.................................................................. 2
4.3 具体规范内容.................................................................... 2
附录A (规范性附录) 数据安全规范................................................. 6
A.1 系统安全要求.................................................................... 6
T/CIATCM 111—2024
II
前 言
本文件参照GB/T1.1—2020《标准化工作导则第1 部分:标准化文件的结构和起草规则》的规定起
草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国中医科学院医学实验中心提出。
本文件由中国中医药信息学会归口。
本文件起草单位:中国中医科学院医学实验中心、清华大学、博奥生物集团有限公司、上海中医药
大学、天津帕斯泰克医疗器械有限公司、成都中医药大学、北京中医药大学东直门医院、苏州思必驰科
技有限公司。
本文件主要起草人:汪南玥、徐华、李福凤、王东、温川飙、刘佳、田贵华、钱鹏、王文君、骆学
荣、吴至婧、余文梦、毛惠生、李心怡、周跃。
T/CIATCM 111—2024
III
引 言
中医四诊合参是中医诊断中最重要的思想之一,中医四诊客观化数据进行融合研究是中医诊断现代
化的必然发展趋势。中医四诊合参数据源自中医的“望闻问切”四种诊断方式,结合多种中医诊断设备,
采集受试者后得到的文本、音频和图片等多模态数据。由于采集过程的长期性、多种诊断模式以及处理
数据、分析方法的复杂性,使中医四诊合参数据处理及融合进展缓慢。
本文件通过对四诊合参中的多个单模态数据的数据采集及数据格式、数据处理过程进行规范,并将
多个单模态特征融合的过程进行规范,这样,可以更好地综合各个模态特征的优势,挖掘数据的潜能,
从而提升病情预测的准确率。
T/CIATCM 111—2024
1
中医四诊合参病案数据处理和融合规范
1 范围
本文件通过对四诊合参中的多个单模态数据的采集、格式、处理过程进行规范并对多个单模态特征
融合的过程进行规范,可开展四诊合参数据的处理、分析与研究工作。
本文件适用于中医四诊合参数据的采集、处理及融合应用,中医师、中西医结合医师、临床数据采
集人员、相关科研人员、数据分析人员等可依据本文件,在中医科研机构、数据分析机构、中医医疗机
构、中医药企业等适合场所开展中医四诊合参数据处理、分析与融合等研究工作。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 40665.1—2021 中医四诊操作规范第1 部分:望诊
GB/T 40665.2—2021 中医四诊操作规范第2 部分:闻诊
GB/T 40665.3—2021 中医四诊操作规范第3 部分:问诊
GB/T 40665.4—2021 中医四诊操作规范第4 部分:切诊
T/CIATCM 058—2019 中医药信息标准编制通则
3 术语和定义
下列术语和定义适用于本文件
3.1
数据采集data acquisition
工作人员使用辅助设备对受试者进行数据收集的过程,包括望诊数据,主要为舌、面诊与目诊的图
片采集;闻诊数据主要为音频的采集;问诊数据,主要通过临床量表与相关生理参数填写的文本表格数
据;切诊数据主要为脉搏波信号数据。
3.2
数据处理data processing
指将望闻问切的原始数据转换为对应特征向量的过程。该过程包含数据预处理,如舌、面诊与目诊
的图片,音频降噪等;以及特征提取等步骤。
3.3
数据融合data fusion
指考虑不同模态的特异性和互补性,从而进行有效的特征拼接、张量融合等方法对望闻问切“四诊”
特征的有效融合和预测,融合后的特征包含更全面的信息,增强数据可靠性。
4 规范性技术要素
4.1 总体规范内容
中医四诊合参数据,是通过对受试者进行中医“望闻问切”四种诊断方式,结合多种中医诊断设备,
T/CIATCM 111—2024
2
采集得到的文本、音频和图片等多模态数据。四诊合参数据主要包括以下四个方面的内容:
a)望诊数据(图片,主要为舌、面诊与目诊)
b)闻诊(声音)数据(音频,声音的采集)
c)问诊数据(表格数据,临床量表与相关生理参数的填写)
d)切诊(脉诊)数据(文本数据,为脉搏波的信号数据)
在获得上述数据后,需结合计算机算法辅助进行数据处理和数据融合,以便后期数据分析,达到更
好的诊断目的。因此,本文件主要涵盖以下三方面的内容:
a)数据采集、格式规范:明确开展病例数据采集内容、数据结构、数据格式等要求,内容引用《中
医四诊信息病案数据采集规范》标准。
b)数据处理规范:明确采集到的四诊信息数据所需要进行的预处理方法和流程,即将原始数据转
换为各个单模态特征。
c)数据融合规范:明确不同单模态特征的融合方法和流程,最终得到分类器所需的融合特征表示。
4.2 总体数据流程图
总体上,三方面数据内容的关系见图1。
图1 总体数据流程图
4.3 具体规范内容
4.3.1 数据采集规范
a)望诊数据(图片,主要为舌、面诊与目诊)采集,在封闭环境下保证固定的光照,使用高分辨
率的数字相机或智能手机的相机功能进行图片采集。确保相机设置为适当的且固定的角度和距离,以便
捕捉的图像便于处理。
b)闻诊(声音)数据(音频,声音的采集),使用高质量的录音设备或智能手机的录音功能进行
音频采集。在采集音频数据之前,确保设备处于良好的工作状态,并选择一个相对安静的环境,以减少
背景噪音的干扰。将麦克风或录音设备放置在合适的位置,以捕捉病人的声音、呼吸或其他需要记录的
音频信号。
c)问诊数据(表格数据,临床量表与相关生理参数的填写),使用电子表格、文档编辑器或专门
的数据采集工具来记录文本数据,设计合适的表单或模板来收集病人的相关信息,如年龄、身高、现病
史、家族史等。在采集文本数据时,确保使用清晰、简洁的语言,并尽可能详细地记录相关的医疗信息。
d)切诊(脉诊)数据(文本数据,为脉搏波的信号数据),使用脉搏测量仪器(如血压计、心电
图仪等)来采集病人的脉搏数据。遵循正确的操作步骤和技术,确保准确测量和记录脉搏数据。
T/CIATCM 111—2024
3
4.3.2 数据处理规范
“望闻问切”四诊数据的存在形式不一,所需要的处理方式亦不同。数据处理规范涵盖望、闻、问、
切四诊的数据处理,适用于数据分析人员对四诊合参数据进行数据处理和特征提取。
a)望诊数据处理规范
包括舌、面诊与目诊数据处理规范。每位受试者的舌、面诊数据包括三张图片,分别对应舌面、舌
底和面部特征。面部图片分析中应包含至少5 个区域,分别为额头、鼻部、右颊、左颊、下颌五大区域;
舌诊需要包含舌面与舌下络脉两部分内容的分析:舌面需要进行舌体分割与苔质分离,并分别进行舌质
颜色、舌苔颜色、舌体面积、是否有齿痕、是否有裂纹等关键参数分析;舌下络脉需要进行络脉分割,
并分别进行颜色、长短、粗细、迂曲走形的分析。
目诊数据包括左眼和右眼共十张图片,每组图片分别对应双眼正视、左视、右视、上视,见图2。
具体处理步骤:①舌面、舌底以及眼部位在图片中的占比较低,需要先实现对应的语义分割提取网络,
从原始图像中提取舌上和舌下等局部图像区域;②设计五个部位的特征提取网络;③拼接上述特征,得
到望诊数据的特征表示。在图像语义分割过程中去除异常分割像素点。
图2 望诊数据处理规范图示
b)闻诊(声音)数据处理规范
闻诊数据采集的受试者发出特定语音与语句时录制的语音音频数据。具体处理步骤:①使用音频特
征提取器(eGeMAPS)从受试者的声音中提取出若干维统计学特征,采样率设置为16000;②由于提
取的特征时序长短不一,使用0 对时序短的特征进行填充;③得到闻诊数据的特征表示。闻诊数据处理
T/CIATCM 111—2024
4
规范图示见图3。闻诊信息处理特征需包括:基频、谐波、共振峰及其频率、相位与幅值等参数。
图3 闻诊数据处理规范图示
c)问诊数据处理规范
问诊数据为记录受试者信息的若干个表项数据,比如年龄、身高、现病史、家族史等,每一个表项
均可视为一个特征,具体处理步骤:①将非数值型特征进行数值化处理;②设计特征提取网络;③得到
问诊数据的特征表示。问诊数据处理规范图示见图4。
图4 问诊数据处理规范图示
d)脉诊数据处理规范
脉诊数据指每位受试者6 个部位(左右手的寸、关、尺)的脉搏搏动监测值。具体处理步骤:①根
据脉诊数据绘制波形图,设计波形模式挖掘网络,提取出模式特征;②将脉诊数据视为信号数据,首先
使用传统信号处理方法对输入数据进行归一化、降噪处理和去除基准漂移,然后计算数据的平均周期波
形并获取平均周期特征。设计信号特征提取网络,从而提取出信号特征;③拼接以上两种特征,得到脉
诊数据的特征表示。脉诊信息特征需包含体现中医位、数、形、势等关键特征的参数,如脉力、脉位、
脉率、节律、脉形等信息,并进行6 部脉相关参数自身对照或与健康基线进行对照。脉诊数据处理规范
图示见图5。
T/CIATCM 111—2024
5
图5 脉诊数据处理规范图示
4.3.3 数据融合规范
对于望闻问切四种模态信息,首先会用各自的方法提取出相对成熟的特征向量。这四种模态的特征
向量的维度不一定相同,对于特征维度不同的情况,首先会人为选定一个标准的维度,然后按照这个标
准维度,对各个模态的特征进行线性变换,让特征的维度都保持一致。对于维度对齐后的特征向量,可
以采用不同方法进行模态融合。具体有两类融合方法:
a)平凡融合方法,包括第一维度拼接,加权求和,将四种特征向量按顺序进行拼接,形成一个更
大的特征向量。这种方法简单有效,直接将各个模态的特征信息串联起来。
b)基于深度学习的融合方法,对于这一类方法,会额外构建一个模态融合网络,这个网络接收四
种模态的特征向量为输入,输出为一个向量,即为望闻问切四种模态融合后的特征向量。通过实验验证,
基于深度学习的融合方法表现比平凡融合方法会更好。得到融合后的特征向量之后,将融合后的特征输
入到无偏置线性层,通过线性映射将特征维度映射到与分类器对应的特征维度。这一步骤有助于提取出
最能表达中医“四诊”多模态信息的有效融合表达。实现将多个单模态特征进行融合,综合利用各个模态
的信息,得到一个综合且有效的“四诊”多模态特征表示。数据融合流程图示见图6。
图6 数据融合流程图示
T/CIATCM 111—2024
6
附录A
(规范性附录)
数据安全规范
A.1 系统安全要求
采集过程应符合以下与安全相关的功能要求:
1)访问控制功能要求
系统应具有严格的权限管理、身份认证、和访问控制功能;对操作人员的权限实行分级管理,保护
受试者的隐私;
2)数据保密性功能要求
病案数据资料应遵守国家有关保密制度的规定;
3)重要数据可追溯性功能要求
系统应对重要数据提供痕迹保留、数据追踪和防范非法扩散的功能;
4)数据备份功能要求
系统应实现数据备份功能;应当能够落实系统出现故障时的应急预案,确保病案数据业务的连续性。
_________________________________
团体标准
T/CIATCM 111—2024
中医四诊合参病案数据处理和融合规范
Data Processing and Integration Standards for Medical Cases with Combined Four
Diagnostic Methods of Traditional Chinese Medicine
2024 - 07 - 01 发布2024 - 08 - 01 实施
中国中医药信息学会发布
I
目次
前 言.............................................................................. II
引 言............................................................................. III
1 范围................................................................................ 1
2 规范性引用文件...................................................................... 1
3 术语和定义.......................................................................... 1
4 规范性技术要素...................................................................... 1
4.1 总体规范内容.................................................................... 1
4.2 总体数据流程图.................................................................. 2
4.3 具体规范内容.................................................................... 2
附录A (规范性附录) 数据安全规范................................................. 6
A.1 系统安全要求.................................................................... 6
T/CIATCM 111—2024
II
前 言
本文件参照GB/T1.1—2020《标准化工作导则第1 部分:标准化文件的结构和起草规则》的规定起
草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由中国中医科学院医学实验中心提出。
本文件由中国中医药信息学会归口。
本文件起草单位:中国中医科学院医学实验中心、清华大学、博奥生物集团有限公司、上海中医药
大学、天津帕斯泰克医疗器械有限公司、成都中医药大学、北京中医药大学东直门医院、苏州思必驰科
技有限公司。
本文件主要起草人:汪南玥、徐华、李福凤、王东、温川飙、刘佳、田贵华、钱鹏、王文君、骆学
荣、吴至婧、余文梦、毛惠生、李心怡、周跃。
T/CIATCM 111—2024
III
引 言
中医四诊合参是中医诊断中最重要的思想之一,中医四诊客观化数据进行融合研究是中医诊断现代
化的必然发展趋势。中医四诊合参数据源自中医的“望闻问切”四种诊断方式,结合多种中医诊断设备,
采集受试者后得到的文本、音频和图片等多模态数据。由于采集过程的长期性、多种诊断模式以及处理
数据、分析方法的复杂性,使中医四诊合参数据处理及融合进展缓慢。
本文件通过对四诊合参中的多个单模态数据的数据采集及数据格式、数据处理过程进行规范,并将
多个单模态特征融合的过程进行规范,这样,可以更好地综合各个模态特征的优势,挖掘数据的潜能,
从而提升病情预测的准确率。
T/CIATCM 111—2024
1
中医四诊合参病案数据处理和融合规范
1 范围
本文件通过对四诊合参中的多个单模态数据的采集、格式、处理过程进行规范并对多个单模态特征
融合的过程进行规范,可开展四诊合参数据的处理、分析与研究工作。
本文件适用于中医四诊合参数据的采集、处理及融合应用,中医师、中西医结合医师、临床数据采
集人员、相关科研人员、数据分析人员等可依据本文件,在中医科研机构、数据分析机构、中医医疗机
构、中医药企业等适合场所开展中医四诊合参数据处理、分析与融合等研究工作。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 40665.1—2021 中医四诊操作规范第1 部分:望诊
GB/T 40665.2—2021 中医四诊操作规范第2 部分:闻诊
GB/T 40665.3—2021 中医四诊操作规范第3 部分:问诊
GB/T 40665.4—2021 中医四诊操作规范第4 部分:切诊
T/CIATCM 058—2019 中医药信息标准编制通则
3 术语和定义
下列术语和定义适用于本文件
3.1
数据采集data acquisition
工作人员使用辅助设备对受试者进行数据收集的过程,包括望诊数据,主要为舌、面诊与目诊的图
片采集;闻诊数据主要为音频的采集;问诊数据,主要通过临床量表与相关生理参数填写的文本表格数
据;切诊数据主要为脉搏波信号数据。
3.2
数据处理data processing
指将望闻问切的原始数据转换为对应特征向量的过程。该过程包含数据预处理,如舌、面诊与目诊
的图片,音频降噪等;以及特征提取等步骤。
3.3
数据融合data fusion
指考虑不同模态的特异性和互补性,从而进行有效的特征拼接、张量融合等方法对望闻问切“四诊”
特征的有效融合和预测,融合后的特征包含更全面的信息,增强数据可靠性。
4 规范性技术要素
4.1 总体规范内容
中医四诊合参数据,是通过对受试者进行中医“望闻问切”四种诊断方式,结合多种中医诊断设备,
T/CIATCM 111—2024
2
采集得到的文本、音频和图片等多模态数据。四诊合参数据主要包括以下四个方面的内容:
a)望诊数据(图片,主要为舌、面诊与目诊)
b)闻诊(声音)数据(音频,声音的采集)
c)问诊数据(表格数据,临床量表与相关生理参数的填写)
d)切诊(脉诊)数据(文本数据,为脉搏波的信号数据)
在获得上述数据后,需结合计算机算法辅助进行数据处理和数据融合,以便后期数据分析,达到更
好的诊断目的。因此,本文件主要涵盖以下三方面的内容:
a)数据采集、格式规范:明确开展病例数据采集内容、数据结构、数据格式等要求,内容引用《中
医四诊信息病案数据采集规范》标准。
b)数据处理规范:明确采集到的四诊信息数据所需要进行的预处理方法和流程,即将原始数据转
换为各个单模态特征。
c)数据融合规范:明确不同单模态特征的融合方法和流程,最终得到分类器所需的融合特征表示。
4.2 总体数据流程图
总体上,三方面数据内容的关系见图1。
图1 总体数据流程图
4.3 具体规范内容
4.3.1 数据采集规范
a)望诊数据(图片,主要为舌、面诊与目诊)采集,在封闭环境下保证固定的光照,使用高分辨
率的数字相机或智能手机的相机功能进行图片采集。确保相机设置为适当的且固定的角度和距离,以便
捕捉的图像便于处理。
b)闻诊(声音)数据(音频,声音的采集),使用高质量的录音设备或智能手机的录音功能进行
音频采集。在采集音频数据之前,确保设备处于良好的工作状态,并选择一个相对安静的环境,以减少
背景噪音的干扰。将麦克风或录音设备放置在合适的位置,以捕捉病人的声音、呼吸或其他需要记录的
音频信号。
c)问诊数据(表格数据,临床量表与相关生理参数的填写),使用电子表格、文档编辑器或专门
的数据采集工具来记录文本数据,设计合适的表单或模板来收集病人的相关信息,如年龄、身高、现病
史、家族史等。在采集文本数据时,确保使用清晰、简洁的语言,并尽可能详细地记录相关的医疗信息。
d)切诊(脉诊)数据(文本数据,为脉搏波的信号数据),使用脉搏测量仪器(如血压计、心电
图仪等)来采集病人的脉搏数据。遵循正确的操作步骤和技术,确保准确测量和记录脉搏数据。
T/CIATCM 111—2024
3
4.3.2 数据处理规范
“望闻问切”四诊数据的存在形式不一,所需要的处理方式亦不同。数据处理规范涵盖望、闻、问、
切四诊的数据处理,适用于数据分析人员对四诊合参数据进行数据处理和特征提取。
a)望诊数据处理规范
包括舌、面诊与目诊数据处理规范。每位受试者的舌、面诊数据包括三张图片,分别对应舌面、舌
底和面部特征。面部图片分析中应包含至少5 个区域,分别为额头、鼻部、右颊、左颊、下颌五大区域;
舌诊需要包含舌面与舌下络脉两部分内容的分析:舌面需要进行舌体分割与苔质分离,并分别进行舌质
颜色、舌苔颜色、舌体面积、是否有齿痕、是否有裂纹等关键参数分析;舌下络脉需要进行络脉分割,
并分别进行颜色、长短、粗细、迂曲走形的分析。
目诊数据包括左眼和右眼共十张图片,每组图片分别对应双眼正视、左视、右视、上视,见图2。
具体处理步骤:①舌面、舌底以及眼部位在图片中的占比较低,需要先实现对应的语义分割提取网络,
从原始图像中提取舌上和舌下等局部图像区域;②设计五个部位的特征提取网络;③拼接上述特征,得
到望诊数据的特征表示。在图像语义分割过程中去除异常分割像素点。
图2 望诊数据处理规范图示
b)闻诊(声音)数据处理规范
闻诊数据采集的受试者发出特定语音与语句时录制的语音音频数据。具体处理步骤:①使用音频特
征提取器(eGeMAPS)从受试者的声音中提取出若干维统计学特征,采样率设置为16000;②由于提
取的特征时序长短不一,使用0 对时序短的特征进行填充;③得到闻诊数据的特征表示。闻诊数据处理
T/CIATCM 111—2024
4
规范图示见图3。闻诊信息处理特征需包括:基频、谐波、共振峰及其频率、相位与幅值等参数。
图3 闻诊数据处理规范图示
c)问诊数据处理规范
问诊数据为记录受试者信息的若干个表项数据,比如年龄、身高、现病史、家族史等,每一个表项
均可视为一个特征,具体处理步骤:①将非数值型特征进行数值化处理;②设计特征提取网络;③得到
问诊数据的特征表示。问诊数据处理规范图示见图4。
图4 问诊数据处理规范图示
d)脉诊数据处理规范
脉诊数据指每位受试者6 个部位(左右手的寸、关、尺)的脉搏搏动监测值。具体处理步骤:①根
据脉诊数据绘制波形图,设计波形模式挖掘网络,提取出模式特征;②将脉诊数据视为信号数据,首先
使用传统信号处理方法对输入数据进行归一化、降噪处理和去除基准漂移,然后计算数据的平均周期波
形并获取平均周期特征。设计信号特征提取网络,从而提取出信号特征;③拼接以上两种特征,得到脉
诊数据的特征表示。脉诊信息特征需包含体现中医位、数、形、势等关键特征的参数,如脉力、脉位、
脉率、节律、脉形等信息,并进行6 部脉相关参数自身对照或与健康基线进行对照。脉诊数据处理规范
图示见图5。
T/CIATCM 111—2024
5
图5 脉诊数据处理规范图示
4.3.3 数据融合规范
对于望闻问切四种模态信息,首先会用各自的方法提取出相对成熟的特征向量。这四种模态的特征
向量的维度不一定相同,对于特征维度不同的情况,首先会人为选定一个标准的维度,然后按照这个标
准维度,对各个模态的特征进行线性变换,让特征的维度都保持一致。对于维度对齐后的特征向量,可
以采用不同方法进行模态融合。具体有两类融合方法:
a)平凡融合方法,包括第一维度拼接,加权求和,将四种特征向量按顺序进行拼接,形成一个更
大的特征向量。这种方法简单有效,直接将各个模态的特征信息串联起来。
b)基于深度学习的融合方法,对于这一类方法,会额外构建一个模态融合网络,这个网络接收四
种模态的特征向量为输入,输出为一个向量,即为望闻问切四种模态融合后的特征向量。通过实验验证,
基于深度学习的融合方法表现比平凡融合方法会更好。得到融合后的特征向量之后,将融合后的特征输
入到无偏置线性层,通过线性映射将特征维度映射到与分类器对应的特征维度。这一步骤有助于提取出
最能表达中医“四诊”多模态信息的有效融合表达。实现将多个单模态特征进行融合,综合利用各个模态
的信息,得到一个综合且有效的“四诊”多模态特征表示。数据融合流程图示见图6。
图6 数据融合流程图示
T/CIATCM 111—2024
6
附录A
(规范性附录)
数据安全规范
A.1 系统安全要求
采集过程应符合以下与安全相关的功能要求:
1)访问控制功能要求
系统应具有严格的权限管理、身份认证、和访问控制功能;对操作人员的权限实行分级管理,保护
受试者的隐私;
2)数据保密性功能要求
病案数据资料应遵守国家有关保密制度的规定;
3)重要数据可追溯性功能要求
系统应对重要数据提供痕迹保留、数据追踪和防范非法扩散的功能;
4)数据备份功能要求
系统应实现数据备份功能;应当能够落实系统出现故障时的应急预案,确保病案数据业务的连续性。
_________________________________
