DB41/T 2929-2025 人工智能医疗器械 甲状腺结节超声图像数据标注规范
- 文件大小:1027.02 KB
- 标准类型:地方标准规范
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-09-17
- 下载次数:
- 标签:
资料介绍
河南省地方标准
DB41/T 2929—2025
人工智能医疗器械 甲状腺结节超声图像数据标注规范
2025 - 08 - 08发布
2025 - 11 - 07实施
河南省市场监督管理局 发布
DB41/T 2929—2025
I
目次
前言 ................................................................................. II
1 范围 ............................................................................... 1
2 规范性引用文件 ..................................................................... 1
3 术语和定义 ......................................................................... 1
4 标注任务说明文档 ................................................................... 1
5 标注质量特性 ....................................................................... 3
6 标注与质控流程 ..................................................................... 4
7 标注人员 ........................................................................... 5
8 标注工具 ........................................................................... 5
9 评价方法 ........................................................................... 6
附录A(资料性) 常用的TI-RADS评估指标及分值 ......................................... 8
附录B(资料性) 数据标注准确性评价 ................................................... 9
附录C(资料性) 甲状腺结节TI-RADS分级标注场景 ...................................... 13
附录D(资料性) 自动、半自动、人工交互数据标注流程举例 .............................. 14
附录E(资料性) 甲状腺结节超声图像标注任务描述举例 .................................. 15
附录F(资料性) TI-RADS分级和良恶性标注要求示例 .................................... 17
参考文献 ............................................................................. 18
DB41/T 2929—2025
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由河南省药品监督管理局提出。
本文件由河南省人工智能医疗器械标准化技术委员会(HN/TC 28)归口。
本文件起草单位:河南省药品医疗器械检验院、濮阳大数据与人工智能研究院、河南省人民医院、河南省药品审评查验中心、德尚韵兴(河南)医疗科技有限公司。
本文件主要起草人:谢贻珽、郭艳、曹琳琳、张卉、张娇娇、刘海燕、李若瑄、段少博、王华栋、王海涛、徐军峰、孔德兴、时丹丹、刘俊莉。
DB41/T 2929—2025
1
人工智能医疗器械 甲状腺结节超声图像数据标注规范
1 范围
本文件规定了人工智能医疗器械对甲状腺结节超声图像数据标注规范的要求。
本文件适用于基于甲状腺结节超声图像处理的人工智能医疗器械数据标注以及与之相关的研究、应用。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 5271.1—2000 信息技术 词汇 第1部分:基本术语
GB/T 25000.12—2017 系统与软件工程 系统与软件质量要求和评价(SQuaRE) 第12部分:数据质量模型
YY/T 1833.1—2022 人工智能医疗器械 质量要求和评价 第1部分:术语
YY/T 1833.2—2022 人工智能医疗器械 质量要求和评价 第2部分:数据集通用要求
YY/T 1833.3—2022 人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求
3 术语和定义
GB/T 5271.1—2000、GB/T 25000.12—2017、YY/T 1833.1—2022、YY/T 1833.2—2022、YY/T 1833.3—2022界定的以及下列术语和定义适用于本文件。
甲状腺影像报告和数据系统
使用超声特征进行甲状腺结节风险评估的评分系统。
4 标注任务说明文档 标注对象
标注对象为来自真实世界的甲状腺结节超声图像。 标注任务分类
4.2.1 结节勾画
结节的勾画,包括:
——
标出结节。可采用沿结节轮廓贴边勾勒,或采用规则图形(如矩形框、圆环、单点标记等)的形式标出。可采用人工、半自动或自动勾画方式,应由审核人员审核确认后方可进入下一步。有条件者,可将结节勾画与其他标注工作结合,待所有标注工作完成后,再进行审核;
DB41/T 2929—2025
2
——
结节配对。应使用勾画工具标注,由审核人员审核确认。
注:
结节配对为将一个结节的不同切面归为一组。
4.2.2 结节测量
对结节的最大纵径与最大横径进行测量标注。
4.2.3 结节特征判定
根据甲状腺影像报告和数据系统(TI-RADS)指南,对结节特征进行判定。常见的TI-RADS评估指标及分值见附录A说明。
4.2.4 结节诊断
对甲状腺结节进行TI-RADS分级或良恶性诊断,并添加标签。常用的TI-RADS评估指标及分值见附录A说明。 标注任务描述
4.3.1 标注规则
YY/T 1833.3—2022所规定的数据标注规则通用要求适用于本文件。此外,标注规则宜符合以下要求:
——
明确、无歧义;
——
具有依从性。提供标注规则的依从性文件(首先考虑法规文件、技术标准、医学规范、专家共识等),描述所依据的诊疗指南、医学图谱等文件的名称和具体内容,并说明其权威性以及在我国的接受情况和使用情况。依从性文件若采用专家评议或文献分析作为依据,应对可能带来的偏倚进行分析;
——
可解释;
——
采用客观、可量化指标描述;
——
对于依赖于临床经验主观判断部分的标注规则,采用参考标准验证有效性,并对标注的一致性进行考核,确保标注结果具有可移植性,可外推到真实的临床应用场景;
——
考虑标注颗粒度。结合产品的预期用途,确定“病例(多结节结果)-结节(多切面结果)-单切面”层级的颗粒度水平。
4.3.2 标注人员
应按照第7章的规定描述标注人员。适用时,可按照标注人员、审核人员、仲裁人员等角色分别展开描述,说明标注流程中的人员分工、决策机制、人员比对。
4.3.3 标注工具
应按照第8章的规定描述标注工具,明确应用软件、硬件或平台的名称、制造商、型号、版本、功能、运行环境等。在使用前,应对工具进行验证与确认。若采用半自动/自动标注,应描述算法性能指标与验证方法。
4.3.4 标注环境
使用办公室电脑标注,无特殊环境要求。
4.3.5 数据
DB41/T 2929—2025
3
4.3.5.1 数据要求
应描述输入和输出数据的要求,包括但不限于以下内容:
——
适用范围和选择依据。如是否包含健康人群、仅包含有手术病理结果的患者数据、仅包含TI-RADS 3、4类的患者数据;
——
质量要求。包括图像分辨率、压缩率等;
——
数据的充分性和多样性。多样性包括数据来源(如医疗机构层级)、采集设备(包括品牌、型号以及图像采集参数)、人群分布、疾病构成等;
——
标注结果的形式、存储和输出格式。应考虑标注结果导出形式和格式对后续导入的影响;
——
标注颗粒度。
4.3.5.2 数据编码
数据编码应满足以下要求:
——
YY/T 1833.2—2022所规定数据集通用要求适用于本文件;
——
制定不同层级数据、存储文件夹、所在数据库的命名规则,保证数据的唯一性和可追溯性;
——
制定标注数据库的版本规则。当数据发生变化时,数据库的版本号应做出相应变更。
4.3.5.3 数据存储
数据存储应满足以下要求:
——
存储路径:不同批次数据不可交叉存储;
——
权限:不同人员有不同的访问、上传、修改权限,人员的权限由专人进行分配和管理;
——
备份:所有原始数据和标注数据做备份。
5 标注质量特性 准确性
应声称标注结果的准确性。可采用抽样检验方式,评估标注人员的结果是否与参考标准(无参考标准时,可对照参考诊断等级更高一级的结果)结论一致。
评价指标包括但不限于:
——
检出:召回率、精确度、中心点距离、中心点落入;
——
分割:如Dice系数、Conformity系数、交并比、Hausdorff距离、Pearson相关系数;
——
诊断:灵敏度、特异度、准确率、ROC曲线、AUC值,多分类的评估可以转化为二分类;
——
测量:绝对误差、相对误差。
常见评价指标说明见附录B,多分类混淆矩阵说明与多分类转化为二分类混淆矩阵示例见附录C。
注
1:中心点的选择与目标区域、影像特征有关。可考虑以甲状腺结节最大横径与最大纵径的交点作为中心点。中心点的定义由标注责任方根据具体情况来确定。
注
2:中心点落入指的是通过判断标注人员标注的目标区域中心是否落入参考标注目标内来确定匹配结果。 一致性
应声称各个环节输入输出信息、数据、人员的一致性,包括:
——
标注人员之间应开展一致性评估,可使用Kappa系数描述,该系数说明见附录B;
——
标注人员自身应开展一致性评估,可采用埋题验证的方式;
——
应保证标注人员、审核人员、仲裁人员对标注规则的理解具有一致性;
DB41/T 2929—2025
4
——
应确保各个环节的信息、数据、记录保持一致,包括人员信息、标注结果、原始数据等。 精度
对于输出的定量结果,应声称标注精度。 可理解性
标注结果在图像上应为直观的显示,无歧义。 可访问性
授权用户可对标注数据库内容进行预览、复制等操作,可将数据库内容用于数据集构建。 可移植性
标注责任方应确保标注结果能从一个系统中被转移至另一个满足运行条件的系统,并保持标注质量不变。 保密性
应提供对原始数据、标注数据和过程记录的授权访问机制,标注工具软件应设置权限。可通过隔离保护、专人管理方式加强网络环境下的数据安全性。 可追溯性
数据的标注过程应形成记录,包括但不限于标注任务和质控流程涉及的人员信息、标注任务包含的操作信息、标注工具信息、标注任务的时间信息。标注工具信息内容包括但不限于软件名称、型号规格、完整版本、制造商、运行环境等,保留标注工具验证或确认记录。
6 标注与质控流程 标注流程
应明确标注对象、人员分工、标注步骤、结果审核,统一标注规则,确认标注结果的含义、形式和输出格式,并描述决策机制。数据标注流程的示例见附录D。 过程组织
6.2.1
YY/T 1833.3—2022第6.2节所规定过程组织的通用要求适用于本文件。甲状腺结节超声图像标注任务描述的示例见附录E。
6.2.2
应结合标注任务的颗粒度进行标注,保证各层级标注结果间的一致性。TI-RADS分级和良恶性标注要求示例见附录F。
6.2.3
标注过程中,应对标注人员的标注质量进行监督,同时考虑一致性指标和准确性指标。当标注人员标注质量出现显著下降时,应暂停标注工作,对标注人员再培训,考核通过后重新上岗。 数据统计
6.3.1
数据经标注后形成标注数据库。标注数据库应确保标注样本量的充分性和样本分布的合理性。样本分布应考虑包括但不限于:不同层级(病例-结节-切面)、超声设备型号(含探头)、扫查模式、扫查切面、扫查深度、成像质量或范围、流行病学分布(包括疾病构成、人群分布、统计指标)、与目
DB41/T 2929—2025
5
标疾病易混淆的情形、有影响的身体状态或疾病、植入物、先天或后天身体结构异常以及其他对算法性能有影响的因素。
注
1:疾病构成如分期、分型、分类。
注
2:人群分布如健康、患者、性别、年龄、地域。
注
3:统计指标如发病率、患病率。
6.3.2
统计数据应保持一致性,如不同层级之间的关联性。应根据相关信息进行统计,并形成记录。
7 标注人员 通用要求
7.1.1
YY/T 1833.3—2022所规定数据标注人员的通用要求适用于本文件。
7.1.2
应明确对人员的要求,包括但不限于:
——
人员资质(如职称、工作年限、工作经验、所在机构);
——
培训内容(如培训材料、培训方案);
——
考核指标(如方法、频次、准确性、通过准则、一致性)。 标注人员与审核人员
标注人员宜具有对于标注任务相关的目标疾病2年以上临床经验。审核人员应具有对于标注任务相关的目标疾病2年以上临床经验、主治医师及以上职称。 仲裁人员
仲裁人员应具有对于标注任务相关的目标疾病5年以上临床经验、副主任医师及以上职称。 培训
应统一开展必要的培训,培训内容可包括工作流程、工作内容和要求、术语定义、相关案例、工具使用等,所用案例应独立于项目样本。 准确性考核
标注开始前,应采用诊断等级更高的样本数据,考核标注人员的标注准确性。 一致性考核
标注开始前,应对标注人员进行一致性考核,并用Kappa系数描述人员之间的一致性。
8 标注工具 处理对象
标注工具处理对象可以从两个方面进行分类:
——
根据数据的采集方式,处理对象为影像数据:来自真实世界的超声图像。
——
根据数据存储格式,处理对象可分为:
•
图片格式:DICOM、PNG、JPG/JPEG、TIF、BMP等;
•
其他格式:制造商定义的其他数据格式。
DB41/T 2929—2025
6
功能
8.2.1
YY/T 1833.3—2022第7章所规定标注工具的通用要求适用于本文件。
8.2.2
标注工具应提供标注任务需要的标注功能,如:
——
可根据标注任务的颗粒度进行设置,如病例层面、结节层面、切面层面等;
——
支持结节配对功能;
——
支持标注结果自动比对功能。适用时,可输出定量计算结果,如交并比面积;
——
使用前,应对工具进行验证与确认,评价指标可参考本文5.1部分。
9 评价方法 标注任务说明文档
应满足第4章的要求。 标注质量特性
9.2.1 准确性
9.2.1.1
通过抽样检验或全检的方式对标注结果进行评价,计算标注责任方规定的指标,应满足5.1的要求。
9.2.1.2
标注责任方可以选择合适的参考标准进行评价,包括但不限于:
——
结节勾画、测量、特征判定、分级,以高年资医生或专家组的结果作为参考标准;
——
结节良恶性诊断宜以病理结果作为参考标准。
9.2.2 一致性
通过抽样检验的方式对标注人员个体内和个体间的一致性、标注人员对标注规则理解的一致性、标注过程各个环节信息的一致性进行评价,应满足5.2的要求。
9.2.3 精度
对标注责任方声称的精度进行验证,应满足5.3的要求。
9.2.4 可理解性
检查用户能否预览和理解标注信息的内容,应满足5.4的要求。
9.2.5 可访问性
通过实际操作验证用户是否可以对标注结果授权访问,应满足5.5的要求。
9.2.6 可移植性
对标注结果的转移进行实际操作,验证不同操作条件下标注质量是否保持不变,应满足5.6的要求。
9.2.7 保密性
检查原始数据和标注结果的授权访问机制、隔离保护机制等,应满足5.7的要求。
9.2.8 可追溯性
DB41/T 2929—2025
7
对标注过程产生的记录和标注工具的信息进行检查,应满足5.8的要求。 标注与质控流程
对标注流程文件进行检查,应满足第6章的要求。 标注人员
对标注人员文件进行检查,应满足第7章的要求。 标注工具
对标注工具进行验证,应满足第8章的要求。
DB41/T 2929—2025
8
附录A (资料性) 常用的TI-RADS评估指标及分值
A.1
2017美国放射学会甲状腺影像报告和数据系统(ACR TI-RADS)评估指标及分值见表A.1。
表
A.1 美国放射学会甲状腺影像报告和数据系统(ACR TI-RADS)
A.2
2020中国甲状腺影像报告和数据系统(C-TIRADS)评估指标及分值见表A.2。
表
A.2 中国甲状腺影像报告和数据系统(C-TIRADS)
词典
结构
回声
形态
边缘
局灶性强回声
囊性或几乎
完全囊性
0分
无回声
0分
水平位
(纵横比<1)
0分
光滑
0分
无或大彗星尾
0分
海绵状
0分
高回声或
等回声
1分
模糊
0分
粗钙化
1分
囊实混合性
1分
低回声
2分
垂直位
(纵横比≥1)
3分
分叶或不规则
2分
边缘钙化
2分
实性或几乎
完全实性
2分
极低回声
3分
甲状腺外侵犯
3分
点状强回声
3分
以上每项分值相加确定TI-RADS分级
分级
0分
2分
3分
4分~6分
大于等于7分
TI-RADS 1
良性
恶性可能<2%
TI-RADS 2
无可疑
恶性可能≤2%
TI-RADS 3
轻度可疑
恶性可能<5%
TI-RADS 4
中度可疑
恶性可能5%~20%
TI-RADS 5
高度可疑
恶性可能>20%
词典
结构
回声
形态
边缘
局灶性强回声
实性
1分
极低回声
1分
垂直位
1分
边缘模糊
1分
点状强回声(可疑微钙化)
1分
不规则
1分
甲状腺外侵犯
1分
点状强回声(彗星尾伪像)
-1分
以上每项分值相加确定TI-RADS分级
分级
无分值
-1分
0分
1分
2分
3分~4分
5分
-
TI-RADS 1
无结节
恶性可能0%
TI-RADS 2
恶性可能0%
TI-RADS 3
恶性可能
<2%
TI-RADS 4A
恶性可能
2%~10%
TI-RADS 4B
恶性可能
10%~50%
TI-RADS 4C
恶性可能50%~90%
TI-RADS 5
恶性可能>90%
TI-RADS 6
活检证实的恶性
DB41/T 2929—2025
9
附录B (资料性) 数据标注准确性评价
B.1 召回率
被正确检测出的目标数量占所有目标数量的比例,计算方法见公式(B.1):
Rec=TPobjectTPobject+FNobject ······························································ (B.1)
式中:
Rec ——召回率;
TPobject——正确检测出的目标数量;
FNobject——被遗漏的目标数量。
B.2 精确度
被正确检测出的目标数量占所有被检出对象的比例,计算方法见公式(B.2):
Pre=TPobjectTPobject+FPobject ······························································ (B.2)
式中:
Pre ——精确度;
FPobject——被误认为是目标的对象。
B.3 Dice 系数
用于计算两个分割区域的重合度,计算方法见公式(B.3):
Dice=2×|?∩?||?|+|?| ·································································· (B.3)
式中:
Dice——Dice系数;
A ——目标区域;
B ——分割区域。
B.4 Conformity系数
错误分割的像素数量占所有被正确分割的目标区域像素之间的比例,计算方法见公式(B.4):
Conformity=1−FP?????TP????? ···························································· (B.4)
式中:
Conformity——Conformity系数;
FPpixel ——错误分割的像素数量;
TPpixel ——被正确分割的目标区域像素数量。
B.5 交并比
评价预测的分割区域与真实的分割区域的重合程度,计算方法见公式(B.5):
DB41/T 2929—2025
10
IOU=|?∩?||?∪?| ······································································· (B.5)
式中:
IOU——交并比。
B.6 Hausdorff距离
描述两个分割区域轮廓线的距离,双向Hausdorff距离计算方法见公式(B.6):
??(?,?)=max{d??,d??}=max{ max?∈?min?∈?d(?,?), max?∈?min?∈?d(?,?)} ···················· (B.6)
式中:
??(?,?)——双向Hausdorff距离;
X ——预测的分割区域;
Y ——人工标注的分割区域;
?(?,?) ——X、Y 两个区域任意两点之间的距离。
B.7 Pearson相关系数
两个变量X和Y的协方差除以它们标准差的乘积,计算方法见公式(B.7):
?(?,?)=cov(?,?)????=?[(?−??)(?−??)]???? ··················································· (B.7)
式中:
?(?,?)——Pearson相关系数;
?? ——X 的平均值;
?? ——Y 的平均值;
?? ——X 的标准差;
?? ——Y 的标准差;
? ——期望(即平均值)。
Pearson相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
B.8 灵敏度
灵敏度用Sen表示,计算方法见公式(B.8):
Sen=TP??????TP??????+FN??????×100% ····················································· (B.8)
式中:
Sen ——灵敏度;
TPsample——真阳性样本数量;
FNsample——假阴性样本数量。
B.9 特异度
特异度用Spe表示,计算方法见公式(B.9):
Spe=TNsampleFPsample+TNsample×100% ····················································· (B.9)
DB41/T 2929—2025
11
式中:
Spe ——特异度;
TNsample——真阴性样本数量;
FPsample——假阳性样本数量。
B.10 准确率
准确率用Acc表示,计算方法见公式(B.10):
Acc=Σ??,???=1ΣΣ??,???=1 ??=1 ································································· (B.10)
式中:
??,?——泛指混淆矩阵第?行、第?列的元素;
??,?——泛指混淆矩阵第?行、第?列的元素。
B.11 受试者操作特征曲线
简称ROC曲线,是以假阳性率为横坐标、真阳性率为纵坐标,根据算法在不同值设定下对于给定的测试集得到的一系列结果绘制的曲线,该曲线如图B.1所示:
注
1:横坐标和纵坐标值均为0~1之间。
注
2:曲线下面积(AUC值)为曲线下与坐标轴围成的积分面积,最大值为1。
图B.1 ROC曲线
B.12 Kappa系数
Kappa系数用ƙ表示,计算方法见公式(B.11):
DB41/T 2929—2025
12
ƙ=Acc−??1−?? ······································································· (B.11)
式中??的计算方法见公式(B.12):
??=Σ(Σ??,?×Σ??,?)??=1 ??=1??=1(ΣΣ??,???=
1
??=1)2 ·························································· (B.12)
式中:
??,?——泛指混淆矩阵第?行、第?列的元素;
??,?——泛指混淆矩阵第?行、第?列的元素;
Acc——准确率。
DB41/T 2929—2025
13
附录C (资料性) 甲状腺结节TI-RADS分级标注场景
C.1
甲状腺结节TI-RADS分级属于多分类,分析结果可用表C.1表示。
表C.1 n分类混淆矩阵
分类
Pred_1
Pred_2
……
Pred_n
True_1
N1,1
N1,2
……
N1,n
True_2
N2,1
N2,2
……
N2,n
……
……
……
……
……
True_n
Nn,1
Nn,2
……
Nn,n
注:
Pred_x (x=1~n) 为人工智能判断为x类的类别;True_x (x=1~n) 为参考标准判断为x类的类别;Ni,j (i=1~n, j =1~n) 为参考标准的判断结果为i类,被人工智能判断为j类的个数;n为分类类型个数。
C.2
表C.2给出将多分类转化为二分类混淆矩阵示例。
表C.2 多分类转化为二分类混淆矩阵示例
分类
人工智能分类
阳性
阴性
参考标准分类
阳性
TP=??,?
FN=Σ??,???=1,?≠?
阴性
FP=Σ??,???=1,?≠?
TN=Σ Σ??,???=1,?≠? ??=1,?≠?
DB41/T 2929—2025
14
附录D (资料性) 自动、半自动、人工交互数据标注流程举例
自动、半自动、人工交互数据标注流程举例见图D.1。
图D.1 自动、半自动、人工交互数据标注流程举例
DB41/T 2929—2025
15
附录E (资料性) 甲状腺结节超声图像标注任务描述举例
E.1 标注任务分类
本标注任务依据数据模态属于静态图像标注,数据模态为甲状腺结节超声图像。本标注任务依据执行主体属于半自动标注。本标注任务属于结构化标注。标注结果为甲状腺结节的轮廓以及其ACR TI-RADS分级(见附录A),使用csv格式保存,作为参考标准。
E.2 标注规则
本标注任务的标注对象是甲状腺超声图像中甲状腺结节的轮廓勾画与ACR TI-RADS分级(1~5类)。
勾画环节:由勾画软件自动勾画甲状腺结节轮廓,勾画标注医生修改确认后作为初级标注结果,审核医生对所有结节轮廓进行复核。
分级环节:针对已确认好轮廓的甲状腺结节,两名分级医生背靠背进行ACR TI-RADS分级,分级结果由计算机自动判断一致性,标注结果一致,则作为最终标注结果,标注结果不一致由仲裁医生确认分级结果。
在标注过程中,对标注医生的自身一致性进行周期性的监控,采用埋题验证的方式进行,如每完成20张甲状腺超声图像的标注后,随机抽取其中1张重新标注。
E.3 标注人员
勾画标注医生:不低于主治医师,过去2年内累计不少于5 000例甲状腺超声检查,接受过甲状腺结节超声图像标注培训。
勾画审核医生:不低于副主任医师,过去5年内累计不少于10 000例甲状腺超声检查,接受过甲状腺结节超声图像标注培训。
分级标注医生:不低于主治医师,过去2年内累计不少于5 000例甲状腺超声检查,接受过甲状腺结节超声图像标注培训。
分级仲裁医生:不低于副主任医师,过去5年内累计不少于10 000例甲状腺超声检查,接受过甲状腺结节超声图像标注培训。
人员的考核指标包括分级的准确率,要求不低于90%。
E.4 标注工具
勾画软件为自制软件,主要功能包括甲状腺结节超声图像的读取、显示、半自动辅助勾画、标注审核与修改、保存标注结论。勾画软件界面详见勾画软件说明书。其中,半自动辅助勾画算法在自有的测试集上开展过性能确认,以算法输出的结节中心点到人工勾画的结节中心点的距离作为主要指标。
分级软件为某商用软件,发布版本号为2.0,软件主要功能包括超声影像的导入、显示、标注、质控、数据存储与管理、数据安全与保密、后台管理等。软件界面详见分级软件说明书。
E.5 标注环境
标注任务在某实验室使用办公室电脑进行,屏幕分辨率大于1920×1080。
E.6 数据
DB41/T 2929—2025
16
数据采集日期为2020年1月1日~2020年12月31日,采集地点为某三甲医院的超声科室,采集设备为多个品牌型号的超声系统及其超声探头(已获得医疗器械注册证)。数据来源为接受甲状腺超声检查的人群。采集规范详见超声科的数据采集规范与质控操作规范。标注前需要对图像进行数据清洗,剔除结节不完整、局部放大失真、严重的分辨率降低、伪影遮挡结节、结节有文字测量标记等不符合质量要求的图像。为避免重复,对数据进行查重验证,包括但不限于数据来源、采集时间、文件内容。具体细节参考医院的数据采集与质控方案。
DB41/T 2929—2025
17
附录F (资料性) TI-RADS分级和良恶性标注要求示例
F.1 TI-RADS分级标注
分级标注以高年资医生或专家组的结果作为标注的参考标准,应由若干名标注人员组成标注小组,明确最终裁定结果的判定依据。不同的标注人员应根据相同的标注规则对结节添加分级标签。若采用标注软件标注,软件应设置不同权限,保证标注过程不相互干扰。
应确定标注颗粒度,确定统计单元是切面、结节还是病例。若要以结节为统计单位,标注时还应进行结节配对。
标注时,应考虑结节尺寸、结节数量等对算法性能可能的影响,必要时应将以上内容纳入标注内容。
考虑到标注软件分级诊断可能会影响医生的判断,一般不采用软件辅助标注。若要采用半自动/自动标注,应先对软件的性能进行验证,并对医生的影响进行分析。
F.2 良恶性标注
良恶性标注宜以病理结果作为标注的参考标准,应确保病理结果与标注的结节的对应关系,对于无法确认位置的结节,该病例应废弃处理。
应确定标注颗粒度,确定统计单元是结节还是病例。
标注时,应考虑结节尺寸、结节数量等对算法性能的影响,必要时应将以上内容纳入标注内容。
注:
对于无法获得病理结果的,可考虑采用医生的诊断结果,应结合患者所有的临床信息(超声灰阶图、血流图像、弹性图像、病史、随访记录等)综合判断,而非仅仅依据图像判定。
DB41/T 2929—2025
18
参考文献
[1] GB 10152—2009 B型超声诊断设备
[2] GB/T 42755—2023 人工智能 面向机器学习的数据标注规程
[3] WS/T 305—2023 卫生信息数据集元数据规范
[4] YY/T 1858—2022 人工智能医疗器械 肺部影像辅助分析软件 算法性能测试方法
[5] T/ZSMM 0001—2023 人工智能 甲状腺超声图像处理软件 数据采集、整理及标注规范
[6] T/ZSMM 0002—2023 人工智能 卵巢超声图像处理软件 数据采集、整理及标注规范
[7] ACR Thyroid Imaging, Reporting and Data System (TI-RADS): White Paper of the ACR TI-RADS Committee, 2017.
[8] 2020甲状腺结节超声恶性危险分层的中国指南:C-TIRADS.
[9] 国家药品监督管理局医疗器械技术审评中心.深度学习辅助决策医疗器械软件审评要点[Z].北京:国家药品监督管理局医疗器械技术审评中心, 2019.
[10] 国家药品监督管理局.人工智能医疗器械注册审查指导原则[Z]. 北京:国家药品监督管理局, 2022.
[11] 国家药品监督管理局.肺结节CT图像辅助检测软件注册审查指导原则[Z]. 北京:国家药品监督管理局, 2022.
[12] 国家药品监督管理局. 糖尿病视网膜病变眼底图像辅助诊断软件注册审查指导原则[Z]. 北京:国家药品监督管理局, 2022.
[13] 国家药品监督管理局.影像超声人工智能软件(流程优化类功能)技术审评要点[Z]. 北京:国家药品监督管理局, 2023.
