DB37/T 4646.5-2025 公共数据 数据治理规范 第5部分:数据质量
- 文件大小:379.04 KB
- 标准类型:地方标准规范
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-06-16
- 下载次数:
- 标签:
资料介绍
以下是山东省地方标准《DB37/T 4646.5-2025 公共数据数据治理规范第5部分:数据质量》的详细内容总结:
一、标准定位与背景
-
所属系列
本文件是《DB37/T 4646 公共数据数据治理规范》的第5部分,与以下部分共同构成系列标准:- 第1部分:数据归集
- 第2部分:数据清洗比对
- 第3部分:数据返还
- 第4部分:资源服务目录
- 第5部分:数据质量(即本文件)
-
制定目的
规范山东省各级公共管理和服务机构依托省一体化大数据平台开展数据质量提升工作,强化数据供给能力,深化数据应用创新,支撑全省一体化数据资源体系建设。 -
政策依据
响应《山东省“十四五”数字强省建设规划》(鲁政字〔2021〕128号)等文件要求,解决数据治理中的普遍问题。
二、适用范围
- 适用对象:各级公共管理和服务机构(如政府部门、事业单位)。
- 适用场景:依托省一体化大数据平台开展公共数据全生命周期(采集、汇聚、治理、共享、开放、开发利用)的质量管理工作。
三、核心要求
(一) 基本要求
- 全生命周期覆盖:数据质量需贯穿数据从采集到开发利用的所有阶段。
- 质量提升机制:
- 制定数据质量检查规则;
- 定期开展数据清洗比对(需符合DB37/T 4646.2);
- 修正问题数据。
(二) 数据质量指标体系
共7个一级指标、18个二级指标,具体要求如下:
| 一级指标 | 二级指标 | 核心要求 | 示例说明 |
|---|---|---|---|
| 规范性 | 命名规范 | 数据库/表/字段按国标、行标、地标统一命名 | 如姓名字段命名为“xm”,性别为“xb” |
| 数据类型规范 | 数据类型符合标准规定 | 身份证号码必须为字符型(GB/T 19488.2) | |
| 数据值域规范 | 取值范围符合标准代码表 | 性别代码仅允许0-9(GB/T 2261.1) | |
| 精度规范 | 数字型数据按标准精度填写 | 注册资本精确到小数点后四位 | |
| 计量单位规范 | 计量单位统一 | 注册资本单位统一为“万元” | |
| 准确性 | 数据合理 | 值符合业务逻辑和常识 | 幼儿园入学年龄不应为18岁 |
| 数据符合预期 | 数据值与字段名称一致 | 姓名字段不应出现年龄数据 | |
| 完整性 | 数据记录完整 | 无缺失记录 | 企业登记信息记录数需完整 |
| 数据字段完整 | 无缺失字段 | 企业登记信息字段(如统一信用代码)不可缺失 | |
| 数据值完整 | 主键非空;必填字段有值 | 企业法定代表人不允许为空 | |
| 唯一性 | 主键唯一 | 主键值不重复 | 企业登记信息主键值唯一 |
| 字段唯一 | 无重复字段 | 企业信息中不可存在两个相同字段 | |
| 记录唯一 | 无重复记录 | 企业登记信息中无完全相同的记录 | |
| 一致性 | 相同数据一致 | 多位置存储的同一数据同步更新 | 企业登记信息与生产许可信息中的法定代表人需一致 |
| 关联数据一致 | 关联数据同步更新 | 户籍信息中姓名变更后,曾用名需更新 | |
| 时效性 | 更新及时性 | 按频率更新时间相关数据 | 企业应急演练数据需每日更新 |
| 时序合理 | 时间顺序符合逻辑 | 出生日期早于死亡日期 | |
| 可访问性 | 数据可访问 | 数据可有效获取 | 外国人永久住址认证接口IP可访问 |
四、证实方法
- 质量评价:
- 依据《GB/T 36344 数据质量评价指标》《GB/T 34960.5 数据治理规范》定期评价质量指标。
- 结合系统自动评价与人工审核。
- 过程留痕:
- 记录数据治理操作日志(如清洗比对、修正操作),支持审计追溯。
五、引用标准
- 国家标准:
GB/T 2261.1(性别代码)、GB/T 19488.2(公共数据元目录)、GB/T 36344(数据质量评价)、GB/T 34960.5(数据治理)。 - 地方标准:
DB37/T 4646.1(数据归集)、DB37/T 4646.2(数据清洗比对)。
六、核心价值
- 标准化治理:将抽象的数据质量要求转化为可落地的操作规范(如命名规则、值域约束)。
- 全流程管控:覆盖从数据采集到应用的全生命周期,确保质量持续提升。
- 问题导向:针对常见数据问题(如重复记录、字段缺失、逻辑矛盾)提供解决方案。
- 协同治理:通过“相同数据一致”“关联数据一致”等要求,推动跨部门数据协同更新。
总结而言,该标准为山东省公共数据质量提供了系统化的管理框架,通过量化指标和可操作性要求,推动数据从“可用”向“好用”转变,支撑数字政府与数字经济建设。
