DB41/T 2925-2025 异构数据融合技术指南
- 文件大小:762.88 KB
- 标准类型:地方标准规范
- 标准语言:中文版
- 文件类型:PDF文档
- 更新时间:2025-09-17
- 下载次数:
- 标签:
资料介绍
河南省地方标准
DB41/T 2925—2025
异构数据融合技术指南
2025 - 08 - 08发布
2025 - 11 - 07实施
河南省市场监督管理局 发布
DB41/T 2925—2025
I
目次
前言 ................................................................................. II
1 范围 ............................................................................... 1
2 规范性引用文件 ..................................................................... 1
3 术语和定义 ......................................................................... 1
4 总体原则 ........................................................................... 1
5 融合过程 ........................................................................... 1
6 融合表应用 ......................................................................... 4
附录A(资料性) 异构数据融合示例 ..................................................... 5
参考文献 .............................................................................. 9
DB41/T 2925—2025
II
前言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由河南省行政审批和政务信息管理局提出。
本文件由河南省大数据标准化技术委员会(HN/TC 26)归口。
本文件起草单位:河南警察学院、河南日彤大数据科技有限公司、河南省公安厅、郑州轻工业大学、郑州图悦信息技术有限公司、河南英明电子科技有限公司、郑州宁润信息科技有限公司、济源职业技术学院、郑州云智信安安全技术有限公司。
本文件主要起草人:党玉龙、甘琤、甘一彤、刘会霞、许伟昶、刘琦、刘晓阳、常旭辉、骆凯丽、刘兴磊、张楠、邢广东、周帅、董成成、远京辉、许天烨、高燕。
DB41/T 2925—2025
1
异构数据融合技术指南
1 范围
本文件提供了异构数据融合的总体原则、融合表设计、建立、数据导入和应用的指导。
本文件适用于跨领域多源异构数据的融合处理分析应用。
2 规范性引用文件
本文件没有规范性引用文件。
3 术语和定义
下列术语和定义适用于本文件。
信息
关于客体(如事物、事实、事件、过程)的知识,在一定的场合中具有特定的意义。
[来源:GB/T 5271.1—2020,2.01.01.01,有修改]
数据
信息的可再解释的形式化表示,以适用于通信、解释或处理。
[来源:GB/T 5271.1—2020,2.01.01.02]
异构数据融合
将不同来源、种类、结构的数据,融合到一个数据库表的过程。
注:本文件中的异构数据仅限定为结构化数据。
4 总体原则
异构数据融合宜遵循以下原则:
——
高效性:能对各类不同的数据高效入库,便于数据分析和应用;
——
贯通性:不同类型的数据,根据其唯一号码、时间、地点等特征,可纵向贯通;
——
扩展性:用户可以结合实际,在本文件的基础上增加、减少或修改字段;
——
时效性:明确数据融合的频率和方式,实现数据的动态更新。
5 融合过程 融合表设计
5.1.1 总体设计
DB41/T 2925—2025
2
将任意客体静态信息(含事物、事实的描述信息、联系信息)或动态信息(事件、过程)以多个字段的形式表示在一条数据中,多条数据组成的融合表可表示不同客体的各类信息,实现异构数据融合。
5.1.2 静态信息字段定义
标识号码字段:定义1个“号码”字段,代表不同的人或物(例如人的身份证号、物的唯一编码);再定义1个“关系号码”字段,用以表示和前者标识号码关联的人或物。2个标识号码都填写,即为联系信息。
名称字段:定义“号码名称”和“关系名称”字段,对应2个标识号码字段的称呼(例如人的姓名、公司的名称)。
数据种类字段:定义“数据种类”字段,表示来自不同源的数据表名称(例如常住人口、法人基本信息)。
描述字段:事物本身具备的多个属性,主要是“备注”字段(例如学历是本科/研究生、婚姻登记是结婚/离婚)和“标签”字段(例如精神病患者、工作积极者)。
其他描述字段:“数字备注”(数字小数型)、“号码备注”、“号码备注2”。
5.1.3 动态信息字段定义
时间字段:定义日期类型的字段“时间”, 记录与数据相关的时间点(例如结婚时间、毕业时间);再定义1个日期类型的字段“时间2”,结合前者可记录具有始、末含义的时间(例如飞机起飞和到达时间);额外定义2个字符类型的字段“时间备注”“时间备注2”,记录源库中非日期类型的时间。
地点字段:定义2个地点字段“地点”“地点2”,记录与数据相关的地点(例如户籍住址、事件发生地),或者记录具有始、末含义的地点(例如飞机起飞地和到达地)。
地理坐标字段:定义字符类型的字段“x”“y”,记录地理坐标经度x/纬度y,根据情况可以度分秒法或十进制法写入。
5.1.4 相关字段定义
所有字段名和内容字段:定义“字段名集合”字段,记录本表中所有字段及源表中剩余字段的名称;另定义“字段内容集合”字段,填写与“字段名集合”中一一对应的值。也可将此2字段写入其他表,避免本表体积过大。
照片链接字段:存储人/事/物图片的链接地址。
上传信息字段:包含“上传时间”(日期型,由系统自动生成当前时间)和“上传人或单位”字段。
源表主键字段:记录源表中的主键,便于查找原始数据记录或者数据关联。
5.1.5 融合表结构
根据上述设计,形成表结构,见表1。用户可结合实际对字段进行增删改。
表
1 融合表结构
序号
字段名
字段含义
字段类型
长度
备注
1
zL
数据种类
字符
50
—
2
mc
号码名称
字符
100
—
3
hm
号码
字符
100
标识号码
4
gxmc
关系名称
字符
100
—
5
gxhm
关系号码
字符
100
关系标识号码
DB41/T 2925—2025
3
表1 融合表结构(续)
序号
字段名
字段含义
字段类型
长度
备注
6
sj
时间
日期
—
年月日时分秒
7
sj2
时间2
日期
—
年月日时分秒
8
dd
地点
字符
200
—
9
dd2
地点2
字符
200
—
10
x
坐标经度x
字符
30
可做备注地点或数字备注
11
y
坐标纬度y
字符
30
可做备注地点2或数字备注2
12
bq
标签
字符
200
标签合集,用逗号隔开
13
bz
备注
字符
500
—
14
szbz
数字备注
数字小数
decimal(38,4)
整数、小数均可存储
15
hmbz
号码备注
字符
100
—
16
hmbz2
号码备注2
字符
100
—
17
sjbz
时间备注
字符
100
字符型时间,避免因源格式不对致无法入库
18
sjbz2
时间备注2
字符
100
—
19
zd
字段名集合
字符
2 000
用^分开,可另表存储
20
nr
字段内容集合
字符
10 000
用^分开,可另表存储
21
zp
照片链接
字符
300
非必要
22
UUID
源表主键
字符
50
非必要
23
sj0
上传时间
日期
—
—
24
dd0
上传人或单位
字符
100
— 融合表建立 融合表可在任何数据库上建立。宜优先采用分布式列式数据库构建融合表,并确保数据库支持智能索引功能(自动为每个字段建立索引)。 数据导入
融合表建立后,数据导入操作说明如下:
a)
将数据库表名(无需写“表”字)填入到“数据种类”字段(zL),将标识号码和其关联的标识号码填入2个标识号码字段(hm、gxhm)中,将具有始、末等含义或必用的时间、地点字段,填入到2个时间字段(sj、sj2)和2个地点字段(dd、dd2)中,以上字段为关键项;
b)
将未来可能需要结构化SQL检索的字段填入到多个描述字段(bz、bq、hmbz等)中;但并非一定要按字段名称字义填写相应的数据,只要字段类型相符,任何描述数据均可填入,例如:“x”字段原本设计为填写x坐标,但如果某表无x坐标字段,则此字段可以灵活地转为填写地点,或者其他字段内容;
c)
将用以说明本表所有字段含义的中文名称,填入到“字段名集合”字段(zd)中,中间用固定分隔符隔开(建议用^);将与“字段名集合”字段中一一对应的值填入到“字段内容集合”字段(nr)中,中间用固定分隔符隔开。
使用示例详见附录A。
DB41/T 2925—2025
4
6 融合表应用
在融合表基础上,可进行下述大数据分析应用:
a)
在融合表中仅需查询2个标识号码字段(hm和gxhm),即可实现对全部数据种类标识号码的通查;
b)
对2个时间字段(sj、sj2)、2个地点字段(dd、dd2)进行范围检索,可实现对所有具备开始结束、出发到达含义的时间、地点数据的过滤;
c)
通过按时间字段(sj)排序,可实现对多源数据表的统一贯通性时间排序;
d)
对“号码”(hm)和“关系号码”(gxhm)字段进行迭代查询,可实现类似“图数据库”(一种用于存储实体之间关系的数据库类型)的关联关系功能;
e)
在融合表内以不同时间地点范围的数据集进行一次性关联join得出的交集,相当于多个源表数据进行多次关联join才能得出的交集。
DB41/T 2925—2025
5
附录A (资料性) 异构数据融合示例
A.1
表A.1给出了静态信息与描述人的动态信息的数据示例。其中示例1、2是静态信息(即描述信息),示例3、4、5是描述人的动态信息。*号覆盖了隐私内容,在真实系统中,为原始数据。
表
A.1 静态信息与描述人的动态信息示例
字段名称
示例1
示例2
示例3
示例4
示例5
数据种类
出生地
学历
学历
出生证明
学习成绩
号码名称
李四
李四
李四
李四
李四
号码
410102******002X
410102**
****002X
410102**
****002X
410102**
****002X
410102**
****002X
关系名称
关系号码
时间
2002/7/1
198*/7/7 9:00
2002/6/1
时间2
198*/7/8 9:00
地点
Z市J区
河南*大学
Z市J区
河南*大学
地点2
Z市A医院
坐标经度x
坐标纬度y
标签
备注
本科
硕士研究生
学位论文
数字备注
90
号码备注
号码备注2
时间备注
时间备注2
字段名 集合
姓名^身份证号^出生地
姓名^身份证号^学历
姓名^身份证号^毕业时间^毕业院校^学历
姓名^身份证号^出生时间^办证时间^出生地^办证单位
姓名^身份证号^考试时间^学校^学科^分数
字段内容 集合
李四^410
102******002X^Z市J区
李四^4101
02******00
2X^本科
李四^410102***
***002X^2002/7/1^河南*大学^硕士研究生
李四^410102******
002X^198*/7/7 9:
00^198*/7/8 9
:00^Z市J区^Z市A医院
李四^410102******
002X^2002/6/1^河南*大学^学位论文^90
照片链接
源表主键
上传时间
2020/7/1
2020/7/1
2002/9/1
1980/7/18 9:00
2002/6/2
上传人或
单位
Z市*服务中心
Z市*服务中心
河南*大学
河南Z市A医院
河南*大学
DB41/T 2925—2025
6
A.2
表A.2 给出了单人简单与含始末的动态信息的数据示例。其中示例6是单人简单信息,示例7、8、9是单人含始末的动态信息。*号覆盖了隐私内容,在真实系统中,为原始数据。
表
A.2 单人简单与含始末的动态信息示例
字段名称
示例6
示例7
示例8
示例9
数据种类
电力缴费
乘坐火车
乘坐飞机
旅店住宿
号码名称
张三
李四
李四
李四
号码
DB410**
410102**
****002X
410102**
****002X
410102**
****002X
关系名称
关系号码
时间
2025/1/23 15:00:00
2025/1/23 15:00:00
2025/1/24 09:00:00
2025/1/23 19:10:00
时间2
2025/1/23 16:10:00
2025/1/24 11:00:00
2025/1/24 6:10:00
地点
郑州**小区301
郑州东
郑州新郑机场
安阳*宾馆
地点2
安阳东
上海虹桥机场
坐标经度x
113.*37
坐标纬度y
35.*12
标签
备注
201
数字备注
100
号码备注
号码备注2
时间备注
时间备注2
字段名集合
姓名^户号^缴费时间^家庭地址^缴费金额
姓名^身份证号^出发时间^到达时间^出发地^到达地
姓名^身份证号^离港时间^到港时间^离港地^到港地
姓名^身份证号^入住时间^退房时间^宾馆名称^宾馆经度^宾馆纬度^入住房号
字段内容集合
张三^DB410**^2025/1/23 15:00
:00^郑州**小区301^100
李四^41010
2******002X^2025/1/23 15:00:00^20
25/1/23 16:
10:00^郑州东^安阳东
李四^410102**
****002X^2025/1/24 09:00:00^
2025/1/24 11:
00:00^郑州新郑机场^上海虹桥机场
李四^410102*****
*002X^2025/1/23 19:10:00^2025/1
/24 6:10:00^安阳*宾馆^113.*37^35.*12^201
照片链接
源表主键
上传时间
2025/1/23 18:00:00
2025/1/23 18:00:00
2025/1/24 18:00:00
2025/1/24 6:20:00
上传人或
单位
郑州*电力公司
*州铁路局
郑州*机场
*阳市公安局
DB41/T 2925—2025
7
A.3
表A.3 给出了静态联系信息与动态联系信息的数据示例。其中示例10是静态联系信息,示例11、12、13是动态联系信息。*号覆盖了隐私内容,在真实系统中,为原始数据。
表
A.3 静态联系信息与动态联系信息示例
字段名称
示例10
示例11
示例12
示例13
数据种类
夫妻
民政婚姻登记信息
购物信息
车辆违章缴费
号码名称
张三
张三
李四
王五
号码
410102******0011
410102******0011
134***444
410502******0021
关系名称
李四
李四
MM某东专卖店
关系号码
410102******002X
410102******002X
JDsMM12*3
豫A**56
时间
2008/10/1 10:00:00
2025/1/1 19:10:00
2024/7/1 10:10:00
时间2
2024/5/5 10:10:00
地点
Z市J区民政局
郑州**小区301
Z市交警*支队
地点2
广州**商城
Z市A路与B路交叉口
坐标经度x
坐标纬度y
标签
天生购物狂
备注
结婚登记
口红
闯红灯
数字备注
520
200
号码备注
号码备注2
时间备注
时间备注2
字段名集合
男方姓名^男方身份证号^女方姓名^女方身份证号
男方姓名^男方身份证号^女方姓名^女方身份证号^登记时间^登记地^登记类型
姓名^手机号^店家名称^店家ID^购物时间^收货地址^发货地址^标签^购买物品名称^价格
姓名^身份证号^违章车辆号牌^缴费时间^违章时间^缴费地点^违章地点^违章类型^缴费金额^违章照片地址
字段内容 集合
张三^410
102******0011^李四^41010
2******002X
张三^410102******
0011^李四^410102*
*****002X^2008/10/1 10:00:00^Z市J区民政局^结婚登记
李四^134***444^M
M某东专卖店^JDsM
M12*3^2025/1/1 19:10:00^郑州**小区301^广州**商城^天生购物狂^口红^520
王五^410502******0021^豫A**56^2024/7/1 10:10:00
^2024/5/5 10:10:00^Z市交警*支队^Z市A路与B路交叉口^闯红灯^200^http://c*
/a*.jpg
照片链接
http://c*/a*.jpg
源表主键
上传时间
2008/10/7 10:00:00
2008/10/1 14:00:00
2025/1/2 5:00:00
2024/7/1 11:10:00
上传人或
单位
郑州市*村委会
Z市J区民政局
*互联网公司
Z市公安局
DB41/T 2925—2025
8
A.4
表A.4 给出了物、单位动态信息与综合信息的数据示例。其中示例14是描述物的动态信息,示例15是描述单位的动态信息,示例16是既含人的描述又含联系的动态信息。*号覆盖了隐私内容,在真实系统中,为原始数据。
表
A.4 物、单位动态信息与综合信息示例
字段名称
示例14
示例15
示例16
数据种类
机动车基本信息
放射源证
传染病密接人员信息
号码名称
奔驰
河南*监测公司
钱七
号码
豫A**56
豫环辐证[E0217**1]
137**77
关系名称
赵六
张三
关系号码
4107261980****0011
410719***105
133**33
时间
2019/8/1 10:10:00
2021/12/15 2:02:02
时间2
2019/7/15 10:10:00
2021/12/16 11:02:02
地点
Z市交警支队
新乡市P路*号
安阳市迎宾大道
地点2
郑州市**传染病医院
坐标经度x
4107***
113.*77
坐标纬度y
35.*33
标签
豪车
密接人员
备注
已隔离
数字备注
4500
39.5
号码备注
139**99
4101021979****0777
号码备注2
4101021982****0011
时间备注
20161226
时间备注2
字段名 集合
车辆品牌^车牌号码^车主姓名^车主身份证号^发牌时间^购买时间^发证机关^标签^排气量^车主手机号码
公司名称^证件号码^主体身份代码^公司地址^公司所在行政区划代码^办证时间
密接人姓名^密接人手机号^确诊人姓名^确诊人手机号^接触日期^隔离日期^接触地^隔离地点^接触地坐标x^接触地坐标y^标签^是否已隔离^体温^密接人身份证号^确诊人员身份证号^密接时照片^人员ID
字段内容 集合
奔驰^豫A**56^赵六^4107261980****0011^2019/8/1 10:10:00^2019/7/15 10:10:00^Z市交警支队^豪车^4500^139**99
河南*监测公司^豫环辐证[E0217**1]^410719***105^新乡市P路*号^4107***^20161226
钱七^137**77^张三^133**33^
2021/12/15 2:02:02^2021/12/16 11:02:02^安阳市迎宾大道^郑州市**传染病医院^113.*77^35.*33^密接人员^已隔离^39.5^4101021979
****0777^4101021982****0011^http://c*/b*.jpg^UUID-123*
照片链接
http://c*/b*.jpg
源表主键
UUID-123*
上传时间
2019/8/1 12:10:00
2016/12/30
2021/12/16 11:12:00
上传人或
单位
Z市公安局
**省环保厅
**省卫健委
DB41/T 2925—2025
9
参考文献
[1] GB/T 5271.1 信息技术 词汇 第1部分:基础术语
