网站地图 | Tags | 热门标准 | 最新标准 | 订阅
您当前的位置:首页 > 地方标准 > 河南省地方标准(DB41)

DB41/T 2925-2025 异构数据融合技术指南

  • 文件大小:762.88 KB
  • 标准类型:地方标准规范
  • 标准语言:中文版
  • 文件类型:PDF文档
  • 更新时间:2025-09-17
  • 下载次数
  • 标签

资料介绍

  河南省地方标准

  DB41/T 2925—2025

  异构数据融合技术指南

  2025 - 08 - 08发布

  2025 - 11 - 07实施

  河南省市场监督管理局 发布

  DB41/T 2925—2025

  I

  目次

  前言 ................................................................................. II

  1 范围 ............................................................................... 1

  2 规范性引用文件 ..................................................................... 1

  3 术语和定义 ......................................................................... 1

  4 总体原则 ........................................................................... 1

  5 融合过程 ........................................................................... 1

  6 融合表应用 ......................................................................... 4

  附录A(资料性) 异构数据融合示例 ..................................................... 5

  参考文献 .............................................................................. 9

  DB41/T 2925—2025

  II

  前言

  本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。

  请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

  本文件由河南省行政审批和政务信息管理局提出。

  本文件由河南省大数据标准化技术委员会(HN/TC 26)归口。

  本文件起草单位:河南警察学院、河南日彤大数据科技有限公司、河南省公安厅、郑州轻工业大学、郑州图悦信息技术有限公司、河南英明电子科技有限公司、郑州宁润信息科技有限公司、济源职业技术学院、郑州云智信安安全技术有限公司。

  本文件主要起草人:党玉龙、甘琤、甘一彤、刘会霞、许伟昶、刘琦、刘晓阳、常旭辉、骆凯丽、刘兴磊、张楠、邢广东、周帅、董成成、远京辉、许天烨、高燕。

  DB41/T 2925—2025

  1

  异构数据融合技术指南

  1 范围

  本文件提供了异构数据融合的总体原则、融合表设计、建立、数据导入和应用的指导。

  本文件适用于跨领域多源异构数据的融合处理分析应用。

  2 规范性引用文件

  本文件没有规范性引用文件。

  3 术语和定义

  下列术语和定义适用于本文件。

  信息

  关于客体(如事物、事实、事件、过程)的知识,在一定的场合中具有特定的意义。

  [来源:GB/T 5271.1—2020,2.01.01.01,有修改]

  数据

  信息的可再解释的形式化表示,以适用于通信、解释或处理。

  [来源:GB/T 5271.1—2020,2.01.01.02]

  异构数据融合

  将不同来源、种类、结构的数据,融合到一个数据库表的过程。

  注:本文件中的异构数据仅限定为结构化数据。

  4 总体原则

  异构数据融合宜遵循以下原则:

  ——

  高效性:能对各类不同的数据高效入库,便于数据分析和应用;

  ——

  贯通性:不同类型的数据,根据其唯一号码、时间、地点等特征,可纵向贯通;

  ——

  扩展性:用户可以结合实际,在本文件的基础上增加、减少或修改字段;

  ——

  时效性:明确数据融合的频率和方式,实现数据的动态更新。

  5 融合过程 融合表设计

  5.1.1 总体设计

  DB41/T 2925—2025

  2

  将任意客体静态信息(含事物、事实的描述信息、联系信息)或动态信息(事件、过程)以多个字段的形式表示在一条数据中,多条数据组成的融合表可表示不同客体的各类信息,实现异构数据融合。

  5.1.2 静态信息字段定义

  标识号码字段:定义1个“号码”字段,代表不同的人或物(例如人的身份证号、物的唯一编码);再定义1个“关系号码”字段,用以表示和前者标识号码关联的人或物。2个标识号码都填写,即为联系信息。

  名称字段:定义“号码名称”和“关系名称”字段,对应2个标识号码字段的称呼(例如人的姓名、公司的名称)。

  数据种类字段:定义“数据种类”字段,表示来自不同源的数据表名称(例如常住人口、法人基本信息)。

  描述字段:事物本身具备的多个属性,主要是“备注”字段(例如学历是本科/研究生、婚姻登记是结婚/离婚)和“标签”字段(例如精神病患者、工作积极者)。

  其他描述字段:“数字备注”(数字小数型)、“号码备注”、“号码备注2”。

  5.1.3 动态信息字段定义

  时间字段:定义日期类型的字段“时间”, 记录与数据相关的时间点(例如结婚时间、毕业时间);再定义1个日期类型的字段“时间2”,结合前者可记录具有始、末含义的时间(例如飞机起飞和到达时间);额外定义2个字符类型的字段“时间备注”“时间备注2”,记录源库中非日期类型的时间。

  地点字段:定义2个地点字段“地点”“地点2”,记录与数据相关的地点(例如户籍住址、事件发生地),或者记录具有始、末含义的地点(例如飞机起飞地和到达地)。

  地理坐标字段:定义字符类型的字段“x”“y”,记录地理坐标经度x/纬度y,根据情况可以度分秒法或十进制法写入。

  5.1.4 相关字段定义

  所有字段名和内容字段:定义“字段名集合”字段,记录本表中所有字段及源表中剩余字段的名称;另定义“字段内容集合”字段,填写与“字段名集合”中一一对应的值。也可将此2字段写入其他表,避免本表体积过大。

  照片链接字段:存储人/事/物图片的链接地址。

  上传信息字段:包含“上传时间”(日期型,由系统自动生成当前时间)和“上传人或单位”字段。

  源表主键字段:记录源表中的主键,便于查找原始数据记录或者数据关联。

  5.1.5 融合表结构

  根据上述设计,形成表结构,见表1。用户可结合实际对字段进行增删改。

  表

  1 融合表结构

  序号

  字段名

  字段含义

  字段类型

  长度

  备注

  1

  zL

  数据种类

  字符

  50

  —

  2

  mc

  号码名称

  字符

  100

  —

  3

  hm

  号码

  字符

  100

  标识号码

  4

  gxmc

  关系名称

  字符

  100

  —

  5

  gxhm

  关系号码

  字符

  100

  关系标识号码

  DB41/T 2925—2025

  3

  表1 融合表结构(续)

  序号

  字段名

  字段含义

  字段类型

  长度

  备注

  6

  sj

  时间

  日期

  —

  年月日时分秒

  7

  sj2

  时间2

  日期

  —

  年月日时分秒

  8

  dd

  地点

  字符

  200

  —

  9

  dd2

  地点2

  字符

  200

  —

  10

  x

  坐标经度x

  字符

  30

  可做备注地点或数字备注

  11

  y

  坐标纬度y

  字符

  30

  可做备注地点2或数字备注2

  12

  bq

  标签

  字符

  200

  标签合集,用逗号隔开

  13

  bz

  备注

  字符

  500

  —

  14

  szbz

  数字备注

  数字小数

  decimal(38,4)

  整数、小数均可存储

  15

  hmbz

  号码备注

  字符

  100

  —

  16

  hmbz2

  号码备注2

  字符

  100

  —

  17

  sjbz

  时间备注

  字符

  100

  字符型时间,避免因源格式不对致无法入库

  18

  sjbz2

  时间备注2

  字符

  100

  —

  19

  zd

  字段名集合

  字符

  2 000

  用^分开,可另表存储

  20

  nr

  字段内容集合

  字符

  10 000

  用^分开,可另表存储

  21

  zp

  照片链接

  字符

  300

  非必要

  22

  UUID

  源表主键

  字符

  50

  非必要

  23

  sj0

  上传时间

  日期

  —

  —

  24

  dd0

  上传人或单位

  字符

  100

  — 融合表建立 融合表可在任何数据库上建立。宜优先采用分布式列式数据库构建融合表,并确保数据库支持智能索引功能(自动为每个字段建立索引)。 数据导入

  融合表建立后,数据导入操作说明如下:

  a)

  将数据库表名(无需写“表”字)填入到“数据种类”字段(zL),将标识号码和其关联的标识号码填入2个标识号码字段(hm、gxhm)中,将具有始、末等含义或必用的时间、地点字段,填入到2个时间字段(sj、sj2)和2个地点字段(dd、dd2)中,以上字段为关键项;

  b)

  将未来可能需要结构化SQL检索的字段填入到多个描述字段(bz、bq、hmbz等)中;但并非一定要按字段名称字义填写相应的数据,只要字段类型相符,任何描述数据均可填入,例如:“x”字段原本设计为填写x坐标,但如果某表无x坐标字段,则此字段可以灵活地转为填写地点,或者其他字段内容;

  c)

  将用以说明本表所有字段含义的中文名称,填入到“字段名集合”字段(zd)中,中间用固定分隔符隔开(建议用^);将与“字段名集合”字段中一一对应的值填入到“字段内容集合”字段(nr)中,中间用固定分隔符隔开。

  使用示例详见附录A。

  DB41/T 2925—2025

  4

  6 融合表应用

  在融合表基础上,可进行下述大数据分析应用:

  a)

  在融合表中仅需查询2个标识号码字段(hm和gxhm),即可实现对全部数据种类标识号码的通查;

  b)

  对2个时间字段(sj、sj2)、2个地点字段(dd、dd2)进行范围检索,可实现对所有具备开始结束、出发到达含义的时间、地点数据的过滤;

  c)

  通过按时间字段(sj)排序,可实现对多源数据表的统一贯通性时间排序;

  d)

  对“号码”(hm)和“关系号码”(gxhm)字段进行迭代查询,可实现类似“图数据库”(一种用于存储实体之间关系的数据库类型)的关联关系功能;

  e)

  在融合表内以不同时间地点范围的数据集进行一次性关联join得出的交集,相当于多个源表数据进行多次关联join才能得出的交集。

  DB41/T 2925—2025

  5

  附录A (资料性) 异构数据融合示例

  A.1

  表A.1给出了静态信息与描述人的动态信息的数据示例。其中示例1、2是静态信息(即描述信息),示例3、4、5是描述人的动态信息。*号覆盖了隐私内容,在真实系统中,为原始数据。

  表

  A.1 静态信息与描述人的动态信息示例

  字段名称

  示例1

  示例2

  示例3

  示例4

  示例5

  数据种类

  出生地

  学历

  学历

  出生证明

  学习成绩

  号码名称

  李四

  李四

  李四

  李四

  李四

  号码

  410102******002X

  410102**

  ****002X

  410102**

  ****002X

  410102**

  ****002X

  410102**

  ****002X

  关系名称

  关系号码

  时间

  2002/7/1

  198*/7/7 9:00

  2002/6/1

  时间2

  198*/7/8 9:00

  地点

  Z市J区

  河南*大学

  Z市J区

  河南*大学

  地点2

  Z市A医院

  坐标经度x

  坐标纬度y

  标签

  备注

  本科

  硕士研究生

  学位论文

  数字备注

  90

  号码备注

  号码备注2

  时间备注

  时间备注2

  字段名 集合

  姓名^身份证号^出生地

  姓名^身份证号^学历

  姓名^身份证号^毕业时间^毕业院校^学历

  姓名^身份证号^出生时间^办证时间^出生地^办证单位

  姓名^身份证号^考试时间^学校^学科^分数

  字段内容 集合

  李四^410

  102******002X^Z市J区

  李四^4101

  02******00

  2X^本科

  李四^410102***

  ***002X^2002/7/1^河南*大学^硕士研究生

  李四^410102******

  002X^198*/7/7 9:

  00^198*/7/8 9

  :00^Z市J区^Z市A医院

  李四^410102******

  002X^2002/6/1^河南*大学^学位论文^90

  照片链接

  源表主键

  上传时间

  2020/7/1

  2020/7/1

  2002/9/1

  1980/7/18 9:00

  2002/6/2

  上传人或

  单位

  Z市*服务中心

  Z市*服务中心

  河南*大学

  河南Z市A医院

  河南*大学

  DB41/T 2925—2025

  6

  A.2

  表A.2 给出了单人简单与含始末的动态信息的数据示例。其中示例6是单人简单信息,示例7、8、9是单人含始末的动态信息。*号覆盖了隐私内容,在真实系统中,为原始数据。

  表

  A.2 单人简单与含始末的动态信息示例

  字段名称

  示例6

  示例7

  示例8

  示例9

  数据种类

  电力缴费

  乘坐火车

  乘坐飞机

  旅店住宿

  号码名称

  张三

  李四

  李四

  李四

  号码

  DB410**

  410102**

  ****002X

  410102**

  ****002X

  410102**

  ****002X

  关系名称

  关系号码

  时间

  2025/1/23 15:00:00

  2025/1/23 15:00:00

  2025/1/24 09:00:00

  2025/1/23 19:10:00

  时间2

  2025/1/23 16:10:00

  2025/1/24 11:00:00

  2025/1/24 6:10:00

  地点

  郑州**小区301

  郑州东

  郑州新郑机场

  安阳*宾馆

  地点2

  安阳东

  上海虹桥机场

  坐标经度x

  113.*37

  坐标纬度y

  35.*12

  标签

  备注

  201

  数字备注

  100

  号码备注

  号码备注2

  时间备注

  时间备注2

  字段名集合

  姓名^户号^缴费时间^家庭地址^缴费金额

  姓名^身份证号^出发时间^到达时间^出发地^到达地

  姓名^身份证号^离港时间^到港时间^离港地^到港地

  姓名^身份证号^入住时间^退房时间^宾馆名称^宾馆经度^宾馆纬度^入住房号

  字段内容集合

  张三^DB410**^2025/1/23 15:00

  :00^郑州**小区301^100

  李四^41010

  2******002X^2025/1/23 15:00:00^20

  25/1/23 16:

  10:00^郑州东^安阳东

  李四^410102**

  ****002X^2025/1/24 09:00:00^

  2025/1/24 11:

  00:00^郑州新郑机场^上海虹桥机场

  李四^410102*****

  *002X^2025/1/23 19:10:00^2025/1

  /24 6:10:00^安阳*宾馆^113.*37^35.*12^201

  照片链接

  源表主键

  上传时间

  2025/1/23 18:00:00

  2025/1/23 18:00:00

  2025/1/24 18:00:00

  2025/1/24 6:20:00

  上传人或

  单位

  郑州*电力公司

  *州铁路局

  郑州*机场

  *阳市公安局

  DB41/T 2925—2025

  7

  A.3

  表A.3 给出了静态联系信息与动态联系信息的数据示例。其中示例10是静态联系信息,示例11、12、13是动态联系信息。*号覆盖了隐私内容,在真实系统中,为原始数据。

  表

  A.3 静态联系信息与动态联系信息示例

  字段名称

  示例10

  示例11

  示例12

  示例13

  数据种类

  夫妻

  民政婚姻登记信息

  购物信息

  车辆违章缴费

  号码名称

  张三

  张三

  李四

  王五

  号码

  410102******0011

  410102******0011

  134***444

  410502******0021

  关系名称

  李四

  李四

  MM某东专卖店

  关系号码

  410102******002X

  410102******002X

  JDsMM12*3

  豫A**56

  时间

  2008/10/1 10:00:00

  2025/1/1 19:10:00

  2024/7/1 10:10:00

  时间2

  2024/5/5 10:10:00

  地点

  Z市J区民政局

  郑州**小区301

  Z市交警*支队

  地点2

  广州**商城

  Z市A路与B路交叉口

  坐标经度x

  坐标纬度y

  标签

  天生购物狂

  备注

  结婚登记

  口红

  闯红灯

  数字备注

  520

  200

  号码备注

  号码备注2

  时间备注

  时间备注2

  字段名集合

  男方姓名^男方身份证号^女方姓名^女方身份证号

  男方姓名^男方身份证号^女方姓名^女方身份证号^登记时间^登记地^登记类型

  姓名^手机号^店家名称^店家ID^购物时间^收货地址^发货地址^标签^购买物品名称^价格

  姓名^身份证号^违章车辆号牌^缴费时间^违章时间^缴费地点^违章地点^违章类型^缴费金额^违章照片地址

  字段内容 集合

  张三^410

  102******0011^李四^41010

  2******002X

  张三^410102******

  0011^李四^410102*

  *****002X^2008/10/1 10:00:00^Z市J区民政局^结婚登记

  李四^134***444^M

  M某东专卖店^JDsM

  M12*3^2025/1/1 19:10:00^郑州**小区301^广州**商城^天生购物狂^口红^520

  王五^410502******0021^豫A**56^2024/7/1 10:10:00

  ^2024/5/5 10:10:00^Z市交警*支队^Z市A路与B路交叉口^闯红灯^200^http://c*

  /a*.jpg

  照片链接

  http://c*/a*.jpg

  源表主键

  上传时间

  2008/10/7 10:00:00

  2008/10/1 14:00:00

  2025/1/2 5:00:00

  2024/7/1 11:10:00

  上传人或

  单位

  郑州市*村委会

  Z市J区民政局

  *互联网公司

  Z市公安局

  DB41/T 2925—2025

  8

  A.4

  表A.4 给出了物、单位动态信息与综合信息的数据示例。其中示例14是描述物的动态信息,示例15是描述单位的动态信息,示例16是既含人的描述又含联系的动态信息。*号覆盖了隐私内容,在真实系统中,为原始数据。

  表

  A.4 物、单位动态信息与综合信息示例

  字段名称

  示例14

  示例15

  示例16

  数据种类

  机动车基本信息

  放射源证

  传染病密接人员信息

  号码名称

  奔驰

  河南*监测公司

  钱七

  号码

  豫A**56

  豫环辐证[E0217**1]

  137**77

  关系名称

  赵六

  张三

  关系号码

  4107261980****0011

  410719***105

  133**33

  时间

  2019/8/1 10:10:00

  2021/12/15 2:02:02

  时间2

  2019/7/15 10:10:00

  2021/12/16 11:02:02

  地点

  Z市交警支队

  新乡市P路*号

  安阳市迎宾大道

  地点2

  郑州市**传染病医院

  坐标经度x

  4107***

  113.*77

  坐标纬度y

  35.*33

  标签

  豪车

  密接人员

  备注

  已隔离

  数字备注

  4500

  39.5

  号码备注

  139**99

  4101021979****0777

  号码备注2

  4101021982****0011

  时间备注

  20161226

  时间备注2

  字段名 集合

  车辆品牌^车牌号码^车主姓名^车主身份证号^发牌时间^购买时间^发证机关^标签^排气量^车主手机号码

  公司名称^证件号码^主体身份代码^公司地址^公司所在行政区划代码^办证时间

  密接人姓名^密接人手机号^确诊人姓名^确诊人手机号^接触日期^隔离日期^接触地^隔离地点^接触地坐标x^接触地坐标y^标签^是否已隔离^体温^密接人身份证号^确诊人员身份证号^密接时照片^人员ID

  字段内容 集合

  奔驰^豫A**56^赵六^4107261980****0011^2019/8/1 10:10:00^2019/7/15 10:10:00^Z市交警支队^豪车^4500^139**99

  河南*监测公司^豫环辐证[E0217**1]^410719***105^新乡市P路*号^4107***^20161226

  钱七^137**77^张三^133**33^

  2021/12/15 2:02:02^2021/12/16 11:02:02^安阳市迎宾大道^郑州市**传染病医院^113.*77^35.*33^密接人员^已隔离^39.5^4101021979

  ****0777^4101021982****0011^http://c*/b*.jpg^UUID-123*

  照片链接

  http://c*/b*.jpg

  源表主键

  UUID-123*

  上传时间

  2019/8/1 12:10:00

  2016/12/30

  2021/12/16 11:12:00

  上传人或

  单位

  Z市公安局

  **省环保厅

  **省卫健委

  DB41/T 2925—2025

  9

  参考文献

  [1] GB/T 5271.1 信息技术 词汇 第1部分:基础术语

下载说明

关于本站 | 联系我们 | 下载帮助 | 下载声明 | 信息反馈 | 网站地图