自标准数据体系实现

为在一定的范围内获得最佳秩序,对实际的或潜在的问题制定共同的和重复使用的规则的活动,称为标准化。它包括制定、发布及实施标准的过程。标准化的重要意义是改进产品、过程和服务的适用性,防止壁垒,促进技术合作。数据标准化是统计学上的常用方法,是为了消除不同属性或样方之间的不齐性,是同一样方内不同属性间或同一属性在不同样方内的方差减小。有些数量分析方法要求特殊的标准化过程,并将标准化作为其分析方法的一部分。

 

一、自标准数据的意义

为在一定的范围内获得最佳秩序,对实际的或潜在的问题制定共同的和重复使用的规则的活动,称为标准化。它包括制定、发布及实施标准的过程。标准化的重要意义是改进产品、过程和服务的适用性,防止壁垒,促进技术合作。数据标准化是统计学上的常用方法,是为了消除不同属性或样方之间的不齐性,是同一样方内不同属性间或同一属性在不同样方内的方差减小。有些数量分析方法要求特殊的标准化过程,并将标准化作为其分析方法的一部分。

数据标准化在信息化建设过程中有着重要的作用和意义。但是不可避免的会遇到数据使用困难问题。例如相同的数据有着不同的格式导致数据难以使用,数据的内容不完备导致数据无法使用,不同的数据具有类似或相同的名称等等。通过标准化能够良好的解决这些问题,能够让数据符合一定的格式,其内容也是完备的没有二义性。这样的数据就是符合标准描述的数据。最初人们设计了自描述的数据,例如XML与XSD之间的关系,XSD是用来描述XML文件的结构的。但自描述数据仅仅能够解决数据格式上的标准化,在企业信息化中除了格式的标准化还需要有内容等方面的标准化。于是企业中的信息化专家纷纷提出各种标准化定义。既然作为标准,相同的数据就只能有一套标准;如果相同的数据内容存在不同的标准那么还是不标准。由人为制定的标准由于组织机构,地域因素,信息化水平差异等因素很难做到一次成型。从信息化发展的角度来看,用发展的眼光看问题,标准本身也不是一成不变的。于是就出现了自标准体系结构。自标准体系结构提供自标准数据平台(数据港口),通过一系列手段和方法使得数据开放、数据自治、简单协议、统一管理成为可能,这就为数据标准化搭建了平台。这将会是承载数据标准的产生、演变、完善、消亡完整生命周期的基础。自标准体系结构以数据为中心,通过数据共享、分治催生标准,完善标准,最终使得标准化走上一条生态的自然之路。

在国际上有众多的标准化组织,大到跨行业跨国家的ISO国际标准化组织 (International Standard Organized),国家有国家的标准诸如我们国家使用GB标准等,也有行业内的标准化组织例如W3C组织(World Wide Web Consortium)。这些标准化组织产生的产品就是各个行业标准。自标准的产生标志着标准是建立在数据的客观基础上产生,随着数据的发展而发展,随着数据的变革而改进。解决了个别专家决定标准,标准推行困难,标准交流困难等问题。使得标准在自然而然中产生、完善。

 

二、什么是自标准数据

自标准数据=数据体+数据格式(数据体解释)。

自标准数据也是标准,它的标准时局部自治的。凡描述数据的标准定义,是遵循自标准数据中数据标准定义语言的,都是自标准数据。为什么不是自描述数据?

自标准数据是自标准体系中的核心。自标准体系是用来促进标准形成,逐步规范化各类数据的一种思想,所以是自标准数据,而不是自描述数据。

在自标准数据体系结构中应包含:

ü  数据标准定义语言

ü  数据港口

ü  数据泵

ü  数据规则

ü  标准解析引擎

ü  数据港口组件

ü  港口链路

所谓自标准数据体系是指,对自标准数据概念的一种实现模型。

 

三、自标准数据体系实现遵循原则:

  • Open;整个体系结构中,所有数据体中数据均完全。使得所有数据使用者可方便调用。
  • 自治;自标准数据中,标准是采用自治管理方式。也就是自标准数据中,标准是可以进行变更的,标准变更意味数据同时按照变更后标准提供,是数据提供方对数据进行的描述。
  • 简单标准;自标准数据遵循简单原则,数据定义过程中,数据的标准定义使用简单标注。减少数据使用繁琐度。
  • 集中管理关键;整个体系结构中,仅对各数据供应者的ID信息、自标准数据体、数据缓存周期、数据权限进行管理。其它数据具体业务不进行过度干预。
  • 即插即用;自标准体系中,凡遵守数据描述定义语言标准的自标准数据所有数据供应者接入即可使用。即使数据供应者对数据未进行任何标准定义的私密数据,由使用者自行解决对应数据体。
  • 适配;自标准体系中,数据港口可提供一定的自标准数据适配功能。保障数据体标准变更后,可提供部分自动适配功能。使所有数据使用者避免由于标准变更产生更大的变更活动。
  • 自发展;所有在数据港口中的数据,凡反复被使用的标准,都将进行提炼、整理。使其在局部范围内,为后续建立的系统中沿用,从而整个体系实现自然生成,被使用的标准产生自我完善和自我改进,形成自发展。

 

四、体系实现方案设计(草案):

20140116211016

 

1.    数据标准定义语言

数据标准定义语言是由总体平台框架定义的对数据体进行自描述的语言结构。数据标准定义语言应能够尽量通过简单标签实现对数据体进行描述。

具体内容还在思考

2.    数据港口

数据港口是不是数据中心,它是物流中心,是用于数据交换与流通的,仅存储少量数据,它不是资产。数据描述定义语言标准数据港口、数据泵是总体结构中不可或缺的部分。港口拥有唯一可解释的港口ID,类似于KKS码格式。

数据港口大致因包含:港口管理、资源管理、服务管理、引擎管理、配套工具五大部分。

2.1.   港口管理

2.1.1. 安全管理

数据港口中,所有资源访问、资源调度、数据传输、授权信息、系统角色、系统用户等安全方面的管理功能。

2.1.2. 存储管理

在整个数据港口中,存储空间是根据港口建设要求搭建的,港口存储容量与数据存储周期都有一定的限制性。存储管理用于对存储区块进行划分。

2.1.3. 供应者管理

供应者是数据港口中交换数据的数据供应者,其主要负责生产的数据体。供应者管理是对所有数据供应者的相关信息的管理,包括供应者登记、供应者权限设定、供应清单登记、数据整理规则划分、数据存储位置划分等。

2.1.4. 规则管理

规则管理是指存在于数据港口中的默认数据整理规则、数据堆放规则、数据合法性校验、数据质量判定规则等规则的管理模块。

2.1.5. 使用者管理

使用者是数据港口中交换数据的数据应用单位。使用者管理是对所有数据使用者的相关信息的管理,包括使用者登记、数据权限设定、取用记录登记、订阅记录、数据存储位置划分等。

2.1.6. 数据质量管理

用于对数据质量建立数据质量进行审计核查工作,数据质量的好坏是直接影响使用者的关键,其数据供应者在数据质量的审计核查不仅基于数据质量规则的自动审查。同时,所有数据使用者可对其数据进行评价、评定。

2.1.7. 信用管理

信用管理是对所有数据供应者、数据使用者进行的质量核查统计,多次数据质量较差的,在信用等级中将进行评级。信用较差的数据供应者与数据使用者可为平台管理以及数据使用者作参考。

 

2.2.   资源管理

在整个系统当中,所有存放于港口上的信息都是资源,资源管理对这些信息资源进行分类、检索及管理。

2.2.1. 数据管理

系统中,由数据供应者上报的数据集中管理业务。包括数据所有特性(例如:版本、数据项、发行者、有效期)等。同时,对供应者接入的数据登记,并对其数据设定存储区域、存储空间、存储周期管理、数据质量审查。

2.2.2. 标准管理

标准管理是用于对已入港的所有自标准数据的标准管理功能。所有的自标准数据的标准都将进行提取、整理,码头存放数据仅包含标准标注,实际存储不包含数据标准本身。

同时,标准管理中,将提供标准清单。根据使用者需要的标准,通过标准适配引擎进行标准转换后,提供给使用者。标准管理也是标准的一个提炼过程。标准管理中,将根据自标准数据的使用情况、数据质量情况等进行标准的审计,对未来提供数据的数据供应者提供数据标准建议,减少重新制定标准,让数据逐渐标准化。形成标准提炼的活动,促进标准形成自发展。

2.2.3. 贸易管理

在整个数据港口中,通过港口链路,港口与港口之间是会建立互联互通关系的。两个港口中的数据使用者,是需要产生数据交换,也就是数据贸易。港口与港口之间的数据交换级别、数据资源交换等级均通过贸易管理中进行设定,包括贸易策略、授信等级等。

2.2.4. 数据域定义

数据域是指,所有上报的数据项中,数据域是预先设定的。域是被定义的,但是域与域之间是平等的。例如:小队的生产系统中上报的原油产量与科室的生产系统上报的原油产品就是两个域。域是在系统中数据供应者、数据使用者都自带的范围标示。数据搜索时,默认会将对应域范围内满足要求且热度最高的数据列表优先提供。

2.2.5. 其它资源

 

2.3.   服务管理

2.3.1. 订阅服务

用于数据使用者订阅常用的数据。

2.3.2. 推送服务

用于当数据发生变化时,根据将使用者的订阅情况将数据推送或发送至使用者。发生变化可以理解为:数据更新、数据质量变更等活动。

2.3.3. 数据服务

数据港口中所有的存在于数据港口中的数据对数据港口本身是完全开放的(仅有少量数据是由数据提供商指定了数据权限,为特定的数据使用者服务)。数据港口将对所有堆放至港口的数据进行梳理分析,直接对外提供标准的数据访问服务。其中数据解析由数据解析引擎进行。解析后的数据可以通过标准的对外数据服务进行提供,例如:webservice、JSON、BSON、JDBC、ODBC、API等。

2.3.4. 标准服务

标准资源服务是指,系统中所有存在于港口中的数据标准清单列表、标准定义的内容等。可提供对应满足某标准的数据检索、新数据供应者进行标准参考。

2.3.5. 报警服务

用于对数据、数据标准进行提醒的各类报警规则,报警可直接发送至数据管理人员、数据供应者、数据使用人员等。报警需要与推送服务结合使用。

2.3.6. 证书服务

系统证书颁发单位。扶着系统内全部安全访问证书生成与安全核查。

2.4.   引擎管理

2.4.1. 数据分析

提供数据的二次统计、数据切片、数据关联设定、数据汇总等数据统计。以及已有的码头数据资源的数据分析设定。

2.4.2. 解析引擎

根据数据标准定义语言,将上报至数据港口的各自标准数据进行拆箱检查、整理、归类。

2.4.3. 数据适配

数据适配是用于数据供应商版本变更或升级时,数据调用者用于版本适配协商的活动。用于解决数据提供商与数据使用者之间标准差异化。

2.4.4. 数据巡检

数据码头中的警察。根据设定的数据质量管理、数据存储周期管理、数据报警等设定,对具体数据执行的巡检活动。

2.5.   配套工具

2.5.1. 标准生成器

用于快速的为数据供应者生成数据标准。

2.5.2. SDK

快速开发的API封装。与数据港口通讯的基础。

2.5.3. 手工填报

用于手工填报或上报的数据录入数据港口。可直接通过定义好的数据标准自动生成数据填报页面。

2.5.4. 其它工具

3.    数据泵

数据泵是所有进出港口的标准活动。数据泵分数据抽取泵与数据推送泵。

  • 数据抽取泵:数据抽取泵是提取数据的主要活动。数据抽取泵中需包括对原数据转换的检索、抽取、清洗、分类活动,同时若原数据不满足自标准数据标准,可选择数据通过SDK将数据转换为自标准数据。
  • 数据推送泵:数据推送泵是负责将数据使用者关注的订阅数据通过推送的方式将数据发送至使用者指定位置。在数据由数据港口推送不仅仅是单纯的运送,还包含数据使用者与港口之间的数据代理,或者可以理解为商家。数据港口是仓库,而商家需要包含跟使用者进行标准协商;同时还需要负责数据打包、数据装箱、运送、直至数据签收。

4.    数据规则

u 在数据港口中,所有由数据供应者提供的数据均需要定义其数据整理与堆放规则。整理规则中可通过定义的整理规则将供应者提供的数据进行最大限度的优化梳理,对数据进行进行清洗、过滤、切片等活动,保障数据质量。整理规则不是必须的。

u 数据堆放规则是用于对数据块定义其存储周期、存储位置、存储空间优化等划分的具体活动,堆放规则也不是必须的。港口默认提供数据整理与数据堆放规则。

5.    数据港口组件

数据港口组件是指,为应对大多数大型数据整合系统,数据若采用统一接入数据港口方式可能存在问题:

1.数据吞吐需求量大,小型数据港口无法承载,大型数据港口建设浪费资源。

2.系统已基本完善,已构建为标准数据中心,需要提供大量对外数据,改造难度高。

在上述比较典型系统中,是可独立构建数据港口的。所以,数据港口因局部拆分为中间件的特性,可提供方便的组件为其它系统集成。就像网卡,只有主板还有空间,插上重启,即可接入网络。

6.    港口链路

港口链路是指,数据港口中可提供对外数据链路与其它港口链路接口。单个港口的数据资源可能在一定范围内是有限的,港口与港口之间应具备数据联通共享的特性,使数据提供高效利用。港口链路用于对多个数据港口间进行数据交换时适用。港口与港口间需要对接,就行蓝牙。适配成功即可对接,双方可交换资源、服务清单等,形成互为代理的特性,组件网状结构。

 

 

 

上海麦杰科技 田鹏、唐力伟、张彦国

                  指导 王权 夏艳波

原创文章,作者:智慧城市网,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/14099.html