自标准数据架构设计初探

自标准数据也是标准,它是局部自治的标准。其用于描述数据的标准定义语言,是遵循自标准数据描述定义标准的。

自标准数据定义:所谓自标准数据=数据体+数据格式(数据体解释)。

自标准数据也是标准,它是局部自治的标准。其用于描述数据的标准定义语言,是遵循自标准数据描述定义标准的。

在自标准数据体系结构中建议包含:

ü  数据标准定义语言

ü  数据港口

ü  数据泵

ü  数据规则

ü  标准解析引擎

ü  数据港口组件

ü  港口链路

sss
所谓自标准数据体系是指,对自标准数据概念的标准模型。

 

自标准数据体系实现遵循原则:

  • Open;整个体系结构中,所有数据体中数据均完全。使得所有数据使用者可方便调用。
  • 自治;自标准数据中,标准是采用自治管理方式。也就是自标准数据中,标准是可以进行变更的,标准变更意味数据同时按照变更后标准提供,是数据提供方对数据进行的描述。
  • 简单标准;自标准数据遵循简单原则,数据定义过程中,数据的标准定义使用简单标注。减少数据使用繁琐度。
  • 集中管理关键;整个体系结构中,仅对各数据来源单位的服务ID信息、自标准数据体、数据缓存周期、数据权限进行管理。其他数据具体业务不进行过度干预。
  • 即插即用;自标准体系中,凡遵守数据描述定义语言标准的自标准数据所有数据供应商接入即可使用。即使数据提供商对数据未进行任何标准定义的私密数据,由使用者自行解决对应数据体。
  • 适配;自标准体系中,数据港口可提供一定的自标准数据适配功能。保障数据体标准变更后,可提供部分自动适配功能。使所有数据使用者避免由于标准变更产生更大的变更活动。
  • 自发展

20140116211016

 

 

 

  1. 1.      数据标准定义语言

数据标准定义语言是由总体平台框架定义的对数据体进行自描述的语言结构。数据标准定义语言应能够尽量对数据进行描述,除了因技术或其他原因计算机无法描述的部分由用户描述,由用户描述的部分应越少越好。

可以考虑xml风格的描述,通过自定义标签的方式实现。技术来说这样的标签数量上不应超过20个。这方面非常期望能参考袁满老师的意见。

其中必须包括广义元数据定义:

名称(Title)

标识:Title

定义:分配给资源的名称。

解释:使资源为众所周知的有代表性的正规名称。

创作、制作者(Creator)

标识:Creator

定义:制作资源内容的主要责任实体。

解释:创作、制作者包括个人、组织或机构。

应该是用于标识创作、制作者实体的具有代表性的名称。

主题及关键词(Subject and Keywords)

标识:Subject定义:资源内容的主题。

解释:用以描述资源主要内容的关键词语或分类号码表示的有代表性的主题词。

说明(Description)

标识:Description

定义:有关资源内容的说明。

解释:该说明可以包括但并不限于:摘要,内容目次,内容图示或内容的文字说明。

出版者(Publisher)

标识:Publisher

定义:制作资源有重要作用的责任实体。

解释:如包括个人、组织或机构的出版者。

应是用于标识出版者实体的有代表性的名称。

发行者(Contributor)

标识:Contributor

定义:对资源内容负有发行责任的实体。

解释:发行者包括个人、组织或机构。

应是用于标识发行者实体的有代表性的名称。

时间(Date)

标识:Date

定义:与资源使用期限相关的日期、时间。

解释:资源产生或有效使用的日期、时间。

类型(Type)

标识:Type

定义:资源内容方面的特征或体裁。

解释:类型包括种类、功能、体裁或作品集成级别等描述性术语。推荐从可控词表(如Dublin Core Types[DCT1])中选用有关术语。对于资源物理或数字化方面表示,采用”格式”项描述。

格式(Format)

标识:Format

定义:资源物理或数字化的特有表示。

解释:格式可包括媒体类型或资源容量。也可用于限定资源显示或操作所需的软件、硬件或其它设备,如容量包括数据所占空间和存在期间。

标识(Identifier)

标识:Identifier

定义:依据有关规定分配给资源的标识性信息。

解释:推荐使用依据格式化标识系统规定的字符或号码标识资源。

如正规标识系统包括统一资源标识(URI),统一资源地址(URL)、数字对象标识(DOI)以及国际标准书号(ISBN)、国际标准刊号(ISSN)等。

来源(Source)

标识:Source

定义:可获取现存资源的有关信息。

解释:可从原资源整体或部分获得现有资源。建议使用正规标识系统确定的字符或号码标引资源来源信息。

语言(Language)

标识:Language

定义:资源知识内容使用的语种。

解释:推荐使用由RFC1766定义的语种代码,它由两位字符(源自ISO639)组成。随后可选用两字符的国家代码(源自ISO 3166)。如”en”表示英语,”fr”表示法语。

相关资源(Relation)

标识:Relation

定义:对相关资源的参照。

解释:推荐用依据正规标识系统确定的字符或号码标引资源参照信息。

范围(Coverage)

标识:Coverage

定义:资源内容的领域或范围。

解释:范围包括空间定位(地名或地理坐标),时代(年代、日期或日期范围)或权限范围。

版权(Rights)

标识:Rights

定义:持有或拥有该资源权力的信息。

解释:版权项包括资源版权管理的说明。

  1. 2.      数据港口

数据港口是不是数据中心,它是物流中心,是用于数据交换与流通的,仅存储少量数据,它不是资产。数据描述定义语言标准数据港口、数据泵是总体结构中不可或缺的部分。港口拥有唯一带解析规则的港口ID,类似于KKS码格式。

区别于常用的搜索引擎,自标准的搜索引擎是精确搜索的,供计算机使用的搜索引擎。它能够主动收集和消化数据,会适应数据、数据源的产生和消逝。数据港口上存放的数据不是资产而是流动的数据,是中间环节,是信息交换的平台。数据港口的数据具有短存储,非资产的特性。这些数据只是为了数据交换而短暂存贮在数据港口,即使这些数据丢失也不会直接影响生产。数据港口的数据主要包含被供应数据、数据交换、被使用数据。数据除了其内容本身外,最少应包含标识和名称,其中标识是由数据码头产生的。标识(ID)的生成规则是数据港口核心的算法之一。有句话说数据多了就智能,在数据港口堆放的数据会形成数据生态的基础。数据港口会提供数据热点等服务,提示某些热区数据具有一致性,需要标准化。这样整齐堆放的数据会被促使逐步形成标准,并且这些标准会自我完善和自我改进。

数据港口中定义包括:

  • 资源管理

资源管理可以理解为,所有数据供应商提供出来的所有内容均为资源,资源分类大致包括:

n  数据管理:当前港口存放的数据相关信息的管理设定。包括数据所有特性(例如:版本、数据项、发行者、有效期)等。

同时,对供应商接入的数据登记,并对其数据设定存储区域、存储空间、存储周期管理、数据质量审查。

n  标准管理

n  港口管理

n  认证管理

n  提供商资源:连接信息、服务类别、服务范围、服务清单。

n  数据资源:

n  标准资源:已有遵循数据描述定义语言标准的反复使用多次的标准定义清单。

n  港口资源:已挂接在本港口上的港口链路。用于对多个数据港口间进行数据交换时适用。

n  …

  • 资源检索:对数据资源的检索利用引擎。检索引擎中至少包括:

n  全港口(全文)检索

n  定向资源检索:定向资源即定向资源类型、以及资源类型的高速检索。例如:产量指标

n  数据检索规则:用于定向资源检索优先级序列排名。排名算法根据数据参数范围决定,例如:产量指标在特定的语义空间内,含义差异。小队跟集团的语义环境就有差异。检索系统就来源多个环节。

  • 权限管理:至港口中所有资源的权限分配管理。权限分配也是权限的一部分。
  • 数据港口链路:港口链路用于实现多个数据港口之间的数据共享与交换。其港口链路过程中,均需要交换并登记对方港口的数据资源、标准资源列表等信息。
  • 港口管理:提供港口的配套管理功能。
  • 数据服务:数据港口中所有的存在于数据港口中的数据对数据港口本身是完全开放的(仅有少量数据是由数据提供商指定了数据权限,为特定的数据使用者服务)。数据港口将对所有堆放至港口的数据进行梳理分析,直接对外提供标准的数据访问服务。其中数据解析由数据解析引擎进行。解析后的数据可以通过标准的对外数据服务进行提供,例如:webservice、JSON、BSON、JDBC、ODBC、API等。
  • 标准资源服务:标准资源服务是指,系统中所有存在于港口中的数据,均可被数据港口
  • …还在思考
  1. 3.      数据泵,数据泵是所有进出港口的标准活动。数据泵分数据抽取泵与数据推送泵。
  • 数据抽取泵:数据抽取泵是提取数据的主要活动。数据抽取泵中需包括对原数据转换的检索、抽取、清洗、分类活动,同时若原数据不满足自标准数据标准,可选择数据通过SDK将数据转换为自标准数据。
  • 数据推送泵:数据推送泵是负责将数据使用者关注的订阅数据通过推送的方式将数据发送至使用者指定位置。在数据由数据港口推送不仅仅是单纯的运送,还包含数据使用者与港口之间的数据代理,或者可以理解为商家。数据港口是仓库,而商家需要包含跟使用者进行标准协商;同时还需要负责数据打包、数据装箱、运送、直至数据签收。
  1. 4.      数据规则

数据港口会根据数据的使用频度和热度提示该数据应形成标准或为该数据产生标准。数据不和具体的人绑定,数据与数据之间是平等的关系,没有层级之分。数据在不同的域内可能有不同的定义,相同的数据可以提供不同的自标准格式。数据港口仅存放广泛公开供域内使用和交换的数据,如果存在私有数据需要自行加密。数据港口业提供对数据进行同比、环比等数据比对功能。

u 在数据港口中,所有由数据供应商提供的数据均需要定义其数据整理与堆放规则。整理规则中可通过定义的整理规则将供应商提供的数据进行最大限度的优化梳理,对数据进行进行清洗、过滤、切片等活动,保障数据质量。整理规则不是必须的。

u 数据堆放规则是用于对数据块定义其存储周期、存储位置、存储空间优化等划分的具体活动,堆放规则也不是必须的。港口默认提供数据整理与数据堆放规则。

  1. 5.      标准适配引擎

标准适配是用于数据供应商版本变更或升级时,数据调用者用于版本适配协的活动。用于解决数据提供商与数据使用者之间标准差异化。

数据港口可以对数据进行自行封装,即便不合标准的数据也可放在港口上,由港口自行封装。封装的数据类似于集装箱,有着最简单统一的形态和规格,并且具备一些最基本的标签数据。港口担负着数据格式版本变迁的向下兼容,数据装箱等任务。港口还需要清理过期、无用、错误的数据。从软件的时效性来看数据的主动适配是需要的,但不是紧要的功能。

  1. 6.      数据港口组件

数据港口组件是指,为应对大多数大型数据整合系统,数据若采用统一接入数据港口方式可能存在问题:

1.数据吞吐需求量大,小型数据港口无法承载,大型数据港口建设浪费资源。

2.系统已基本完善,已构建为标准数据中心,需要提供大量对外数据,改造难度高。

在上述比较典型系统中,是可独立构建数据港口的。所以,数据港口因局部拆分为中间件的特性,可提供方便的组件为其他系统集成。就像网卡,只有主板还有空间,插上重启,即可接入网络。

  1. 7.      港口链路

港口链路是指,数据港口中可提供对外数据链路与其他港口链路接口。单个港口的数据资源可能在一定范围内是有限的,港口与港口之间应具备数据联通共享的特性,使数据提供高效利用。港口链路用于对多个数据港口间进行数据交换时适用。港口与港口间需要对接,就象蓝牙。适配成功即可对接,双方可交换资源、服务清单等,形成互为代理的特性,组件网状结构。

港口的数量不会太多,港口之间都是平级关系,类似于国家之间的关系,有战略合作、敌对、友好等关系。对于有点内陆国数据港口还能提供港口链路为该数据提供者提供代理港口。港口链路从软件的时效性来看港口间关系是需要的,但不是紧要的功能。

综上所述基于自标准的数据港口就是为建立开放自由的数据生态环境,促进数据交流与共享。在这样的数据生态环境下会加速和促进数据标准化的自演变、成型与发展。就像阿凡达的辫子一样,可以接入星球各种生物进行数据交换,这样能够通用的数据一定是自标准,规范化的数据。自标准数据港口目标是解决复杂系统问题,适应大系统,在小的系统内实施可能会由于数据的集装化导致得不偿失因而受阻(相信随着技术的进步、工具的丰富、自动化程度的提高会逐步解决这些问题)。

自标准数据会使得数据使用者逐步摆脱由专家制定标准困难,使用者遵循标准困难,标准演变和改进困难,标准兼容困难等问题。通过建立数据港口作为数据集散交流中心、作为数据生态基础,使标准在数据的使用过程中逐步产生和被定义,并在不断发展的过程中自改进。

 

 

署名:王权、夏艳波、张彦国、田鹏、唐力伟

 

原创文章,作者:智慧城市网,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/14069.html