“自标准数据(SSD)”初探(一)

智慧(智能)来源于数据的整体综合应用。当今,业界人士尤其是奋战在一线的电子政务和企业信息化规划和建设人士普遍认为,经过多年的实践,已经来临的智慧时代,不再是大力建设信息系统的时代,而是数据全面整合升级的时代。整合升级的重点就是解决数据的共享问题,难点在于逻辑上归属于各类已建应用系统数据的整合,这也是困扰IT界的一大难题。元数据、数据仓库、数据中心、SOA等技术为解决这一难题提供了一定的途径,但目前的研究和实践表明还没有完全从根本上解决这一难题。

夏艳波   大庆油田信息中心

1.前言

智慧(智能)来源于数据的整体综合应用。当今,业界人士尤其是奋战在一线的电子政务和企业信息化规划和建设人士普遍认为,经过多年的实践,已经来临的智慧时代,不再是大力建设信息系统的时代,而是数据全面整合升级的时代。整合升级的重点就是解决数据的共享问题,难点在于逻辑上归属于各类已建应用系统数据的整合,这也是困扰IT界的一大难题。元数据、数据仓库、数据中心、SOA等技术为解决这一难题提供了一定的途径,但目前的研究和实践表明还没有完全从根本上解决这一难题。

自标准数据(Self-Standard Data,以下简称SSD)源自于智能数字油田和智慧城市建设的实践需求。

2.起源(起源)

早在1998年,大庆油田开展了一个项目—《勘探、开发、钻井数据一体化共享》。该项目目标是建立一个油田内部数据共享的平台。当时认识到,“数据使用者急,积极性高;而提供者不急,积极性不高。”鉴于此,为了实现项目目标,项目组决定顺势而为,提出了“数据码头”的想法。就是数据提供者把数据放在指定位置就不管了,使用者自己去取,去处理。使用者再产生的数据也放到码头上。这样既能满足了使用者的需求,又能减轻了提供者的压力。但后来大庆油田重组,勘探和钻井的大部分业务与油田开发分离,致使项目下马。之后的一段时期内,还是要求提供者按照严格的统一标准把数据放到“码头”上,提供者还要处理数据,没有把提供者的压力减到最轻。当时还没有XML和元数据,也没想到用它来描述数据。

2013年,大庆油田制定信息规划过程中,关于信息共享(十多年过去了,问题依然很多)进行了讨论。期间王权对“数据码头”思路进行了进一步的扩展,应用XML让提供者按照自己的格式提供数据,还要包含这些数据的格式。这样,这些数据就成为了“自标准数据”。

2013年10月,大庆油田有限责任公司信息中心王权副主任在为长安大学数字油田论坛第三届大会准备题为《数据多了就智能!》的演讲材料中,初步形成了自标准数据的完整思路。可惜的是,他本人没有到场演讲,王主任拟请高倩博士在大会上代为演讲,因种种原因高博士的演讲没有落实。张彦国教授在演讲的开场白中,宣布了王权先生的“自标准数据”的思想,引起了与会专家的广泛关注和重视。现场多位专家认为“自标准数据”将成为大数据时代实现信息共享、解决现实难题的有力的技术支撑,应该展开“自标准数据”深入研究和广泛推广,将数据应用实体从传统繁琐的数据标准中解放出来。

论坛之后,张彦国教授在参加第八届中国智慧城市大会过程中,就“自标准数据”问题,请教了参加大会并做主题演讲的李德仁院士和赖明副主席。他们对于“自标准数据”给与了极大的认可,并鼓励有关人士要好好研究,争取拿出行之有效的成果。

3.自标准数据概念与性质

自标准数据(Self-Standard Data,以下简称SSD),即自带标准或格式的数据体。数据提供者按照自己(或自己系统)的标准或格式提供数据,并将该数据所使用的标准或格式与所提供的数据一起打包,数据使用者按照该标准或格式自行解读并使用数据。它是传统数据标准体系的重要补充和突破。

SSD打破了大家共同遵守统一标准的局限,给数据共享和整合应用提供了切实可行的途径。其具有如下性质:

(1)SSD是一种数据体,它既包含数据本身还包括数据格式;

(2)SSD是元数据的一种特例,是元数据与数据捆绑;

(3)SSD是一种全新的数据共享模式,打破了传统的数据与标准脱离的局面;

(4)SSD是一种客观、现实的数据管理策略,适应性十分强大;

(5)SSD是大数据的基本单元,采用自标准数据技术有利于大数据技术发展;

(6)SSD是系统自治思想的应用。

4.SSD相关技术

配合SSD概念,大庆油田结合油田信息化建设实践进一步提出了数据码头、数据泵等相关实现技术。至此,就大致形成了完整的SSD体系。

数据码头(Data Dock),即数据提供者放数据的场所。数据码头依靠自身的数据存储、分类、去除、检索等机制运行。数据提供者把数据放在指定位置即可,使用者自己去取,去处理。使用者再产生的数据也放到码头上。

数据泵(Data Pump),是专门的抽取数据的部件,可以是集中的,也可以是分散的,可以看作是传统数据适配器的改进。其功能是:存取数据,全局统一管理资源目录、使用权限等。

数据泵分为两大类:数据推送泵(Data Pump In),负责把数据推送到码头指定的位置;数据抽取泵(Data pump out),负责检索、抽取、清洗、分类,外传数据。

SSD体系示意图如下:

sss

 

 

原创文章,作者:智慧城市网,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/13991.html