“自标准数据(SSD)”初探(二)

“自标准数据(SSD)”初探(二)

5.SSD与传统数据技术的区别:

5.1 SSD与元数据、数据元的区别

SSD大致上相当于“数据元+元数据”,但还是有很大的不同。首先,数据元和元数据的设计、存储、操作都有比较严格的规范,一般都是基于数据库或数据仓库的,特别是结构化数据。其次,数据元一般是不可分割的最小数据单元,而自标准数据在体量或规模上是多变的、不固定的,可以很大,也可以很小,甚至小到数据元的水平。比如自标准数据可大到一个地震工区的数据体,也可以小到只有一个井号的数据。第三,元数据和数据元一般存在于一个庞大的数据库或数据仓库实体中,一般不会同时传输。但自标准数据中数据与标准一般是在一起,就像“电器”与“使用说明书”一样。当然当你完全掌握了使用方法,你可以扔掉“说明书”,但那只是你自己的事,别人再用可能还得用“说明书”。“说明书”是标配,得跟“电器”在一起。

5.2 SSD可以弥补 webservice或adapter的缺陷

大庆油田正在做一个系统,叫做《大庆油田生产经营管理与辅助决策系统》,简称 DQMDS。系统名字体现不出来建设内容。这个系统实际上是要建立以驾驶舱为主要功能的集成系统,把已有业务系统的数据抽取出来,整合为一套为管理者提供数据服务的数据体,在一定程度上进一步加工汇总并展现出来。现在有两个难题:

第一个,初步调研显示,这个系统大概要集成近百个系统,最难办的是那些封闭系统。这些封闭系统一般都是掌管着人财物等关键资源的强势系统,还有最重要的ERP系统。这些系统一般都是买来的,很多还是基于国外的大平台开发的。一方面,上级暂不能授予开发权限。另一方面,让服务商专门给你开发webservice之类的接口是很麻烦,需要大量时间和资金,后期维护量也较大。一般能提供数据就算很幸运了,而且你也别想人家遵守你的数据标准进行开发。所以只能把人家的数据导进来,再想办法。

第二个,系统要从近百个系统里取数据,数据之间的关系错综复杂。如果都是webservice链接,一个系统出了问题,可能就要影响整个系统的运行。Webservice是紧耦合链接,实时性很强,一旦有问题,系统就要出问题;SSD却是松耦合,想链接就链接一下,不强迫,自己轻松,原有系统也轻松,连不上也不影响大局,可以用老数据。这点与TCP协议和UDP协议的区别很类似。

尽管如此,SSD不排斥ebservice、adapter等技术,完全可以兼用。自标准数据的出发点是无奈之举。

5.3 SSD 与 数据中心

数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。谷歌将数据中心解释为“多功能的建筑物,能容纳多个服务器 以及通信设备。这些设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的需求,并且这样放置便于维护”,而“并不仅仅是一些服务器的集合”。

数据中心中的数据是严格组织的数据,务必标准规范,也是行业或者企业必须建设的。自标准数据主要解决数据中心之外的数据交换问题,面向已经存在大量系统的数据整合问题而来。一个新建设的企业事业单位,一切从零开始的话,完全不需要 SSD体系,但需要做整体的数据规划。

5.4 SSD与数据仓库

数据仓库(Data Warehouse,可简写为DW或DWH),是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。DW是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。以前端查询和分析作为基础,有较大的冗余,所需存储也较大。

数据仓库的特点:

(1)数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。

(2)数据仓库是集成的,数据仓库的数据来自于分散的操作型数据,将所需数据从原来的数据中抽取加工而来。

(3)数据仓库一般是不可更新的。稳定的数据以只读格式保存,且不随时间改变。

(4)汇总的。操作性数据映射成决策可用的格式。

(5)大容量。时间序列数据集合通常都非常大。

(6)非规范化的。Dw数据可以是而且经常是冗余的。

(7)元数据。将描述数据的数据保存起来。

(8)数据源。数据来自内部的和外部的非集成操作系统。

广义的说,基于数据仓库的决策支持系统由三个部件组成:数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心。

SSD,是将已经存在的系统产生的那些数据整合到更高端的数据库或数据仓库的中间的一个环节。主要是为了如何向数据仓库中整合数据的。不过,其中可能会有很多的数据处理技术是相通的。

5.5 SSD 与数据集市

数据集市(Data Mart) ,也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。   很直观的可以感觉到DM,是数据仓库的一个子集。SSD 与其有很本质上的区别。

5.6 SSD与 信息资源规划(IRP)

信息资源规划(Information Resource Planning, IRP)信息资源规划是指对企业生产经营所需要的信息,从采集、处理、传输到使用的全面规划。在企业的生产经营活动中,无时无刻不充满着信息的产生、流动和使用。要使每个部门内部,部门之间,部门与外部单位的频繁、复杂的信息流畅通,充分发挥信息资源的作用,不进行统一的、全面的规划是不可能的。高复先老师是最先引进修正并大力推广的第一人。

信息资源规划的范围是由新建的或整合已有的信息系统所涉及的业务范围决定的。前提是已有的信息系统全部可以自由使用。如果已有的信息系统不可知不可碰,这种信息资源规划就不可行。这也是IRP的致命弱点。

信息资源规划侧重于系统内部,而SSD侧重于系统间。一个是竖向的,一个是横向的,它们T型的关系。

一个较完美的信息资源整合体系应该是高复先教授的IRP加上王权先生的SSD,即SSD+IRP。

6.SSD 体系架构

实现SSD的体系架构如下。

sdfhff

数据推送泵(DPI),把不同类型的数据,推送到数据码头(DD)中。

数据码头(DD),内部有完善的机制,对推送来的数据进行分类、存储、整理、清楚等等功能。

数据抽取泵(DPO),在遵循一定的规则和进入认证的前提下,对数据码头(DD)的数据进行定位、抓取、清洗、转换、等等功能并上传指定的地方。

SSD是理论体系,是指导思想和方法论。数据码头(DD)、数据推送泵(DPI)、数据抽取泵(DPO)的实现方式可以千差万别。

作为一个实例,SSD在智能数字油田建设中的应用架构示意如下。

sfsddsfsd

原创文章,作者:智慧城市网,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/13993.html