数据标准是企业信息化与实现信息有效集成的生命线

中国石油工业的信息化走过了近半个世纪,经过这近半个世纪的建设,我们既有
成功案例,也有失败的经验。特别是近几年,随着云计算、物联网、大数据、计算
智能、语义Web等新技术的层出不穷。使得我们获取信息、存储信息以及信息处理的
能力变得越来越强。例如,过去我们采集数据的周期相对来讲比较长,有的采集周
期可能是1次/天,或几次/月,而现在,随着物联网与传感器技术的发展与应用可以
实现对数据的实时采集、传输、存储、分析与处理。如此海量数据的存储、分析与
检索等最基本的要求是如何将这些既丰富多彩,又复杂的数据实现互联互通。中国
的中医理论讲“通则不痛”,而现在我们的应用系统基本处于分散、孤立的运行状
态,这些应用无法实现互联互通,因此,导致设计层面、开发层面以及应用层面的
各种用户处于一种“痛”的状态。通过对国际与国内信息化及信息集成领域的研究
发现:为了实现互联互通这一基本目的,如果不从元信息层面来组织这些种类繁多
、类型复杂的数据,即建立元信息目录,那么未来根本就无法掌控这些如此复杂与
种类丰富的海量数据,就更谈不上对这些数据进行有效的处理了。这里所谓的元信
息就是指由各种各样的数据标准组成的数据标准体系。

袁满
东北石油大学 信息集成与分布式计算研究室
(yuanman@nepu.edu.cn)

一、前言
中国石油工业的信息化走过了近半个世纪,经过这近半个世纪的建设,我们既有
成功案例,也有失败的经验。特别是近几年,随着云计算、物联网、大数据、计算
智能、语义Web等新技术的层出不穷。使得我们获取信息、存储信息以及信息处理的
能力变得越来越强。例如,过去我们采集数据的周期相对来讲比较长,有的采集周
期可能是1次/天,或几次/月,而现在,随着物联网与传感器技术的发展与应用可以
实现对数据的实时采集、传输、存储、分析与处理。如此海量数据的存储、分析与
检索等最基本的要求是如何将这些既丰富多彩,又复杂的数据实现互联互通。中国
的中医理论讲“通则不痛”,而现在我们的应用系统基本处于分散、孤立的运行状
态,这些应用无法实现互联互通,因此,导致设计层面、开发层面以及应用层面的
各种用户处于一种“痛”的状态。通过对国际与国内信息化及信息集成领域的研究
发现:为了实现互联互通这一基本目的,如果不从元信息层面来组织这些种类繁多
、类型复杂的数据,即建立元信息目录,那么未来根本就无法掌控这些如此复杂与
种类丰富的海量数据,就更谈不上对这些数据进行有效的处理了。这里所谓的元信
息就是指由各种各样的数据标准组成的数据标准体系。
在本文中,作者对在该领域多年研究的理论、技术与经验进行了总结,认为企业
信息化的重要的生命线就是数据标准化,没有数据的标准化就谈不上企业的信息化
,更谈不谈上信息的自动化、协同化、智能化,也就根本不会有智能油田的存在。
在本文中,作者将人类研究语言学中相关理论与技术引入到企业为什么必须做标
准化、为什么不做不行、标准到底应该如何来做,并从数据高层方法论标准与具体
专业标准两个层清晰地论述出了需要做的数据标准体系。并分析了标准到底应该站
到哪个高度来做,据此提出了标准研究与制定业务中的等各种角色,并给每种角色
赋予了一定的责任。为了深入分析标准冲突的实质,作者定义了三个世界,并给出
了解决冲突的关键在于对概念(术语)的标准化,并提出了标准化的“属地”管理原则
。针对目前存在一些标准以及人们做标准的为难情绪给出了已有标准如何与新标准
的融合问题的解决办法。

在文中的最后,通过对语言学中人与人之间交流实例的分析,给出了两种典型的
数据集成(交换模式)模型。通过对两种交换模式的深入剖析,再次告诉大家,集成(
交换)本质是数据标准化问题,又一次提醒大家数据标的重要性。数据高层方法论标
准站的角度越高,就意味着其覆盖的专业面越宽泛,它所能左右的专业面就宽泛,
通过数据高层方法论标准的控制使得这些专业数据高度共享变得更加容易!作者认为
数据标 准化能够从根上治理IT。
总之,作者根据自己多年在该领域的研究和项目实施经验全面论述了标准中的一
些关键问题,未来会针对这里的具体问题开展研究。
二、为什么信息化过程中必须要做数据标准化
信息化目的是将现实工作流映射到计算机里以实现电子化业务工作流过程,用来
辅助人们实现相关工作的半动自化或自动化过程,以期提高劳动效率、提高数据分
析的准确度、提高数据管理的能力、提高辅助决策的水平以及达到快速获取信息的
能力等。
众所周知,计算机系统无论是硬件系统还是软件系统,它之所以能够有序运行,
是因为这些系统遵循着相应的标准与协议的,由此可以看出计算机最讲究的是规范
化与标准化,如果没有这一点,计算机根本就无法工作。举一个人类社会语言学的
例子,在现实世界中每个人就相当于计算机中的一个应用或进程,没有哪个人能够
独立于人类社会之外,既然不能独立之外,那么就必然要与各种人进行交流。这个
交流的媒介就是语言。例如,中华人民共和国规定中国公民交流的标准用语是普通
话,中国各个地方的方言差别是相当大的。作为中国这样一个大国,为什么还要制
定普通话作为中国人交流的通用语言标准呢?中国儿童从上幼儿园一直到大学,学
校里教授的都是普通话,普通话的普及率最高,这也是普通话共享率高的原因。无
论是哪个地方的中国公民,不管他是广东的、还是浙江的,当这些人进行交流时,
其交流的语言就是中国的普通话,书写的文字就是汉字。这样一个泱泱大国不惜代
价都要将中国话标准化在普通话上,试想一下,我们一个小小的石油或石化工业呢
。因此,从语言标准化角度来看,数据标准就是相当于我们信息化的“普通话”,
因此作为石油与石化工业是一定要开展标准化的研究、制定、发布、宣贯、推广应
用这样重要工作的。

三、三个世界与数据标准化的关系
数据标准化的实质是什么?为了分析清楚这个问题,我们首先定义三个世界,
见图1,它们依次为现实世界、概念世界和计算机世界。现实世界中包含着各种形形色
色的事物,是现实存在的。现实世界中的事物经过人脑抽象形成各种各样的概念,
在人的大脑中形成了所谓的虚拟化概念世界,现实世界的形态决定了概念世界的形
态,概念世界是由各种概念以及概念间的关系构成。现实世界按着自然规律运行与
发展,有其运行的规律。在概念世界中,人脑不但能够建立起这些概念模型,而且
现实世界
(丰富多彩的大
千世界,包括
各种事与物)
抽象
概念世界
(由各种概念以
及概念间的关
系等组成)
设计与实现
计算机世界
(利用计算机
的各种模型进
行描述、实现
与运行)
图1 数据标准化与三个世界的关系
经过在现实世界中的实践中积累的知识与经验实现深层次推理、能够认识规律、利
用规律来改造现实世界。而计算机世界完全是人类依靠人类对现实世界的认识,人
为制造出来的现实存在的计算机系统(既包括硬件,又包括软件),并利用人类大脑的
智慧发明了表达和描述信息的各种各样复杂模型,像描述实体间关系的E-
R模型以及用于描述数据逻辑关系的关系数据模型、层次数据模型以及用于描述概念
的本体或者用于描述功能实现中的面向对象中的类等等。
数据标准化的实质初看起来仅仅是数据的问题,其实不然。数据标准中核心的
内容之一就是术语或概念的标准化。目前,从根上分析可以看出:数据标准出现冲
突的主要原因就是对这些概念定义不一致,所以才导致了这些标准的冲突,难统一
。按照数据元素理论,概念处于核心地位,在现实世界中数据产生冲突的原因归结
为对象概念的冲突,包括对象名称的冲突和语义的冲突、即同一个对象命名出现了
同名异义,或同义异名;对于描述对象属性概念的冲突也存在这种情况,即描述同
一个对象的属性名称与语义的冲突问题,例如属性的名称相同语义不同或者是属性
语义相同名称不同、或者是描述同一个对象的属性类型与值域冲突等。因此,对于
数据标准化的重要工作之一就是概念或术语的标准化,目前关于术语标准化在国内
研究的也很多,并且许多成熟的方法论可以借鉴。
总结起来:无论是对象还是属性,冲突体现在“名”、“型”以及

“值”上。这里的“名”不仅仅代表对象或属性的名称,还代表语义、语境(即应用
的上下文环境)、“型”主要是指属性的类型,或数据元素的取值类型,这种冲突一
般主要体现在原本类型是值类型,却定义成了字符串类型,“值”的冲突一般主要
是指属性或数据元素取值类型的冲突。
出现这些冲突的根本原因在于:不同专业的人对于同一事物认识的角度的不同
,即同一个现实世界中的事物,在不同专业人员脑海的概念世界中形成的概念不一
样,由于这种冲突问题本身在现实世界中就真实地存在,结果也同样导致了概念世
界中这种冲突事实的存在。而在将这些概念世界中的概念向计算机世界中映射时,
如果不消除这种冲突,同样在计算机中也会存在这些冲突。因此,为了使这些发生
冲突的概念得到统一或标准化,那么要求我们要么在三个世界中都统一,要么在概
念世界与计算机世界中得到统一,总之,无论如何至少应该在概念世界中得到统一
。只有在概念世界里得到统一了,信息人员在将这些概念向计算机世界映射(设计与
实现)时才能得到统一。
如何解决这种冲突问题呢,办法只有一个,那就是严把概念产生的源头关,即
在概念诞生专业领域的源头,由该专业领域专家进行定义,其它任何专业对于这个
概念的应用只能是引用,即重用,而不是再定义,所谓的“属地”原则。就是在概
念产生的源头进行标准化!
有人说,既要有统一,又有要自治,当然这种自治,我们是允许的,即在你本专业
内部可以使用这些概念,但超出你的专业领域需要进行数据交换的时候就必须遵循
统一的概念标准。
因此,要做好我们的标准,就一定要精确定义我们各个专业领域的概念(术语),只有
这一层规范了,才能保障我们映射到计算机世界中概念的一致性。
现实世界中的业务会有一定的随机性,因人而异,而在计算机世界中的业务是事先
按着人们设计好的逻辑在运行,因此绝对不会出现随机运行的状况,也不会因人而
异。这也是计算机世界和现实世界的最大的区分。经过三个世界的演变,最终业务
信息映射到计算机世界中,实现了业务的电子化。无论是哪方面的标准化,最终都
是为业务的电子化服务。
四、目前再提数据标准的问题是不是为时过晚

首先,信息化走到今天,由于企业积累了大量的分散的数据、应用,并有了一些
标准,所以目前,关于标准的事,有许多人一直在纠结这样的问题:信息化搞了这
么多年,而且现在应用系统也是种类繁多,有进口的、有自行研发的,然而,这些
应用系统几乎是各自为政,很难整合在一起来满足人们生产、管理以及科学研究和
决策协同要求。出现这种问题的根本原因,我们在上面也分析过了,主要是信息化
过程中缺乏标准而导致。我反过来要问,这种局面我们放手不管,让它继续无序地
向前发展吗?周知,世界就本来就是一个从无序到有序的进化与发展的。我们的信
息化建设也同样遵循这样的规律,
既然现在处于一种无序的状态,那么我们就必须想法设法让它由无序向有序转化。
从辩证的观点来看,如果将当前的时间作为一个参考点的话,这个参考点对于过去
的时间,它就是一个结束点,对于未来它就是的开始点,见图2。按着这种观点,相
对于未来,我们的信息化建设也是一个起步的过程,信息化建设是一个无限迭代、
螺旋上升的过程。既然我们认识到了这一个起始点,为什么不行动、下决心做好我
们的标准,以保障以后向有序的方向发展。现在做标准正当时,通过前段时间的无
序发展,我们深深认识到了标准的重要意义,而且通过这段时间的信息化,我们国
人也明白了国外信息化的一些好的经验、好的做法,通过这些过程,我们积累了一
些宝宝贵的理论、技术以及好的经验。这些都充分地坚定了我们要做了标准的自信
心。
未来的才刚开始……
过去的就永远过去了……
现在是未来的开始
图2
目前时间参考点(过去的结束
,新的开始参考点)
其次,通过这些年的信息化建设,我们也引进了许多国外的优秀软件。通过对这些
软件的应用,我们也深深体会到了,因为没我们自己的标准,所以就必须应付国外
这些软件要求的各种各样的复杂数据格式的需求。例如,对于我们引进的数模软件
,大家都知道,要进行一次的数模仅仅按着它的这些国外数模软件准备数据卡片的

时间就占用数模一多半时间,所以整理数据要花费大量的专业人员的时间,假如,
如果我们有自己的标准,那么我们在购买这些软件时,必要要求他按照我们的标准
来进行数据的准备工作,这样会给我们的专业人员节省多少时间!
所以从这个角度来讲,必须做我们的标准,并推行我们的标准。
最后,通过做标准的过程,能够从根本上规范化我们相同业务流程不规范、不统一
的问题,目前,
由于传统的管理模式、或管理的习惯就是同一项业务在同一个油公司不同的不同采
油厂竟然不同,这也是导致我们在推行这些应系统时遇到的最大的阻碍。因此,从
这个角度来讲,也必须做我们的数据标准,以数据标准化促进业务流程的标准化。
五、标准应该怎么来做?
标准既要注重实际,同时更要有科学的方法论作为指导,这些方法论从哪里来,
一部分是来自于理论,更大的一部分是来自于对国际和国内先进方法论的研究与认
识。因此,特别是作为国际标准、国际同领域相关标准的研究至关重要,通过对这
些内容的研究,并结合我国石油石化工业现实,来研究并制定符合我们客观实际的
标准。
1、关键是从我们生产、管理以及科学研究的实际出发,分析并规范我们的业务。
从宏观到微观梳理清楚我们的数据流。各个专业的业务机构认真梳理并定义出各自
和业务流程,这些业务流程主要体现在数据流动方面,见图3所示。

理论上的数据处理层级
更高级单位数据应用
采油厂生产领域数据处理
国家级数据处理
测井领域数据处理
国家级数据处理
再上级单位数据应用
股份公司级数据处理
股份公司级数据处理
再上级单位数据应用
油公司级数据处理
油公司数据处理应用
上级单位数据应用
采油厂级数据处理
测试分公司数据解释
信息点所属单位数据应

信息产生点
采油队级数据处理
测井队数据处理
单井数据采集
单井测井数据采集
图 3 从专业的组织机构看业务在纵向、横向以及内外的数据流动
数据流应用中的几个特点:
(1) 纵向上,自底向上,其数据元素应用数量呈递减趋势,由单一细节指标到综
合统计指标数据进化、数据的应用频率呈现出由强到弱递减趋势。
(2) 横向上数据间的交换常常发生在相关或相近的专业应用之间。往往是越是综
合性研究的应用,这种交换就越频繁。例如,油藏描述这样的研究项目涉及
的专业面就比较宽泛,涉及的专业有地质、测井、试井、测测解释、油田开
发等。这样的综合研究应用必然要从相关的专业中获取他所关心的数据。
(3) 内外数据流:在图3中没有给出内外数据流的情况,如果将整个中国石油作
为内部机构,那行银行、税务、中石油的各种合作方等均属于外部机构,由
于业务的合作关系,必然会发生中国石油内部机构与外部机构发生数据交换
的情况,即发生数据的双向流动。
(4) 如果排除组织机构以及内外的区分,将所有业务扁平化处理,那么所有相关
业务间都可能会发生数据的流动,没有纵向、横向以及内外之分,而且这种
数据流均为等价的,没有区别。
结论:
(1)、通过对数据流的深入分析可以看出:石油工业涉及到多学科,而每个学科
又包括多个专业,例如对于油气田开发学科包钻井专业、采油专业、开发专业

等;地球科学学科包括物探专业、测井专业、地质专业、地物专业等。对于任
何一个专业内所生产的数据除了供自己专业共享之外,有些数据还会被其它专
业所使用(引用),即共享,如果这些数据被其它专业引用的越多,说明这些数据
的共享度就越高,这种共享说明了其它专业的业务与该专业的相关业务交流的
频繁程度。从这个角度讲,共享程度越高,那么要求这些被交流的数据就应该
标准化程度越高。
(2)、无论是纵向流动、横向流程或内外流动,总之可以归结为源与目的间数据
的流动,源一般是数据的产生地、目的是对源数据的引用地,如果由于源与目
的各方对同一个数据项或概念名称与语义定义存在差别,那么必然会导致源与
目的数据交换时冲突现象的发生。因此,在数据标准化的过程中,也要像数据
采集标准一样,产生数据的点负责数据的采集,其它任何点无权对数据采集或
二次录入,其目的就是要保障源头
唯一,其它点要应用该点的数据就只能是引用(当然这种引用有直接引用,还可
能复制引用),结果就保障了数据产生的唯一性,即控制点唯一。同样,标准也
必须遵循这个原则,即数据元素和相关的概念在哪个学科的哪个专业产生的就
由哪个专业负责对其进行标准化,包括它的术语定义与解释、其它的任何专业
无权对该术语进行定义与诠释,这样就保障了标准化的权威性。从而避免了一
切的所谓数据元素以及术语的冲突问题。即标准化工作也应该遵循“属地”原
则,即各专业负责规范或标准化各自专业的术语与数据元素字典,负责各自专
业数据的采集与质量控制,其它专业如果涉及到应用这些专业的数据,那首先
必须遵循该专业的一切规范与标准!所以各个专业必须控制好源头的事!
2、做标准必须有一个团队,明确团队的分工

为使标准做得专业,专业标准必须由专业组成专家团队来负责对专业术语
和数据元素字典的定义,为满足该专业自底向上不同层面的应用,专家团队人
员应该包括自底向上不同层面的专家组成,这个团队是长期的,而不是暂时的
,主要职责是标准的研究、制修订、维护、发布、宣贯、推广应用。这个团队
包括企业各专业的业务专家,见图4。
(股份公司或行业级)数据标准高层
方法论与专业数据标准化制定委
员会
财务专业标准化委员会
物探专业标准化委员会
测井专业标准化委员会会
地质专业标准化委员会
钻井专业标准化委员会
录井专业标准化委员会
测井专业标准化委员会
试油试采专业标准化委员会
。。。。。。
管道专业标准化委员会
炼化专业标准化委员会
销售专业标准化委员会
先进标准研究委员会
3、团队分工
人力资源专业委员会
图 4 两级标准化委员会组织机构
先进标准研究委员会:这个委员会负责对国际标准、国家标准、行业标准、国
际石油石化先进标准以及标准涉及的相关理论与技术的研究。这些研究任务一
方面可以借助企业力量,另一方面可以借助于石油类或相关高校以及研究所的
力量来对这些先进标准的研究,一旦成熟就可以应用于我国石油与石化工业的
信息标准化中,使其从理论走向应用。也可以加入国际上有一些标准化组织,
加强对这些组织的先进技术跟踪研究。通过这些研究从更高层面或具体的应用
层面提出切实可行的方法论。

4、标准制修订中信息人员与专业人员的关系以及标准站的高度问题
有些人误以为标准应该由信息人员来做,其实这种观点不是完全正确的,如
果该标准属于信息方面的,例如网络相关的标准,即属于IT领域的相关标准就应
该由信息人员来制定。如果属于非信息专业方面标准,例如钻井专业数据标准
,那么就必须由钻井专业的人员来制定,信息人别为辅助。
因此,数据高层方法论标准的制定是有高度的,如果仅仅是站在勘探开发板
块的高度来考虑方法论标准的制定,那么制定的方法论标准只适用于石油与天
然气上游。如果数据高层方法论标准站在整个中国石油天然气集团公司的高度
的,那么这个方法论就适用于中国石油天然气集团公司上、中下游的各个专业
,因此,方法论站的角度越高,标准覆盖专业的范围就越宽广。
结论:通过本节的讨论可以得出这样的结论:数据高层方法论标准的制定应该
站在整个各个股份公司高度,这样是比较科学的。下属的各个专业必须遵循这
个方法论标准来实施对各个专业标准的制定。假如这些高层方法论标准从各自
的专业角度出发,各个专业负责制定本专业的方法论,如果有N个专业,可能会
出现N个方法论,这样做不但为各个专业的标准化小组的工作增加了工作量,而
且更重要的按着各专业标准化委员会制定的标准本身就必然要导致这些专业间
标准的差异性,这本身就是又在做“信息孤岛”的工作。因此,建议高层方法
论标准在股份公司级来做,甚至可能,可以在行业级标准化委员会层面来做。
但至少应该在股份公司级来做。
这样,各个专业委员会就各施其职,保障工作的有序性、协调性、高效性!
六、数据标准体系以及支撑平台
1、数据高层方法论标准体系
各个专业数据标准体系是什么样子的,到底要制定哪些标准,制定这些标准
的依据或方法论(即所谓的数据标准的高层方法论标准)是什么。专业数据标准是
依据这些数据高层方法论标准对其实例化的过程。因此,高层方法论标准至关
重要,它就就是一个风向标,有了这个风向标(指挥棒),对于专业标准的制定只
是一个时间与工作量问题了,图5给出了数据高层方法论标准体系结构。

高层方法论元信息标准
数据交换标准
数据存取标准(数据模型应用标准)
数据质量控制与评估标准
数据采集标准、传输、存储标准
数据模型建模原理方法论标准
数据元素设计方法论标准(信息分类与编码标准)
石油石化工业术语方法论标准
数据分析方法论标准
业务建模方法论标准
数据安全标准
图 5 数据标准中的高层方法论元标准
依据图5给出的数据高层方法论标准,定义出了各个专业制定的具体的数据标准
体系,见图6。自底向上,依次定义出数据的安全标准(可能是系列标准)、专业的
业务模型标准、专业业务的术语标准、专业业务的数据元素标准、专业业务的
逻辑数据模型标准、数据采集与质量控制标准、专业内部数据存取标准(业务应
用数据模型标准,这里所谓的应用数据模型标准是针对业务具体应用而言,可
能是一些常用的报表、图等常用的数据。这些应用模型可以直接利用本专业的
数据元素字典标准再结合逻辑数据模型进行定义,这个标准可以不用硬性定义
,可以根据专业自己的应用情况进行灵活定义。对于关系模型来讲可以采用视
图(存储过程以及触发器等)定义的方式进行应用数据模型的定义)。
数据采集与质量控制标准均是为保障数据的质量而制定的标准。专业内部数据
间的交换依据存取标准实现对数据获取的需求,而专业间的数据存取要依靠专
业间的数据交换标准来实现。因此,要根据专业间的需求制定这些数据交换的
标准,通过数据交换标准实现不同专业间的数据共享。

销售专业内数据存取标准
销售业务数据采集与质量标准
销售业务逻辑数据模型标准
销售业务数据元素字典标

销售业务术语标准
销售业务模型标准

管道专业内数据存取标准
管道业务数据采集与质量标准
管道业务逻辑数据模型标准
管道业务数据元素字典标

管道业务术语标准
信管道业务模型标准
测井专业内数据存取标准
测井业务数据采集与质量标准
测井业务逻辑数据模型标准
测井业务数据元素字曲标

测井业务术语标准
信测井业务模型标

录井业务数据采集标准
录井业务数据元素字典标

录井专业内数据存取标准
录井业务数据采集与质量标准
录井业务术语标准
录井业务模型标准
钻井专业内数据存取标准
钻井业务数据采集与质量标准
钻井业务逻辑数据模型标准
钻井业务数据元素字典标

钻井业务术语标准
钻井业务模型标准
图 6 具体专业的数据标准以及专业间数据交换标准体系
化探专业内数据存取标准
化探业务数据元采集与质量标

化探业务逻辑数据模型标准
化探业务数据元素字典标

物探业务数据采集与质量标准
物探业务逻辑数据模型标准
物探业务数据元素字典标

信息专业内数据存取标准
信息业务数据采集与质量标准
信息业务逻辑数据模型标准
信息业务数据元素字典标

物探专业内数据存取标准
炼化专业内数据存取标准
炼化业务数据采集与质量标准
炼化业务逻辑数据模型标准
炼化业务数据元素字典标
炼化业务术语标准
炼化业务模型标准
业务间数据交换标准
化探业务术语标准
化探类业务模型标准
物探业务术语标准
物探类业务模型标准
炼化业务术语标准
信息类业务模型标准
2、各专业具体的数据体系
具体的专业标准

在具体的专业标准制定过程中,我们专业标准化委员会也不同闭门造车,必
须考虑与国际同领域标准的引用或兼容。例如,在制定术语标准中,为考虑以
后与国际同领域信息的通畅交换,在制要时如果国际有同样的标准就必须引用
,因此,只要是标准体系中的标准,在制定过程中必须要考虑与国际相关标准
的接轨。如果专业标准化委员会在标准化过程中遇到了相关专业需要协调的问
题,那么交由高层委员组协调解决。
3、现有的数据标准该与新标准的融合
由于中国石油石化工业比较缺乏数据高层的方法论标准,所以导致各个专
业制定的各自专业数据标准存在一定的差异性。尽管有部分数据高层方法论标
准,像一些行业标准,一方面由于这标准制定的时间比较晚,另一方面,一些
专业根本就没有按着这些相关的标准来制定专业的数据标准。
对于已有标准,可以按着新的数据高层方法论标准进行改造与完善,使其
与新标准实现统一。有些人可能会有为难情绪,这是可以理解的,改造与完善
过程中必然会存在一定的困难,但是这些工作比起从头开始还是容易些。所以
一定要下决心改造与完善这些老的标准。对于以后或未来有新的应用需要开发
的时候,就必须遵循新的标准来进行。特别是数据元素字典标准,它与底层存
储的数据模型没有关系。
4、建立统一的标准制定与发布信息平台
首先要规范标准制定、审查、发布、应用等业务的流程,要实现这些功能就
必须考虑设计并开发实现标准从制修订、审查、发布等辅助综合信息管理平台
,以提高标准制定的规范性、效率性。同时,可以考虑与相关的软件公司结合
,开发一些相关的软件工具,例如业务建模工具、数据分析工具、数据元素字
典标准辅助工具、数据迁移工具、标准升级后的数据同步更新工具软件等。
七、数据交换技术研究以及几种典型的交换模式
1、语言学的基本要素与数据交换的关系
在论述数据交换(即数据集成)之前,首先讲一讲人类语言学的一些基本理论,人

类语言学的四个基础组成部分是句法(Syntax词素和单词联合构成句子的规则,就称
其为句法)、语义学(Semantic,
句子的含义就是语义学)、语用学(Prgramatics,语言通信不会发生在真空,它经常会
发生在一定的环境中,即它经常会发生在某个时间、某个地点,并且参与者之间具
有特别的目的,语言交流发生的环境的研究称为语用学)。信息集成领域的数据交换
与语言学中的语言交流是类似的过程,数据交换的基本要素就是数据集。这些数据
集是按着一定的规则组织在一起的,这些规则就是相当于语言学中的句法(在信息集
成领域称为语法),组织成一个数据集,必然要有描述该数据集的数据结构,这个结
构就相当于语法,这个数据结构主要由数据元素字典来描述;构成这个数据集的每
个数据项都有其含义,对于进行数据交换的双方彼此都清楚这些数据项的含义,这
就相当于语言学的中语义学,在信息集成领域称其为语义。数据交换的双方在特地的
时间与地点,即交换的环境,在信息集成领域称为语境,彼此也十分清楚要交换的
这个数据集所应用的语境。因此,在研究信息集成领域数据交换技术时可以借鉴语
言学中的基本一些相关理论进行研究。目前我们研究的数据交换仅限于数据层面的
交换,随着技术的发展,以后的数据交换可能会发展为像语言学中的语音一样,实
现语音的交换。
2、几种典型的交换模式
还是以语言学中人类交流为例,虽然中华人民共和国制定的普通话标准,但是不
是允许各种方言存在的。如果交流双方都会讲方言,那么一般情况下,交流的双方
一般习惯于用方言进行交流;如果交流的双方,彼此之间除普通话之外,没有共同
的方言,那么双方就只能利用普通话进行交流了;假如,交流的双方,有一个只会
讲方言,另一个人只会讲普通话,这时如果另一方要想听懂对方讲话内容,就必须
找一个既懂普通话,又懂方言的翻译了。翻译要做的事情有两件:一件是按着普通
话标准将方言翻译成普通话,然后将翻译后的普通话再向讲普通话的人讲一遍;反
过来,翻译还要负责将讲普通话的那个人讲的普通话内容按着方言的规范翻译成方
言,翻译再将翻译后的方言向讲方言的人讲一遍,这样讲方言的人才能明白讲普通
话人所讲内容的含义。通过语言学中的实例我们可以总结出两种典型语言交流模式
:交流模式一:交流的参与者共同遵循同一个“标准”,不管这个标准是“方言”
还是普通话;交流模式二:交流的参与者不用关心其它参与者讲什么语言,任何一

个参与者按着自己的语言方式与翻译交流,通过翻译将参与者讲话内容翻译成其它
参与者能听懂的语言,即所谓第三方参与的交流模式。
根据语言学中的语言交流模式可以引申出在信息集成领域,数据交换的模式也同
样可以归结为这样的两种交换模式,一种是基于公共标准的数据交换模式,另一种
就是基于第三方的数据交换模式。
交换模式一: 基于公共标准的数据交换
图7给出了数据交换模式一,见图7所示,这个N个应用间,任何两个应用想进行
数据交换均可以通过“公共标准”实现数据的自由交换,这种交换方式由于采用的
均为“公共标准”所以实现了信息的无缝集成。这种交换方式不会因为新应用加入
,而会使交换变得复杂,具有很好的扩展性与灵活性。
应用1
应用n
公共标准
应用4
应用2
应用3
图 7应用间通过“公共标准”实现彼此间的数据交换
对于这种数据交模式,任间的需要进行交换数据的双方必须均遵循同一个标准,
这种交换模式对于N个系统需要开发N个接口。
对于这种交换模式,交换标准建议采用国际标准或行业/企业研发的数据元素字
典标准为基础,按着语法、语义以及语境来定义了交换数据的数据结构,以保障交
换双方所需要的数据是真正意义上各自所需要的数据。因此,在数据交换标准制定
时必须严格按着语法、语义以及语境控制交换标准的精准性与可用性。

交换模式二:基于第三方的数据交换模式
对于国与国的交流,或语系不同的人在进行交流时,如果不要求各方一定讲英文
,那么就用翻译吧,各方还是讲自己的母语或自己熟悉的语言,中间增加一个第三
方,即翻译,翻译负责将语言交流双方语言翻译成双方各自能听懂的语言或各自的
母语,即翻译起到了一个语言转换的角色,如果将语言应用的实例对应到数据交换
中去,那么这种通过第三方实现数据交换的方式这样翻译就起到了一个第三方的作
应用i
本地规
范i
接口1_i
接口2_i
接口n_i
本地规
范1
本地规
范2
本地规
范n
应用1
应用2
应用n
图8 应用间通过第三方代理实现数据交换
用,如果应用到数据交换中去,那么这种交换方式,即所谓的通过第三方实现两个
应用间的数据交换,这时的第三方相当于代理作用,它起到的主要作用是数据双方
转换功能,这种情况见图8所示,其中任何两个应用间的转换接口就相当于代理功能。
对于这种数据交换方式在实现信息集成的时候,如果有N个系统彼此间任何双方
都要进行数据交换,那么这种交换要实现接口数量是N*(N-
1),对于以后系统的扩展性具有很大的影响,不仅如此,开发如此多的接口会增加系
统维护的工作量,对于系统比较多的情况下,这种方案几乎是不可行的。

目前,许多企业在进行信息集成的时候,多数在采用交换模式二,这也是没办法
的办法。因此,从长远发展的角度来看,要实现信息的互联互通,自由交换必须采
用第一种交换模式。从这个角度来讲,企业更应该统一标准,标准是根,是解决信
息集成这个事物中的主要矛盾,只有将这个问题完全解决了,那么以后的所有工作
就有了根基。因此,我们必须下大力气来做好我们这些基础数据标准。
八、标准化中领导的重要作用以及应具备的技术
人们常常听到这样的话:信息化是一把手工程,这句话讲得相当到位。如果一个
企业的一把手对信息化建设不重视或对信息化建设缺乏认识,那么这个企业的信息
化水平一定不会很高。因此,建议企业领导,特别是企业高层领导应该学习或掌握
一定的信息技术,这样对于促进本企业的信息化建设既有战略意义,又有战术意义!
后记
数据标准化中有诸多问题需要研究与解决,特别是文中提到的数据高层方法论
标准的研究。所提出的高层方法论标准中的每一个都需要我们下功夫来深入地进行
研究,像目前关于业务模型建模的方法很多,传统的DFD方法、IDEF方法、CIMOS
A方法、ARIS方法、Petri网方法以及UML方法等,然而这些方法到底哪一种适用于
我们石油石化工业的业务标准来指导业务模建模呢?文中提出的数据高层方法化标
准都需要我们大家共享努力来研究,研究出科学的、适用的、可操作性强的元标准
。文中的观点希望与各位同行与专家探讨,不当之处并请批评指正!
作者 于东油,2013年12月22日,于雪花飘飞的季节!

原创文章,作者:智慧城市网,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/13560.html