无标准是解决数据标准冲突最好的办法(二)

3、关于标准生命线

袁满教授是我国研究元数据少有的几个专家之一，对于元数据的研究颇有功力和见地，独树一帜。我们没有交往过，也没有见过，但是对于袁老师的大作早有拜读，只是一知半解，有点难。这次在智能数字油田论坛中见面，我们隔空问候，颇感亲切。

袁老师在读了王权主任的自标准数据之后，主动提出要写个“月子”，证明袁老师是一个很幽默且很畅快的人，刚刚写成，在给王权主任征求意见之时，大家赶着、喊着“发表，发表”，这就在不多时间后上线了，公开了，写的很多，很认真，是一个严谨的学者。

袁老师所写的主题很明确：数据标准是企业信息化与实现信息有效集成的生命线。我的理解：

1）将数据的标准提到一个很高的高度，是“生命线”，就是没有数据标准，就没有数据的活力和数据集成的生命。他用了“通则不痛”的中医学原理解释。在人体中“痛则不通”，这是因为你身体中的经络和血液不流畅造成的，这是事实。数据也一样，数据不流畅的根本原因是数据标准作的不好造成，使数据不流畅。因此，只有让数据标准唯一，数据、信息才不会发生“痛则不通”的问题。

2）数据标准是什么，就是“普通话”，大家都这样说，就能听得懂，如果你非要说地方话，那就翻译。这是数据建设和数据集成的基本原理。然而，现实世界是地方话与普通话并存的世界，这样如何来解决，袁老师倡导“属地原则”。

我们如何理解“属地原则”，这个很有学问，正是这个问题在困扰着我们，使得我们数字油田建设出现了问题。按照袁老师的意见就是，交给“专业技术部门”来做。因为专业技术部门是唯一，我理解：这个数据在哪生产的哪里说了算，别的任何地方和任何人员都要遵从，这样就不要为标准的“乱象”而苦恼。

3）数字油田建设的标准，袁老师倒是没有给出很直接的指点，但给出了油田数据业务间交换的标准（见大表）。包括数据采集、数据元字典，业务术语和业务模型等，并且给出了油田数据全部类型的表述。

更重要的是给出了数据交换的两种模式，公共标准模式和第三方交换标准。这些都是数字油田在遵循的模式。但是大量地都是第二种模式，第一种模式还做不到，因为，我们只要开发一个系统，就要建立一个数据库，最后都完全成了独立体系了。这就是目前数字油田的现状。

从袁老师这个论述中我们需要读懂一点什么真谛，这需要很好的揣摩，袁老师在对待“自标准数据”既没有直接表态支持，也没有表示反对。但是，我对一个研究元数据的专家总结几点：

1）数据标准是神圣的，是具有生命价值的事物。数据标准要严格地执行已有标准，没有标准要严格地组织人员来建。这是一个基本的态度。

2）他在QQ聊天中曾经提出自标准数据的“通信”和“协议”问题，然后，在理解了自标准数据的解释之后，提出“自标准数据”需要叫一个更加确切的名字。说明认可，但是对于定位需要再考虑。

3）标准冲突，在数字油田数据中表现的更加突出。作者的“属地”管理原则思想和“自标准数据”具有一定的相似之处，就是标准交给了“属地”，那就只有采取数据码头和数据泵的办法。因为，按照数字油田当前“只见森林，不见大树”的现状，数据难以提取和应用，仍然无法解决。即我们又回到原点了。

这是我对袁老师的大作的理解，很浅显，很多深层次的我还没有吃透，但是，袁老师给了我们很多学习和提高的基点。

需要说明的是，袁老师给出的“中医方子”（大表），困怕治不了当前数字油田数据建设的“病”了。

4、无标准的数据专家

首先，无标准，不是没有标准。其次，数据专家，是人，还是工具？是一个关于数据技术服务的软件。

4.1 背景

“数据专家”的开发与提出源于我们对于解决数字油田数据建设中存在问题的思考。多年来我们一直探索数字油田，即：“数据从哪来，到哪去”的问题。

2009年10月，我们编制完成了数字油田建设总图，提出“数字、数据、信息、知识和智慧”。数字油田建设的基本问题就是数字转化为数据，数据转化为信息，信息转化为知识，知识转化为智慧。其关键技术就是转化技术。

同时我们就开始着手研究各种数据模型，比如研究中石油的A系列。因为只要是中石油所属的油田企业信息化建设单位都会提这个系统，而且一些IT 企业以参与这个建设为荣。于是，我们就想知道这是一个什么东西。如图4：

图4 中石油信息化建设系列模型

说实在，一开始我根本不知道这是一个什么，如果叫数据模型，一个国际大公司就给出这样一个模型，让人不可思议。后来大家一直在强调EPDM模型，一个统一、规范的标准“模型”。如图5：

图5 中石油EPDM数据建设模型

对于这样个模型更是不理解。但是，为什么有这么多的人崇拜和坚持。我一直认为是一个迷。

后来，有学者对这个模型做这样描述：

①面向对象设计，模型更科学、开放，易扩展。

中国石油以前的勘探开发数据模型，大多是采用面向过程的思想设计，注重的是业务中的步骤，以及各步骤产生的结果，数据模型表结构和用户实际使用的表结构一致。而采用面向对象的思想设计，注重的是业务中的实体，及实体的活动和属性。譬如，以前的分析化验模型，把实际的分析化验表作为数据结构表，因此，分析表的数目很多，不能穷举。EPDM模型整个分析化验模型仅包括样品、样品分析和样品分析指标三张表，分析化验项目和样品分析指标元数据两张代码表。

②体现勘探开发一体化思想。

EPDM模型设计将勘探、油藏评价和开发整体考虑，模型涵盖了整个油田勘探开发生命周期的各项业务活动。同时基本实体管理采用业务单位、地质单元、工区/井组、井、井筒、完井层位/生产层段6级为主线，可以适用于勘探和开发不同阶段的数据管理。

③支持多井筒、多层段数据管理。

基本实体设计引入了井筒概念，支持多井筒、多层段数据管理。

并据学者介绍：“截至2011年12月底， A1系统累计加载地震数据4087个工区（含二维/三维、叠前/叠后），测井数据24万口井次，井筒结构化数据29万口井次，成果文档数据2.4万份，总计数据量约335TB，实现了对中国石油勘探开发数据资产的有效保护；

A2系统梳理和迁移了21万口井和700多个区块历史数据，A2系统管理了25.8万口井油气生产数据，近10亿条记录。”

由此可见是一个多么庞大的数据体系，对EPDM探讨，心存很多疑问：

1）POSC标准，国际标准。

POSC软件集成平台（SIP）是指利用一套完整的标准，定义油田勘探开发应用软件与客观存在环境（数据、用户、计算机硬件和通讯）之间的接口。

POSC提出的“开发系统标准”是完整的标准体系（图6），包括：OS（操作系统）服务、通信服务、用户界面服务、图形服务、数据交换服务、数据存取服务、信息模型服务、编程语言服务和对象管理服务。如图：

图6 POSC数据标准体系

但据有关学者说，POSC做了几年就做不下去了。不管是真，是假，但是我们的数据建设就执行了它，已经无法更改了，那如果真的做不下去，那我国执行这个标准的数据建设将来怎么办。。

2）EPDM模型在设计上是否存在问题，即“采用面向对象的思想设计，注重的是业务中的实体，及实体的活动和属性。”是否本身存在着，如部门变，系统也要变；业务变，系统也要变；标准变，系统变这样一个魔咒？

3）“勘探开发一体化”是否有很大的问题。

在对数字油田研究初期，我们在编制数字油田建设总图时也极力倡导“三个一体化”，即勘探开发一体化；经营管理一体化和地上地下一体化。但是，后来，我们发现有很大的问题，尤其是勘探开发其实很难为一体。原因很简单，勘探和开发在专业上是很远的两个“行业”，在平时的工作中这两个“行业”基本是一个“冤家”。在思想方法和工作过程完全不一样。我们在数据建设中坚持要将二者放在一个体系上，困怕就是一个错误。二者合一从一开始就造就了庞大而封闭。

由于我们对EPDM模型研究的不够，但听到各个油田公司和基层企业有很多不同的声音，并都开发了自己独立的一套东西，而集团公司又在极力推行和坚持建设。特别是不断开发的应用管理系统，在量上的增长，会带来更多的数据问题。

因此，我们在编制完数字油田建设总图之后分析和预计，数字油田数据将来会需要一个能够解决上述麻烦问题的重要工具，于是我们开发了一套能完全解决上述问题的“无标准、无缝对接”数据技术软件——数据专家（Datist），作为对数字油田数据建设不足的一个重要弥补。其过程是：

（1）2009年，理念萌芽。当时我们在编制中国数字油田建设总图中就发现，我国数字油田建设顶层设计存在缺陷，未来数据应用将出现死结。

（2）2011年，我们建立模型，形成1.0雏形。以内存表、解释型公式计算，将数据载入系统计算资源中，初步实现数据处理过程的可视化操作。

（3）2012年，数据专家2.0改版，完成软件基本框架设计，以内存表、编译型公式计算，提高软件处理性能，初步实现TACgis呈现。

（4）2013年，数据专家3.0，成型。产品化，重构软件基本框架，通过无标准构建，精细化设计，数据库引擎流程化，节点式、可视化操作，数据融合、整合、提取、推送完全智能化。

我们的口号是：为数字油田数据，提供五星级的服务（李剑峰语）。数据专家，非你莫属（口气有点大）。

4.2 无标准理论与数据技术服务理念

无标准，不等于不要标准，而是更加尊重标准、坚持标准。“数据建设，标准先行”这是我们一贯的原则，可以在《数字油田在中国——理论、实践与发展》中找到根据。就是我们遵循原数据库和原开发系统中的任何标准，然后开发一套能够打通这些标准下建设的各种数据库、各种信息管理系统的系统。

数字油田数据建设是一个很大的系统工程，因此，我们将其定位为“数据工程”。数据工程既要符合信息系统基本理论和原理，是信息技术的重要成果之一。还要符合油田业务技术对数据的需求，满足业务工作对数据的共享。但是，由于我们数字油田没有进行过顶层设计，或者说数字油田顶层设计的缺陷，目前对于数据的提取和应用不顺畅。这样就是数据工程建设中的一个大问题。因此我们必须采取措施以弥补，完成对数据进行提取、整合、融合和推送。但是不要建立新标准，也不改变原标准。这就是一个无标准理论与观点。

我们对数据专家做了顶层的设计，即：数据专家是一个能够完整提取多源、异构、多尺度（不同数据库、不同格式、不同MIS）数据，进行数据融合、数据整合和数据推送的智能化的大型数据技术服务工具，解决了当前大数据、标准冲突、数据“鸿沟”和信息“孤岛”的问题。其基本的模型结构，如图7:

数据专家分为三个层次，初级、中级和高级阶段，目前已经完成了初级和中级开发，就是可以利用数据专家完成对不同数据库，不同应用管理系统中的数据提取，并进行数据整合、数据融合与数据推送。可以经过对数据的整合、清洗、合并、智能解析等等的处理，还可以在GIS平台中对成果呈现。数据专家是采用流程化模式，节点式操作，简单、方便、开放、可视化，提供二次开发。

这三个层次是从数据到数据，其基本功能作用是数据提取、数据整合、数据融合与数据的推送；从数据到应用，其基本功能作用是数据的整合、清洗、合并、智能解析等等的处理与呈现，还可以进行各种应用系统的开发。从数据到智慧，这是我们未来开发的高级别层次，就是知识管理和智慧油田。

数据专家系统，其基本功能定位和作用，如图8所示：

图8给的是数据专家系统的位置与作用，就是我们将数字油田数据分为三层，最底层为数据中心，这个数据中心，就是我们已经完成的数字化数据库，包括各种管理系统，如EPDM模型建设数据管理系统，ERP以及各种独立的管理系统数据库等。最上层是一个展示层，就是通过数据专家提供的数据，可以顺利而且很容易地导入各种专业软件中，成为各种专业应用所做的综合地质研究或者综合管理成果等，同时我们提供GIS平台可以在呈现相应的成果。即利用数据专家提供的数据完成开发，由数据专家提供的GIS平台展示成果。

当然，其核心是数据专家层，在数据专家中有几个重要功能：

（1）数据提取。数据提取不需要为数据的标准纠结，数据的标准执行数据库中的原标准，这里我们只需要通过我们开发完成的底层通讯和协议同所要提数据的库或者系统沟通，就可以快速的提取数据。

（2）数据融合。数据融合的基本作用是将不同格式、不同数据库的数据，在需求条件下，可以快速的提取，然后通过流程化的运行和节点、可视化的操作，完成对数据的融合，并且可以在展示层快速地呈现。如图