数据标准化的实质—学习袁满教授文章感想之一

袁满教授论述如下:
数据标准化的实质初看起来仅仅是数据的问题,其实不然。数据标准中核心的内容之一就是术语或概念的标准化,目前,数据标准出现冲突的主要原因就是对这些概念的定义不一致,所以才导致了这些标准的冲突,难统一。按照数据元素理论,概念处于核心地位,在现实世界中数据产生冲突的原因归结为对象概念的冲突,包括对象名称的冲突和语义的冲突、即同一个对象命名出现了同名不同义,或同义不同名;对于描述对象属性概念的冲突也存在这种情况,即描述同一个对象的属性的名称与语义的冲突问题,例如属性的名称相同语义不同或者是属性语义相同名称不同、或者是描述同一个对象的属性类型与值域冲突等。因此,对于数据标准化的重要工作之一就是概念或术语的标准化,目前关于术语标准化在国内研究的也很多,并有许多成熟的方法论可以借鉴。总结起来:无论是对象还是属性,冲突体现在“名”、“型”以及“值”上。这里的“名”不仅仅代表对象或属性的名称,还代表语义、语境(即应用的上下文环境)、“型”主要是指属性的类型,或数据元素的取值类型,这种冲突一般主要体现在原本类型是值类型,却定义成了字符串类型“值”的冲突一般主要是指属性或数据元素取值类型的冲突。出现这些冲突的根本原因在于:不同专业的人对于同一事物认识的角度的不同,即同一个现实世界中的事物,在不同专业人员脑海中的概念世界中形成的概念不一样,由于这种冲突问题本身在现实世界中就真实地存在,结果也同样导致了概念世界中这种冲突事实的存在。而在将这些概念世界中的概念向计算机世界中映射时,如果不消除这种冲突,同样在计算机中也会存在这些冲突。因此,为了使这些发生冲突的概念得到统一或标准化,那么要求我们要么在三个世界中都统一,要么在概念世界与计算机世界中得到统一,总之,无论如何至少应该在概念世界中得到统一。只有在概念世界里得到统一了,信息人员在将这些概念向计算机世界映射(设计与实现)时才能得到统一。如何解决这种冲突问题呢,办法只有一个,那就是严把概念产生的源头关,即在概念的诞生的专业领域的源头,由该专业领域的专家进行定义,其它任何专业对于这个概念的应用只能是引用,即重用,而不是再定义。即所谓的“属地”原则。就是从产生的源头卡住!有的人说,既要有统一,又有要自治,当然这种自治,我们是允许的,即在你本专

业内部可以使用这些概念,但超出你的专业领域需要进行数据交换的时候就必须遵循统一的概念标准。
因此,要做好我们的标准,就一定要精确定义我们各个专业领域的概念(术语),只有这一层规范了,才能保障我们映射到计算机世界中概念的一致性。现实世界中的业务可能会有一定的随机性,因人而异,而在计算机世界中的业务,是事先按着人们设计好的逻辑编,所以它不会随机运行,也不会因人而异。这也是计算机世界和现实世界的最大的区分。经过三个世界的演变,最终业务信息映射到计算机世界中,实现了电子化业务。无论是哪方面的标准化,最终都是为业务的电子化服务。
感想:
数据标准的核心一定是 术语或概念的标准化。导致概念不能够标准化的关键就是对于概念的“名”、“型”、“值”的认识上的不一致,对“名”的定义不同、对“型”的类型定义不一致、对“值”的定义有别。从而是对于概念的解析发生了分歧,以至于向信息世界映射时发生了巨大的变异。
怎么呢?
袁教授提出通过“属地”原则,严把源头关。也就是在概念的诞生的专业领域的源头,由该专业领域的专家进行定义,其它任何专业对于这个概念的应用只能是引用,即重用,而不是再定义。要做好我们的标准,就一定要精确定义我们各个专业领域的概念(术语),只有这一层规范了,才能保障我们映射到计算机世界中概念的一致性。
这种解决方案抓住了主要矛盾,可谓对症下药。
这种标准,对于其他行业的人来讲,直接引用,不可以再定义,这也就加大了这种标准的无限可重用性。方便使用。
这种标准的数据,对于其他行业使用者来讲,难道不就是一种“自标准数据”吗?一定是。
可以准确的讲,袁满教授更专业的定义了什么是“自标准”。
值得,我们好好学习。
2013.12.21 张彦国

原创文章,作者:zhangyanguo,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/13553.html