自标准数据-企业信息系统建设的创新思想

自标准数据-企业信息系统建设的创新思想

         2014年1月来自上海麦杰科技研发部的我和田鹏有幸和王权、夏艳波、张彦国三位老师探讨了自标准数据的相关概念。自标准数据由王权老师在九十年代率先提出,是结合多年信息化系统建设经验经过沉淀提炼出来的理论。该理论是用来指导和解决大型企业信息化建设道路中遇到的各类问题的重要方法论。实现并推而广之,会对大型企业信息化建设产生极大的推动,其中涉及的思想和方法论均属于世界领先。

自标准数据,Self-Standard Data,即自带标准或格式的数据体。数据提供者按照自己的标准或格式提供数据,并将该数据所使用的标准或格式与所提供的数据一起打包,数据使用者按照该标准或格式自行解读并使用数据。它是传统数据标准体系的重要补充和突破。在现实世界存在“数据标准过严不易推行,过松不易整合”的问题,顺应“数据使用者急,积极性高;提供者不急,积极性不高”的实际情况,通过充分调动数据使用者的主动性,减轻数据提供者的负担能够良好解决数据的供求矛盾。自标准的目标并不是没有标准,而是希望通过提供标准基础,提供相关的操作平台和工具,允许不同的用户在其上进行对自身数据以及这些数据的标准进行创建、组合、扩展和发展,逐步统一标准和发展标准的平台和过程。

自标准数据的四大原则:开放、自治、简单规则、集中管理关键部分。开放原则需要有标准开放,平台开放,技术开放等。具有开放性的思想和理论才具备可传播性和可操作性。开放的系统能够容纳更大的业务和技术复杂度,易于传播和集成。由于自标准数据是用于企业信息化建设领域是建立在数据的基础上的,因此提倡分治原则。分治原则可以至少体现在数据和服务的分治。例如:A单位可以提供其管辖的数据,并同时提供相应的数据标准。这些数据能且仅能由A单位负责提供,其他组织机构的使用只能通过解读或链接来使用该数据。要解读、链接使用该数据就需要在提供数据的同时还有关于该数据结构和内容等方面的描述,数据之外的描述就是这个数据的自标准,自标准是数据能够共享与集成的基础。简单规则是指能够在复杂的应用场景中被广泛使用的规则必须具备简单性。太复杂的规则即使具有开放性也难以被人们广泛认可。简单规则可以让规则本身仅关注核心的部分,规则具备了简单性才能够在大系统中广泛被应用。具体来说,TCP/IP协议族最终战胜其他多种复杂协议成为当今互联网的基本协议,就是因为它本身并不复杂又能够恰到好处的解决的核心问题。当今的互联网与传统计算机的区别在于,传统计算机主要用于计算而互联网被更多用于沟通。TCP/IP协议在当时就是以最简单的方案解决了沟通的效率、沟通的稳定性等问题,成为了当今互联网通讯协议的首选;其它通讯协议并不是不科学不合理,而是没有抓住互联网本质导致逐渐消亡或转化为专业化领域的协议。集中管理是指虽然数据是分散、分治的,但对于数据的管理是集中的。集中管理能够让分散的数据运作高效而统一。集中管理能够为分散的数据提供资源的寻址、目录与路径服务、推送服务、数据垃圾回收服务等。

数据码头是之前大庆油田被广泛接受的自标准数据的形象描述方案。自标准数据被存放于数据码头,这些自标准数据就是货物或者说就是各类集装箱(货物是数据,各类集装箱是规范化的自标准)。数据提供者会根据约定将数据送往数据码头,数据的使用者会定期来提取数据(区别于真正的码头,数据码头提取走的只是数据的副本)。数据码头要提供一系列的功能,除了存放各类数据还要提供对数据访问的清单,访问控制;码头上还会提供有一种叫做“泵”的机制,决定数据是被提取走还是被主动发出,就像现在常说的“拉”和“推”的概念;码头上还会有警察,维护正常的数据获取秩序;还会有垃圾回收机制对已经被使用者证明是错误或者是未能按需供应的数据给予及时的提示和响应渠道。数据与数据使用者之间的关系也是松耦合的。如果数据没有及时到达,那么至少可以取到有关的参考数据,不会导致系统无法正常运行。与应用松耦合的数据码头能够最大限度的对数据需求者进行服务。

数据码头需要提供的功能,总结下来大致由资源、搜索、链接、管理、时效性、清单、标准的生成与解析这几部分构成。通常来说资源就是企业信息系统中存在的大量的数据。如果以自标准的眼光来看,除了数据本身就是数据的格式。根据企业的实际应用场景来看,数据以各种各样的方式存在诸如数据库中的表,各式各样文件例如xml、pdf、csv、二进制等。如果这些数据不能自标准化,就意味着数据无法被不同的用户解读。如果通过技术手段能够对这些数据进行自标准化,就意味着真正实现了数据共享。数据能够被顺利共享和解读,也就能够被搜索引擎识别和索引。快速找到和遍历需要的数据和潜在需要的数据成为可能。搜索引擎在自标准数据中有着特殊的意义。数据可能从一个数据码头被发布,在另一个码头被再次发布(转载)或用于计算的基础。这时就需要链接机制来保障数据的一致和冗余。只有初始发布的码头作为数据的源头,其它未经计算再发布的数据实际上发布的是数据的链接。数据的分治和分享也是相对而言的。毕竟单位内存在一些内部数据不必发出,避免对公开的数据带来不必要的复杂或者混淆。数据也存在过期、出错、非法访问、设备故障等状况,数据码头需要提供对数据管理的功能。数据是有时效和版本的,所有的数据基本都只是在一定时间内有效的,也就是数据总是伴随着时间。因此数据需要具备时效性和版本性,相同的数据在不同的时间和版本有着不同的体现。数据码头也需要提供清晰的寻址或者目录服务,就是我们所说的清单。通过清单可以对数据进行梳理或者遍历,数据用户能够通过清单快速的找到想要的数据,当然清单本身也是自标准的。最后就是自标准的标准如何定义,这是该课题中最困难的部分。这个定义如果做得过于狭窄,可能无法满足特定领域的需要,如果做得过于宽泛又会变得臃肿而难以掌握。怎样能够通过为自标准定义标准也是正在反复被探讨和思考的过程。

         自标准数据在企业应用中具有广泛的生存空间和发展意义。其实在我们麦杰公司内部也有使用过自标准数据这样的概念,虽然我们没有能够总结、抽象出完整的思想,但是这里还是写出来抛砖引玉。公司的软件产品面临发往各个现场的需要。无论销售、工程、解决方案、项目团队、客户都可能向研发部要求提供新版本的软件(修复和扩展原有软件)。这样的需求是无可厚非的,但如果没有标准化的处理流程就会导致很多问题。首先会严重影响到工作的可计划性,没有人能够预先知道什么时间会有人突然提出某种需要立即被解决的问题,很难有人能够估算解决这些问题需要花费多少时间和代价,只知道这些问题必须解决不可。于是产品开发工作难以计划,经常被打断。其次,相同的问题在不同的地方出现,可能会被不同的人以不同的方式去处理。这不仅仅是人力资源的浪费,更主要因为对该问题的处理方案不一致导致数据不一致的问题。此外还会因此鱼目混珠产生管理上的灰色地带。我们针对这些问题进行讨论并建立了自己的“数据码头和自标准”。首先建立了产品网站和产品目录,所有人需要产品都去网站下载而不是联系具体的负责人,这样即便捷也减轻了产品负责人的负担。其次,所有的产品都是自说明的,即除了产品本身还有产品的说明书,实施手册,维护手册,示例,教程录像等。最后,因产品产生的问题由专人整理,定期统一分发到网站,修改后的产品通过测试后又会被作为最新版本被更新到“数据码头”供使用。这是自标准思路与体系的一种体现,是一种自发的自标准的实现,基本上做到了数据的共享。当然我们还可以做得更好,比如网站完全使用xml描述并且配备具体的xsd来定义内容结构,通过xslt将数据以页面形式在网页上呈现,通过rss提供用户订阅功能等等。真正的自标准体系结构的定义是需要缜密的思考与详细的讨论,最终还需要经过生产实践的考验。但是毫无疑问自标准体系结构是具有普遍意义,能够对企业信息化和企业管理带来真正价值的思路。

放眼看目前互联网的蓬勃发展,已经进入了自媒体的时代。微信,微博成为了更加便捷的沟通。人们开始渐渐的放弃了短信沟通、减少了电话沟通。适时适地的拍一张照片,发一条微信,发一个语音,这样的信息就会被想要关注的人关注到,不关心的人也不会有任何影响。科技让生活更美好,确实不假。再次感谢王权老师能够在九十年代就提出这样的理论和观念,并且付诸实践反复探讨。相信随着自标准体系的发展与完善,与现实接轨的应用和普及,就会在企业信息化的道路上大放异彩。

 

2014年1月14日星期二

讨论:王权、夏艳波、张彦国、田鹏、唐力伟

原创文章,作者:智慧城市网,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/14032.html