清华大学教授郑纬民:大数据的研究与实践

  【智慧城市网】大数据也正在成为或者将要成为城市发展以及各行各业、社会发展的基础。它就像人身上的血液一样,当你要成长的时候,没有营养,没有血液,显然是不行的。大数据也在改变着人们的思维方式,也让人们知道,从大数据中间你可以得到新的东西。大数据有巨大的魅力,可以由此及彼,可以积砖成都,可以见微知著。
  
  在9月6日举行的第三届中国(宁波)智慧城市技术与应用产品博览会——智慧城市发展高峰论坛上,清华大学计算机系教授,中国计算机学会理事长郑纬民做了关于“大数据的研究与实践”的主题演讲。
  
  他在演讲中说,首先什么是大数据,第一个定义是这么说的,这是维基百科说的,大数据是指无法在一定时间内,用常规软件工具对其内容进行抓取、管理和处理的数据集合。也就是现在这些常规软件处理不了这些数据,这就是大数据。
  
  第二个,4V,第一个V,体量巨大,大数据的量肯定很大,非常大。第二个,速度极快,速度快两个意思,数据产生速度很快,大家可能有体会,我们数字相机连拍的时候,一下就出来了。第二个,要求处理很快,速度快。第三,模态多样,大数据有文本的语音的,各种各样的,很多种形式。第四,真伪难辨。什么意思?这么多数据里面,说实话,究竟多少有价值,多少是没有用的,这不好分辨。这是4V。
  
  还有一个定义,数据规模和性能要求成为数据管理分析系统的重要设计和决定因素时,这样的数据被称为大数据。也不能简单说数据规模来定义大数据,要考虑到查询和分析的复杂度。比如简单的查询,关键查询,PB级的数据可能是大数据。复杂的数据,进行数据挖掘,那数据量TB级的,少了,可能也是大数据。因此我们说,大数据应该很大,还有一个,关联复杂等等,这也是一个。
  
  第四个定义,大数据两个基本特征,不同于传统数据集。第一,大数据不一定存储在固定数据库。现在数据可能分布在不同的网络空间,这是一个。另外一个,大数据以半结构化和非结构化的数据为主,具有较高的复杂性。
  
  因此,牵涉领域很多。有天文、气象、基因、医学等等很多领域。我们分两类大概是这样,一类,我们做实验出来的数据,比如说天文的观测数据,气象的数据,基因的测序数据等等,都是测出来的,做实验得出的数据。另外一类,网上的数据。我们的微博、微信等等,这个数据,大概分这两大类。
  
  那大数据的价值,我不想讲了,因为刚才潘院士已经说了,我只把上面一个红的说说。过去我们计算机贴了一个条,英特尔的芯片在里面搁着呢。以后有可能,大数据在里面,以后都是大数据了。大数据的战略意义,对我们国家特别是非常,我们说网络上的数据,从深空、深海到深网,深空,我们神舟的飞船上去了,我们潜到很深的海底了,现在网上有没有可能好好的挖掘,这也是一个机会。
  
  另外大数据,根据历史数据和现有数据结合在一块儿,融合在一块儿,有可能可以做好多的挖掘,可以对现在感知和将来做预测。这个具体的例子我跳过去。
  
  美国大数据规划,上升到了国家的意志来做。2012年3月29日,美国联邦政府整合6个部门宣布两亿美元做大数据项目。欧盟基础设施是先导,先做基础设施的事。因此我们说,刚才潘院士说,大数据总量增长的态势,从这张图来看,我们有一个摩尔定律,大家经常说的,什么意思呢,就是一个芯片里面,它晶体管的个数,每隔18个月增加一倍,现在实际上大数据的增加的量,比摩尔定律还要快。这张图里,最下面这个就是摩尔定律,上面这些都是大数据的增长,比摩尔定律还要快。
  
  因此大数据与常规数据对比,有很多不一样的地方。大数据的范围广、模态多、增长快、关联复杂、时序长等等,很多问题。因此有很多的挑战是过去一般的数据是没有的。
  
  学术界对大数据很重视,大家可能知道,自然、科学是两本比较重要的杂志,它几年前就专门出大数据的专刊。欧洲也是,大数据的会议现在是蓬勃发展,开了好多的大数据的会议。因此这一张图,这不是我画的,我引用的,就是表示大数据的一个样子,包括研究的范围等等东西,是要做很多很多方面的事。这个因为潘院士讲了很多,因此第一个问题我很快的就跳过去。

原创文章,作者:智慧城市,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/wuliannews/11747.html