来源:科技日报 记者: 刘垠 时间:2013-09-25
全球信息总量每两年就增长一倍左右,2011年全球被创建和被复制的数据总量有1.8ZB(相当于18亿个1TB的移动硬盘),预计到2020年全球所管理的数据将达到35ZB。
大数据时代翩然而至。随着智能手机以及“可佩带”计算设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成了可被记录和分析的数据。被誉为“大数据商业应用第一人”的维克托•迈尔•舍恩伯格在《大数据时代》一书中指出,大数据时代最大的转变就是放弃对因果关系的渴求,转而关注相关关系。
近日,在中国科协举办的第81期新观点新学说学术沙龙上,多位科学家围绕大数据时代从“求因果”到“相关联”的革命性转变,以及大数据对仿真建模的挑战与思考等话题展开观点交锋。
——争议——
大数据颠覆思维惯例
美国航空航天局(NASA)为何能提前预知各种天文奇观?如何才能准确预测并对气象灾害进行预警?未来城镇化建设中,怎样打造智能城市?这些问题背后,暗藏着大数据的身影和巨大价值。
何为大数据?大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。目前公认的大数据具有“4V”特性,即Volume(规模性)、Variety(多样性)、Velocity(高速性)和Value(价值性)。
“大数据带来了全新的思维和方式,我更注重它对思维的改变控制。”中国系统仿真学会副理事长、国防大学教授胡晓峰说,大数据的革命特性体现在从局部到全体、从单纯到繁杂、从因果到关联、从简单到深入4个方面。
其中,大数据从因果到关联这一特性备受争议。“其最重要的思想是放弃对事情原委的追究,而代之以对相关性的接纳,因此它更适合回答‘是什么’,而不是‘为什么’。”胡晓峰直言,海量数据的相互关系已经可以产生新的发现,这完全颠覆了牛顿、爱因斯坦体系下因果关系的思想。如今,美国和欧盟已启动如“大脑扫描计划”“星球皮肤计划”等相关研究计划。
“如果只是轻信大数据告诉我们的一些东西,而这些东西还不告诉你为什么会这样,这个世界将会变成怎样?”解放军理工大学指挥信息系统学院教授张宏军认为,大数据面临的最严重问题,就是不能解决因果问题。
在国防大学信指部教授吴琳看来,因果关系的研究促进了科学体系的建立,科学研究的目的之一就是要发现因果关系,“如果说大数据研究不在意因果关系,是不是我们整个科学的基础要重新定义?”
从大数据的发展现状来看,主要应用体现在企业界和工业界。吴琳进一步质疑,对企业来说,只要有利润就行了,可以只要现象不要理由。但是,对飞机的控制和病人的救治是否可以依赖不精确、不知因果的数据并做出相应反馈?
“因果关系和关联关系分析应互为补充。”中科院数学与系统科学研究院研究员吕金虎称,大数据的价值在于数据之间的相互挪用和关联,深度分析和挖掘就会产生新价值、新知识。
——挑战——
现有仿真技术难处理大数据
大数据的采集、存储、传输、处理、应用等问题,对各行业的文化、组织、管理、方法、技术等均提出了挑战。美国科学院发表研究报告指出,计算机仿真技术已与理论和试验并列为进行科学研究的第三支柱。仿真是从模型到数据,而大数据则是数据到模型。那么大数据的出现,又给仿真科学带来怎样的冲击?
“大数据理论的出现,给传统建模仿真学科带来了挑战。很多问题需要我们认真研究和讨论,这些挑战有可能会动摇或变革原仿真理论的基础。”胡晓峰举例说,美国一个大学生课外作业研究本拉登到底藏在哪里,做了一个模型出来并在网上到处搜集数据,最后抓到本拉登的地方和这位学生建立模型的距离,只相差100多公里,而他利用的方法叫做生物物理信息学。“这个模型是利用现实数据搜索来完成的,这种试验结果越来越趋近于真实。”
专家们一致认为,大数据对建模仿真的挑战主要体现在思维方式、科研方式和方法手段等方面,利用现有建模仿真技术处理大数据还存在问题。比如,传统的仿真思维方式认为仿真是基于模型的活动,其科研方式是根据系统实验的目标建立系统模型,进而建立仿真系统运行系统模型,最后再分析、处理模型运行结果。“但传统的仿真思维方式和科研方式,已不适应处理大数据的需求。”华体网华体网李伯虎坦言,现有的建模方法不能建立相应的系统模型,并关联和处理这些大数据;现有的仿真支撑方法手段不能适应对分布、异构复杂系统大数据感知、采集、挖掘、处理、应用的需求;现有的仿真应用工程技术对复杂系统产生的大数据,还不能全面、充分、及时地用于各行业,并推动社会发展……
——机遇——
大数据为仿真应用发展添翼
美国麻省理工学院教授艾瑞克认为,大数据的影响就像4个世纪前人类发明了显微镜,把对自然界的观察和测量水平推进到“细胞”级别。2011年,英国《科学》杂志推出专刊围绕“数据洪流”展开讨论,将大数据深度分析看成未来研究重要突破点;奥巴马政府2012年3月发布“大数据研究与发展倡议”,作为未来发展战略……
李伯虎认为,大数据对于作为科学研究第三种范式“计算科学”中重要组成部分的“仿真科学”来说,不仅仅是挑战同样还有机遇。
“仿真界应该拥抱大数据。”中科院软件研究所研究员曹建文称,因为大数据的出现,对解决复杂系统模拟提供了一个非常好的基础。
对此,上海大学机电工程与自动化学院教授费敏锐表示赞同,并推断“大数据必将成为复杂系统仿真建模的一个新方法。”虽然大数据处于初步阶段,但其在生命科学、社会科学等领域的作用将逐渐显现。
“大数据可以为我们提供一个解释不明现象的新颖视觉。是扩充了仿真科学方法,还是独创了新的科研范式?”在胡晓峰看来,大数据提供了一种绕开理论直接走向应用的新途径,挑战了“观察—假设—实验—应用”的科研流程,找到了可以避开建模而直接获得答案的方法。此外,大数据还带来了许多值得研究的科学新问题,比如对预测问题的思考。
然而,大数据的真实价值有如潜伏在海洋中的冰山,我们看到的只是冰山一角,绝大部分都隐藏在表面之下。
“如果没有梳理信息特征的新型分析工具,人们难以在大数据中检测到有价值的信息。”中国电子集团电子科学研究院研究员王积鹏说,大数据建设的智能化应用是体系仿真的根本,包括数据的采集、整理、分析、评估和应用,目前缺乏一些基础数据的收集整理。他建议:“推进仿真工程研究,应主要加强数据的存储和认知分析等技术的协同应用,重点加强数据挖掘和预测分析应用。”
“将大数据方法与仿真建模方法融合,将为仿真技术与应用发展带来崭新的机遇。”李伯虎华体网说,大数据的出现提供了更为高效的研究模式和手段,将革新现有仿真的思维方式和科研模式,要建立从大数据获取知识的理念;革新现有的建模方法学,从传统的建模方法拓展到基于大数据的建模方法;革新现有的仿真支撑技术系统、仿真系统和仿真应用工程技术等。