出版时间:2013年07月 |
一 大数据兴起
当前在中国,云计算热方兴未艾,大数据热接踵而至。虽然人们对大数据还有各种不同的理解,但有一点是没有疑义的:大数据时代已经来临,我们必须为此做好准备,迎接它带来的机遇和挑战。
2008年9月,“耶路撒冷公告”宣称:“我们正在进入一个物理、生物、环境、社会和经济系统的信息高速产生的时代。信息的记录、存取、数据挖掘和传播将在今后一些年里对人类知识的进步产生重大影响。科学家们应当设计、探索和验证各种存取和利用这些信息的协议,以便最大限度地利用信息和促进研究,同时,保护和尊重作为信息本身一部分的私有属性”。
这也许是国际性组织最早对大数据时代的到来发出的预言,但如果回望的时间更久远一些,我们会发现,早期商业智能的成功应用已经向人们展示了数据的威力,表明在数据中蕴藏着巨大的财富,有待于人们去挖掘。
20世纪90年代,美国沃尔玛超市尝试将一种Apriori算法引入对POS机数据的分析中,用以根据商品之间的关系,找出客户购买行为的规律。通过使用这种算法,沃尔玛超市的管理人员发现,年轻的父亲更倾向于在一家商店同时完成啤酒与尿布的消费现象,于是开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品而不是一件,从而获得了较好的商品销售收入,这就是“啤酒与尿布”故事的由来。[1]美国第二大超市塔吉特百货(Target)也曾利用商业智能,[2]通过选取25种典型商品的消费数据来构建“怀孕预测指数”,从而可以在孕妇第2个妊娠期就把她们确认出来,使市场营销部门可以赶在所有零售商之前,早早地给孕妇们发出为其量身定制的孕妇优惠广告,圈定宝贵的顾客资源。
虽然这些传统的商业智能与现今所说的大数据之间存在着重大的差别,但为现在的大数据发展埋下了伏笔。从某些角度上说,大数据是从商业智能发展而来的。
如果从早期的商业智能的角度来观察当前的大数据,可以发现,大数据在数据量、数据特性、数据来源和应用领域等方面都发生了重大的飞跃,表现出了明显的特征,也有很多文献将这些特征归结为4个“V”,即Volume(数据量)、Velocity(数据产生速度)、Variety(数据多类型)和Value(数据价值)。而且,现在大数据的应用已经不仅限于商业智能领域,在公共服务、科学研究等各方面也都在发挥着巨大的影响力。
大数据的出现在很多方面模糊了自然科学和社会科学的界线,很多情况下,大数据的应用是将自然科学的方法施加到社会科学的问题上。如图灵奖获得者吉姆·格雷(Jim Gray)所提出的,大数据是科学研究的第四范式(The Fourth Paradigm),强调了以大数据为基础的数据密集型研究方法。虽然第四范式是否会与历史上前三种范式一样,构成科学研究的方法基础,还有待于实践的进一步检验,但从目前看来随着大数据及其相关技术的发展,人们将会在科研中越来越多地采用这种范式,大数据的作用越来越重要则是没有疑义的。
图1 科学研究方法(范式)的发展
世界各国现在都非常重视在大数据方面的研究,并分别从国家战略的层面相继推出了自己的研究计划。
以美国为例,2012年3月美国白宫科技政策办公室针对美国总统科学技术顾问委员会的建议,发布了《大数据研究和发展倡议》,并组织了大数据高级监督小组协调和拓展政府在大数据这一重要领域的投资。[3]《大数据研究和发展倡议》提出,将提升美国利用收集的庞大而复杂的数字资料提炼真知灼见的能力,协助加速科学、工程领域创新步伐,强化美国国土安全,转变教育和学习模式。该倡议还承诺将在科学研究、环境保护、生物医药研究、教育及国家安全等领域利用大数据技术进行突破。与此同时,美国总统办公室发布《遍及联邦政府的大数据》,[4]披露了12个国家部门制定的大数据发展计划,旨在应对大数据革命的挑战并抓住它所带来的机遇,推进本部门的工作并促进长远的科学发现和创新。
除了政府的推动之外,美国工业界和学术界同样高度重视大数据。市场研究公司IDC预测的2013年九大科技发展趋势,其中第七个趋势就是“大数据将发展壮大”。IDC表示,大数据市场的年增长率将达到40%,2012年该市场的规模约为50亿美元,到2013年规