广义的大数据概念,除了大数据技术及其应用之外,还包括大数据工程和大数据科学。大数据工程,是指大数据的规划建设运营管理的系统工程。大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。从概念外延上讲,大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域,是适应信息经济时代发展需要而产生的科学技术发展趋势。
狭义的大数据概念,主要指大数据技术及其应用,是指从各种各样类型的数据中,快速获得有价值信息的能力,一方面,强调从海量数据、多样数据提取微价值,即具有价值(Value)特征;另一方面,强调数据获取、数据传递、数据处理、数据利用等层面的高速高效,即具有快速处理(Velocity)特征。
大数据概念里的“数据”,是指具有可追踪、可分析、可量化特性的数据。大数据概念里的“大”,是指“大数据”所应具有的“大量化”(Volume)、“多样化”(Variety)两个特征。从概念内涵上讲,“大数据”(BigData),一方面,反映的是规模大到无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合;另一方面,主要是指海量数据的获取、存储、管理、分析、挖掘与运用的全新技术体系。
事实上,大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。很显然,挖掘大数据价值、提供大数据服务的能力,是大数据时代的核心竞争力。
1.数据管理理念不断变革,大数据成为信息技术发展的必然选择
大数据技术及其应用的驱动原因,在于数据管理理念的不断变革。数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。数据管理技术的发展先后经历了四个阶段,即人工管理阶段、文件系统阶段、数据库阶段、面向应用的数据管理阶段。1996年,高德纳(GartnerGroup)提出“商业智能”概念,又称商务智能(BusinessIntelligence,简写为BI)。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业作出明智的业务经营决策的工具。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。
因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力,促使他们作出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。商业智能的实现涉及软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三部分。
随着现代信息传播技术手段和方式不断丰富,信息获取、信息传递、信息处理、信息再生、信息利用等功能应用日益多样化,智能化信息系统逐渐形成一个信息网络体系,人类社会的生产方式、工作方式、学习方式、交往方式、生活方式、思维方式等发生了极其深刻的变革,互动化、即时性、全媒体等,成为常态性的信息生态环境,传统的数据库组织架构和信息服务模式已经难以适应信息社会现实需要,整个信息技术架构的革命性重构势在必行,大数据成为信息技术发展的必由之路。
2.大数据源于虚拟网络的迅速发展和现实世界的快速网络化
一方面,虚拟网络社会迅猛发展,形成了海量数据的持续生成空间,改变了人类的生存方式和活动方式,形成了人类的虚拟生活方式。
另一方面,云计算、物联网、社交网络、电子商务、网络社区、即时通信等技术形式的涌现,推动现实世界快速切换到网络社会形态,衍生了规模巨大、类型多样的数据资源。其中两类数据尤其引人注意,一类是企业与企业和消费者之间的“大交易数据”,另一类是来自互联网、社区网、企业服务网、物联网等的“大交互数据”。
虚拟网络的迅速发展和现实世界的快速网络化,两者交互影响,最终导致海量数据的持续生成和繁杂数据的不断出现。目前,我们正处于一个信息爆炸的年代,全球每年产生的数据量是ZB级。2012年全球产生2.4ZB的数据,相当于3Trillion(万亿)的DVD,到2020年,数据还将增加14倍,达到40ZB。
大数据概念的提出,最初正是由于需要处理的信息量过大,超出了一般电脑的数据处理能力,无法透过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策的资讯,因此工程师们必须改进处理数据的工具,这导致了新的处理技术的诞生,比如雅虎的开源Hadoop平台,这类技术使人们可以处理的数据量大大增加。
3.大数据成了决定我们未来数字生活方式的重大技术命题
大数据概念最初起源于美国,是由思科、威睿、甲骨文、IBM等公司倡议发展起来的。
大约从2009年始,“大数据”成为互联网信息技术行业的流行词汇。事实上,大数据产业是指建立在对互联网、物联网、云计算等渠道广泛、大量数据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息服务业,大数据企业大多致力于让所有用户几乎能够从任何数据中获得可转换为业务执行的洞察力,包括之前隐藏在非结构化数据中的洞察力。
最早提出“大数据时代已经到来”的机构是全球知名咨询公司麦肯锡。2011年,麦肯锡在题为《海量数据,创新、竞争和提高生成率的下一个新领域》的研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
大数据是一个不断演变的概念,当前的兴起,是因为从IT技术到数据积累,都已经发生重大变化。仅仅数年时间,大数据就从大型互联网公司高管嘴里的专业术语,演变成决定我们未来数字生活方式的重大技术命题。2012年,联合国发表大数据政务白皮书《大数据促发展:挑战与机遇》;EMC、IBM、Oracle等跨国IT巨头纷纷发布大数据战略及产品;几乎所有世界级的互联网企业,都将业务触角延伸至大数据产业;无论社交平台逐鹿、电商价格大战还是门户网站竞争,都有它的影子;美国政府投资2亿美元启动“大数据研究和发展计划”,更将大数据上升到国家战略层面。2013年,大数据正由技术热词变成一股社会浪潮,将影响社会生活的方方面面。
1.“大数据的生态系统”各环节商业需求将催生数据技术体系变革
有研究者提出“大数据的生态系统”这一概念,简而言之,就是数据的生存周期,是指数据从产生、到处理、再到价值提取、最后被消费掉的整个过程。
在这个生态系统中,不同环节的商业需求正在催生新的技术模式和方法以实现新的商业模式。由于大数据产业链贯穿整个数据生命周期过程,涉及数据中心建设与维护、数据处理与分析、视频识别技术、语音识别技术、商业智能软件开发、IT咨询与方案实施、信息安全等诸多领域,因此,大数据产业,能够催生更大的市场和利润空间,将构建数据行业技术应用新体系。
2.电子商务进一步发展,需求日益社会化、移动化、媒体化
所谓社会化媒体,是指基于用户社会关系的内容生产与交换平台。电子商务转向社会化媒体主要有三方面的表现:第一,社会化媒体平台上的主角是用户,而不是网站的运营者。第二,社会化媒体是内容生产与社交的结合,也就是说,社会关系与内容生产两者间是相互融合在一起的,社会关系的需求促进了社会化媒体平台上的内容生产,反过来,这些平台上的内容也成为联结人们关系的纽带。第三,电子商务在不断社会化的同时,也在不断媒体化,日益成为信息流动的渠道和平台,逐渐具有了信息整合的媒体属性。有关统计显示,阿里巴巴营收中有60%~80%来自淘宝和天猫的广告费收入。
根据中国电子商务研究中心发布的《2012年度中国网络零售市场数据监测报告》,截至2012年12月底,中国移动电子商务市场交易规模达到965亿元,同比增135%,依然保持快速增长的趋势。预计2013年这一数字有望达1300亿元。移动电子商务用户规模逐年递增。2009年我国移动电子商务用户规模达3600万,2010年这一数字攀升到7700万人。2011年移动电子商务用户规模达到1.5亿人,同比增长94.8%。在刚过去的2012年移动电子商务用户规模约达25050万人,同比增长67%。预计到2013年,这个数字将增长到37250万人。
3.数字媒体的转型发展,需要基于大数据分析开展资源整合
大数据背景下,信息的内涵已不仅仅是消息、通讯、评论等新闻,而是各种各样的数据。这就要求媒体行业必须适应新的信息生产和传播方式,以多元化媒介形态来承担信息传播的职能。大数据时代,媒体面临的挑战有以下几个方面:第一,缺乏专门的数据分析方法、使用体系和高端专业人才;需要不断提升专业技术人员的大数据分析水平,使其掌握从海量数据中快速挖掘出“微价值”的方法和能力;第二,技术(设备)水平亟须提升,数据的搜集、处理、分享、挖掘、分析等工作所需的基础技术架构和应用系统需要不断提高;第三,数据资源再加工能力和数据产品创新能力薄弱,缺乏未来媒体竞争必备的获取、分析、解读数据等技能;第四,数据真实性、可靠性等方面保障能力薄弱,如何确保数据驱动的信息产品质量成为制约媒介行业的一大难题。
大数据背景下,媒体的转型发展既是战略问题,也是技术问题,而这些问题的有效破解,将对未来的媒体形态和格局产生深远影响。
4.政治竞选团队面临大数据挑战,亟须有效利用数据驱动的机制优势
据《美国时代周刊》报道,数据驱动的竞选决策是奥巴马竞选获胜的关键。根据各种各样的数据,依照科学的数据分析方法,基于数据驱动的竞选决策,将深刻影响未来的美国大选。可以预见,未来的政治竞选,数据分析人员将扮演重要角色。大数据分析,将深刻改变总统选举的现有筹划战略和宣传策略。
5.大数据挖掘,催生用户数据安全难题和用户隐私保护难题
美国互联网数据中心预计,互联网上的数据每年将增长50%,每两年将翻一番,而目前世界上90%以上的数据是最近几年才产生的。大数据,一方面使我们的城市和地球更加智慧;另一方面,这也将催生一系列大数据信息挖掘业务,直接带来新的网络信息安全生态环境。可以预见,大数据将成为网络攻击的显著目标,加大政府、企业和个人隐私信息泄露风险,对现有的存储和安防措施提出挑战,还有可能成为高级可持续的网络攻击载体。
——《中国新媒体发展报告No.4(2013)》P60-69页,社会科学文献出版社,2013年6月出版