镜像版首页| 高级检索|繁體版
您好,欢迎来到皮书数据库!

专家视点

大数据时代助力社会科学研究——中国传媒大学调查统计研究所所长沈浩
——在“第十五次全国皮书年会”上的主题发言
来源:皮书数据库  作者:沈浩   发布时间:2014-09-17

  我演讲的题目是《大数据时代助力社会科学研究》。前段时间我在给一本非常有名的书写推荐语中写道:这是一个令人兴奋的时代,也是一个大数据的时代,数据科学让我们越来越多的从数据中观察到人类社会的复杂行为模式,以数据为基础的技术决定了人类的未来,但这并非是数据本身改变了我们,而是我们从数据中发现可用知识的增加。这本书叫《爆发》,该书的核心是讲人类行为的93%是可预知的,当然这种预知的一个前提是大数据。同样有一本很著名的或者说非常时髦的书叫《大数据时代》。这本书我也曾给它写了一个推荐语,我说:我们生活在社会中,与数据密不可分,不论我们愿意与否,数据都会找到我们,覆盖我们。大数据时代已经来临,如何从海量的数据中发现隐藏在数据中的那些模式、趋势、相关性,揭示社会现象和社会发展规律,以及可能的商业前景,都需要我们拥有更好的数据洞察(date insight)。这本书的核心是说大数据时代工作、生活和思维方式都需要转变。什么是大数据?不同的人会有不同的看法。

  一、 大数据时代已经到来

  (一)大数据已经对我们的社会产生了重大影响

  也许你会发现大数据突然成为热点,似乎就是这两年才成为热门话题,不光影响自然科学、甚至在社会科学、人文科学都产生了重大的影响。有一种说法:人类历史上的数据90%是在这两年产生的,所以我们会突然感知到大数据时代已经来了。大数据不光在中国热,全球都非常热,特别是在美国。美国已经把大数据作为国家战略,甚至有人说奥巴马总统就是大数据总统,甚至有人把大数据当成新的生产资料、生产要素、新的石油。

  (二)大数据非常大,并以商业自动化生成并存储,具有差异性、快速性、有用性以及稀缺性等特征

  随着大数据的产生,人们每天在微信、微博上与人交流,都会产生大量的数据。我们看到的云计算、互联网、车联网等这些传感器所带来的数据的存储也会产生大数据,所以大数据时代数据是自动化生成的。我们从来不是为了做大数据而去采集数据,已经颠覆了过去我们传统的社会科学研究方法。例如,过去我们采用问卷方式、抽样调查的方式,今天的大数据成为人类行为模式,行为数据的总和。大数据成为非常热的关注点,露出的仅是冰山一角,首先是被社会观察家、商业人士、人文学者感知到,但是对大数据挖掘,我们要深入到海底,真正去探究应该如何挖掘?如何助力我们的社会科学。有一种说法,当然我喜欢这种相对绝对的说法,认为大数据跟统计相关,实际上大数据跟统计无关,大数据更重要的是跟数学相关。大数据强调机器学习、人工智能、模式识别、深度学习(deep learning)和可视化,所以人们从不同的角度对大数据有不同的解读。比方说大数据可能就是微博,当然国外是(twitter,facebook),大数据可能就是传感器,大到你无法处理的越存越多的数据。

  二、 大数据的内涵和应用

  (一)非结构化数据、半结构化数据成为成为大数据的主要存在方式

  有人说人类所存储的数据95%都是非结构化的,那么如何去分析这些非结构化数据呢?例如,过去我们是以阅读方式来学习政府工作报告。现在我们可以用简单的对非结构化数据进行文本挖掘的方式来解读。这里包括文本的自动分词、筛选、词性等。对大数据进行挖掘,首先,政府是数据的土豪,拥有极丰富的数据资源,比如,可以通过分析公民的行为去洞察社会以及行为预测。所以说政府应该是最主要的大数据使用者和拥有者。美国政府的date.gov是最典型的开放大数据,当美国提出《白宫大数据白皮书》的时候,我们说美国不光要开放大数据,它的战略中有着三个非常重要的要素。

  1. 数据要开放;

  2. 通过数据能够挖掘更大的价值来支持企业的竞争和政府的管理;

  3.  通过数据能够拥有更多的人才去挖掘数据。

  美国开放大数据是有准备的,网站拥有ten million 的数据,这些数据都是开放的,而且能够被计算机接受。例如,美国政府开放了类似于911、119火警、匪警等的请求数量,其中,包括各种地理信息、房屋信息、空气质量等数据。

  (二)在政府管理上,大数据助力于企业、商业以及智慧城市

  例如,通过监控公路上每天产生的大概500万条的数据记录,可以优化交通管理以及各种传感器去寻找或者去监控整个社会的城市运营体系,有助于能源的优化。美国有一个全球新闻数据库项目,我们正在做此项目的中文版,它聚集了从1979年至今每天生成的近10万条全球重大新闻事件的新闻数据库。数据库里记录了每一个事情报道点,发生了什么重大事情,这件事情的重要程度。目的是去研究基于全球人类的社会行为,这些数据库都是开放的。通过对这些大数据的分析,来对整个传播领域、新闻领域、社会治理领域进行深入了解,更重要的是舆情的传播。通过观察舆情的传播路径来捕捉整个社会的变化,或者关注一些重大突发事件的变化。例如,雅安地震的时候,红十字会发了一条微博,让大家共同抗击灾害,通过抓取微博转发信息并采用一套数据流建模的算法进行分析,立刻就可以捕捉到在这个信息传播过程中什么人在这里起了什么样的作用。

  过去传统的社会科学研究,最开始研究的是自然人,最后得出结论:一方水土养活一方人;后来我们关注的是经济人,追求那些高价值的VIP;现在我们关注的是社会人。微博、微信已经有足够大的社会化媒体的用户群,构建一种社会关系。基于这样的挖掘,我们可以很清晰的感知到大众传播如何落地人际传播,并且感知到这种人际传播所起的作用。

  (三)在大数据时代的领域划分以及应用

  我个人将大数据主要划分为四个领域:

  1.  数据科学;

  2. 网络科学;

  3.  空间地理科学;

  4.  可视化技术。

  比如说像流行病的监测。在非洲由于资金有限,如何把有限的钱用在治理一些重要的人物、重要的感染者,有助于避免艾滋病的转播呢?显然这时候不能随机的去治疗,而是去找到那些所谓的大V,尽管在伦理上可能有问题,但是只要你拥有这种网络分析的思想,我们才能够更好的去治理这样一种网络传播模式。所以大数据对社会科学的研究也具影响,例如我们可以从twitter上截取数据,分析发推所采用语言的种类来判断人的分群居住特点。

  前端时间腾讯拿到了很多微信的位置数据来标识出中国的一个人口聚集的边界线。例如可以利用微博上采用Android还是iphone的手机系统来标识出社区人口的贫富分布。对于我们社会科学的研究,思路是改变了。过去我们是通过采点、抽样、建模,现在数据呈现了整个事物的规律,不需要我们再去抽样、观察。飞机航线实时监测也是大数据应用的一个重要领域。

  在大数据时代与新闻传播也产生了重要的融合。过去新闻是指新近发生的重要的事实报道。今天如何从数据中发现最新事实的报道,成为一种新的媒体或者新闻的报道形式。例如,青岛的中石化管道爆炸中记者时时的采集了数据、采集了相片,然后在地理信息上把这样的信息时时的呈现出来。百度的迁徙图也是一个案例,通过分析大量的LBS及位置的数据,可以得出春节期间人口迁徙的分布。百度现在出现了百度大脑,基于大量的数据,出现了预测高考题目、景点拥挤、票房收入等。当然我们更希望能够通过大数据预测社会的情绪。有种叫社会计算(social computing)的方式,计算社会情绪、舆情、感知票房收入等。即从个体所介入的社会结构中发现规律。

  越来越多的社区、亚文化群体,圈子、角色、位置、社会控制、社会利益成为重要的一个社会网络特点。这样的一个利益关系,我们如何去理解呢?可以通过对产生的大数据进行挖掘的方式进行。所以我们希望能够寻找到这样的一个自然法则。这种自然法则在社会科学里面我们有三大理论:

  1.  突变理论。

  突变理论被人们理解微小的作用导致社会突然变化的机率。

  2. 混沌理论。

  尽管我们了解事物的初始状态,但是如何导致最终发生的结果,我们依然无从感知。

  3. 复杂性理论。

  我们会发现今天已经不是简单的线性关系,已经进入到更加复杂的一种复杂科学领域。那么如何从这些角度去思考呢?今天大数据时代或许我们对所有的微小事情如何叠加造成一个重大的事件发生,可能有所感知了,这时候我们思考问题的方法已经不是自上而下了,大数据时代它往往是自下而上,是没有理论,从数据中发现知识的过程。大数据挖掘是要挖那些不能靠直觉发现的东西,甚至是违背直觉的,这是他的一种思维方式,一种研究方式的改变。

  基于这样的领域,我们看到社会科学包括空间地理。什么是空间地理?移动可以锁定每个人的位置,并根据位置计算每个人里某一点距离的远近。我们除了要理解大数据对我们社会的影响,还要理解大数据如何真正的影响了我们?如何能够挖掘?大数据时代需要跨学科的人才进行大数据的挖掘。跨学科背景使得我能够更好的、比较早的去感知到数据对社会的影响。包括自然语言的处理,各种各样的挖掘算法和软件工具。我们不但要看到数据,一定要看到数据背后是人,以及这种人的社会结构。并从这些社会关系,最终算出社会关系中人的价值,回归到自然人,这种回归需要靠我们所说的空间地理,也就是它的位置去感知到它所拥有的属性。

  比方说,随着腾讯、百度的街景地图,我们可以时时的看到当时的街景状况。这种现象随着大家的APPS都在使用,它下载你的位置,所以只要发一条东西的位置就形成了大数据的特点。这种是属于空间地理信息的分析。大量的数据特别对我们社会科学一个重大的变化是传统的社会科学,更关注的是正态分布。我想,从事社会科学的人都有一个正态分布的假设,但是到了大数据、到了社会科学,现在有一种说法,尽管我也没有验证。有人说自然科学往往服从正态,社会科学不服从正态。我们希望能够从数据中去寻找到,能够为领导提供决策支持。我们提供的不是信息,要提供对未来发展的洞察。这种洞察我们需要有更好的数据挖掘能力。

  尽管大数据同时带来了隐私的问题,但是大数据在定义什么是隐私、如何暴露隐私?如何保护隐私、都起着非常重要的作用。所以我们可以看到在这里面人们不断的对话,在社会生活中人们需要这样的思考、研究,研究社会科学跟自然科学的融合,让社会科学能够跟人文科学更多的增加它的人文情怀,那么多学科的融合会让社会科学,特别是社会科学的研究在大数据时代能够春天来得更早。