出版时间:2017年06月 |
2006~2015年,北京市全年地区生产总值从7870亿元增长到23014.6亿元,增长了约2倍,地方财政收入从1235.78亿元增长到6813.8亿元,增长了4.5倍;城市居民人均可支配收入从19978元增长到52859元,增长了1.64倍;常住人口从1581万人增长到2170.5万人,增长了37%,外来人口从383.4万人增长到825.3万人,增长115%。[1]地区生产总值、地方财政收入增长幅度高于城市居民人均可支配收入的增幅;外来人口增长速度远远超过了户籍人口增长速度。在这样一个经济、人口乃至社会剧烈变动的大都市里,市民诉求也不断发展变化。在中国乃至全球城市化大背景下,北京市民诉求变迁具有很好的代表性,可以为其他城市提供借鉴。
随着互联网的日益普及,网络渠道成为中国市民表达诉求的重要途径。2005年起,全国各地陆续开通省级网络政民互动平台,成为中国公民行使知情权、参与权、表达权和监督权的重要渠道。首都之窗2005年上线了北京市“政风行风热线”(http://rexian.beijing.gov.cn/),是北京市最重要的网络政民互动平台。经过12年的运营,该平台积累了大量信息资源。本文将针对北京市2006~2015年网络政民互动平台市民来信,利用大数据文本分析方法考查市民诉求的内容结构、发展趋势并分析原因。
一 研究设计
(一)研究数据
本研究数据来源于北京市“政风行风热线”。该平台接收的各类信件,由北京市纪检监察局督促相关单位办理,办理情况将计入各单位年终绩效考评中。这一机制设计,确保了政府各部门在该平台上回应的积极性。该平台拥有政府和市民广泛的关注度,而且平台上的市民来信、政府回信、网民评价等相关数据透明开放。截至2015年12月,平台累计接收市民各类来信307474封。该平台不仅是中国网络政民互动平台的重要探索,也为相关学术研究提供了大量素材。
(二)研究方法
本文主要应用R软件对北京市网络诉求信件进行文本分析。文本分析技术广泛应用于生物信息学、社交网络分析、医疗、卫生等领域,基本流程包括文本收集、文本预处理、文本挖掘及分析处理。文本收集即获取“政风行风热线”2006~2015年的来访信件。文本预处理则删除重复、有缺失的记录,以及没有实际意义内容仅仅是发泄不满的各类信件。通过文本预处理,保留了203082封有效信件。
由于诉求信件数量巨大,内容庞杂,为了降低噪声影响,本文对分词后的主题词进行有效清洗、合并及相应操作,以期为后续分析提供更佳的主题词列表。因此,文本挖掘分为四个步骤:第一步,进行分词;第二步,对分词后的主题词进行适当的整理,清洗掉全部单字词、数字、人名等显而易见的“噪声”,以及词频不大于10次的词;第三步,词表清洗与合并,也就是采用停词表、常用词表、常用地名词表等多个词表,移除或合并主题词;第四步,模糊语义处理,对同义词、近义词、反义词等类似主题词进行合并处理。通过这几步工作,移除了23.8%的无关主题词。最后,以相关主题词为基础,综合词频,利用文本自动分类技术,将所有信件分为8类,并以此计算每类信件年度占比。
二 基础统计分析
(一)信件总量
2005年5月北京市“政风行风热线”开通之后,2006年来信量即超过2万封。除2008年、2011~2013年出现短暂、少量下落之外,年总量均超过2万封(见图2);与之相比,全国性网络政民互动平台人民网“地方领导留言板”每年平均留言3万条[2],由此可见,该平台汇集的诉求数量较多。然而,相对于北京2200多万常住人口,该平台信件数量尚有较大提升空间。一方面,可能市民对此平台了解不够;另一方面,可能仍有不少市民缺乏使用该平台的技能。
图1 2006~2015年有效信件数量
(二)市民来信的高频词
由于数据量比较大,采用R语言的文本挖掘包进行分析。加载了搜狗的多个细胞词库,对信件进行了分词,并统计了词频(具体的分析过程略过)。图2是每封信分词后的词汇数量,由图2可见,绝大部分信件词汇数量低于200个,词汇量在100个以下的信件占了将近60%。
图2 词汇数据分布
根据汉语特点,去掉了单字词,并经过停词处理之后,词频最高的200个词的词频占所有词词频之和的59.7%。词频最高的200个词降序排列如表1所示。看看这些高频词,北京市民反映问题最多的领域和区域一目了然。
表1 词频最高的200个词
根据词条及词频,在专业的词云绘制网站(http://www.tag