出版时间:2016年07月 |
一 背景介绍
大数据正在开启一个新的时代,大数据已经渗透到全球政治、经济等各个领域,提高了全球各部门、各行业的创造力、竞争力、生产效率和经济效益。更重要的是,它改变了我们的生活、工作和思维方式。大数据的影响也渗透到旅游业,国家越来越重视大数据在旅游业的运用。《中国旅游业发展“十三五”规划纲要》提出“要建设旅游产业大数据平台,实施旅游产业大数据工程,建立旅游与公安、交通、航空、统计多部门数据共享机制,形成旅游产业大数据平台”。基于大数据的旅游分析研究已经成为趋势。
北京是国际旅游城市,2015年接待旅游总人数2.74亿人次。如此多的访京游客,必然发布海量的北京旅游网络游记,构成了北京旅游游记大数据源,这些大数据是开放的、易于获取的。因此,本文以海量的、开放型的2015年北京热点景区网络游记大数据为研究素材,利用大数据文本分析方法进行语义分析,从而勾勒出2015年游客心目中的北京旅游发展映像。
二 研究方法
(一)北京十大热点景区的确定
根据主流门户网站旅游频道、OTA(Online Travel Agent,在线旅游社)网站、旅游攻略和游记分享网站的对于北京旅游景区进行排名。为保证研究的普遍性和代表性,从排名靠前的热点景区中选择5个传统景区和5个新兴景区。5个传统景区包括北京故宫、颐和园、香山、八达岭长城和什刹海;5个新兴景区包括:三里屯、798、鸟巢/水立方、古北水镇、欢乐谷。
(二)大数据获取
从蚂蜂窝、携程网、百度旅游等主流游记发布网站抓取北京十大热点景区的全部游记。网页数据采集目前已经有很多较为成熟的软件,如集搜客(GooSeeker)、乐思软件、火车采集软件等,这些软件普遍具有迭代迅速、模式成熟、容易操作的优点,但同时也有各自的限制。为抓取优质数据,使分析结果更加准确,本次研究根据以上抓取软件的基本思路和算法,用编制改良的抓取程序进行数据采集。
(三)大数据分析
旅游大数据分析包括搭建数据库、数据分析和结果输出等部分。
图1 旅游大数据获取和分析流程
首先将数据进行结构化处理,按照游记标题、游记作者、游记正文等基本要素以及出游方式(家人/个人/朋友等)、出游天数、出游花费等出游信息,将下载的数据导入EXCEL中,成为本地原始游记数据库。然后,对数据进行内容清洗:根据出游时间删除非2015年的游记数据,删除基本信息大量缺失的数据,删除游记网站模板数据和浮动广告条等无效数据。最后,对原始数据的游记正文进行格式处理:包括纯文本化处理,删除重复行和空白行,删除过短或纯符号等无意义行,将文本按照句号、感叹号、问号等句末标点进行分行等处理。将有效的游记正文保存为纯文本格式文件,得到2015年北京十大热点景区游记大数据库。
对游记正文进行分词处理,将798、古北水镇等较新的北京专有旅游词汇添加到分词词汇表中。分词完成后进行词频统计,过滤掉各种副词、虚词等无意义词汇后,整理得到有效高频词汇表。根据高频词汇表对游记文本的每一行进行特征词提取和所有行特征词的共现频次统计,得到行特征词共现矩阵。将共现矩阵进行拓扑图可视化处理,形成语义结构图。
对语义结构图进行更深入、更准确的分析,得出结论。并根据分析结论与语义结构图进行聚合、分色等结构化处理,进一步增加可读性。
三 北京十大热点景区游记大数据语义分析
(一)故宫
“北京”是故宫游记的第一关键词,这说明故宫在很大程度上代表了北京旅游形象。游客对故宫兴趣集中于“宫殿建筑”、“历史文化”和“皇家人物”。
游客关注度最高的故宫建筑主要集中在外朝三大殿、内廷中路(乾清宫)和内廷西路(养心殿、储秀宫)。同时,天安门和景山成为故宫的高频关键词,可见天安门—故宫—景山是一组高度相关的旅游景区。
故宫人物中,明朝永乐皇帝作为故宫建造者受到游客关注,而清朝康熙和雍正皇帝以及“王公大臣”的高关注度,笔者则认为与近几年荧幕热播的清宫影视剧有关,“甄嬛”“小主”“储秀宫”等词都印证了这一点,充分说明相关影视作品对故宫旅游的影响。但这种影响可能包括两方面:一方面是真实历史信息的传递,另一方面是因为艺术表达需要而杜撰的情节对游客造成的误导。笔者摘录了一些产生两种不同影响的游记原文:“导游介绍说,清世祖