出版时间:2016年07月 |
旅游市场秩序治理一直以来都是我国旅游行业管理工作的重心之一。对于旅游市场秩序治理而言,旅游市场秩序的动态监控是基础。从当前我国旅游市场秩序的监控现状来看,更多的是通过游客投诉来显示旅游市场秩序动态。但是,游客投诉往往受限于投诉渠道的狭窄、投诉及处理过程的复杂程度等障碍,通常数量有限,无法较为全面地反映旅游市场秩序动态。从政府部门角度来看,依赖传统的游客投诉治理旅游市场秩序,工作也显得较为被动。近年来,随着在线旅游市场份额的逐年扩大,相关旅游网站的用户评论积累了大量数据。这些评论作为了解旅游者感受与体验的一手资料,不仅反映了游客对现有旅游产品的满意程度,从另一个角度看,也反映了当前旅游市场秩序的发展动态。例如,游客在评论里提到的“挨宰”“辱骂”“自费项目”等问题,都是对旅游市场秩序问题的最直接表达。运用网络用户评论挖掘技术,对相关的旅游用户评论进行深入分析,将在较大程度上提升旅游市场秩序监控工作的主动性、科学性和系统性。
本文旨在通过对旅游网站评论的挖掘,以城市为单位,对当前我国旅游市场秩序的现状进行评价、排行。本研究基于大数据的视角,目的在于打破既往以问卷调查和投诉统计为主要手段的限制,创新旅游市场秩序评价方法,力求使评价结果更为客观、科学,进而为我国旅游市场秩序治理工作提供参考。
一 网络用户评论挖掘研究框架及研究方法设计
所谓用户评论,丁晟春、蔡骅认为是指用户在购物网站、论坛(BBS)、在线媒体或其他评论性网站上对某种商品、服务、事件、新闻表达自己的看法。从评论内容上看,用户评论可以分为商品评论和事件/新闻评论两类。本文所指的旅游用户评论属于商品评论类型,即旅游者关于旅游消费方面的在线评论。
(一)网络用户评论挖掘研究框架
网络用户评论包含了大量有价值的信息。关于评论挖掘的应用范围,目前已经涉及汽车、电影、游戏、手机、旅游等领域。其中在旅游领域方面的运用涉及酒店、景区、旅游目的地等细分领域。总结用户评论、挖掘研究现状、提取产品特征和情感分析是当前的研究重点。本研究的技术涉及多学科领域,需要综合运用计算机、语言学、统计学等知识。相对于英文评论挖掘,中文评论挖掘由于语法的复杂性、文化的多样性等原因,研究更加复杂,尚处于起步探索阶段,其中评论观点的抽取和观点极性及强度的判断是研究的难点所在。
借鉴前人研究成果,结合旅游市场秩序特点,本文构建评论挖掘研究框架如下(见图1)。
图1 旅游市场秩序评论挖掘系统框架
(二)评分算法设计与实现
1.旅游市场秩序关键词库的建立、分级与赋值
构建精确度较高的关键词库是旅游市场秩序评价工作的关键环节。本文将关键词库的构建分为三个步骤:主题词提取、核心词提取、极性词提取。
①主题词提取。
主题词也称特征词,是能够表达研究对象特征的词汇。例如,关于手机产品评论挖掘的特征词语可以包括款式、价格、功能等。主题词的提取来源包括行业分类标准、相关规范词表、权威专业网站、专业书籍、学术文章、维基百科、百度百科等。
本文对旅游市场秩序问题的主题词提取,主要参照三个方面的来源:一是《中华人民共和国旅游法》《旅行社条例》《导游人员管理条例》等相关法律法规条文对于旅游市场整治核心问题的表述,如欺骗、胁迫、自费项目、改变行程等;二是相关新闻报道中关于旅游市场乱象问题的相关表述,如殴打、辱骂、宰客等;三是网站评论中关于游客感受的相关表述,如失望、不满等。将这些主题词进一步整理,归类到“旅游市场秩序紊乱的典型行为”(以下简称“典型行为”)、“旅游相关要素秩序紊乱的具体表现”(以下简称“要素秩序”)、“游客总体感受”(以下简称“总体感受”)三个维度。其中“典型行为”反映的是以“零负团费”、不合理低价行为造成的当前旅游市场秩序紊乱的主要表象;“要素秩序”反映的是景点/游览、住宿、餐饮、交通等方面存在的乱象;“总体感受”通过游客失望、不满的情绪表达来评价旅游者对于旅游市场秩序的总体感受,这个维度与前面两个维度可能存在意思重复表达的问题,但是考虑到有些评论难以提取核心关键词,因而通过提取相关的负面情绪表达关键词在一