出版时间:2015年04月 |
一 智能语音已成为新的信息流入口
智能语音即智能的语音交互,是移动互联网人机交互的一种重要方式。人机交互主要是研究人和计算机之间的信息交换,是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合领域。人机交互技术分为四大类——基本交互技术、图形交互技术、语音交互技术和体感交互技术(见图1)。早期,移动互联网信息流入主要由键盘掌控,随后逐渐被触摸屏取代;随着智能语音技术不断取得突破,商业化程度不断提高,作为人类获取信息最自然、便捷的方式,智能语音已经被应用于移动互联网、汽车电子、智能家电、智能客服、教育培训、医疗卫生等多个领域,并已经成为新的信息流入口。同时,随着智能手表、智能眼镜等可穿戴设备的快速发展,智能语音作为信息流入口的重要地位正在进一步提高。软件和终端设备将按照语音交互的方式在软硬件层面进行重新设计,并引导用户交互模式和使用习惯的变革。未来,智能语音依然是体感交互中必不可少的核心环节。
图1 人机交互技术
综观全球,智能语音产业发展历程可分为四个阶段。第一阶段是技术萌芽阶段(20世纪50~70年代),以孤立词和少词汇量句子识别,并通过关键词匹配实现简单命令操作为主要内容,AT & T开发的第一个语音识别系统Audry是其主要标志。第二阶段是技术突破阶段(20世纪80年代),智能语音技术研究由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路,语音识别和自然语言处理技术有了较大进展。第三阶段是产业化阶段(20世纪90年代到21世纪初),智能语音技术由研究走向实用并开始产业化,以1997年IBM推出的Via Voice为重要标志。自此,智能语音产品开始进入呼叫中心、家电、汽车等各个领域。第四个阶段是快速应用阶段(2010年以后),以苹果Siri的发布为重要引爆点,智能语音应用领域由传统行业开始向移动互联网等新兴领域延伸(见图2)。
图2 全球智能语音产业发展历程
我国智能语音产业起步基本上与国外同步,以智能语音识别技术研究为起点,大致也经历了四个发展阶段。第一个阶段是技术萌芽阶段(20世纪50~70年代),以中国科学院声学研究所研发的能识别10元音的电子管电路为重要标志,但随后技术进展较为缓慢。第二个阶段为技术突破阶段(20世纪80~90年代),在国家自然科学基金、国家高技术研究发展计划(“863”计划)、电子信息产业发展基金以及国家“十五”与“十一五”重点攻关项目等的大力支持下,中文智能语音核心技术已经接近国际先进水平,但产品化程度尚需进一步提高。其中,在语音合成技术方面,中国科技大学进展显著;在语音识别技术方面,中科院自动化所、中科院声学所、清华大学、北京大学处于领先地位;其他如哈尔滨工业大学、北京邮电大学、北京交通大学、北京航空航天大学也都在相应领域取得了一定的技术突破。第三个阶段是产业化阶段(20世纪90年代末至21世纪初),科大讯飞、捷通华声、中科信利等智能语音企业相继成立,智能语音技术逐步在金融、电信、邮政、电力、教育、政府和企业等各行业开始应用。第四个阶段是快速应用阶段(2010年以后),以语音合成、语音识别等为代表的智能语音核心技术不断取得突破,产品和应用的可用性不断提升,伴随着全球智能语音产业的快速发展,我国智能语音产业得到了快速发展。
二 智能语音产业整体规模大幅提升
随着信息化、网络化、智能化的不断演进,智能语音技术已经开始为越来越多的用户提供便捷自然的交互体验,并逐渐成为智能终端的基础服务和用户获取信息的入口。2012年以来,智能语音在移动互联网、呼叫中心的应用全面展开,在智能家居、汽车电子等领域的应用也正在逐步深入,带动全球智能语音产业规模持续快速增长。2013年,全球智能语音产业规模整体达33.7亿美元,同比增长38.1%;2014年较2013年同比增长41.0%,产业规模大幅提升。预计到2017年,全球智能语音产业规模将达112.4亿美元(见图3),复合年均增长率达35.1%。
图3 2011~2017年全球智能语音产业规模
产业规模的大幅提升主要得益于两个原因。第一,大数据、云计算等技术的快速发展使得智能语音技术的应用不断成熟,能够满足政府、金融、家电、汽车等多领域垂直行业的应用需求。第二,随着移动互联网技