随着准确性提升 语音识别开启人机交互新范式
发布日期:2017-09-22
点击次数:1249
中国语音产业联盟数据显示,2015年全球智能语音产业规模达61.2亿美元,同比增长34.2%,预计到2017年市场总规模将超过100亿美元。其中,2015年中国智能语音市场规模达40.3亿元,同比增长41%,高于全球同期增速。预计未来两年,中国市场将保持60%左右的增速,全球市场份额将进一步提升,侧面说明统计机构对国内语音市场的认可。
近二十年,语音识别技术取得显著进步,但识别的准确性问题一直阻碍着智能语音的进一步发展。随着准确性的提升,语音识别应用范围将不断拓宽,语音交互也逐渐成为可能。
语音识别是一门交叉学科,也被称为自动语音识别。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
二十世纪末,语音识别系统已经在电脑游戏和玩具,不同乐器的控制,数据采集和听写等方面发现了广泛的应用。而在近二十年,由于人工智能和机器学习迅猛发展,语音识别技术取得显著进步,语音控制也变得更为实用,开始从实验室走向市场。
《互联网趋势》报告中曾谈及语音将是人机交互的新范式,语音技术将解放人类双手和眼睛,用户以较低的成本实现随时访问。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。未来与智能家居 、可穿戴设备、机器人等交互模式,语音将是最佳人机交互模式。
据悉,智能语音技术涉及多个学科,具备技术壁垒较高,研发周期长,投入大等属性,只有综合实力突出的厂商才能脱颖而出,因此造就寡头垄断市场格局。自2011年苹果开发第一个智能语音助手Siri之后,Google、微软、亚马逊、Facebook陆续加入阵营,这些智能助手各自嫁接在智能移动设备终端上。
但识别的准确性问题一直阻碍着智能语音的不断发展。目前在实际应用中,我们看见语音识别多是在智能家居 领域,比如智能家电或智能音箱。此时,我们就需要考虑一个问题了,当多个家庭成员同时讲话时,智能家电或智能音箱该执行谁的命令呢?它们又如何能在众多声音中找出自己主人的命令?这些都是当前语音识别所需要解决的问题,毕竟我们通常所说的语音识别不仅仅只是单纯的对语音内容进行识别。
在这一方面,微软最近有了新进展。微软语音团队黄学东介绍,“去年10月,在我们的转录系统达到5.9%的错误率之后,其他研究人员也进行了自己的研究,采用了更多参与的多转录程序,将错误率降低至5.1%。这是一个新的行业里程碑,大大超过了去年实现的准确性。”
按照黄学东所说,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的:“你知道0.1、0.2、0.3的差距要跑多少时间才会达到,错误率的计算应该按照相对错误率来看,5.9到5.1相对错误率应该是13%左右,相对错误率超过13%,统计上已经有重要意义了。”简单来说,微软语音团队是通过改进微软语音识别系统的神经网络声学和语言模型,将错误率大大降低。
随着准确性的提升,语音识别应用范围将不断拓宽,语音交互也逐渐成为可能。不过在语音识别更新迭代的过程中,新旧共存现象必可避免,在初期混乱的市场蓝海中,只有看清发展大势,方能真正抓住机遇,迎来新发展。