从“听清”到“听懂”，远传为智能语音交互技术注入新动能

2020-08-06 14:50

2016年，在深度神经网络的帮助下，机器语音识别准确率第一次达到人类水平，意味着智能语音技术落地期到来。继而随着人工智能行业的快速发展，短短几年内，国内智能语音技术突飞猛进，整个行业市场正经历着高速的发展，越来越多的企业争相入局，智能语音真正成为风口。但是智能语音的发展是个开放性的课题，背后涉及的技术仍有不足，亟待我们的求索突破。

“停”不下来的智能机器人

就拿智能语音机器人来说，用户经常会诟病“不够智能”，尤其是不能很好地支持打断、插话，或是反应慢、自说自话等问题。目前市场上大多数语音机器人采用一问一答的交互方式，先是照本宣科 TTS 播报内容，播报完成后，再去询问和倾听客户的意见，语音识别转译后再跳转对应的对话场景流程。但在实际沟通中，客户往往喜欢根据自己的想法和判断，对沟通进行各种插话打断，比如：

“等一下”

客户意图翻译：不需要机器人继续说下去，暂停思考一下，准备切换话题

“那 XXXX 问题呢？”

客户意图翻译：直接从当前话题切换到下一个话题

“好，我知道了”

客户意图翻译：客户对机器人的回答表示已经足够了解，希望终止当前对话

一旦出现打断的情况，机器人如果不能及时响应客户的最新想法和指令意图，仍然还在上一个频道“自说自话”，客户体验就会大打折扣。“想打断的时候它不停，明明没有说话它又不讲了”，在机器人的语音识别中，经常会遇到这样的问题。一些意外的噪音，比如关门声、装修声、音乐声等，会干扰语音交互，一旦机器人识别后就会造成错误打断；而混杂在环境噪声中的真人说话声，识别不到的话，就会造成漏打断。

在智能语音机器人应用中，如何合理、准确的判定客户是否有效打断，保证客户智能交互体验，一直是长期存在的问题。

从“听清”到“听懂”，远传为智能语音交互技术注入新动能