侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

分析:搜狗汪仔《一站到底》取胜背后的人工智能

2017-02-13 15:54
瑾年Invader
关注

《一站到底》2017年第一期节目中,搜狗机器人汪仔亮相并以8:6 的成绩,击败人类选手取得最后胜利。这次人机大战之后,搜狗搜索技术负责人许静芳向《机器之心》详细描述了汪仔参与比赛的技术秘密。

问:比赛中,汪仔需要识别问题、快速判断并抢答,这个过程的技术路径是怎样实现的?

图说:汪仔比赛的技术系统流程

许静芳:汪仔有较为完整的大脑,具备听、看、说和思考(答题、聊天)的能力,依靠语音识别、图像识别、语音合成和自然语言理解与计算实现。为了适应一站到底的比赛规则,汪仔背后将这些技术完整串联起来,使得其具有快速准确的答题、抢答能力,系统流程图如上。在答题环节,是由主持人念题并在大屏幕上有字幕(逐字)显示。汪仔系统首先从节目环境中采集问题的语音流与大屏幕的视频流。为了缩短识别时间,采用增量识别方法(包括语音与图像),且每个包都足够小,以便能够最快速度的识别,再将截止目前所有包识别内容进行拼接后发给问题识别融合模块。由于语音识别和图像识别都有一定的错误率,所以有该融合模块来融合语音识别和图形识别的结果,预测更为准确当前的问题的文本发给问答模块。由于问答会根据完整题目输入或部分题目输入采用不同的方法与参数,所以还有一个问题完整性识别的模块,根据当前题目是否完整的判断将识别的题目问题分别发给答题和抢答模块。问答经过计算后会给出答案及置信度,根据不同置信度会决定此时答题或暂不答题。答题则通过语音合成播报出答案,此题结束,暂不答题则返回至增量识别过程继续上述流程。

问答部分可以参考下图,整个问答主要由基于知识库的问答及基于搜索的问答两种路径。首先是对问题的多种形式改写以便找到更多的相关信息,然后对每种改写形式做详尽的问题分析包括词法、句法、核心概念、实体识别、意图理解等,供后续答案的抽取和排序使用。其次是通过搜索和线下挖掘的知识库查找相关信息,及对候选信息与问题的深度语义匹配计算,最后是从全文信息中抽取答案并对答案进行计算及排序,及置信度计算。输出置信度高的答案,或暂时不答,等待更多的信息再计算。

图说:基于知识库、搜索的两种问答路径

语音识别:

汪仔听题时,主持人语音采取分包的方式,缓存小段语音后发送至语音识别服务转为文字,并发送至答题模块,其中,语音识别的基本原理是原始语音提取特征后,发送至语音识别解码器,在声学模型、语言模型以及发音词典的共同作用下,寻找匹配语音信号的最优词序列,随着深度学习的发展,深度神经网络被广泛应用到语音识别的模型学习中,目前汪仔语音识别的声学模型使用了 CLDNN(CNN+LSTM+DNN)+CTC 的端到端模型结构,特别是为了降低识别延迟,LSTM 使用了单向 LSTM,特征尽量少的使用下文特征,降低时延,为后续答题模块抢答流出足够时间。同时考虑到一站到底题库中专有名词、命名实体等类型词汇较多,在训练汪仔语音识别的语言模型时,除了基于搜狗搜索和输入法的海量文本数据之外,还重点结合了知乎、搜狗百科等领域相关数据,最终完成了 Ngram+RNNLM 的模型训练。

图像识别:

输入信号除了语音,还有题目的实时截屏图像。通过 OCR 识别技术,将图像中的题目识别成文本,输出给后面的答题模块。OCR 同样采用深度学习技术,设计了基于单字符识别核心的 CNN 识别引擎。通过对图像中的文字进行文字行检测,再对文字行进行字符切分,利用 CNN 识别核心对单字符进行识别后,利用动态规划寻优输出最优的识别结果。针对一站到底视频流信号字幕是逐字显示的特殊形式,引入了增量识别算法,仅仅对新增的字幕进行识别,极大的加快 OCR 速度,提升了汪仔的抢答能力。

1  2  3  4  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号