侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

机器嗓音里的赛车场:我们离完美的AI之声还有多远?

2018-11-09 08:38
来源: 亿欧网

简单来说,讲话人编码器已经学会了把不同人说的话分别聚类,更好地模仿讲话人的声音特点。比如,机器能从口音判断出,讲话者是一个来自北美的男性还是来自英国的男性,从而更逼真地还原出原音。

猎户星空则是通过更多层级的标注体系,来进行语音特征单元的提取。目前可以从声韵母层、音节层、词层、韵律词层、短语层和语句层6个层级,让合成后的语音在上下文韵律信息及准确度上更加完善,听起来也就更符合真人的发音习惯。

总而言之,好的TTS算法,正成为如今区分语音合成领域产业地位的核心。

训练成本之争:AI界的另一个方法,是让机器用你的声音开口

TTS的另一个赛道,是如何让机器低成本地学习用户的声音。

让更多的明星,甚至普通人的声音都可以在终端设备中苏醒,这个技术能力具有广泛的市场想象力。但是,采用明星的声音,往往需要大量语料的录入和拼接。录入时间过长不说,还需要在专业指导下完成。合作的明星要录制几千句,时间跨度动辄几个月,耗资不菲。

即便如此折腾,也难以覆盖全部细分应用领域。在某些衔接处,往往会出现机械拼凑的生涩感。不但阻碍了明星声音进入泛化设备场景,更让普通人对录入自己的声音望而却步。

所以如何降低训练成本,用更少的语料达成声音学习和语音生成,是这条赛道的关键。

最近,百度就发布了自己在语音合成方面的最新成果,可以通过“语音克隆”模仿数千个不同的声音,每个说话者需要不到一个半小时就能完成数据训练。

核心方法是讲话人适配(speaker adaptation),使用数个语音克隆样本,让机器从几秒长度的短句中学习说话者的声音特点,然后通过反向传播的优化方法对多讲话人语音生成模型做精细调节(fine-tune)。讲话人只需提供少量的语料,余下的语音复制所需的素材都可以通过克隆来完成。

猎豹移动旗下的猎户星空语音OS,用户花费5分钟录制10段话,系统就能自动用一段时间合成一个覆盖常用领域的语音包,并且音色自然。简单来说,是用深度学习TTS模型TACOTRON,将文本分析、声学模型、音频合成等模块进行大语料库的打包训练,以这样的语音库作为基础模型,就可以在10段话中提取出发音人的语音特征,然后通过world声码器合成出音色相同的语音。

总结一下,目前TTS领域的现状是,传统的语料对数据的要求太大,往往需要消耗大量人力物力,短期内根本无法被大规模复制。但个性化语音背后隐藏的,又是一个庞大的交互需求。

一旦音源采集成本能够大大降低,普通人也可以轻松生成独属于自己的个性化语音包。试想一下,如果一个聊天机器人具有了真人的语气、生动的表达,是不是能训练出一个很高仿的AI?它可以是一位好久不见的朋友、一个会讲故事的妈妈,或者是一位即将逝去的亲人最后的剪影。

这个技术的“处女地”一旦被撬动,很多智能语音软硬件体验上的困扰都将迎刃而解。因此,建立在数据与算法优势上的少语料分析能力,也成为TTS赛场上重要的弯道技巧,只把少数企业推向更广阔的市场。

工程化与商业入口:TTS的产业地缘争夺

说了这么多不难看出,TTS是一项“可甜可盐”的技术。

它看似存在感很低,却让许多站在金字塔顶端的高科技企业操碎了心;要用最前沿的技术矩阵才能攻克,最终还是要到真实琐碎的人间烟火中千锤百炼。而它的终极目标,还是通过智能设备与生活场景相联接,建立服务市场。

所以一场围绕TTS的争夺战,不仅仅是技术竞速。最重要的竞争指标,是企业的工程化完成能力与市场信赖度。比如说,如果某些新技术只停留在实验室阶段,放到真实的音箱、电视产品上根本不是那么回事儿,或者说优化程度很有限,不但合作伙伴要背锅,“狼来了”听多了,消费者的热情也会被消耗殆尽。

目前百度和科大讯飞在国内难解难分,微软凭借具有号召力的技术表现力占得一席之地,谷歌则是远在天边的“技术明灯”。但普通人能在哪里用到它们,还真是个谜。重技术突破而轻应用、轻市场,恐怕是当前TTS升级阶段的主要矛盾。

这或许也显露出了TTS目前最急需的,不是“居庙堂之高”,反而应该将技术突破尽快投掷于现实,与用户共舞,与产业磨合。

从大环境来看,TTS的应用场景非常丰富。出行、购物、娱乐、育儿、智能手机等等等等,都是能够大显身手的地方。用户的耐心也还在培养期,体验不尽如人意,也只会被友善的调侃一下。一些技术厂商之所以无法跑通这条康庄大道,一方面是产业下沉能力,习惯了在技术上九天揽月,对工程化产品缺乏耐心细致的打磨;

另一方面是大众认知断层,在消费层面缺乏有力的品牌支持和心智保障,出现了“叫好不叫座”的局面。TTS的应用价值,决定了它是一个非常泛在的通用型技术,但并不是所有AI企业都能凭借TTS在泛AI交互市场成功“吃鸡”,它考验的是企业无短板的综合能力。

目前看来,想要拥有不尴尬的TTS,从实验室到产业,还需要长期的应用突破和商业迭代,才能迎来真正的破晓。

<上一页  1  2  
声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    机器人 猎头职位 更多
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号