基于深度神经网络 AI百度地图突破自身局限

2019-01-03 10:05

智能相对论

关注

在人机交互不再满足于“听”时，“说”的环节变得尤为重要，“怎么说”、“谁来说”成了关键按钮。

而目前语音产品赛道逐渐进入了常规化模式，邀请明星出声也成为了基本操作，相比传统的机械式AI声音，真人语音无论是在效果还是情感方面都是无可比拟的，再加上明星效应，用户的体验效果将来得更加直观。

12月24日，百度地图官方宣布汤唯正式签约代言人，同时上线“汤唯导航语音”。在“说”的领域，百度地图这款“新一代人工智能地图”又迈出了一步。

从语音导航到汤唯定制语音，百度地图“AI+女神”到底进化了什么

传统语音导航，是单调无聊的，定制语音将其变为了过去式。拥有汤唯的柔美声音作为导航，在体验上有什么差别？当“前方路段交通拥挤,请小心驾驶”变成“前方行驶缓慢，慢慢欣赏路上风景”，会不会觉得这才是“人性化”服务？

1、摆脱中性，汤唯带给我们的不只是女神之声

很多人会问，一定要给AI加上性别吗？不，AI不一定需要性别，但语音最好有。

以往我们听到的AI语音都是机械式的声音，是“中性”或者说是“无性”的声音，带来的问题也很直接，就是太冰冷、没个性。之前也有说到，目前个性化、表现力正是语音合成所追求的方向之一，所以百度地图带来的汤唯语音也就不止是一款语音那么简单。可以说汤唯语音从一个功能点体现出结合了人工智能的百度地图正在变得越来越强大。

声音具有和视觉传达一样很强的感染力，甚至有时，以声音为主的交互会带来更好的沉浸感。

并且语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。所涉及的技术也更加复杂，百度地图就是利用其深度神经网络技术、深度学习技术，再结合车内应用场景进行打造。例如百度语音合成系统采用的全深度学习的框架，是在语音合成领域首次采用全深度学习框架，实现了语言合成上的个性化、口语化。

2、语音算法模型让机器人性化

女神汤唯之所以能完成高质量的语音包，语音合成技术功不可没，在庞大的道路信息和交通数据之下，谁也无法通过直录的方式通通记录，这时就需要靠语音系统来支撑。

以汤唯语音包来说，就是先录制汤唯声音特点的第一手资料，录制的语句包含一些常见的导航提示语句和一些覆盖到常见的中文发音的句子。

其实无论语音还是文字，在计算机看来都是数字化的，语音合成模型的任务就是要建立这两组数字之间的关系，通过一系列的计算，将文本的输入转化为语音的输出。首先需要建立一个神经网络的模型，去学习汤唯录制的语音和录音文字之间的映射关系，就好比让一个不会发音的孩子学汤唯说话。而在合成时，它就可以读取导航语句，并大声朗读出来了。

AI浪潮之下，语言合成才是语音技术的高地

使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场，不过大家的注意力多集中在语音合成之外。

1、差点被忽略的“黄金”场景

目前，语音技术的应用多为了语音唤醒和交互，在智能硬件和软件上都有很多典型应用——智能音箱、智能电视、智能扫地机器人、百度地图、百度输入法等等。但不可否认的是，智能硬件的侧重仍在于“语音识别”，对于“语音合成”的应用有，可还不够深。

语音合成本是把文本经一系列计算处理后输出对应音频，通过机械的、电子的方法产生人造语音技术。因为完美的人机交互体验无法忽略“说”的环节，所以语音合成的重要性日益凸显。

从早期的机械化语音合成开始发展至今，语音合成的应用场景也经历了较大的转变，以前语音合成应用都是在相对单调的场景，现在应用场景更加复杂，对于语音合成技术的要求自然变得更高。

例如，在有声读物方面，用户需求越来越个性化，单调的机械声已经完全不够；在机场、车站广播等服务行业，需要的是温柔、甜美的音质；在办事机构、窗口机关又需要严谨、有力的声音。而百度地图上线汤唯语音，也是给在路上的用户更加磁性、知性的嗓音。

在外部，车内空间显然是一块“宝地”，车内空间的交互可以说是市场刚需，截止到2018年9月，全国机动车保有量已经达到了3.22亿辆，机动车驾驶人数超过了4亿人，交互价值巨大。

百度地图等加速车内空间交互，是将传统的“室内交互”做了外延，给百度带来的也不仅仅是用户层面的拓宽，更体现出百度搜索之外的野心。

2、技术上，语音合成一直是语音技术的高山和壁垒

语音合成可以说是人工智能的“嘴”，是人机交互的基础，一个没有“嘴”的人工智能何谈什么交互？

就现阶段而言，语音识别已经不再是语音技术的关键问题，很多产品的语音识别率都到达了95%以上。但在语音生成上，能让机器说的话与人类说出来的话相近依旧很难，即便是一些简单的词组，你我也能一耳就听出是机器合成的还是真人播报。

如果将语音合成技术拆解，可以分为文本分析、韵律分析和声学分析三个部分，每一个部分都是技术难点。首先需要对文本进行解析，对文本的语言、字符进行分析，提取出文本特征；接着在文本信息的基础上，要判断文本信息字符间奏、长度、频率等多种特征；然后通过声学模型实现从前端参数到语音参数的映射，最后通过声码器合成语音。

而且，目前主流的语音合成方法为统计参数语音合成和波形拼接的语音合成，统计参数语音合成由前端文本分析、统计参数模型和声码器三个部分组成，对语料库的时长要求较低且在合成目标波形时具有较高灵活性，但重建出来的语音比较机械，缺乏自然度。主要为声码器在对语音信号建模时舍弃了语音细节，合成的语音相比原始语音丢失部分信息。

而百度地图采用的百度语音合成系统，可以将很多模块用深度神经网络去实现，有效解决了使用统计参数合成时所带来的问题。

1 2 下一页>