百度大脑功能之语音的能力

2016-09-01 16:03:49

9月1日上午消息,百度2016年世界大会今日举行,本次百度世界大会以“人工智能”为主题,百度公司创始人、董事长兼CEO李彦宏围绕人工智能发表了主题演讲。李彦宏重点介绍了百度大脑的四个功能:一个是语音的能力,一个是图像的能力,一个是自然语言理解的能力,还有一个就是用户画像的能力。  

百度大脑功能之语音的能力

在百度大脑语音的能力,目前百度语音识别准确率达97%,已经可以用于客服和销售方面,帮助这些语音相关的行业实现提高。语音合成方面,则可以做到原音复现,李彦宏现场以张国荣声音合成举例,合成了张国荣的国语声音,李彦宏还称,目前可以通过50句话的录制,让每一个人都能拥有属于自己的声音模型。

我们先看一下语音,刚才也讲了应该说今天人工智能发展的最成熟的一部分能力,而语音又分成两个方向,一个是语音的合成,一个是语音的识别。

我们先看看语音识别。今年MIT Technology Review(《MIT科技评论》)杂志,把百度的Deep Speech 2评为“2016改变世界十大突破技术”,这就是百度的语音识别引擎,它已经到了第二代,主要就是使用了深度学习的能力。这样的一个技术已经可以把语音识别的准确度做到多少呢?大概可以做到97%的准确率,这样的准确率已经达到、甚至有时已经超过了人对语音的识别能力。当然,我们讲这些能力不是为了简单地去炫耀这个数字有多好,我更感兴趣的是,当你有了这些能力时,它可以在什么领域应用,又可以在哪些方面帮助到我们,这其实才是最最让我们觉得兴奋的地方。我个人的想象力很有限,整个百度几万人的想象力也是有限的,但是这些能力如果赋予到很多很多人,赋予给几亿人、几十亿人,这个可能性几乎是无限的。先用我们比较有限的想象力来给大家举一个例子。

这是一个销售、电话销售的例子,是一个 2B(To B)的应用。这个应用是什么意思呢?很多的公司其实都有电话销售这样的一个部门,都需要这样做。但是销售,尤其是电话销售这个行业,大家知道流动性是比较大的,很多销售都是新人,新人的话就会经过一定的时间培训才能够上岗,但即使是经过培训的话,也不一定有那些有经验的销售那么出活儿、出单。其实有经验、最优秀的销售和一般、较差的销售相比,在效率上有非常大的差别。我们怎么才能够让新手、让没有经验的销售,能够具备最优秀销售的销售能力?过去的做法是,把优秀的销售经验总结成册子让大家去学习,让这些销售去背,但是怎么活学活用还是需要一个过程的。而有了这么高精度的语音识别能力之后,我们就可以彻底改变这样一个状况了,甚至可以让一个刚刚上岗一个月的销售就具备最优秀销售的能力,也就是说,我们可以通过实时的语音识别甄别出用户或客户在问什么问题,然后我们再实时地在屏幕上告诉新的销售,最优秀的销售是怎么回答这个问题的。过去没有实时的语音识别的时候,你需要线下学,学完了之后上去用、很容易就忘了,但是有了这个系统之后,我们就可以解决这样的问题。

我们来看一下这个案例。

大家看到,在刚才的过程中,百度大脑一直在实时地识别双方的对话,尤其是从电话里面传出来的声音,有的时候并不是那么清晰,对于人来说要完全听清楚每一个字其实都是有一定难度的,但百度大脑的语音识别能力已经可以做到非常精准,并且可以根据用户的问题、实时推荐下一步的工作要怎样应对,这是一个语音识别应用在企业日常运作中的一个例子,就像我刚才讲的,应该还有很多很多应用场景,大家可以根据自己的背景去想象。

语音识别是一方面,语音合成又是另外一个方面。语音合成是什么意思呢?就是机器可以把文字转换成语音,把它念出来、读出来。今天的语音合成也有了和过去非常不一样的体验,最主要的就是,它可以用比较自然的人的声音读出来,而不是像过去机器一样,每一个字之间的停顿都是一样长,是匀速的、没有表情的。这样的自然体验,当然对于用户的黏性来说也是有很大的作用。

现在,百度每天要响应2.5亿次的语音合成请求,这些请求用来干什么呢?比如说,过去人们看小说,今天可以在手机百度里面听小说。慢慢的人们听小说的时间也更长了,过去每个人平均在小说频道会花大概四十分钟左右的时间,现在要花将近两个半小时,就是因为把计算机合成出来的语音读出来给我们听,确实是一个很不错的体验,甚至是一种享受。那么这种读出来的小说,和我们平时听到的广播有什么本质上的不一样?其实非常不一样。广播是每一个人听到的东西是一模一样的,而今天的语音合成,它可以做到每一个人听到的东西都是不一样的,完全根据你个人的需求进行定制,这就是为什么它的(用户)黏性会很高,它能够具备自然发声的能力。不仅如此,其实我们可以想象一下,它如果能够模拟一个自然人的表达方式或发声能力,它就可以模拟任何一个你喜欢的人的说话方式。

不知道有没有人注意到,百度地图里导航功能就是用语音来进行的,其中有一个选项可以用我的声音进行导航。其实导航的那些话我并没有说过,机器只是根据我平时说话的情况合成了一个李彦宏的声音。这样的声音不仅在我身上可以做到,在很多其他人身上也可以做到。

我们现在来给大家展示一个合成的声音。我们合成了一下13年前已经去世的张国荣的声音,我们来放一段video。

为什么给大家展示这个呢?一方面我知道,很多人是张国荣的粉丝,另一方面,其实合成张国荣的声音比合成一般人的声音要更难。为什么呢?因为他的国语语料相对来说比较少,所以,我们能够合成他的声音,就一定能合成很多很多人的声音。

对于百度来说,百度大脑的语音合成能力可以让每个人都有自己的声音模型,你只要按照我们的要求说50句话,我就学会了你说话的方式。当你拥有自己的合成声音之后,比如说家里的老人想经常听你说一说,你把这个声音合成出来让他听就好了。或者说你平时要加班,小孩睡觉之前想听个故事,你合成自己的声音给孩子讲一遍这个故事,听起来也会很亲切。所以大家可以看到,这些语音的能力会带来各种各样新的可能性。


收藏 举报

延伸 · 阅读