东方头条  >   科技频道  >  正文

东北话和川普,机器都能听懂,吴恩达说的端到端学习究竟是什么?

我要报错
0评论
亲,暂时无法评论!

传统的语音识别系统,是由声学模型、词典、语言模型构成的,而其中的语音模型和语言模型是分别训练的,而不同的语言也有不同的语言模型,比如英语和中文。

最近崛起的端到端的语音识别系统,从语音特征(输入端)到文字串(输出端)中间就只有一个神经网络模型,成为语音识别领域新的研究热点。

硅谷密探独家专访了Baidu Silicon Valley AI Lab总监Adam Coates,探讨了语音和语音识别的新动向。

传统的语音识别系统

(来源:wiki)

传统的语音识别需要把语音转换成语音特征向量,然后把这组向量通过机器学习,分类到各种音节上(根据语言模型),然后通过音节,还原出最大概率的语音原本要表达的单词,一般包括以下模块:

特征提取模块 (Feature Extraction):该模块的主要任务是从输入信号中提取特征,供声学模型处理。一般也包括了一些信号处理技术,尽可能降低环境噪声、说话人等因素对特征造成的影响,把语音变成向量。

声学模型 (Acoustic Model): 用于识别语音向量

发音词典 (Pronnuciation Dictionary):发音词典包含系统所能处理的词汇集及其发音。发音词典提供了声学模型与语言模型间的联系。

语言模型 (Language Model):语言模型对系统所针对的语言进行建模。

解码器 (Decoder):任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。

传统的语音识别中的语音模型和语言模型是分别训练的,缺点是不一定能够总体上提高识别率。

端到端的语音识别系统

(来源:吴恩达NIPS 2016演讲)

端到端学习的思路则非常简单:音频→学习算法→转录结果;

而现在,我们可以直接通过深度学习将语音直接对标到我们最终显示出来的文本。通过深度学习自己的特征学习功能来完成从特征提取到音节表达的整个过程。

在给定了足够的有标注的训练数据时(语音数据以及对应的文本数据),端到端的语音识别方法的效果会很好。

Deep Speech 2

Baidu Silicon Valley AI Lab研发了端到端的能够识别英文的语音识别系统Deep Speech,之后在此基础上研发了能识别中英文的Deep Speech 2,Deep Speech 2通过使用一个单一的学习算法就能准确识别英语和汉语。

Deep Speech 2这个大规模的深度学习系统需要丰富的标记训练数据。为训练英语模式,这个系统使用了11940小时含800万标注的语音片段,而普通话系统采用了9400小时含1100万话语标记的讲话语音。

今日热点

特别推荐

小编精选

热点排行

新闻聚焦
猜你喜欢
热门推荐

注:凡本网注明来源非东方头条的作品,均转载自其它媒体,并不代表本网赞同其观点和对其真实性负责。

东方头条致力于资讯传播,希望建立合作关系。若有任何不当请联系我们,将会在24小时内删除。邮箱:banquantt@em.eastday.com

联系我们|eastday.com All Right Reserve 版权所有