文档详情

结合语义理解的语音识别技术和深度学习技术

沈***
实名认证
店铺
PPT
725.50KB
约15页
文档ID:232234377
结合语义理解的语音识别技术和深度学习技术_第1页
1/15

结合语义理解的语音识别技术和深度学习技术 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope有生命必有希望有生命必有希望通用语音识别服务简介 语音服务内容语音服务内容 语音压缩无线网络无线网络网络接口协议网络接口协议.网络接口协议.声学训练数据语言训练数据语言模型自适应解码器 识别结果返回返回识别结果/命令语言模型个人用户账号信息个人账号分享信息个人账号分享信息解码空间组织和构建任务调度模块端点检测本地解析声学模型声学模型输出输出分布分布输出输出分布分布输出输出分布分布DNN统一构架交互入口百度搜索地图百度应用百度音乐 浏览器输入法指令融合Grammer 和 Ngram信息的解码空间类语言模型,Grammer模型,Ngram模型深度神经网络模型一遍解码识别文字结果,输入识别文字结果,输入query种类,指令内容解析种类,指令内容解析语音助手好1231.网络化的识别构架网络化的识别构架2.海量的来自各种终端的海量的来自各种终端的声学语料声学语料和声学模型的个性化自适应和声学模型的个性化自适应3.海量的来自各种渠道的海量的来自各种渠道的文本语料文本语料和语言信息的快速更新和语言信息的快速更新4.语义理解和语音识别紧密相关,语音识别和互联网服务紧密相关语义理解和语音识别紧密相关,语音识别和互联网服务紧密相关5.语音识别服务计算资源耗费严重语音识别服务计算资源耗费严重算法性能提升数据增加分布式语言模型分块高速训练(1)语料1语料2语料3。

CPU Kernel1CPU Kernel2CPU Kernel3递归的后缀树排序递归的后缀树排序递归的后缀树排序递归的后缀树排序语料+索引语料+索引语料+索引语料+索引倒数第二个词是W2的后缀树的直接快速抽取倒数第二个词是W2的后缀树的直接快速抽取网络传输基于树合并的归并排序融合语义解析的声学空间网络词典词典词条1词条2词条3词条4 词典自词典自跳转跳转词典自跳转1.语言模型的中任意单个词2.一些同义词构成的词组集合例如:想,要,要求 3.一些专名集合例如人名,地名等4.一些助词例如:吧,呢,吗等5.个性化的专名和称谓词典定义词典定义词类定义词类定义Grammer:-打给【人名】-发短息给【人名】说【短信内容】-从【地名】到【地名】怎么走-我想订【时间】的去【地名】的机票-发短信给【妈妈】说我去贵阳开会了未来:统计语言模型之后未来:统计语言模型之后-最大墒语言模型-RNN-短语模型-层次短语模型混合高斯模型和模型混合高斯模型和模型图一:混合高斯模型图一:混合高斯模型图二:图二:深度深度神经网络神经网络更更多多隐隐层层模型在百度的应用模型在百度的应用1.百度在百度在2012年年9月份上线了语音搜索引擎的月份上线了语音搜索引擎的DNN模型模型,2012年年10月份和月份和2012年年12月份分别上线了百度的语音输入法和月份分别上线了百度的语音输入法和语音助手的语音助手的DNN模型。

平均相对误识别率相对于百度最好的模型平均相对误识别率相对于百度最好的GMM系统而言降低系统而言降低20%以上以上DNN成功的原因成功的原因-深度建模深度建模:深度多层的网络结构-特征融合特征融合:融合当前帧的更多的左右context信息-稀疏化的权重分布稀疏化的权重分布:神经元的局部记忆激活-海量数据训练海量数据训练-GPU训练训练DNN成功的启示成功的启示-要采用能够使用更多特征的分类器要采用能够使用更多特征的分类器-要选择能够配合大数据使用的分类器要选择能够配合大数据使用的分类器-要采用能够随着数据量增加就轻松的要采用能够随着数据量增加就轻松的scale up的分类器的分类器-要选择能够分布式并行化训练的分类器要选择能够分布式并行化训练的分类器-要选择能够用算法简化结构的模型,分类器要能够压缩计算量要选择能够用算法简化结构的模型,分类器要能够压缩计算量-不片面追求优化算法的最优,更重视大数据的使用不片面追求优化算法的最优,更重视大数据的使用Down-pure SGD(on-line method)LBFGS Bache mode1.Robust to computer failure2.Possible sub-set model parameter sharing 3.Introduce more stochasticity4.Asynchronous model update 1.Much less bandwidth requirement2.Bache mode learningDeep learning:一个拥有一个拥有千万个未知参数千万个未知参数的数学优化问题。

的数学优化问题Hassian-Free Deep Learning:(1)神经网络的输出损失函数(交互墒,最小二乘,神经网络的输出损失函数(交互墒,最小二乘,softmax)是凸函数是凸函数(2)采用高斯牛顿法近似整个神经网络的损失函数采用高斯牛顿法近似整个神经网络的损失函数(3)由于由于G是正定的,因此构建下面的二阶辅助目标函数是正定的,因此构建下面的二阶辅助目标函数(4)共轭梯度法共轭梯度法 优化二阶辅助目标函数优化二阶辅助目标函数(5)核心核心Trick1:Gd 核心核心Trick2:Mini-bache 高斯牛顿估计高斯牛顿估计 核心核心Trick3:Back-tracing 高斯牛顿法的二阶矩阵G如何调节?VTB结果结果Lattice结果结果1.交互墒准则交互墒准则2.关键帧抽样和引入序列信息的序列区分度关键帧抽样和引入序列信息的序列区分度计算平台计算平台(Deep Brain)树状和环装连接同时树状和环装连接同时支持的网络结构支持的网络结构PC ServerGPUGPUGPUGPU=1.数据分布式存储,模型集中存储2.每个计算节点是都采用单机四核的异步SGD算法3.跨机多GPU并行DNN训练问题的主要难度:-基于mini-bache的SGD算法本质上是个串行算法-跨机器异步SGD的机器间通讯时间远大于训练时间-提出一种分布式跨机多GPU并行训练新算法:结合平均SGD和异步SGD。

成功解决上述问题4.算法效果:-训练速度可以加速10倍以上,识别率较单机训练低于0.5点以内 1.招聘对语音识别技术、语音合成技术、音乐处理相关技术自然语言处理技术,和机器学习技术有热情的年轻人2.较好的算法或者产品研发经验,优秀的代码能力 谢谢大家谢谢大家 结束结束。

下载提示
相关文档
正为您匹配相似的精品文档