皇冠新体育官网-皇冠新体育官网官网

百度ICML论文：端对端中英文语音识别‘皇冠新体育官网’

公司相册 | 2024-06-04 04:15

本文摘要：论文作者：Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, JingDong Chen, Mike ChrzanowskiBaidu USA, Inc., Adam Coates, Greg DiamosBaidu USA, Inc., Erich ElsenBaidu USA, Inc., Jesse Engel, Linxi Fan, Chr

皇冠新体育官网

论文作者：Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, JingDong Chen, Mike ChrzanowskiBaidu USA, Inc., Adam Coates, Greg DiamosBaidu USA, Inc., Erich ElsenBaidu USA, Inc., Jesse Engel, Linxi Fan, Christopher Fougner, Awni HannunBaidu USA, Inc., Billy Jun, Tony Han, Patrick LeGresley, Xiangang LiBaidu, Libby Lin, Sharan Narang, Andrew Ng, Sherjil Ozair, Ryan Prenger, Sheng QianBaidu, Jonathan Raiman, Sanjeev SatheeshBaidu SVAIL, David Seetapun, Shubho Sengupta, Chong Wang, Yi Wang, Zhiqian Wang, Bo Xiao, Yan XieBaidu, Dani Yogatama, Jun Zhan, zhenyao Zhu概要我们展出了一种可用作辨识英文和中文语音的末端至末端深度自学方法，尽管它们是两个截然不同的语言。因为这种方法用神经网络代替整个了手动设计的管道状网络，并让我们以求适应环境的多种多样的语音，还包括噪音，口音和有所不同的语言。

方法的关键是HPC技术的应用于，使得以前要花上几个星期运营的实验，现在要用几天就以求运营。这使得我们更慢地递归以辨识更佳的架构和算法。其结果是，在一些的情况下，当以标准资料组作为测试基准时，我们的系统不足以和人工录音展开竞争。最后，在数据中心用于一种称作GPU出厂调度（Batch Dispatch with GPUs）的技术，我们的系统可以经济价廉地在网络的设置中部署，并在给大规模的用户获取服务时，获取较低的延后。

1. 概述几十年来手工设计领域累积的科学知识早已转入最先进设备的自动语音辨识（ASR）等的管道。一个非常简单但有效地的替代解决方案是训练出有端对端语音自动识别模式，用于深度自学的方法用一个模型来替换大多数模式。如同Hannun et al., 2014aand GravesJaitly, 2014b在他们的论文所提到一样。这种末端到端的训练方法修改了训练过程，因为它省却了人工引领/校准/集群/ HMM 机械装置，而这些用作创建先进设备的自动语音辨识（ASR）模式。

在这样的系统中，创建端对端的深度自学，我们可以用于一系列的深度自学技巧：捕猎大的训练集，训练较小的模型与高性能计算出来，并且有条不紊地探寻神经网络的空间工作架构。本文详尽讲解了我们对于语音辨识的贡献，如模型架构，标记的大规模训练数据集和计算出来规模。

这其中还包括模型架构展开的普遍调查，并且我们的数据采集管道使我们需要创立比一般来说用作训练语音识别系统更大的数据集。我们用了几个公开发表能用的测试集测试我们的系统，并期望最后超过人类展现出水平。为此，我们还基于这个较为标准，测试工人们的展现出。

找到我们最差的普通话语音系统录音结尾的语音查找类的言论比一个典型的中国人做到的就让。在本文的其余部分如下。

我们在开始的部分学好有关深度自学内容，末端到末端语音辨识和在第二部分提及的可扩展性。.第三部分叙述了建筑和算法的改良模型，第四部分讲解了如何高效地计算出来它们。第五部分我们辩论更进一步采行的数据和步骤强化培训。第六部分不会呈现出英语和普通话系统分析的结果。

第七部分，我们以叙述如何调配我们的系统以适应环境确实的用户结尾。2. 涉及工作这项研究的启发源于深度自学和语音辨识的前期研究。经网络的声学模型展开的探究多达了20年(BourlardMorgan, 1993; Renals et al., 1994)。周期性的神经网络和网络的卷积完全同时用作语音辨识(Robinson et al., 1996; Waibel et al., 1989)。

最近DNNs已沦为ASR管线一个网络连接夹具与完全所有先进设备的语音工作都所含某种形式的浅神经网络的现有技术Mohamed et al., 2011; Hinton et al., 2012; Dahl et al., 2011; N. JaitlyVanhoucke,2012; Seide et al., 2011)。卷积网络也被找到对声学模式不利(Abdel-Hamidet al., 2012; Sainath et al., 2013)。

周期性神经网络在先进设备的识别器中开始运用(Graves et al., 2013; H. Sak et al., 2014)，并与卷积层一起合作做到特征提取(Sainath et al., 2015)。末端至末端语音辨识是的一个最重要研究领域，在它被用作完全恢复DNN-HMM的结果和独立国家输入时，展现出出来令人信服的结果。RNN 的编码器和解码器在注目和预测音素和字素方面展现出引人注目。

CTC功能漏洞再加RNN去处置数据某种程度因应的很好在端对端的语音辨识的字母输入中。CTC-RNN模式通过词汇表预测音素展现出很好。到目前为止在深度自学中探寻大规模已是此领域顺利的关键。

单个GPU训练造成显著的性能增益，且随后被线性限放在两个或多个GPU。我们利用减少个别GPU的工作效率为了低水平的深度自学基元。

我们基于过去用于模式平行和数据平行或者两者的融合，去创立一个较慢高效的系统，为了加剧RNN在语音辨识中的训练。数据已是端对端语音辨识的关键，并且多达7000小时被标明的语音已被运用。强化的数据在提升深度自学计算机视觉和语音辨识性能十分有效地。因此现有的语音系统可以用来引领新的数据搜集。

例如，现有的语音引擎可以用来排序和过滤器的数千小时的有声读物。我们从过去和强化数据的方法中吸取启发，并用作强化本身数据的标示。3.模型体系结构图1表明了我们的体系结构，并明确提出了我们在本文中详尽探究了可互相交换组件。

我们的系统是与一个或多个输出卷积层的迭代神经网络（RNN），凸随着的是多次发作（单向或双向）层和一层几乎相连层。该网络使用CTC损失函数，这使我们需要必要从输出音频预测字符序列。到该网络的输出是动力标准化音频剪辑，计算出来上20毫秒窗口的序列。输入是每种语言的字母。

在每一个输出的步骤，RNN不会做到一个预测，在p(Lt/x)中，Lt是一个字母表中的字母或者一个不行的符号。在英语中，我们有字母a,b,c…..,省略，空格；我们用空格似乎词与词之间的界限。对中文系统来说，中文的输入系统修改了。

在推理小说时间，CTC模式配上的语言模式是基于更大语料库。我们用于类似的搜寻方法去找到y的最大值。

Q(y) = log(pRNN(yjx)) + log(pLM(y)) + wc(y) (1)。在这个公式中，wc(y)是英文和中文在mRNA的单词数。

α的重量要求着涉及的语言模式和CTC网络。β的重量中则希望mRNA更好的单词。

这些参数则基于发展调整。3.1批量标准化的深层RNNs在处置训练集时，为更加高效吸取理数据，必需减少网络的深度通过重新加入更好的周期层。但是却显得极具挑战性，因为网络的梯度随着体积和深度在变化。

我们用规范一批的方法展开试验去训练加深更慢的网络。最近的研究指出，规范一派能加快RNNs训练的融合，尽管在提高一般化错误方面不如意。相比较之下，找到用于RNN的深度网络并基于大数据集，规范一派的变体能提高一般化错误和加快速度。重复经常出现的层可以被构建为：在ι层在被转录的地方，t可以从先前的层的转录中被牵头计算出来，以此同时t可以从先前的层转录。

图2：从两条模式的训练曲线，有的有被BN（BatchNorm）训练，有的则没。我们能在9-7网络线上看见更大的拆分距离，而此训练线一共有9条，7条是双向RNNs模式。5-1网络线的差距更加小，而5条中只有1条是双向RNN。我们从训练的第一个阶段就开始区分，但是随着曲线的变化更加无以预测，因为在3.2部分提及的SortaGrad课程方法。

如在(Laurent et al., 2015)中提及一样，有两种运用BatchNorm的方法去实行反复操作者。大自然伸延是为了放入BatchNorm切换——B(·)于每一个非线性之前：在这种情况下，平均值和方差的统计资料信息被积累在minibatch的单个时间步。

我们找到这个技术并没给优化的程度带给明显的提升。另一种（序列明智正常化）是正常化批量处置横向相连。

周期性计算出来如下列公式：对于每个隐蔽单元我们都会在minibatch计算出来多达项目序列的长度和所有项目的平均值和方差的统计资料信息。图2示出浅网络与明智序列正常化融合地更慢。表格1表明出有了从明智序列正常化的性能提高随着网络的深度减少，与深达的网络有12％的性能差异。

我们存储训练过程中搜集的神经元均值和方差的运营平均值，并用于这些用作评价。3.2 SortaGrad即使用于批量标准化，我们找到与CTC一起训练有时候不会不平稳，特别是在早期阶段。

为了使培训更为平稳，我们用培训课程（Bengio et al., 2009; ZarembaSutskever, 2014）展开试验，加快训练和也超过更佳的一般化结果。从开始培训阶段就用于浅网络（或者是用于步数很多的RNNs模式）不会在训练初期告终，因为结果和梯度必需通过权重许多较好的层传播。除了变化梯度，CTC最后不太可能mRNA长句，因为变化梯度不平稳。这一仔细观察唤起一个学习策略课程，LUM学习策略。

我们的标题SortaGrad：我们用话语的长度作为可玩性的提醒，先行从短话语开始训练。具体来说，在第一个训练时期，我们不会在训练集中于反复minibatches为在minibatch中渐渐减少句子长度。在训练的第一个时期将minibatches随机反复。

表格1表明出有了用于和不用于SortaGrad的训练成本，在9个模式层的7个周期层。SortaGrad提升培训的稳定性，并且这种起到是在网络中且无BatchNorm的状态下尤其显著，因为这些是在数值上很少平稳。3.2RNNs和GRUs的较为到目前为止所用模型是RNNs模型且是由方程3 ReLU转录建模。

更加简单的隐蔽单位，如长短期记忆（LSTM）单位和the Gated Recurrent Units（GRU）单位早已被证明是对类似于的任务十分有效地。我们实地考察GRUs, 因为在较小的数据集实验指出的GRU和LSTM在完全相同数目的参数下，可超过类似于的精度，但GRUs却运营更加慢很少错误。无论GRU还是RNN模式都从BatchNorm收益，并在深度网络中结果较好。在表中的最后两列1表明，在相同的数量的参数和深度网络下，GRU模式比起WER构建更佳结果。

3.4卷积频率即时卷积常用于语音辨识，为有效地即时相同翻译成建模为星型长句。把的EF为星型长度话语音响ciently模型时空旋转不变性。

卷积频率企图把光谱方差建模由于扬声器的变异更加大型相连网络模型更加精确。我们用新加的1或3层卷积展开试验。这些都是在时间和频率域（2D）和时间唯一的域（1D）。

在任何情况下，我们用于了“完全相同的”卷积。在某些情况下，我们登录一步（二次取样）在任一领域，只要能增加输入的规模。图3：在2句文本下的卷积结构我们报告两个数据集的结果，2048句话的发展集（“常规研发”）和2048句话较为吵杂数据集（“吵杂研发”），从CHIME 2015年发展的数据集随机提取。

我们找到1D卷积的多个层效果不显著。2D卷积对噪声数据的结果有较小提高，但对长时间数据贡献并不大。从一维卷积一层到二维卷积三层WER模式对噪声数据集提高了23.9％。

3.5 前瞻卷积和单向模式双向RNN模型于是以挑战在网上运用，较低延后的设置，因为他们无法从使用者处追溯到录音过程。然而，只有循环行进模型比同类双向模型展现出劣，用于一些未来结构对好展现出是至关重要的。

一个有可能的解决方案就是指延后系统升空标明单位，当它有较多上下文时，，但我们找到在我们的模型中很难构建这一不道德。为了创建一个单向模式并没任何犯规，我们研发了一个类似的层，我们调用落后卷积，如图3中右图。这层试着自学并牵头每一个转录神经元，让我们能掌控未来必须的文本数量。

落后层是由参数矩阵要求，并与前面层神经元的数目相匹配。为转录在时间步数t上，如下列公式：我们把落后卷积置放所有周期层之上。

在落后卷积下和更佳的颗粒，这让我们能追溯到所有的计算出来。图3：WER的卷积层的有所不同配备非常简单较为。在所有情况下，卷积后跟7发作层和1几乎相连层。对于2D卷积的第一维是频率和第二维是时间。

每个模型都与BatchNorm，SortaGrad展开训练, 并享有35M的参数。3.6 普通话适应环境为把传统的语音辨识管道改向另一个语言一般来说必须一定数量的最重要语言登录研发。例如，常常必须手工设计的发音模型。

我们有可能还必须具体特定语言的发音特征，如普通话中的声调。由于我们的端到端系统能必要预测字符，因此可以省却一些步骤。这使得我们能较慢创立一个末端到端的汉语语音识别系统（中文汉字的输入只需用于上述的一些方法，且不必多做到转变）。

我们对网络结构作出的变化是基于中国汉字的特点。网络输入的概率为约6000个字符，它还包括罗马字母，因为中英文mRNA是少见的。我们在评估时间整理了词汇错误，如果输出的字符不出这一套之中。

皇冠新体育官网

这不是一个大问题，因为我们的测试集只有0.74％远超过词汇字符。我们用于的字符等级是以中文为语言模型因为词语经常在文本中一般来说拆分。在6.2部分，我们展出了我们的汉语语音模式是和英语语音模式一样有结构改良，同时也给一种语言转化成另一种语言获取了涉及建模科学知识。

4.系统优化我们的网络有几千万的参数，和一个训练实验牵涉到几十个单精度exaFLOPs。由于我们评估数据和模型假设能力各不相同训练速度，我们基于高性能的计算出来设施（HPC）创立了一个高度优化的培训体系。

虽然诸多的框架都是为深度网络中平行机器而不存在，我们找到处置能力常常被不优化的路线所妨碍，而这些妨碍仍然被指出是理所当然。因此，我们焦点放到优化用作训练的路径。具体来说，我们为关上MPI创立了自定义的All-Reduce码，并横跨GPU的多个节点上总结梯度，为GPU的较慢构建研发了CTC，并用于自定义的内存分配器。

总之，这些技术使我们需要在每个节点上的把理论峰值性能值保持在45％。我们的培训在多个GPU产于工作以分段方式与SGD实时，每个GPU用于本地副本去起到到当前的Minibatch, 接着与其他的GPUs互相交换计算出来梯度。

我们更加偏向于实时SGD因为它是可反复生产的，这可以增进找到和保养前进。在此设置中，然而，GPU必需在每一次反复很快交流（用于“All-Reduce（仅有增加）”操作者），以避免浪费计算出来周期。在此之前的工作用于了异步改版，以减轻此问题。

忽略，我们侧重于优化All-Reduce操作者，构建4X-21X加快，利用技术为特定网络工作增加CPU-GPU交流。某种程度，要提升整体的计算出来，我们用于来自Nervana系统高度优化核心，并且NVIDIA用作深度自学应用于。我们某种程度找到，当减少GPU和CPU之间的实时次数，自定义的内存分配例程在优化性能至关重要。我们还找到，CTC成本计算占到运行时间的一个显著的部分。

由于没高度优化的CTC编码不存在，我们研发了一个较慢的GPU实行方法，从而增加了10-20%的总训练时间。5. 训练数据大规模的深度自学系统必须非常丰富的标记训练数据。为训练我们的英语模式，我们用11940小时含800万标示的言论，以及普通话系统使用9400小时含1100万话语标记的讲话语音。5.1 训练集结构英语和普通话的部分数据集就是指喧闹音频剪辑的原始数据创立的。

为了把音频段分为若干秒长的片段，我们依照mRNA副本校准。对于等价的音频mRNA对（x，y）的，最有可能的校准被计算出来为：这是一个基本的ViterBi编辑，且是在用于RNN模型培育CTC中找到的。由于CTC损失函数集和所有校准，这并无法确保校准的准确。然而，我们找到，这种方法在使用双向RNN时能产生一个准确的对准。

为了过滤器质量较好的录音，我们创建具备以下功能的非常简单分类器：始料CTC花费，由于始料CTC花费是基于序列长度，CTC花费则基于录音长度展开标准化，句子长度和mRNA长度的比率，mRNA中单词数和字符数。我们搜集源标签创建这个数据集。

对于英语数据集，我们找到过滤器管可以把WER从17％增加到5％，同时保有50％以上的例子。此外，在每一阶段我们动态地通过加到特有噪声从0dB到30dB之间的SNR，去强化数据集。

5.2 图形数据我们在表格3中展出了在WER减少标示训练数据集的效果。这些都是在训练之前从数据集中于随机取样的。对于每个数据集，模型被训练长达20阶段，并且早期就不会暂停于错误，弯曲研发的一套以避免过度数值。

在训练集减少10个因素，WER则不会上升到40％。我们同时也注目WER（60％相近）常规和喧闹的数据集之间的差距，这意味著更好的数据在这两种情况下也某种程度适合。

表格3：英语WER在普通和喧闹发展集在减少训练集的较为。模式有9层（2层是2D卷积和7层周期）具备68M参数。

6. 结果为了评估我们的语音系统对现实世界的适用性，我们基于大量测试集展开评估。我们用于多种公开发表能用的基准和几个测试套内部搜集。

所有模式都被训练了20阶段，而这些阶段都是用作全英文或全中文的数据集，如第5节所述。我们和Nesterov动力一起用于随机梯度上升，同时有一个minibatch具有512句话。如果梯度的范围多达400的阈值，则新的调整为400。自由选择培训期间，从继续执行最差的一套模型展开评估。

在每一个阶段都有1.2持续的因素时，自学亲率就是指[1×10-4, 6×10-4]中自由选择的，为得出结论更慢的子集和磨练。6.1 英语最差的英语模型有两层2D卷积，凸随着的是3层不定向的周期层，在每一层都附有2560GRU，紧跟的还有卷积层预期层τ=80, 且都是由BatchNorm和SortaGrad训练。我们模型在测试集中于会适应环境所有语音的条件。

语言模型解码参数上持有人了一次集研发设置。我们报告几个为系统和人类精确评估所用的测试集的结果。

我们通过告知工作人员从亚马逊Mechanical Turk手工抄录了我们所有的测试装置取得的人类展现出水平。大众不如专业的，训练有素的mRNA员精确。例如，（李普曼，1997）找到，人类抄录超过相似1％WER在WSJ-Eval92集上，相似1%的WER，当他们被额外的奖励鼓舞时，获得则是一个较低的WER，以及自动错字动机和拼法修正，并在错误率更进一步增加通过用于mRNA委员会会员时。

我们使用无奖励机制和自动修正的，因为一个有效地竞争的“ASR wizard-of-Oz”我们力争胜利。两个随机工人抄录。表格4：系统和人类在WER展现出对比每一个音频剪辑，平均值大约5秒之幸每个。然后，我们所取这两个mRNA教教好做到最后WER计算出来。

大多数工人都在美国，容许多次收看音频剪辑，mRNA一次平均值花费27秒。手动mRNA的结果展开较为，以现有的事实为基础，以产生一个WER估算。而现有的实况mRNA显然有一些标签误差，在大多数集大于1％。6.1.1 基准测试结果具备低信噪比读者演说可以说道是在大词汇量倒数语音辨识的最简单的任务。

我们系统的基准是两个测试集，一个是加载新闻文章的华尔街日报（WSJ）语料库，另一个是有声读物LibriSpeech语料库。从表格4可显现出每4个测试集，3个是系统比人类展现出更佳。我们还用于VoxForge（http://www.voxforge.org）测试了我们的系统对各种口音适应性。

该测试组包括许多有所不同的口音人的朗诵语音。我们将这些口音分成四类：美国，加拿大，印度，Commonwealth5和European6。

我们建构了一个测试集从VoxForge数据组中每1024的例子作为一个口音组，总共4096的例子。人的水平展现出仍显著低于我们的所有系统，但印度口音除外。最后，我们用于从最近已完成的第三个滚车站试验台CHiME测试了喧闹的讲话时我们的展现出。

该数据集中于所所含的话语就是指WSJ测试集中于搜集而来，而WSJ所所含的话语则是在实际环境中搜集并且再加了人为的噪音。用于CHiME所有6个地下通道可以获取显著的性能改良。

我们对我们所有的模式都用于单一渠道，由于取得多声道音频尚能不广泛。当数据来自一个现实的喧闹的环境，而不是人工合成将噪声加到到明晰的语音，我们的系统和人类级性能之间的差距较小。6.2 普通话在表格5中我们较为一些结构军官学校中国普通话语音为研发的一套2000句语音以及测试集1882句噪音语音。

该研发套件也被用来调整解码参数。我们找到深达的模型2D卷积和BatchNorm相对于高于浅层RNN 48%。表格5：有所不同RNN结构的较为。

研发和测试集的内部语料库。每:表中的模型有8000万左右的参数。表格6：基于两个随机自由选择的测试集测试人类和系统。在第一个集有100个例子，由5位中国人标示。

第二个有250实例由标示一个人的抄录。表格6表明了我们最差的中国普通话语音系统mRNA结尾的语音查找类似于的言论比一个典型的中国人和一个委员会5名中国人一起工作更佳。7.部署双向模型即时mRNA设计不当：由于RNN有几个双向层，抄写话语必须整个倾听的方式呈现出给RNN;并且由于我们用于长波束搜寻用作搜寻，波束搜寻有可能是便宜的。为了减少部署可扩展性，同时获取较低延后的mRNA，我们建构了一个批处理调度称作批处理调度（Batch Dispatch），在展现出RNN用作宣传这些出厂时，这些出厂搜集用户催促数据从而做成出厂。

有了这个调度器，我们可以减少贸易批量大小，从而提升了效率，从而减少延后。我们用于一个大力的出厂方案，并且次方案不会大力处置每一出厂，只要前一出厂已完成后，无论多少工作要在此点打算。

这种调度算法均衡效率和延后，构建了比较较小的动态批量规模，低约每出厂10个样品，其中中间批量大小与服务器阻抗成比例。表格7：延后产于（毫秒）VS 阻抗我们看见表格7中，我们的系统超过了44毫秒的延迟时间，而第98百分位的延迟时间为70毫秒并具有10合流。

此服务器用于一个的NVIDIA Quadro K1200 GPU对RNN展开评价。正如所设计，当服务器阻抗的快速增长，批量调度轮把工作改以更大的出厂，维持较低延后。我们的部署系统评估在半精度运算，它没可取决于的精度影响RNNs，但显著提高效率。我们写出我们自己的16位矩阵乘法程序已完成此任务，大大提高了比较较小出厂的吞吐量。

继续执行所述波束搜寻过程还包括在所述n-gram语言模型反复查询，其中大部分转化成为未内存中从存储器中加载。为了增加这些查询的成本，我们使用启发式：只考虑到最多数量的字符的积累概率为最少在P。在实践中，我们找到p= 0.99效果很好，另外我们将搜寻范围容许为40个字符。

这减缓了由150倍总计普通话语言模型查找时间，并且对CER（比较在0.1-0.3％）的影响可以忽视。7.1 深度语音的生产环境深度语音早已为用户应用于子集了先进设备的语音生产管道。我们找到，一些关键挑战影响末端到端的深度自学方法，比如说我们的。

首先，我们找到，即使适度的特定应用程序的训练数据是珍爱的，尽管大量语音数据用作训练。例如，当我们需要训练上10000小时以上普通话演说，我们找到只有500小时的用于时间数据可以贞着提升应用程序的性能。

某种程度，应用于特定网络语言模型对构建最低精确度十分最重要，我们充分利用现有的强劲n-gram模型与我们的深层语音系统。最后，我们注意到，由于我们的系统就是指普遍标记的训练数据必要输入的字符，在每个应用程序mRNA必需在后处理展开处置（如数字格式）。因此，虽然我们的模型早已拆卸了很多的复杂性，更好的灵活性，并为末端到端的深度自学方法的应用于意识还有待更进一步研究。

8.结论终端到终端的深度自学明确提出了令人兴奋的前景，在数据和计算出来的减少大大提升语音识别系统。由于该方法是高度标准化的，我们早已找到，它可以很快地应用于新的语言。为两个十分有所不同的语言，创立高性能辨识机器，英语和普通话，并且不拒绝关于该语言的专业知识。

最后，我们还找到，这种方式是由GPU服务器和用户的催促一起高效实行，获取用户获取末端到端的深度自学技术。为了构建这些结果，我们早已探寻了各种网络架构，找到几种有效地的技术：通过SortaGrad和出厂规范化（Batch Normalization）和前瞻卷积单向模式强化优化。这种探寻是一个很好的优化，高性能计算出来体系，使我们在大型数据集里在短短的几天内培训全面的模式。

总体而言，我们坚信我们的结果确认和相比较末端到端的深度自学方法用作语音辨识的价值。我们坚信，这些技术将不会之后拓展。原创文章，予以许可禁令刊登。

下文闻刊登须知。

本文关键词：百度,ICML,论文,端,对,中英文,语音,识别,‘,皇冠新体育官网

本文来源：皇冠新体育官网-www.actuariacnam.com