ESPNet介紹
1、Shared encoder(共享編碼器):包括了VGG卷積網絡和BLSTM(雙向長短時記憶網絡)層,來完成語音到向量的轉化。
2、Joint Decoder(聯合解碼器):聯合解碼器實現向量到最終文本結果的輸出;
聯合解碼器包括CTC(負責標簽和序列的自動對齊)、Attention(為不同序列賦予不同權重)和RNN-LM(語言模型,生成最優字詞句);
其中CTC和Attention二者共同使用一個Loss來使模型收斂,最終的損失函數LossMTL為CTC損失函數和Attention損失函數的加權求和;
聯合解碼中,使用one-pass beam search(剪枝搜索)方法來消除不規則的序列與標簽的對齊。
2、ESPNet 實現ASR的具體流程
ESPNet實現ASR包含以下流程:
數據準備:下載數據與解壓縮數據;
特征提取:使用Kaldi(Kaldi也是個開源ASR工具)來提取語音特征,輸出為80維的FBank特征,加上3維的pitch特征,總共83維。然后進行均值歸一化,讓網絡更容易對語音特征進行學習;
轉換數據格式:將中間數據轉化為JSON格式;
語言模型的訓練:語言模型使用的RNN-LM模型,其中RNN-LM訓練有無字的字符序列水平知識。盡管注意解碼器暗含像等式中一樣包含語言模型。 RNN-LM概率用于與解碼器網絡一起預測輸出標簽。基于注意力的解碼器會先學會使用LM。此外,RNN-LM可以與編碼器一起訓練解碼器網絡
聲學模型的訓練:使用字典、訓練集和測試集,基于CTC模型、Attention的架構和Transformer的解碼器進行聲學部分的訓練;
識別與打分:聯合Transformer模型、CTC模型和RNN語言模型進行打分:
機器學習 神經網絡
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。