ESPNet介紹

      網友投稿 1441 2025-04-02

      1、Shared encoder(共享編碼器):包括了VGG卷積網絡和BLSTM(雙向長短時記憶網絡)層,來完成語音到向量的轉化。

      2、Joint Decoder(聯合解碼器):聯合解碼器實現向量到最終文本結果的輸出;

      聯合解碼器包括CTC(負責標簽和序列的自動對齊)、Attention(為不同序列賦予不同權重)和RNN-LM(語言模型,生成最優字詞句);

      其中CTC和Attention二者共同使用一個Loss來使模型收斂,最終的損失函數LossMTL為CTC損失函數和Attention損失函數的加權求和;

      聯合解碼中,使用one-pass beam search(剪枝搜索)方法來消除不規則的序列與標簽的對齊。

      2、ESPNet 實現ASR的具體流程

      ESPNet實現ASR包含以下流程:

      數據準備:下載數據與解壓縮數據;

      特征提取:使用Kaldi(Kaldi也是個開源ASR工具)來提取語音特征,輸出為80維的FBank特征,加上3維的pitch特征,總共83維。然后進行均值歸一化,讓網絡更容易對語音特征進行學習;

      轉換數據格式:將中間數據轉化為JSON格式;

      語言模型的訓練:語言模型使用的RNN-LM模型,其中RNN-LM訓練有無字的字符序列水平知識。盡管注意解碼器暗含像等式中一樣包含語言模型。 RNN-LM概率用于與解碼器網絡一起預測輸出標簽。基于注意力的解碼器會先學會使用LM。此外,RNN-LM可以與編碼器一起訓練解碼器網絡

      ESPNet介紹

      聲學模型的訓練:使用字典、訓練集和測試集,基于CTC模型、Attention的架構和Transformer的解碼器進行聲學部分的訓練;

      識別與打分:聯合Transformer模型、CTC模型和RNN語言模型進行打分:

      機器學習 神經網絡

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:excel表格如何另存為圖片
      下一篇:只設置一頁頁腳(頁腳如何只設置一頁)
      相關文章
      亚洲人成色77777在线观看| 国产成人精品日本亚洲直接| 亚洲妇女无套内射精| 亚洲精品动漫在线| 亚洲嫩模在线观看| 亚洲AV无码专区国产乱码电影| 伊人久久亚洲综合| 久久影视综合亚洲| 国产亚洲一区区二区在线| 久久亚洲中文字幕精品一区| 国产av无码专区亚洲国产精品| 亚洲AV之男人的天堂| 亚洲精品无码av天堂| 亚洲国产精品人人做人人爱| 亚洲国产人成精品| 亚洲乱码中文字幕综合234| 亚洲黄黄黄网站在线观看| 亚洲精品尤物yw在线影院| 一本色道久久综合亚洲精品高清| 亚洲综合色区在线观看| 在线观看国产区亚洲一区成人| 国产成人精品久久亚洲| 亚洲中文字幕无码爆乳AV| 亚洲人成伊人成综合网久久久| 久久夜色精品国产亚洲| 久久亚洲AV午夜福利精品一区| 亚洲男人第一av网站| 亚洲综合免费视频| 亚洲天堂男人影院| 亚洲精品色在线网站| 亚洲毛片av日韩av无码| 国产亚洲精品精品国产亚洲综合| 亚洲色无码专区在线观看| 亚洲av日韩综合一区在线观看| 中文字幕亚洲综合久久| 亚洲一区二区三区在线网站| 亚洲国产精品成人午夜在线观看| 国产亚洲成在线播放va| 中文亚洲成a人片在线观看| 久久久久亚洲精品影视| 亚洲日本视频在线观看|