《百問機器學(xué)習(xí)》第五問:Word2Vec是什么?Word2Vec如何工作?Word2Vec與LDA有什么區(qū)別和聯(lián)系?

      網(wǎng)友投稿 755 2025-04-02

      目錄


      總述:

      1. Word2Vec的兩種網(wǎng)絡(luò)結(jié)構(gòu)

      1.1 輸入層

      1.2 映射層

      1.3 輸出層

      1.4 神經(jīng)網(wǎng)絡(luò)的權(quán)重

      2.?Word2Vec與LDA的區(qū)別和聯(lián)系

      2.1 主題模型與詞嵌入方法

      總述:

      Word2Vec是2013年谷歌提出來目前最為常用的詞嵌入模型之一。

      Word2Vec是一種淺層的神經(jīng)網(wǎng)絡(luò)模型,包含有兩種網(wǎng)絡(luò)結(jié)構(gòu):CBOW(Continues Bag of Words)和Skip-gram

      1. Word2Vec的兩種網(wǎng)絡(luò)結(jié)構(gòu)

      CBOW的目標(biāo)是:根據(jù)上下文出現(xiàn)的詞語來預(yù)測當(dāng)前詞的生成概率

      《百問機器學(xué)習(xí)》第五問:Word2Vec是什么?Word2Vec如何工作?Word2Vec與LDA有什么區(qū)別和聯(lián)系?

      Skip-gram是根據(jù)當(dāng)前詞來預(yù)測上下文中各詞的生成概率。

      w(t)是當(dāng)前所關(guān)注的詞,w(t-2)、w(t-1)、w(t+1)、w(t+2)是上下文出現(xiàn)的詞,前后滑動窗口大小均設(shè)成2。

      CBOW和Skip-gram都可以表示成由輸入層(Input)、映射層(Projecttion)和輸出層(Output)組成的神經(jīng)網(wǎng)絡(luò)。

      1.1 輸入層

      輸入層中的每個詞由獨熱編碼方式表示,即所有詞均表示成一個N維向量,N為詞匯表中單詞的總數(shù)。向量中每個詞都將與之對應(yīng)的維度設(shè)置為1,其余維度均設(shè)置為0

      1.2 映射層

      映射層又稱隱含層,K個隱含單元(Hidden Units)的取值可以由N維輸入向量以及連接輸入和隱含單元之間N*K維權(quán)重矩陣計算得到。CBOW中,還需要將各個輸入詞所計算出的隱含單元求和。

      1.3 輸出層

      輸出層向量可以通過隱含層向量以及連接隱含層和輸出層之間的K*N維的權(quán)重矩陣計算得到。

      輸出層也是一個N維向量,每維與詞匯表中的一個單詞相對應(yīng)。

      最后對輸出層向量用Softmax激活函數(shù),可以計算每個單詞生成概率。

      Softmax激活函數(shù)的定義為:

      1.4 神經(jīng)網(wǎng)絡(luò)的權(quán)重

      接下來的任務(wù)就是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的權(quán)重,使得語料庫中所有單詞的整體生成概率最大化。

      從輸入層到隱含層需要一個維度為N×K的權(quán)重矩陣,從隱含層到輸出層又需要一個維度為K×N的權(quán)重矩陣,學(xué)習(xí)權(quán)重可以用反向傳播算法實現(xiàn),每次迭代時將權(quán)重沿梯度更優(yōu)的方向進(jìn)行一小步更新。但是由于Softmax激活函數(shù)中存在歸一化項的緣故,推導(dǎo)出來的迭代公式需要對詞匯表中的所有單詞進(jìn)行遍歷,使得每次迭代過程非常緩慢,由此產(chǎn)生了Hierarchical Softmax和Negative Sampling兩種改進(jìn)方法。

      訓(xùn)練得到維度為N×K和K×N的兩個權(quán)重矩陣之后,可以選擇其中一個作為N個詞的K維向量表示。

      2.?Word2Vec與LDA的區(qū)別和聯(lián)系

      LDA是利用文檔中單詞的共現(xiàn)關(guān)系來對單詞按主題聚類,也可以理解為對“文檔-單詞”矩陣進(jìn)行分解,得到“文檔-主題”和“主題-單詞”兩個概率分布。

      而Word2Vec其實是對“上下文-單詞”矩陣進(jìn)行學(xué)習(xí),其中上下文由周圍的幾個單詞組成,由此得到的詞向量表示更多地融入了上下文共現(xiàn)的特征。

      上述分析的是LDA與Word2Vec的不同,不應(yīng)該作為主題模型和詞嵌入兩類方法的主要差異

      2.1 主題模型與詞嵌入方法

      主題模型通過一定的結(jié)構(gòu)調(diào)整可以基于“上下文-單詞”矩陣進(jìn)行主題推理。

      詞嵌入方法也可以根據(jù)“文檔-單詞”矩陣學(xué)習(xí)出詞的隱含向量表示。

      主題模型和詞嵌入兩類方法最大的不同其實在于模型本身,主題模型是一種基于概率圖模型的生成式模型,其似然函數(shù)可以寫成若干條件概率連乘的形式,其中包括需要推測的隱含變量(即主題);

      而詞嵌入模型一般表達(dá)為神經(jīng)網(wǎng)絡(luò)的形式,似然函數(shù)定義在網(wǎng)絡(luò)的輸出之上,需要通過學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重以得到單詞的稠密向量表示。

      機器學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:顯示或隱藏零值
      下一篇:excel批量清理超鏈接步驟分享
      相關(guān)文章
      久久久青草青青国产亚洲免观| 99亚洲精品卡2卡三卡4卡2卡| 亚洲裸男gv网站| 国产AV无码专区亚洲AV麻豆丫| 亚洲人xxx日本人18| 精品亚洲AV无码一区二区三区| 亚洲欧洲日产韩国在线| 亚洲视频一区二区三区| 91亚洲精品视频| 亚洲欧洲高清有无| 亚洲国产片在线观看| 亚洲人和日本人jizz| 亚洲娇小性色xxxx| 亚洲色偷精品一区二区三区| 亚洲欧美中文日韩视频| 亚洲AV色欲色欲WWW| yy6080亚洲一级理论| 亚洲人AV永久一区二区三区久久| 亚洲高清无码专区视频| 国产精品V亚洲精品V日韩精品 | www.亚洲日本| 自拍日韩亚洲一区在线| 亚洲乱亚洲乱妇24p| 亚洲乱码av中文一区二区| 国产精品国产亚洲区艳妇糸列短篇| 在线亚洲v日韩v| 亚洲精品无码激情AV| 国产亚洲美女精品久久久久狼| 亚洲熟妇无码久久精品| 亚洲日本香蕉视频| 国产精品高清视亚洲一区二区| 亚洲乱色熟女一区二区三区蜜臀| 综合偷自拍亚洲乱中文字幕 | 国产精品观看在线亚洲人成网| 成人亚洲综合天堂| 青青草原亚洲视频| 久久久久亚洲AV无码专区首| 亚洲男人天堂影院| 亚洲第一综合天堂另类专| 亚洲精品在线视频| 亚洲成在人线av|