蜜桃传媒一区二区亚洲AV,综合亚洲伊人午夜网,亚洲1区2区3区精华液

《百問機器學(xué)習(xí)》第五問：Word2Vec是什么？Word2Vec如何工作？Word2Vec與LDA有什么區(qū)別和聯(lián)系？

網(wǎng)友投稿 755 2025-04-02

總述：

1. Word2Vec的兩種網(wǎng)絡(luò)結(jié)構(gòu)

1.1 輸入層

1.2 映射層

1.3 輸出層

1.4 神經(jīng)網(wǎng)絡(luò)的權(quán)重

2.?Word2Vec與LDA的區(qū)別和聯(lián)系

2.1 主題模型與詞嵌入方法

總述：

Word2Vec是2013年谷歌提出來目前最為常用的詞嵌入模型之一。

Word2Vec是一種淺層的神經(jīng)網(wǎng)絡(luò)模型，包含有兩種網(wǎng)絡(luò)結(jié)構(gòu)：CBOW（Continues Bag of Words）和Skip-gram

1. Word2Vec的兩種網(wǎng)絡(luò)結(jié)構(gòu)

CBOW的目標(biāo)是：根據(jù)上下文出現(xiàn)的詞語來預(yù)測當(dāng)前詞的生成概率

《百問機器學(xué)習(xí)》第五問：Word2Vec是什么？Word2Vec如何工作？Word2Vec與LDA有什么區(qū)別和聯(lián)系？

Skip-gram是根據(jù)當(dāng)前詞來預(yù)測上下文中各詞的生成概率。

w(t)是當(dāng)前所關(guān)注的詞，w(t-2)、w(t-1)、w(t+1)、w(t+2)是上下文出現(xiàn)的詞，前后滑動窗口大小均設(shè)成2。

CBOW和Skip-gram都可以表示成由輸入層（Input）、映射層（Projecttion）和輸出層（Output）組成的神經(jīng)網(wǎng)絡(luò)。

1.1 輸入層

輸入層中的每個詞由獨熱編碼方式表示，即所有詞均表示成一個N維向量，N為詞匯表中單詞的總數(shù)。向量中每個詞都將與之對應(yīng)的維度設(shè)置為1，其余維度均設(shè)置為0

1.2 映射層

映射層又稱隱含層，K個隱含單元（Hidden Units）的取值可以由N維輸入向量以及連接輸入和隱含單元之間N*K維權(quán)重矩陣計算得到。CBOW中，還需要將各個輸入詞所計算出的隱含單元求和。

1.3 輸出層

輸出層向量可以通過隱含層向量以及連接隱含層和輸出層之間的K*N維的權(quán)重矩陣計算得到。

輸出層也是一個N維向量，每維與詞匯表中的一個單詞相對應(yīng)。

最后對輸出層向量用Softmax激活函數(shù)，可以計算每個單詞生成概率。

Softmax激活函數(shù)的定義為：

1.4 神經(jīng)網(wǎng)絡(luò)的權(quán)重

接下來的任務(wù)就是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的權(quán)重，使得語料庫中所有單詞的整體生成概率最大化。

從輸入層到隱含層需要一個維度為N×K的權(quán)重矩陣，從隱含層到輸出層又需要一個維度為K×N的權(quán)重矩陣，學(xué)習(xí)權(quán)重可以用反向傳播算法實現(xiàn)，每次迭代時將權(quán)重沿梯度更優(yōu)的方向進(jìn)行一小步更新。但是由于Softmax激活函數(shù)中存在歸一化項的緣故，推導(dǎo)出來的迭代公式需要對詞匯表中的所有單詞進(jìn)行遍歷，使得每次迭代過程非常緩慢，由此產(chǎn)生了Hierarchical Softmax和Negative Sampling兩種改進(jìn)方法。

訓(xùn)練得到維度為N×K和K×N的兩個權(quán)重矩陣之后，可以選擇其中一個作為N個詞的K維向量表示。

2.?Word2Vec與LDA的區(qū)別和聯(lián)系

LDA是利用文檔中單詞的共現(xiàn)關(guān)系來對單詞按主題聚類，也可以理解為對“文檔-單詞”矩陣進(jìn)行分解，得到“文檔-主題”和“主題-單詞”兩個概率分布。

而Word2Vec其實是對“上下文-單詞”矩陣進(jìn)行學(xué)習(xí)，其中上下文由周圍的幾個單詞組成，由此得到的詞向量表示更多地融入了上下文共現(xiàn)的特征。

上述分析的是LDA與Word2Vec的不同，不應(yīng)該作為主題模型和詞嵌入兩類方法的主要差異

2.1 主題模型與詞嵌入方法

主題模型通過一定的結(jié)構(gòu)調(diào)整可以基于“上下文-單詞”矩陣進(jìn)行主題推理。

詞嵌入方法也可以根據(jù)“文檔-單詞”矩陣學(xué)習(xí)出詞的隱含向量表示。

主題模型和詞嵌入兩類方法最大的不同其實在于模型本身，主題模型是一種基于概率圖模型的生成式模型，其似然函數(shù)可以寫成若干條件概率連乘的形式，其中包括需要推測的隱含變量（即主題）；

而詞嵌入模型一般表達(dá)為神經(jīng)網(wǎng)絡(luò)的形式，似然函數(shù)定義在網(wǎng)絡(luò)的輸出之上，需要通過學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重以得到單詞的稠密向量表示。

機器學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)

版權(quán)聲明：本文內(nèi)容由網(wǎng)絡(luò)用戶投稿，版權(quán)歸原作者所有，本站不擁有其著作權(quán)，亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容，請聯(lián)系我們jiasou666@gmail.com 處理，核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

機器學(xué)習(xí)服務(wù)提取圖片的特征向量">使用SAP Leonardo上的機器學(xué)習(xí)服務(wù)提取圖片的特征向量

755 2025-04-02

AI創(chuàng)想秀，邂逅“華為云ModelArts”征文大賽——第一次收官

755 2025-04-02

如何獲取之前訓(xùn)練任務(wù)的結(jié)果？

755 2025-04-02

《百問機器學(xué)習(xí)》第五問：Word2Vec是什么？Word2Vec如何工作？Word2Vec與LDA有什么區(qū)別和聯(lián)系？

機器學(xué)習(xí)服務(wù)提取圖片的特征向量">使用SAP Leonardo上的機器學(xué)習(xí)服務(wù)提取圖片的特征向量

AI創(chuàng)想秀，邂逅“華為云ModelArts”征文大賽——第一次收官

如何獲取之前訓(xùn)練任務(wù)的結(jié)果？

推薦文章

企業(yè)生產(chǎn)管理是什么，企業(yè)生產(chǎn)管理軟件

進(jìn)盤點進(jìn)銷存軟件排行榜前十名

進(jìn)銷存系統(tǒng)哪個簡單好用？進(jìn)銷存系統(tǒng)優(yōu)點

工廠生產(chǎn)管理（工廠生產(chǎn)管理流程及制度）

生產(chǎn)管理軟件，機械制造業(yè)生產(chǎn)管理，制造業(yè)生產(chǎn)過程管理軟件

進(jìn)銷存軟件和ERP有什么區(qū)別？進(jìn)銷存與erp軟件理解

進(jìn)銷存如何進(jìn)行庫存管理

如何利用excel制作銷售訂單管理系統(tǒng)？

數(shù)據(jù)庫訂單管理系統(tǒng)有哪些功能？數(shù)據(jù)庫訂單管理系統(tǒng)怎么設(shè)計？

什么是數(shù)據(jù)庫管理系統(tǒng)？

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進(jìn)銷存庫存管理 系統(tǒng)（智慧進(jìn)銷存）">智能進(jìn)銷存庫存管理系統(tǒng)（智慧進(jìn)銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數(shù)字化管理模式：提升品質(zhì)、智能化和個性化的未

智能定制家居管理系統(tǒng)：重新定義家庭生活方式

友情鏈接