學(xué)習(xí)筆記20170601">【PMP】學(xué)習(xí)筆記20170601
823
2022-05-29
本文主要在Spark平臺(tái)下實(shí)現(xiàn)一個(gè)機(jī)器學(xué)習(xí)應(yīng)用,該應(yīng)用主要涉及LDA主題模型以及K-means聚類。通過本文你可以了解到:
文本挖掘的基本流程
LDA主題模型算法
K-means算法
Spark平臺(tái)下LDA主題模型實(shí)現(xiàn)
Spark平臺(tái)下基于LDA的K-means算法實(shí)現(xiàn)
1.文本挖掘模塊設(shè)計(jì)
1.1文本挖掘流程
文本分析是機(jī)器學(xué)習(xí)中的一個(gè)很寬泛的領(lǐng)域,并且在情感分析、聊天機(jī)器人、垃圾郵件檢測(cè)、推薦系統(tǒng)以及自然語言處理等方面得到了廣泛應(yīng)用。
文本聚類是信息檢索領(lǐng)域的一個(gè)重要概念,在文本挖掘領(lǐng)域有著廣泛的應(yīng)用。文本聚類能夠自動(dòng)地將文本數(shù)據(jù)集劃分為不同的類簇,從而更好地組織文本信息,可以實(shí)現(xiàn)高效的知識(shí)導(dǎo)航與瀏覽。
本文選擇主題模型LDA(Latent Dirichlet Allocation)算法對(duì)文檔進(jìn)行分類處理,選擇在Spark平臺(tái)上通過Spark MLlib實(shí)現(xiàn)LDA算法,其中Spark Mllib是Spark提供的機(jī)器學(xué)習(xí)庫(kù),該庫(kù)提供了常用的機(jī)器學(xué)習(xí)算法。其基本設(shè)計(jì)思路如下圖所示:
1.2文本挖掘流程分析
首先是數(shù)據(jù)源部分,主要的數(shù)據(jù)包括文檔數(shù)據(jù)和互聯(lián)網(wǎng)爬蟲數(shù)據(jù)。然后是數(shù)據(jù)抽取
spark 機(jī)器學(xué)習(xí) 深度學(xué)習(xí)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。