jQuery選擇器
1074
2025-04-02
關(guān)于文本的關(guān)鍵詞提取方法分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督三種:
一??有監(jiān)督的關(guān)鍵詞抽取算法
它是建關(guān)鍵詞抽取算法看作是二分類問(wèn)題,判斷文檔中的詞或者短語(yǔ)是或者不是關(guān)鍵詞。既然是分類問(wèn)題,就需要提供已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料,利用訓(xùn)練語(yǔ)料訓(xùn)練關(guān)鍵詞提取模型,根據(jù)模型對(duì)需要抽取關(guān)鍵詞的文檔進(jìn)行關(guān)鍵詞抽取
二?半監(jiān)督的關(guān)鍵詞提取算法
只需要少量的訓(xùn)練數(shù)據(jù),利用這些訓(xùn)練數(shù)據(jù)構(gòu)建關(guān)鍵詞抽取模型,然后使用模型對(duì)新的文本進(jìn)行關(guān)鍵詞提取,對(duì)于這些關(guān)鍵詞進(jìn)行人工過(guò)濾,將過(guò)濾得到的關(guān)鍵詞加入訓(xùn)練集,重新訓(xùn)練模型。
三?無(wú)監(jiān)督的方法
不需要人工標(biāo)注的語(yǔ)料,利用某些方法發(fā)現(xiàn)文本中比較重要的詞作為關(guān)鍵詞,進(jìn)行關(guān)鍵詞抽取。
有監(jiān)督的文本關(guān)鍵詞提取算法需要高昂的人工成本,因此現(xiàn)有的文本關(guān)鍵詞提取主要采用適用性較強(qiáng)的無(wú)監(jiān)督關(guān)鍵詞抽取。其文本關(guān)鍵詞抽取流程如下
無(wú)監(jiān)督關(guān)鍵詞抽取算法可以分為三大類,基于統(tǒng)計(jì)特征的關(guān)鍵詞抽取、基于詞圖模型的關(guān)鍵詞抽取和基于主題模型的關(guān)鍵詞抽取。
(一)??基于統(tǒng)計(jì)特征的關(guān)鍵詞提取算法
基于于統(tǒng)計(jì)特征的關(guān)鍵詞抽取算法的思想是利用文檔中詞語(yǔ)的統(tǒng)計(jì)信息抽取文檔的關(guān)鍵詞。通常將文本經(jīng)過(guò)預(yù)處理得到候選詞語(yǔ)的集合,然后采用特征值量化的方式從候選集合中得到關(guān)鍵詞。基于統(tǒng)計(jì)特征的關(guān)鍵詞抽取方法的關(guān)鍵是采用什么樣的特征值量化指標(biāo)的方式,特征值量化指標(biāo)主要包括:詞性、詞頻、位置信息、互信息、詞跨度、TF-IDF值。目前常用的有三類:
1 基于詞權(quán)重的特征量化
基于詞權(quán)重的特征量化主要包括詞性、詞頻、逆向文檔頻率、相對(duì)詞頻、詞長(zhǎng)等。
2 基于詞的文檔位置的特征量化
這種特征量化方式是根據(jù)文章不同位置的句子對(duì)文檔的重要性不同的假設(shè)來(lái)進(jìn)行的。通常,文章的前N個(gè)詞、后N個(gè)詞、段首、段尾、標(biāo)題、引言等位置的詞具有代表性,這些詞作為關(guān)鍵詞可以表達(dá)整個(gè)的主題。
3 基于詞的關(guān)聯(lián)信息的特征量化
詞的關(guān)聯(lián)信息是指詞與詞、詞與文檔的關(guān)聯(lián)程度信息,包括互信息、hits值、貢獻(xiàn)度、依存度、TF-IDF值等。
(二)基于詞圖模型的關(guān)鍵詞抽取算法
基于詞圖模型的關(guān)鍵詞抽取首先要構(gòu)建文檔的語(yǔ)言網(wǎng)絡(luò)圖,然后對(duì)語(yǔ)言進(jìn)行網(wǎng)絡(luò)圖分析,在這個(gè)圖上尋找具有重要作用的詞或者短語(yǔ),這些短語(yǔ)就是文檔的關(guān)鍵詞。語(yǔ)言網(wǎng)絡(luò)圖中節(jié)點(diǎn)基本上都是詞,根據(jù)詞的鏈接方式不同,語(yǔ)言網(wǎng)絡(luò)的主要形式分為四種:共現(xiàn)網(wǎng)絡(luò)圖、語(yǔ)法網(wǎng)絡(luò)圖、語(yǔ)義網(wǎng)絡(luò)圖和其他網(wǎng)絡(luò)圖。
在語(yǔ)言網(wǎng)絡(luò)圖的構(gòu)建過(guò)程中,都是以預(yù)處理過(guò)后的詞作為節(jié)點(diǎn),詞與詞之間的關(guān)系作為邊。語(yǔ)言網(wǎng)絡(luò)圖中,邊與邊之間的權(quán)重一般用詞之間的關(guān)聯(lián)度來(lái)表示。在使用語(yǔ)言網(wǎng)絡(luò)圖獲得關(guān)鍵詞的時(shí)候,需要評(píng)估各個(gè)節(jié)點(diǎn)的重要性,然后根據(jù)重要性將節(jié)點(diǎn)進(jìn)行排序,選取TopK個(gè)節(jié)點(diǎn)所代表的詞作為關(guān)鍵詞。節(jié)點(diǎn)的重要性計(jì)算方法有以下幾種方法。
1 綜合特征法
2 系統(tǒng)科學(xué)法
3 隨機(jī)游走法
·???????? PageRank算法
·???????? TextRank算法
(三)基于主題模型的關(guān)鍵詞抽取
基于主題關(guān)鍵詞提取算法主要利用的是主題模型中關(guān)于主題的分布的性質(zhì)進(jìn)行關(guān)鍵詞提取。算法步驟如下:
1 獲取候選關(guān)鍵詞
2 語(yǔ)料學(xué)習(xí)
3 計(jì)算文章主題分布
4 排序
3D+ARVR EI企業(yè)智能 EI創(chuàng)新孵化Lab
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。