關(guān)鍵詞提取算法

      網(wǎng)友投稿 1074 2025-04-02

      關(guān)于文本的關(guān)鍵詞提取方法分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督三種:


      一??有監(jiān)督的關(guān)鍵詞抽取算法

      它是建關(guān)鍵詞抽取算法看作是二分類問(wèn)題,判斷文檔中的詞或者短語(yǔ)是或者不是關(guān)鍵詞。既然是分類問(wèn)題,就需要提供已經(jīng)標(biāo)注好的訓(xùn)練語(yǔ)料,利用訓(xùn)練語(yǔ)料訓(xùn)練關(guān)鍵詞提取模型,根據(jù)模型對(duì)需要抽取關(guān)鍵詞的文檔進(jìn)行關(guān)鍵詞抽取

      二?半監(jiān)督的關(guān)鍵詞提取算法

      只需要少量的訓(xùn)練數(shù)據(jù),利用這些訓(xùn)練數(shù)據(jù)構(gòu)建關(guān)鍵詞抽取模型,然后使用模型對(duì)新的文本進(jìn)行關(guān)鍵詞提取,對(duì)于這些關(guān)鍵詞進(jìn)行人工過(guò)濾,將過(guò)濾得到的關(guān)鍵詞加入訓(xùn)練集,重新訓(xùn)練模型。

      三?無(wú)監(jiān)督的方法

      不需要人工標(biāo)注的語(yǔ)料,利用某些方法發(fā)現(xiàn)文本中比較重要的詞作為關(guān)鍵詞,進(jìn)行關(guān)鍵詞抽取。

      有監(jiān)督的文本關(guān)鍵詞提取算法需要高昂的人工成本,因此現(xiàn)有的文本關(guān)鍵詞提取主要采用適用性較強(qiáng)的無(wú)監(jiān)督關(guān)鍵詞抽取。其文本關(guān)鍵詞抽取流程如下

      無(wú)監(jiān)督關(guān)鍵詞抽取算法可以分為三大類,基于統(tǒng)計(jì)特征的關(guān)鍵詞抽取、基于詞圖模型的關(guān)鍵詞抽取和基于主題模型的關(guān)鍵詞抽取。

      (一)??基于統(tǒng)計(jì)特征的關(guān)鍵詞提取算法

      基于于統(tǒng)計(jì)特征的關(guān)鍵詞抽取算法的思想是利用文檔中詞語(yǔ)的統(tǒng)計(jì)信息抽取文檔的關(guān)鍵詞。通常將文本經(jīng)過(guò)預(yù)處理得到候選詞語(yǔ)的集合,然后采用特征值量化的方式從候選集合中得到關(guān)鍵詞。基于統(tǒng)計(jì)特征的關(guān)鍵詞抽取方法的關(guān)鍵是采用什么樣的特征值量化指標(biāo)的方式,特征值量化指標(biāo)主要包括:詞性、詞頻、位置信息、互信息、詞跨度、TF-IDF值。目前常用的有三類:

      關(guān)鍵詞提取算法

      1 基于詞權(quán)重的特征量化

      基于詞權(quán)重的特征量化主要包括詞性、詞頻、逆向文檔頻率、相對(duì)詞頻、詞長(zhǎng)等。

      2 基于詞的文檔位置的特征量化

      這種特征量化方式是根據(jù)文章不同位置的句子對(duì)文檔的重要性不同的假設(shè)來(lái)進(jìn)行的。通常,文章的前N個(gè)詞、后N個(gè)詞、段首、段尾、標(biāo)題、引言等位置的詞具有代表性,這些詞作為關(guān)鍵詞可以表達(dá)整個(gè)的主題。

      3 基于詞的關(guān)聯(lián)信息的特征量化

      詞的關(guān)聯(lián)信息是指詞與詞、詞與文檔的關(guān)聯(lián)程度信息,包括互信息、hits值、貢獻(xiàn)度、依存度、TF-IDF值等。

      (二)基于詞圖模型的關(guān)鍵詞抽取算法

      基于詞圖模型的關(guān)鍵詞抽取首先要構(gòu)建文檔的語(yǔ)言網(wǎng)絡(luò)圖,然后對(duì)語(yǔ)言進(jìn)行網(wǎng)絡(luò)圖分析,在這個(gè)圖上尋找具有重要作用的詞或者短語(yǔ),這些短語(yǔ)就是文檔的關(guān)鍵詞。語(yǔ)言網(wǎng)絡(luò)圖中節(jié)點(diǎn)基本上都是詞,根據(jù)詞的鏈接方式不同,語(yǔ)言網(wǎng)絡(luò)的主要形式分為四種:共現(xiàn)網(wǎng)絡(luò)圖、語(yǔ)法網(wǎng)絡(luò)圖、語(yǔ)義網(wǎng)絡(luò)圖和其他網(wǎng)絡(luò)圖。

      在語(yǔ)言網(wǎng)絡(luò)圖的構(gòu)建過(guò)程中,都是以預(yù)處理過(guò)后的詞作為節(jié)點(diǎn),詞與詞之間的關(guān)系作為邊。語(yǔ)言網(wǎng)絡(luò)圖中,邊與邊之間的權(quán)重一般用詞之間的關(guān)聯(lián)度來(lái)表示。在使用語(yǔ)言網(wǎng)絡(luò)圖獲得關(guān)鍵詞的時(shí)候,需要評(píng)估各個(gè)節(jié)點(diǎn)的重要性,然后根據(jù)重要性將節(jié)點(diǎn)進(jìn)行排序,選取TopK個(gè)節(jié)點(diǎn)所代表的詞作為關(guān)鍵詞。節(jié)點(diǎn)的重要性計(jì)算方法有以下幾種方法。

      1 綜合特征法

      2 系統(tǒng)科學(xué)法

      3 隨機(jī)游走法

      ·???????? PageRank算法

      ·???????? TextRank算法

      (三)基于主題模型的關(guān)鍵詞抽取

      基于主題關(guān)鍵詞提取算法主要利用的是主題模型中關(guān)于主題的分布的性質(zhì)進(jìn)行關(guān)鍵詞提取。算法步驟如下:

      1 獲取候選關(guān)鍵詞

      2 語(yǔ)料學(xué)習(xí)

      3 計(jì)算文章主題分布

      4 排序

      3D+ARVR EI企業(yè)智能 EI創(chuàng)新孵化Lab

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:怎么看有重復(fù)?(怎樣查看重復(fù)的內(nèi)容)
      下一篇:圖解HTTP讀后筆記02
      相關(guān)文章
      国产精品亚洲片在线花蝴蝶| 亚洲国产精品成人综合色在线| 亚洲欧美日韩综合久久久久| 亚洲伦理一区二区| 国产成人精品日本亚洲专区61| 亚洲性久久久影院| 亚洲福利精品电影在线观看| 亚洲国产综合精品中文第一| 亚洲五月丁香综合视频| 亚洲中文字幕人成乱码| 亚洲制服丝袜中文字幕| 国产成人精品日本亚洲专一区| 91丁香亚洲综合社区| 日本亚洲精品色婷婷在线影院| 亚洲影视自拍揄拍愉拍| 亚洲日本国产综合高清| 亚洲日韩AV一区二区三区四区| 亚洲色偷偷综合亚洲AV伊人蜜桃| 亚洲AV成人影视在线观看| 亚洲中文字幕一区精品自拍| 亚洲粉嫩美白在线| 亚洲成人激情小说| 亚洲另类无码一区二区三区| 亚洲精品无码永久在线观看男男| 亚洲日本VA午夜在线电影| 亚洲A∨精品一区二区三区下载| 亚洲Av永久无码精品一区二区| 亚洲成a人无码亚洲成www牛牛 | 亚洲美国产亚洲AV| 亚洲熟妇无码av另类vr影视| 波多野结衣亚洲一级| 亚洲一区二区三区成人网站| 亚洲天然素人无码专区| 亚洲精品天堂成人片AV在线播放| 国产精品亚洲lv粉色| 亚洲精品成人片在线观看| 亚洲人成网7777777国产| 久久青青草原亚洲av无码app| 亚洲大香人伊一本线| 亚洲欧美日韩综合久久久| 日韩亚洲国产二区|