知識融合算法

      網(wǎng)友投稿 1416 2022-05-30

      算法背景

      隨著知識圖譜的不斷發(fā)展,不同機構(gòu)、不同個人都可以自由地構(gòu)建所需的知識圖譜。但是各個知識圖譜的數(shù)據(jù)來源和關(guān)注領(lǐng)域各不相同,導(dǎo)致圖譜的質(zhì)量參差不齊。知識融合通過對相關(guān)知識圖譜的對齊、關(guān)聯(lián)和合并,使其成為一個有機整體,是一種提供更全面知識共享的重要方法。下文會從概念融合、實體對齊、屬性對齊和屬性值融合這四個步驟進行簡單介紹。

      概念融合

      概念融合是將多個知識圖譜的概念層級體系進行融合,這一步的關(guān)鍵在于找到等價概念。由于概念層級體系非常重要且規(guī)模可控,目前主流的系統(tǒng)主要采用人工的方法進行匹配以保證融合的質(zhì)量。例如“DBpedia”通過眾包的方式為不同語種的知識圖譜上的概念建立等價關(guān)系,如英文概念“Book”和希臘文概念“βιβλ?ο”。

      然而,不同知識圖譜的概念層級體系除了包含等價概念外,還包含各自圖譜特有的概念。如概念“玄幻小說”只在中文概念中出現(xiàn),而不會在其他語言的概念集合中出現(xiàn)。處理上述問題有兩種融合策略:一種以“DBpedia”為代表,只以其中一個概念層級體系為主,另一個概念層級體系中特有的概念將被過濾掉;另一種以“XLORE”?為代表,保留所有的概念,只將等價的概念合并。

      實體對齊

      實體對齊是判斷來自兩個知識圖譜的實體是否等價,這是知識圖譜融合最關(guān)鍵的步驟。如圖1,實體對齊的具體流程可以分為數(shù)據(jù)預(yù)處理、分塊、成對對齊和集體對齊四個模塊。

      知識融合算法

      圖?1?實體對齊具體流程

      其中,數(shù)據(jù)預(yù)處理是為了解決實體命名不統(tǒng)一的問題,主要方法包括去除實體名稱上的標(biāo)點符號、進行同義詞擴展等。分塊是通過啟發(fā)式策略將不同知識圖譜中相似實體分配到相同的塊中,減少實體間兩兩比對的次數(shù)。例如,根據(jù)實體所屬的概念進行分塊,“人物”和“建筑”兩個概念下的實體是不可能等價的,可以分配到不同的塊中。實體對齊的方法又分為成對對齊和集體(協(xié)同)對齊。成對對齊只根據(jù)一個實體對中的兩個實體本身的信息進行匹配,本質(zhì)上是一個二元分類問題。監(jiān)督學(xué)習(xí)的成對對齊方法可以利用已有的部分知識圖譜間的等價實體對作為訓(xùn)練集,定義人工特征訓(xùn)練分類器,包括支持向量機、決策樹、神經(jīng)網(wǎng)絡(luò)等方法,無監(jiān)督學(xué)習(xí)的成對對齊方法主要根據(jù)現(xiàn)有的知識進行實體的相似度判斷,如翻譯詞典、同義詞典、實體名稱相似度(Jaccard系數(shù)、Dice系數(shù)和編輯距離等)等。而集體對齊會考慮整個知識圖譜的信息進行匹配。該方法主要分為兩種:一種是基于相似度傳播的方法,基本思路是基于初始匹配經(jīng)過迭代計算產(chǎn)生新的匹配。另一種是基于概率模型的方法,基本思路是將全局實體匹配的概率最大化,常用的方法包括貝葉斯網(wǎng)絡(luò)、LDA、條件隨機場和馬爾可夫邏輯網(wǎng)等。

      現(xiàn)在較為流行的是基于表示學(xué)習(xí)的方法。通過多個知識庫聯(lián)合表示學(xué)習(xí),將實體對齊問題轉(zhuǎn)化為兩個知識圖譜中的實體相似度計算問題。在圖2中,該模型提出了兩個知識圖譜之間實體對齊的框架,由謂詞對齊模塊,嵌入學(xué)習(xí)模塊和實體對齊模塊組成。它利用知識圖譜中存在的大量屬性三元組生成屬性字符嵌入,通過基于實體的屬性計算實體之間的相似性,將實體嵌入從兩個知識圖譜移位到同一空間中。這樣,來自不同知識圖譜的相似實體將會有相似的向量表示,因此可通過向量相似度獲得潛在實體對齊對。此外,模型設(shè)定相似度閾值來過濾潛在實體對齊對,得到最終的對齊結(jié)果。

      圖?2?基于屬性字符嵌入的實體對齊模型

      屬性對齊

      屬性對齊是指將不同知識圖譜中的等價屬性合并為同一屬性,通常采用“生成+過濾+驗證“的基本思路。

      在生成步驟中,為全部屬性兩兩計算相似度,得到候選的等價屬性對。常用的方法有基于屬性名稱的相似性計算(如度量字符串相似度的指標(biāo),包括Jaccard系數(shù)、Dice系數(shù)和編輯距離等);基于外部同義詞詞庫(如同義詞字典和百度漢語等)的方法;基于屬性取值相似度(包括屬性值集合的相似度和屬性值類型的相似度)的方法。在過濾步驟中設(shè)計啟發(fā)式規(guī)則,過濾掉其中的錯誤等價屬性對。最后交由人工對最終結(jié)果進行驗證。對于每個等價屬性對,使用兩者中出現(xiàn)頻次較高的那個屬性名稱來表示這對等價屬性。此外,由于多個知識圖譜中存在著大量的等價實體,還可以利用一些統(tǒng)計信息來對齊屬性,如屬性對應(yīng)的實體-屬性值集合的重疊程度等。

      屬性值融合

      在對齊屬性后,需要對來自不同知識圖譜的同一實體的同一屬性的屬性值進行合并。融合前首先需要對屬性值進行命名規(guī)范化,然后根據(jù)屬性是單值還是多值,分為單值屬性融合(如出生日期、性別等)和多值屬性融合(如職業(yè)、代表作品等)。

      單值屬性有唯一的屬性值,根據(jù)這一性質(zhì)可以利用投票的方法得到最有可能的結(jié)果。圖3提出了一種基于異構(gòu)信息網(wǎng)絡(luò)的真值發(fā)現(xiàn)方法,異構(gòu)信息網(wǎng)絡(luò)中構(gòu)建了三類節(jié)點,第一類節(jié)點為知識圖譜,第二類節(jié)點為三元組事實,第三類節(jié)點為對象(即三元組中的實體-屬性對)。每個知識圖譜都存在大量的三元組,這些三元組的平均準確率決定了知識圖譜的質(zhì)量,而知識圖譜的質(zhì)量也可以用來估計三元組的準確率。當(dāng)一個對象存在多個屬性值時,如果大多數(shù)高質(zhì)量的知識圖譜都支持其中某一屬性值,那么這個屬性值很可能就是這個對象的真值。

      圖?3?基于異構(gòu)信息的單值屬性的屬性值融合

      圖4給出了對于知識圖譜的質(zhì)量估計:

      圖?4?知識圖譜的質(zhì)量估計

      在此基礎(chǔ)上,可以通過迭代的方法來計算每個知識圖譜的質(zhì)量Q(k)和每個三元組的準確率P(t)。在初始化過程中,為每個知識圖譜設(shè)置相同的質(zhì)量值(如知識圖譜的平均質(zhì)量估計值),然后進入迭代計算。在每輪迭代中,首先通過知識圖譜的質(zhì)量來計算每個三元組的準確率,然后根據(jù)所有三元組的準確率來重新計算每個知識圖譜的質(zhì)量。依次迭代,直至收斂,即每個指標(biāo)的變化值都小于某個閾值。

      對于多值屬性的融合,可以考慮多策略融合的方法,包括直接合并策略、投票策略(大多數(shù)投票、一致性投票和加權(quán)投票)和自定義融合策略(以可信度高的知識圖譜中屬性的屬性值作為基準,將其他知識圖譜中屬性的屬性值通過啟發(fā)式的方式加入)。

      知識圖譜

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:四大核心價值!華為AIOps服務(wù)讓運維不再成為電信業(yè)痛點
      下一篇:在Kubernetes中引入Container Runtime Interface (CRI)
      相關(guān)文章
      亚洲国产人成在线观看| xxx毛茸茸的亚洲| 精品亚洲视频在线| 亚洲中文字幕无码久久| 亚洲一区中文字幕在线电影网| 亚洲美女中文字幕| 亚洲精品高清国产麻豆专区| 久久精品国产亚洲AV嫖农村妇女| 亚洲第一区香蕉_国产a| 久久精品7亚洲午夜a| 亚洲综合一区二区精品导航| 久久夜色精品国产噜噜噜亚洲AV| 亚洲男人天堂2017| 亚洲精品电影天堂网| 亚洲精品在线不卡| 亚洲人成在久久综合网站| 亚洲五月综合网色九月色| 亚洲中文字幕一二三四区| 亚洲精品无码少妇30P| 国产精品亚洲小说专区| ZZIJZZIJ亚洲日本少妇JIZJIZ| 国内精品久久久久久久亚洲| 亚洲va久久久噜噜噜久久男同| 久久久亚洲精品视频| 亚洲白色白色永久观看| 亚洲黄色激情视频| 亚洲中文字幕乱码熟女在线| 性色av极品无码专区亚洲| 亚洲精品A在线观看| 亚洲自偷自偷图片| 亚洲AV人无码激艳猛片| 亚洲白色白色永久观看| 亚洲色一区二区三区四区| 久久久久久亚洲精品无码| 亚洲国产香蕉人人爽成AV片久久 | 亚洲综合一区无码精品| 国产精品成人亚洲| 亚洲精品乱码久久久久久中文字幕 | 亚洲熟妇无码一区二区三区| WWW国产亚洲精品久久麻豆| 亚洲日韩在线中文字幕第一页|