【云端大事件】--“共享、開放、融合——大數據開啟智慧政務新時代”研討會在沈陽隆重召開
2022
2025-03-31
一、知識圖譜的定義
人們通過概念掌握對客觀世界的理解,概念是對客觀世界事物的抽象,是將人們對世界認知聯系在一起的紐帶。知識圖譜以結構化的形式描述客觀世界中概念、實體及其關系。實體是客觀世界中的事物,概念是對具有相同屬性的事物的概括和抽象。本體是知識圖譜的知識表示基礎,可以形式化表示為,O={C,H,P,A,I},C?為概念集合,如事物性概念和事件類概念,H?是概念的上下位關系集合,也稱為?Taxonomy?知識,P?是屬性集合,描述概念所具有的特征,A?是規則集合,描述領域規則,I?是實例集合,用來描述實例-屬性-值。知識圖譜可以看作是本體知識表示的一個大規模應用,知識圖譜的知識表示結構主要描述客觀存在實體和實體的關系,對于每個概念都有確定的描述這個概念的屬性集合。
下圖是一個知識圖譜示例,節點代表了實體(概念),邊代表了實體之間的關系。
實體:對應現實世界的語義本體
關系:對應本體間的關系,連接了不同類型的實體
屬性:描述一類實體的 common 特性,實體被屬性所標注
二、知識圖譜的起源和發展趨勢
知識圖譜得益于Web的發展(更多的是數據層面),有著來源于知識表示(Knowledge Representation,KR)、自然語言處理(Natural Language Processing,NLP)、Web、AI多個方面的基因。Web1.0萬維網的產生為人們提供了一個開放平臺,使用?HTML?定義文本的內容,通過超鏈接把文本連接起來,使得大眾可以共享信息。W3C?提出的可擴展標記語言?XML,實現對互聯網文檔內容的結構通過定義標簽進行標記,為互聯網環境下大規模知識表示和共享奠定了基礎。?當前知識圖譜發展還處于初級階段,面臨眾多挑戰和難題,如:知識庫的自動擴展、異構知識處理、推理規則學習、跨語言檢索等。
三、知識圖譜的作用與應用
刻畫事物關系、沉淀領域知識
知識圖譜旨在利用圖結構建模、識別和推斷事物之間的復雜關聯關系和沉淀領域知識,是實現認知智能的重要基石,已經被廣泛應用于搜索引擎、智能問答、語言語義理解、大數據決策分析、智能物聯等眾多領域。
四、大型知識圖譜
最具代表性大規模網絡知識獲取的工作包括?DBpedia,Freebase,KnowItAll,WikiTaxonomy?和?YAGO,以及?BabelNet,ConceptNet,DeepDive,? NELL,Probase,Wikidata,XLore,Zhishi.me??等。這些知識圖譜遵循?RDF?數據模型,包含數以千?III?萬級或者億級規模的實體,以及數十億或百億事實(即屬性值和與其他實體的關系),并且這些實體被組織在成千上萬的由語義類體現的客觀世界的概念結構中。除了通用的大規模知識圖譜,各行業也在建立行業和領域的知識圖譜。
大規模的中文百科知識圖譜:
Zhishi.me:Zhishi.me是由三大中文在線百科全書:百度百科全書(https://baike.baidu.com)、互動百科全書(http://www.baike.com)和中文維基百科(https://zh.wikipedia.org)組成的第一個中文百科全書知識圖譜譜。它采用與DBpedia類似的方法,從這三種在線百科全書中提取結構化知識,并通過固定的規則將它們之間的等價實體鏈接起來,從而構建一個大規模的中文通用知識圖譜譜。它現在包含超過1000萬個實體和1.25億個三元組。
CN-DBpedia: CN-DBpedia是繼Zhishi.me之后的中文知識圖譜的又一個里程碑。類似于Zhishi.me, CN-DBpedia也是一個大型的中文百科知識圖譜,它使用Zhishi.me的相同數據源。不同于Zhishi.me (CN-DBpedia)的是它不僅從中文三大在線百科全書中提取結構化知識,而且對提取的知識進行整合、補充和糾正,極大地提高了知識圖譜譜的質量。此外,CN-DBpedia也是一個不斷更新的知識圖譜。在CN-DBpedia中有940萬個實體和8000萬個三元組。
PKU-PIE:是由北京大學構建的中文百科全書知識圖譜。它從維基百科、DBpedia、百度百科等多種來源中提取知識。并將其與定義的再分配系統和類別結合在一起。PKU-PIE的開發人員不發表任何論文或技術報告,因此我們無法了解構建此知識圖譜的技術細節。PKU-PIE現在包含約900萬個實體和4000萬個三元組。
XLORE:?大多數中文知識圖譜,如Zhishi.me、CN-DBpedia和PKU-PIE,都不考慮中文知識圖譜與其他語言知識圖譜之間的跨語言知識共享。清華大學構建的大規模英漢雙語知識圖譜XLORE是解決這一問題的一項重要工作。它是通過分別從中英在線百科全書中提取半結構化數據,挖掘中英實體之間的等價關系來構建的。XLORE包含1000多萬個雙語實體。
Belief Engine:Belief Engine也是一個由百度百科、互動百科和維基百科構建的英漢雙語知識圖譜。與Xlore不同,Belief Engine僅從這三個在線百科全書中提取陳述性知識,并通過概念化陳述性知識來進一步產生概念級的常識。每個常識將在這個過程中得到一個置信值。Belief Engine包含大約5000萬個三元組,并且沒有任何介紹其構建細節的論文。
知識圖譜
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。