不知道女神斯嘉麗約翰遜演過哪些電影?知識圖譜告訴你(華為云知識圖譜服務-信息抽取模型實踐)
每個男人心中都有一個女神。比如,NBA現役球星杜蘭特就曾公開宣布自己喜歡斯嘉麗·約翰遜,2011年的金球獎頒獎禮,當美國好萊塢女星斯嘉麗·約翰遜走在紅地毯上的時候,杜蘭特忍不住地發了條Twitter:“斯嘉麗,我想喝你的洗澡水。” But,即便杜蘭特如此癡迷斯嘉麗,他也記不住斯嘉麗的所有作品和作品信息。

此次實踐使用華為云-知識圖譜服務,訓練一個電影領域的自定義信息抽取模型,并進一步輸入自然語言文本,從中抽取三元組,構建一個電影知識圖譜。輕松查詢斯嘉麗主演過哪些電影,以及曾和哪些導演合作。
建議先熟悉華為云知識圖譜服務文檔,了解使用流程和相關概念:https://support.huaweicloud.com/productdesc-kg/kg_02_0001.html
圖譜構建流程:
華為云知識圖譜目前還在公測當中,使用免費,直接申請公測即可。獲得公測資格后,會有短信通知。
tips:準確填寫個人信息,清楚描述自身業務場景,可以更快獲得公測資格~
1.?????? 準備數據
首先需要準備一批短文本數據,可以按一定比例劃分為訓練數據(標注進而訓練模型)和圖譜數據(最終構建圖譜的數據)。由于數據安全的原因,視頻中的示例數據不能跟大家分享、展示。數據示例:
張三的生日是1990年1月1日,身高175cm,出生于北京。
李四,著名導演,畢業于電影學院,代表作有《電影1》、《電影2》。
... ...
將數據上傳到OBS(華為云對象存儲服務)后,就可以開始標注數據了。
FAQ:
(1)?什么是數據集輸入位置和數據集輸出位置?
答:選擇的是OBS文件夾。
數據集輸入位置:待標注的數據存放在OBS的目錄。
數據集輸出位置:標注完成的數據存放到OBS的目錄。
(2)?如何填寫實體標簽和關系標簽?它和圖譜本體有什么關系?
答:實體標簽和關系標簽是指定我們這批數據里面有哪些類型的實體和關系,比如我們只有新增了“電影”這個實體標簽后,在標注時才能將待標注數據的某一段文字標注成“電影”。實際上是在設置我們抽取出的三元組的schema。
這里填寫的標簽,和圖譜本體是獨立的兩個東西。它只是約束我們從這批數據中抽取出的三元組有哪些類型,之后這些三元組還需要經過“知識映射”階段的配置,與本體進行“映射”,才能生成圖譜。
(3)??需要標注多少條數據?
答:訓練一個基本可用的模型,大約需要2000條左右的短句數據作為訓練數據。訓練一個效果較好的模型,建議提供2萬條以上的短句數據作為訓練數據。可以啟用modelarts平臺團隊標注的功能,對一批數據進行團隊標注。
2.?模型訓練
標注好數據后,就可以開始訓練模型。
FAQ:
(1)訓練模型時為什么選文件夾而不是文件?
答:一個文件夾中可能有多個文件,這些文件都可以被當做訓練數據。所以選擇某個文件夾,則其中存放的符合格式的文件都會被當做訓練數據使用。
(2)訓練模型時的訓練集、測試集如何劃分的?
答:默認會隨機劃分80%的數據作為訓練集,20%的數據作為測試集。
3. 創建圖譜
訓練好模型后,開始創建圖譜。
FAQ:
(1)信息抽取使用模型抽取時,知識映射該怎么配?怎么和信息抽取的內容結合起來?
答:信息抽取階段選擇模型抽取時,其下方會展示抽取出的三元組的schema。這個schema其實就是我們在步驟1(標注數據)時填寫的數據標簽。我們在配置“知識映射”時,主要是將“信息抽取”階段的predicate填入對應欄目。比如將“身高”填入到“Person”這類實體的“height”屬性。則在生成圖譜中某個“Person”類實體時,信息抽取階段中:“身高”對應的object_type“Number”這個字段就會成為該實體的“height”屬性。此次示例的視頻有剪輯,跳過了配置的完整過程,直接展示的配置填寫完后的結果。
4.?結果展示
運行一段時間后,圖譜就構建好了。在圖譜中搜索斯嘉麗,可以看到她曾主演電影《超體》,該電影的導演是呂克貝松。
往期相關博文:
華為云知識圖譜服務--結構化數據實踐(上):https://bbs.huaweicloud.com/blogs/167526
華為云知識圖譜服務--結構化數據實踐(下):https://bbs.huaweicloud.com/blogs/167528
知識圖譜 機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。