問答系統分類與對比
問答系統(Question Answering System)

一、基礎概念
搜索引擎( Search Engine )
一種信息檢索系統,旨在協助搜索存儲在計算機系統中的信息。例:網絡搜索引擎。——維基百科
問答系統( Question Answering System,QA System )
回答人提出的自然語言問題的系統。—— 肖仰華《知識圖譜 概念與技術》
能夠接受用戶以自然語言形式描述的提問,并能從大量的異構數據中查找或推斷出用戶問題答案的信息檢索系統。—— 宗成慶《統計自然語言處理》
對話系統、聊天機器人、對話機器人( Dialog System )
能夠以自然語言與人類進行會話的軟件系統。——百度百科
機器人分類:
維度
任務型
問答型
閑聊型
定義
執行任務指令
問答系統
純粹聊天
情感
理性
理性
感性
對話輪數
越少越好
單輪
越多越好
目標
完成具體任務
回答知識性問題
沒有特定目標
舉例
查天氣、訂機票
中國的首都在哪里
我今天心情不好
二、搜索引擎與問答系統對比
從某種意義上說,問答系統是集知識表示、信息檢索、自然語言處理與智能推理等技術于一身的新一代搜索引擎。——《統計自然語言處理》
維度
傳統信息檢索系統/傳統搜索引擎
問答系統
輸入
關鍵詞組合
自然語言提問
輸出
相關的候選文檔列表
準確的答案
領域
信息檢索(IR)
NLP + IR
信息確定性
用戶信息需求相對模糊
用戶信息需求相對明確
三、問答系統分類
問答系統有多種分類方式,比如基于不同的知識源和不同的問題類型等。——肖仰華《知識圖譜 概念與技術》
基于知識源的分類方式:—— 肖仰華、崔萬云
問答系統
非結構化知識源
結構化知識源
單一文檔
跨文檔
單一表格
跨表格
單文檔閱讀理解 | 機器閱讀理解
多文檔閱讀理解 | 信息檢索問答 IRQA
知識圖譜問答
數據庫問答
從單一文檔中尋找答案
側重跨文檔的推理
知識庫
關系型數據庫,多表關聯
MRC-QA、DBQA
FAQ-QA、DrQA、CoQA
KBQA
Table QA、NL2SQL
領域分類:—— 馮巖松《基于知識的自然語言問答》
檢索類問答(搜索引擎、社區問答、FAQ)、知識類問答(知識庫問答、常識知識問答)、交互類問答(聊天、任務式對話)、機器閱讀/理解。
解釋:
知識圖譜提供了多元異構知識的統一表示,通常表示為一個巨大的三元組表格。因此,KBQA是通過單一表格來做出回答的。
四、KBQA、FAQ、MRC 對比
(1)概念相關
維度
KBQA
FAQ
MRC
中文名
知識庫問答
常見問題解答
機器閱讀理解
英文全稱
Knowledge-Based Question Answering
Frequently Asked Questions
Machine Reading Comprehension
別名
知識圖譜問答 KGQA
常見問答集
文檔問答
定義
從知識庫中搜索與問題相關的實體或關系或屬性作為答案
在已有的“問題-答案”對集合中找到與用戶提問相匹配的問句,并將其對應的答案返回給用戶
根據給定的上下文回答問題
舉栗
智能語音助手
12345客服聯盟
中高考語文英語閱讀
開放域樣例
杭州是哪個省的?姚明的老婆的女兒是誰?劉德華是演員嗎?
知識圖譜是什么?為什么要用知識圖譜?怎么使用只知識圖譜?
-
(2)問題答案相關
維度
KBQA
FAQ
MRC
問題類型
簡單問題、復雜問題、推理問題
簡單問題
簡單問題、部分復雜問題
問題種類
支持復雜的需要多跳、計算和推理的問題,較靈活
只支持高頻問題,較死板
偏文本語義理解
問題標簽
事實型:事實類、邏輯類
非事實型:解釋類、為什么類、怎樣類
均有
問題表示
自然語言
關鍵詞
自然語言
答案來源
結構化數據、文本數據挖掘
問答對數據
自由文本
答案形式
知識點不是孤立的,相互關聯
靜態的、預先定義的
動態的、細粒度的
知識表示
關聯性數據提供文本理解的語義背景,具有更豐富的知識表示
文本句子的內部理解
上下文
(3)任務條件相關
維度
KBQA
FAQ
MRC
任務劃分
簡單和復雜、封閉和開放
QA匹配、QQ匹配
完形填空、多項選擇、跨度提取、自由回答
必要條件
KB中存在和問題匹配的內容
存在和問題匹配的FAQ對,FAQ是人工生成或者經過人工審核
答案必須在文本中出現,且是文本中的連續片段
適用問題
問題能夠被語義解析,解析結果能匹配到KB中的子圖
能被FAQ中的Q匹配的問題
問題詢問的答案粒度較細,且答案來源于已知文本
數據準備
知識挖掘,構造結構化圖譜,較復雜
梳理高頻問答,較容易
文本數據多,較容易
意圖判斷
需要判斷意圖
不判斷,直接匹配
不需要
(4)特點相關
維度
KBQA
FAQ
MRC
構造成本
高
低
低
精確性
高
一般
高
召回率
低
一般
一般
可解釋性
好
一般
一般
推理能力
強
無
弱
擴展性
信息、實體都支持
信息問答
信息問答
數據質量
人工標注或解析自網頁表格的高質量數據
文本錯誤或者不同文本的知識矛盾
-
數據管理
精細化知識管理,易于維護
管理問答列表,維護難度大
管理文本,較容易
查詢效率
存儲于數據庫,使用索引加速查詢
倒排表
-
輪次
單輪或多輪
單輪
單輪
(5)優缺點相關
維度
KBQA
FAQ
MRC
優點
可以回答推理類問題、回答準確率較高
回答的覆蓋率較高。對未收錄的問題也能靠字面語義匹配
文本獲取容易,不需要進行文本結構化
缺點
KB構建成本高
排Top1的答案未必與問題匹配,需要用專門的模型過濾。語義匹配模型需要大量的訓練數據
需要大量人工標注的數據訓練模型
優勢
為問題的語義理解提供豐富的背景知識;提供初步的推理能力
擅長回答高頻問題
減少了對文本數據做結構化處理的成本
(6)總結1:現階段任何一項技術,都有其天花板及適用性。在真正使用智能問答時,需要綜合考慮數據來源、數據規模和構建成本。在一個技術不能打遍全場的情況下,需要構建一個三者混合的多引擎問答。 ——王昊奮
(7)總結2:真實應用的QA系統需要回答不僅僅于圖譜簡單知識匹配的問題:復雜路徑匹配、比較形、連續推理+比較形、反向路徑、復雜知識、圖譜缺失、比較形+圖譜缺失。 ——崔萬云
五、知識圖譜與圖數據庫
知識圖譜是圖數據庫關聯最為緊密、場景最廣泛的應用方向。
知識圖譜以圖數據庫作為存儲引擎,對海量信息進行智能化處理,形成大規模的知識庫并進而支撐業務應用。
-
六、參考
1、問答系統和對話系統-KBQA和對話系統綜述:https://zhuanlan.zhihu.com/p/93023782
2、神經機器閱讀理解:方法與趨勢:https://zhuanlan.zhihu.com/p/87046392
3、三種方法融合:https://www.bobinsun.cn/assets/pdf/知識驅動的智能問答在企業計算中的落地實踐-樂言科技王昊奮.pdf
4、美團,知識圖譜問答實踐:https://www.cnblogs.com/CheeseZH/p/13734569.html
5、知識圖譜在美團智能交互場景問答中的應用和演進:https://www.infoq.cn/article/hf8et8axksgesthwswip
6、KGQA KBQA QApairQA 三者比較:https://blog.csdn.net/guotong1988/article/details/81532538
7、云小微開放平臺詞匯表:https://dingdang.qq.com/doc/page/29
8、針對復雜問題的知識圖譜問答KBQA最新進展調研:https://developer.aliyun.com/article/775683
9、當我們在談論聊天機器人時,到底在談論什么(一):https://mp.weixin.qq.com/s/Y2cnH7MfGDPPi2zzjVJzrA
10、《知識圖譜與圖數據庫》:https://zhuanlan.zhihu.com/p/154272979
11、《知識圖譜》趙軍
12、《知識圖譜 方法、實踐與應用》王昊奮
13、《知識圖譜 概念與技術》肖仰華
14、《統計自然語言處理》宗成慶
15、《知識問答概述》崔萬云 PPT
16、《基于知識的自然語言問答》馮巖松 PPT
17、《智能問答在企業計算中的機遇與挑戰》王昊奮 期刊文章
知識圖譜
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。