微吼云上線多路互動直播服務 加速多場景互動直播落地
780
2025-04-03
前言
本文根據在cncc會議中演講的PPT內容,給出了完整的技術方案,主要從賽題難點、候選集自動生成、自動特征抽取與選擇、文本匹配模型構建、模型融合等方面去進行闡述。本次比賽的難點在于給定描述段落匹配的一篇論文(正樣本),在沒有負樣本的情況下要求參賽者給出一個段落最匹配的三篇論文。參賽者需要從大規模論文庫中匹配最相關的論文,涉及到語義表示、語義檢索等技術難點。
賽題背景
科學研究已經成為現代社會創新的主要動力。大量科研數據的積累也讓我們可以理解和預測科研發展,并能用來指導未來的研究。論文是人類最前沿知識的媒介,因此如果可以理解論文中的數據,可以極大地擴充計算機理解知識的能力和范圍。
賽題任務
本次比賽將提供一個論文庫(約含20萬篇論文),同時提供對論文的描述段落,來自論文中對同類研究的介紹。參賽選手需要為描述段落匹配三篇最相關的論文。
例子:
描述:
An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.
相關論文:
[1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.
評測方案
準確率(Precision): 提交結果的準確性通過 Mean Average Precision @ 3 (MAP@3) 打分,具體公式如下:
其中,|U|是需要預測的press_id總個數,P(k)是在k處的精度,n是paper個數。具體來說,如果在第一個位置預測正確,得分為1;第二個位置預測正確,得分為1/2;第三個位置預測正確,得分為1/3。
賽題分析
本賽題任務是需要為描述段落匹配三篇最相關的論文,很明顯這是一個匹配的問題,實際上可以轉化為是否匹配的二分類問題,在構建模型的時候模型不可能在這么大范圍(20萬篇論文)內去搜索查找,為此如何縮小搜索范圍,構造合理的候選論文集,將問題轉化為二分類問題,是模型得分的關鍵。
整體方案
首先根據文本相似度,構造候選集,再在候選集中選出top3的論文。具體而言,利用候選集構造訓練樣本集,分別用特征工程+模型的方式計算出兩種匹配方案的top3論文,再結合原候選集中的top3論文,對三種方式的輸出結果做多模型的融合得到最終的top3論文。
候選集生成
在構造候選集方面,我們按照如下步驟進行:
在數據描述中,發現引用論文描述在[[**##**]]之前,所以我們選取描述中[[**##**]]之前的句子作為描述關鍵句,例如:Rat brain membrane preparation and opioid binding was performed as described previously by Loukas et al. [[**##**]]. Briefly, binding was performed in Tris-HCl buffer (10 mM, pH 7.4), in a final volume of 1.0 ml. The protein concentration was 300 μg/assay.
只選擇特定的期刊,訓練集匹配論文的journal描述字段都是no-content,故而只選取journal為no-content的論文。
經過1,2處理后,分別運用bm25和tfidf的方式召回前20篇論文,取并后set(考慮召回數量和正負比),得到最終的候選集,訓練集正負比為:1:34,訓練集召回比例(覆蓋率):0.6657 。
特征抽取與選擇
在特征抽取方面,我們根據文檔信息抽取了如下一些特征:
l論文關鍵字在描述關鍵句、原描述出現的次數.
l描述關鍵句、原描述分別與論文title和摘要的BM25.
l描述關鍵句、原描述分別與論文title和摘要的基于TFIDF的余弦距離,歐式距離,曼哈頓距離.
l描述關鍵句、原描述分別與論文title和摘要的基于Word2vec詞向量余弦距離,歐式距離,曼哈頓距離.
l描述關鍵句、原描述分別與論文title和摘要的編輯距離.
l描述關鍵句、原描述分別與論文title和摘要的共現詞,共現詞占的比例.
l描述關鍵句、原描述分別與論文title和摘要的 2-gram Jaccard相似系數 .
l描述關鍵句、原描述分別與論文title和摘要的長度.
…………………
匹配模型構建
在模型構建方面我們把匹配問題轉化為是否匹配的二分類問題,主要采用了傳統的特征+機器學習模型以及深度學習模型兩種方案,傳統的機器學習模型分類方案直接采用lightgbm模型,在構建深度學習模型方案時,我們主要利用了深度學習模型中間層的輸出信息,具體方法:首先將描述和文檔輸入進詞嵌入層,然后分別接入 Decomposable Attention Model , Bi-cnn, Esim,取三個模型隱藏層輸出結果與用特征工程構建的特征進行拼接,最后接入多層感知機。
模型融合
用規則的方式、lightgbm以及深度學習模型匹配的方式得到的三種結果,以lightgbm的結果為基準進行模型融合得到最終的結果。
感悟
本次比賽是在過完國慶之后來做的,由于時間比較短,許多方法還沒有來得及試驗,例如:目前比較熱門的bert模型,運用bert模型應該會有較大的提高。比賽中運用的部分能力源自華為云NLP服務,目前我們也在把一些新的模型優化落地,實踐是檢驗真理的唯一標準,長路漫漫,我們堅信在后續的服務中我們會越做越好。最后歡迎大家留言,相互探討,一起學習。
大賽 數據挖掘
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。