【DigSci 科學數據挖掘大賽】冠軍方案關鍵技術解析

      網友投稿 780 2025-04-03

      前言

      本文根據在cncc會議中演講的PPT內容,給出了完整的技術方案,主要從賽題難點、候選集自動生成、自動特征抽取與選擇、文本匹配模型構建、模型融合等方面去進行闡述。本次比賽的難點在于給定描述段落匹配的一篇論文(正樣本),在沒有負樣本的情況下要求參賽者給出一個段落最匹配的三篇論文。參賽者需要從大規模論文庫中匹配最相關的論文,涉及到語義表示、語義檢索等技術難點。

      賽題背景

      科學研究已經成為現代社會創新的主要動力。大量科研數據的積累也讓我們可以理解和預測科研發展,并能用來指導未來的研究。論文是人類最前沿知識的媒介,因此如果可以理解論文中的數據,可以極大地擴充計算機理解知識的能力和范圍。

      賽題任務

      本次比賽將提供一個論文庫(約含20萬篇論文),同時提供對論文的描述段落,來自論文中對同類研究的介紹。參賽選手需要為描述段落匹配三篇最相關的論文。

      例子:

      描述:

      An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.

      相關論文:

      [1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.

      評測方案

      準確率(Precision): 提交結果的準確性通過 Mean Average Precision @ 3 (MAP@3) 打分,具體公式如下:

      其中,|U|是需要預測的press_id總個數,P(k)是在k處的精度,n是paper個數。具體來說,如果在第一個位置預測正確,得分為1;第二個位置預測正確,得分為1/2;第三個位置預測正確,得分為1/3。

      賽題分析

      【DigSci 科學數據挖掘大賽】冠軍方案關鍵技術解析

      本賽題任務是需要為描述段落匹配三篇最相關的論文,很明顯這是一個匹配的問題,實際上可以轉化為是否匹配的二分類問題,在構建模型的時候模型不可能在這么大范圍(20萬篇論文)內去搜索查找,為此如何縮小搜索范圍,構造合理的候選論文集,將問題轉化為二分類問題,是模型得分的關鍵。

      整體方案

      首先根據文本相似度,構造候選集,再在候選集中選出top3的論文。具體而言,利用候選集構造訓練樣本集,分別用特征工程+模型的方式計算出兩種匹配方案的top3論文,再結合原候選集中的top3論文,對三種方式的輸出結果做多模型的融合得到最終的top3論文。

      候選集生成

      在構造候選集方面,我們按照如下步驟進行:

      在數據描述中,發現引用論文描述在[[**##**]]之前,所以我們選取描述中[[**##**]]之前的句子作為描述關鍵句,例如:Rat brain membrane preparation and opioid binding was performed as described previously by Loukas et al. [[**##**]]. Briefly, binding was performed in Tris-HCl buffer (10 mM, pH 7.4), in a final volume of 1.0 ml. The protein concentration was 300 μg/assay.

      只選擇特定的期刊,訓練集匹配論文的journal描述字段都是no-content,故而只選取journal為no-content的論文。

      經過1,2處理后,分別運用bm25和tfidf的方式召回前20篇論文,取并后set(考慮召回數量和正負比),得到最終的候選集,訓練集正負比為:1:34,訓練集召回比例(覆蓋率):0.6657 。

      特征抽取與選擇

      在特征抽取方面,我們根據文檔信息抽取了如下一些特征:

      l論文關鍵字在描述關鍵句、原描述出現的次數.

      l描述關鍵句、原描述分別與論文title和摘要的BM25.

      l描述關鍵句、原描述分別與論文title和摘要的基于TFIDF的余弦距離,歐式距離,曼哈頓距離.

      l描述關鍵句、原描述分別與論文title和摘要的基于Word2vec詞向量余弦距離,歐式距離,曼哈頓距離.

      l描述關鍵句、原描述分別與論文title和摘要的編輯距離.

      l描述關鍵句、原描述分別與論文title和摘要的共現詞,共現詞占的比例.

      l描述關鍵句、原描述分別與論文title和摘要的 2-gram Jaccard相似系數 .

      l描述關鍵句、原描述分別與論文title和摘要的長度.

      …………………

      匹配模型構建

      在模型構建方面我們把匹配問題轉化為是否匹配的二分類問題,主要采用了傳統的特征+機器學習模型以及深度學習模型兩種方案,傳統的機器學習模型分類方案直接采用lightgbm模型,在構建深度學習模型方案時,我們主要利用了深度學習模型中間層的輸出信息,具體方法:首先將描述和文檔輸入進詞嵌入層,然后分別接入 Decomposable Attention Model , Bi-cnn, Esim,取三個模型隱藏層輸出結果與用特征工程構建的特征進行拼接,最后接入多層感知機。

      模型融合

      用規則的方式、lightgbm以及深度學習模型匹配的方式得到的三種結果,以lightgbm的結果為基準進行模型融合得到最終的結果。

      感悟

      本次比賽是在過完國慶之后來做的,由于時間比較短,許多方法還沒有來得及試驗,例如:目前比較熱門的bert模型,運用bert模型應該會有較大的提高。比賽中運用的部分能力源自華為云NLP服務,目前我們也在把一些新的模型優化落地,實踐是檢驗真理的唯一標準,長路漫漫,我們堅信在后續的服務中我們會越做越好。最后歡迎大家留言,相互探討,一起學習。

      大賽 數據挖掘

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:ctrl+c有時候會失效(ctrl c失靈)
      下一篇:怎么讓文字一條一條的出來?
      相關文章
      亚洲va中文字幕无码久久| 久久久亚洲精品国产| 亚洲AV乱码一区二区三区林ゆな| 亚洲第一区在线观看| 亚洲日本天堂在线| 亚洲福利视频网址| 亚洲成人在线免费观看| 亚洲精品午夜在线观看| 亚洲欧洲国产精品久久| 亚洲国产精品xo在线观看| 亚洲精品在线不卡| 亚洲免费在线观看视频| 亚洲a级在线观看| 国产精品亚洲а∨无码播放不卡| 亚洲AV电影天堂男人的天堂 | 亚洲熟妇无码一区二区三区导航| 亚洲娇小性xxxx色| 2020天堂在线亚洲精品专区| 91亚洲性爱在线视频| 精品亚洲AV无码一区二区| 亚洲中文无码卡通动漫野外| 亚洲精品9999久久久久无码| 欧美激情综合亚洲一二区| 国产亚洲精品美女| 亚洲日韩涩涩成人午夜私人影院| 亚洲一级片免费看| 国产亚洲精品自在久久| 亚洲韩国—中文字幕| 亚洲国产精品综合一区在线| 亚洲高清一区二区三区| 亚洲成av人无码亚洲成av人| 亚洲精品WWW久久久久久| 国产亚洲美女精品久久久| 国产av天堂亚洲国产av天堂 | 亚洲国产无套无码av电影| 亚洲人成在线播放网站岛国| 亚洲国产精品久久网午夜| 亚洲熟妇av午夜无码不卡 | 精品亚洲成AV人在线观看| 亚洲自偷自偷图片| 偷自拍亚洲视频在线观看99|