【DigSci 科學數據挖掘大賽】冠軍方案關鍵技術解析

網友投稿 780 2025-04-03

前言

本文根據在cncc會議中演講的PPT內容，給出了完整的技術方案，主要從賽題難點、候選集自動生成、自動特征抽取與選擇、文本匹配模型構建、模型融合等方面去進行闡述。本次比賽的難點在于給定描述段落匹配的一篇論文（正樣本），在沒有負樣本的情況下要求參賽者給出一個段落最匹配的三篇論文。參賽者需要從大規模論文庫中匹配最相關的論文，涉及到語義表示、語義檢索等技術難點。

賽題背景

科學研究已經成為現代社會創新的主要動力。大量科研數據的積累也讓我們可以理解和預測科研發展，并能用來指導未來的研究。論文是人類最前沿知識的媒介，因此如果可以理解論文中的數據，可以極大地擴充計算機理解知識的能力和范圍。

賽題任務

本次比賽將提供一個論文庫（約含20萬篇論文），同時提供對論文的描述段落，來自論文中對同類研究的介紹。參賽選手需要為描述段落匹配三篇最相關的論文。

例子：

描述：

An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.

相關論文：

[1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.

評測方案

準確率（Precision）: 提交結果的準確性通過 Mean Average Precision @ 3 (MAP@3) 打分，具體公式如下：

其中，|U|是需要預測的press_id總個數，P(k)是在k處的精度，n是paper個數。具體來說，如果在第一個位置預測正確，得分為1；第二個位置預測正確，得分為1/2；第三個位置預測正確，得分為1/3。

賽題分析

【DigSci 科學數據挖掘大賽】冠軍方案關鍵技術解析

本賽題任務是需要為描述段落匹配三篇最相關的論文，很明顯這是一個匹配的問題，實際上可以轉化為是否匹配的二分類問題，在構建模型的時候模型不可能在這么大范圍（20萬篇論文）內去搜索查找，為此如何縮小搜索范圍，構造合理的候選論文集，將問題轉化為二分類問題，是模型得分的關鍵。

整體方案

首先根據文本相似度，構造候選集，再在候選集中選出top3的論文。具體而言，利用候選集構造訓練樣本集，分別用特征工程+模型的方式計算出兩種匹配方案的top3論文，再結合原候選集中的top3論文，對三種方式的輸出結果做多模型的融合得到最終的top3論文。

候選集生成

在構造候選集方面，我們按照如下步驟進行：

在數據描述中，發現引用論文描述在[[**##**]]之前，所以我們選取描述中[[**##**]]之前的句子作為描述關鍵句，例如：Rat brain membrane preparation and opioid binding was performed as described previously by Loukas et al. [[**##**]]. Briefly, binding was performed in Tris-HCl buffer (10 mM, pH 7.4), in a final volume of 1.0 ml. The protein concentration was 300 μg/assay.

只選擇特定的期刊，訓練集匹配論文的journal描述字段都是no-content，故而只選取journal為no-content的論文。

經過1,2處理后，分別運用bm25和tfidf的方式召回前20篇論文，取并后set（考慮召回數量和正負比），得到最終的候選集，訓練集正負比為：1：34，訓練集召回比例（覆蓋率）：0.6657 。

特征抽取與選擇

在特征抽取方面，我們根據文檔信息抽取了如下一些特征：

l論文關鍵字在描述關鍵句、原描述出現的次數.

l描述關鍵句、原描述分別與論文title和摘要的BM25.

l描述關鍵句、原描述分別與論文title和摘要的基于TFIDF的余弦距離，歐式距離，曼哈頓距離.

l描述關鍵句、原描述分別與論文title和摘要的基于Word2vec詞向量余弦距離，歐式距離，曼哈頓距離.

l描述關鍵句、原描述分別與論文title和摘要的編輯距離.

l描述關鍵句、原描述分別與論文title和摘要的共現詞，共現詞占的比例.

l描述關鍵句、原描述分別與論文title和摘要的 2-gram Jaccard相似系數 .

l描述關鍵句、原描述分別與論文title和摘要的長度.

…………………

匹配模型構建

在模型構建方面我們把匹配問題轉化為是否匹配的二分類問題，主要采用了傳統的特征+機器學習模型以及深度學習模型兩種方案，傳統的機器學習模型分類方案直接采用lightgbm模型，在構建深度學習模型方案時，我們主要利用了深度學習模型中間層的輸出信息，具體方法：首先將描述和文檔輸入進詞嵌入層，然后分別接入 Decomposable Attention Model , Bi-cnn, Esim，取三個模型隱藏層輸出結果與用特征工程構建的特征進行拼接，最后接入多層感知機。

模型融合

用規則的方式、lightgbm以及深度學習模型匹配的方式得到的三種結果，以lightgbm的結果為基準進行模型融合得到最終的結果。

感悟

本次比賽是在過完國慶之后來做的，由于時間比較短，許多方法還沒有來得及試驗，例如：目前比較熱門的bert模型，運用bert模型應該會有較大的提高。比賽中運用的部分能力源自華為云NLP服務，目前我們也在把一些新的模型優化落地，實踐是檢驗真理的唯一標準，長路漫漫，我們堅信在后續的服務中我們會越做越好。最后歡迎大家留言，相互探討，一起學習。

大賽數據挖掘

標簽：機器學習深度學習大規模

微吼云上線多路互動直播服務加速多場景互動直播落地

780 2025-04-03

機器學習服務提取圖片的特征向量">使用SAP Leonardo上的機器學習服務提取圖片的特征向量

780 2025-04-03

AI創想秀，邂逅“華為云ModelArts”征文大賽——第一次收官

780 2025-04-03

【DigSci 科學數據挖掘大賽】冠軍方案關鍵技術解析

微吼云上線多路互動直播服務加速多場景互動直播落地

機器學習服務提取圖片的特征向量">使用SAP Leonardo上的機器學習服務提取圖片的特征向量

AI創想秀，邂逅“華為云ModelArts”征文大賽——第一次收官

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

【DigSci 科學數據挖掘大賽】冠軍方案關鍵技術解析

機器學習服務提取圖片的特征向量">使用SAP Leonardo上的機器學習服務提取圖片的特征向量

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工