Dataset:GiveMeSomeCredit數據集的簡介、下載、使用方法之詳細攻略
1010
2022-05-30
Dataset之HiggsBoson:Higgs Boson(Kaggle競賽)數據集的簡介、下載、案例應用之詳細攻略
目錄
Higgs Boson比賽簡介
Higgs Boson數據集的下載
Higgs Boson數據集的案例應用
Higgs Boson比賽簡介
希格斯玻色子(英語:Higgs boson),是標準模型里的一種基本粒子,是一種玻色子,自旋為零,宇稱為正值,不帶電荷、色荷,極不穩定,生成后會立刻衰變。希格斯玻色子是希格斯場的量子激發。希格斯粒子的衰變能動會生成耦合實粒子。根據希格斯機制,基本粒子因與希格斯場耦合而獲得質量。假若希格斯玻色子被證實存在,則希格斯場應該也存在,而希格斯機制也可被確認為基本無誤。
希格斯玻色子(英語:Higgs boson)是標準模型里的一種基本粒子,是因物理學者彼得·希格斯而命名。 2012年7月4日,歐洲核子研究組織(CERN)宣布,LHC的緊湊渺子線圈(CMS)探測到質量為125.3±0.6GeV的新玻色子(超過背景期望值4.9個標準差),超環面儀器(ATLAS)測量到質量為126.5GeV的新玻色子(5個標準差),這兩種粒子極像希格斯玻色子。 2013年3月14日,歐洲核子研究組織發表新聞稿正式宣布,先前探測到的新粒子暫時被確認是希格斯玻色子,具有零自旋與偶宇稱,這是希格斯玻色子應該具有的兩種基本性質,但有一部分實驗結果不盡符合理論預測,更多數據仍在等待處理與分析。 2013年10月8日,因為“次原子粒子質量的生成機制理論,促進了人類對這方面的理解,并且最近由歐洲核子研究組織屬下大型強子對撞機的超環面儀器及緊湊μ子線圈探測器發現的基本粒子證實”,弗朗索瓦·恩格勒、彼得·希格斯榮獲2013年諾貝爾物理學獎。
一個粒子的重要特點是它在其他粒子之后延遲多少。CERN用ATLAS進行物理實驗來尋找新粒子。實驗最近發現一個 Higgs boson延遲在兩個tau粒子出現,但是該延遲只是淹沒在背景噪聲中的小信號。
競賽官網:?https://www.kaggle.com/c/higgs-boson/
相關介紹:Higgs boson machine-learning challenge
該競賽的目的是利用機器學習方法,提高ATLAS實驗發現粒子的顯著性。競賽無需粒子物理的背景知識(解決實際問題時背景知識在很大程度上還是有用的)。競賽數據是根據ATLAS檢測到的事件的特征合成的數據,競賽任務是將事件分類為"tau tau decay of a Higgs boson" 或 "background"
這是一個兩類分類任務:將事件分類為"tau tau decay of a Higgs boson" 或 "background"。希格斯玻色子機器學習挑戰的目標是探索先進機器學習方法的潛力,提高實驗發現的意義。不需要粒子物理學知識。使用ATLAS檢測到的具有表征事件特征的模擬數據,您的任務是將事件分類為"tau tau decay of a Higgs boson" 或 "background"。
每個事件有一個ID,30個特征,權重,和標簽
用交叉驗證選擇迭代次數
與sklearn中的GBM速度與性能比較
1、數據集介紹
File descriptions
training.csv?- Training set of 250000 events, with an ID column, 30 feature columns, a weight column and a label column.
test.csv?- Test set of 550000 events with an ID column and 30 feature columns.
random_submission?- Sample submission file in the correct format. File format is described on the?Evaluation?page.
HiggsBosonCompetition_AMSMetric?- Python script to calculate the competition evaluation metric.
For detailed information on the semantics of the features, labels, and weights, see the?technical documentation?from the?LAL website?on the task.
Some details to get started:
all variables are floating point, except?PRI_jet_num?which is integer
variables?prefixed with?PRI?(for PRImitives) are “raw” quantities about the bunch collision as measured by the detector.
variables prefixed with?DER?(for DERived) are quantities computed from the primitive features, which were selected by ?the physicists of ATLAS
it can happen that for some entries some variables are meaningless or cannot be computed; in this case, their value is ?999.0, which is outside the normal range of all variables
training.csv:訓練集包含250000個事件,每個事件有一個ID,30個特征,權重,和標簽。
test.csv:測試數據包含550000事件,每個事件包含一個ID和30個特征。
(1)、所有變量都是floating point類型,除了PRI_jet_num 為integer 以PRI (PRImitives) 為的前綴特征為檢測器測量得到的關于bunch collision“原始” 數據。 以DER ( DERived)為ATLAS的物理學家選擇的根據原始特征計算得到的數據。 缺失數據記為 ?999.0, 與所有特征的正常值不同。
(2)、特征、權重和標簽的具體語意可以查看CERN的技術文檔。
2、比賽排行榜
Higgs Boson數據集的下載
本數據集,如有需要,可留言向博主索取
Higgs Boson數據集的案例應用
ML之xgboost:基于xgboost(5f-CrVa)算法對Higgs Boson數據集(Kaggle競賽)訓練(模型保存+可視化)實現二分類任務
機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。