Dataset之HiggsBoson:Higgs Boson(Kaggle競賽)數據集的簡介、下載、案例應用之詳細攻略
1052
2022-05-30
Dataset:GiveMeSomeCredit數據集的簡介、下載、使用方法之詳細攻略
目錄
GiveMeSomeCredit數據集的簡介
1、數據集基本描述
2、EDA后總結
3、數據集基本形狀
Give Me Some Credit數據集的下載
Give Me Some Credit數據集的使用方法
GiveMeSomeCredit數據集的簡介
銀行在市場經濟中起著至關重要的作用。他們決定誰可以獲得資金,以什么條件,可以做出或打破投資決定。要使市場和社會正常運轉,個人和企業都需要獲得信貸。
基于Give Me Some Credit數據集,通過預測某人在未來兩年內經歷財務困境的可能性,改進信用評分的先進水平。信用評分算法,猜測違約的可能性,是銀行用來決定是否應該發放貸款的方法。這項競賽要求參與者通過預測某人在未來兩年內遭遇財務困境的可能性,來提高信用評分的技術水平。這項競賽的目標是建立一個借款人可以用來幫助做出最佳財務決策的模型。該網站提供了25萬名借款人的歷史數據,獎金總額為5000美元(第一名3000美元,第二名1500美元,第三名500美元)。
1、數據集基本描述
Variable Name
Description/EDA
Type
EDA
11
SeriousDlqin2yrs
Person?experienced 90 days past due delinquency or worse
逾期90天或更糟
Y/N
一般逾期超過90天以上,客戶標記為0(壞客戶),其余標記為1(好客戶)。
本數據集中,大約6%的樣本違約。
1
age
Age of borrower in years
借款人年齡(以年為單位)
integer
可知有更多的年輕人違約,而且總體分布似乎還不錯
2
MonthlyIncome
Monthly income
月收入
real
存在缺失值,29731(19.82%)
數值分布偏斜,我們可以考慮用中位數進行插補。
我們還可以考慮用正態分布值及其均值和標準差進行插補。
3
NumberOfDependents
Number of dependents in family excluding themselves (spouse, children etc.)
家庭受扶養人數(配偶、子女等除外)
integer
存在缺失值,3924 (2.61%)
我們可以考慮用它的眾數進行插補,眾數為零。
4
DebtRatio
Monthly debt payments, alimony,living costs divided by monthy gross income
每月的債務支付,贍養費,生活費除以每月的總收入
percentage
2.5%的客戶的負債大約是他們所擁有資產的3490倍或更多;
對于月收入在2.5%的人來說,只有185人的月收入值是0或1;
這185人中有164人有兩種不同的類型,第一種是沒有月收入的人沒有違約,第二種是有月收入的人有違約。
5
NumberOfOpenCreditLinesAndLoans
Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards)
公開貸款(分期付款,如汽車貸款或抵押貸款)和信用額度(如信用卡)
integer
6
NumberRealEstateLoansOrLines
Number of mortgage and real estate loans including home equity lines of credit
按揭和房地產貸款的數量,包括房屋凈值信貸額度
integer
7
RevolvingUtilizationOfUnsecuredLines
Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits
除房地產和汽車貸款等無分期付款債務外,信用卡和個人信用額度余額除以信用額度總和
percentage
定義為所欠款項總額與總信用額度之比率;值的分布是右偏的,考慮刪除離群值;
預計隨著這個值的增加,違約的人的比例也會增加;但是,我們可以看到,由于該列的最小值設置為13,因此違約者的比例小于屬于欠款總額不超過總信用額度的客戶池的比例。
因此,我們應該刪除那些 RevolvingUtilizationOfUnsecuredLines 的值大于等于 13 的樣本。
8
NumberOfTime30-59DaysPastDueNotWorse
Number of times borrower has been 30-59 days past due but no worse in the last 2 years.
借款人逾期30-59天的次數,但在過去兩年沒有更糟。
integer
有趣的是,不存在逾期(13~96)次的樣本
9
NumberOfTime60-89DaysPastDueNotWorse
Number of times borrower has been 60-89 days past due but no worse in the last 2 years.
借款人逾期60-89天的次數,但在過去兩年沒有更糟。
integer
有趣的是,不存在逾期(11~96)次的樣本
10
NumberOfTimes90DaysLate
Number of times borrower has been 90 days or more past due.
借款人逾期90天或以上的次數。
integer
有趣的是,不存在逾期(17~96)次的樣本
2、EDA后總結
通過可視化分析后可知,當NumberOfTimes90DaysLate的值高于17時,有267個樣例,其中三個列NumberOfTimes90DaysLate、NumberOfTime60-89DaysPastDueNotWorse、NumberOfTime30-59DaysPastDueNotWorse共享相同的值,特別是96和98。我們可以看到,分別分享96和98的相同值是不符合邏輯的,因為微不足道的計算可以揭示,30天過期96次,一個人在2年的時間跨度內是不可能的。
NumberOfTime30-59DaysPastDueNotWorse
NumberOfTime60-89DaysPastDueNotWorse
NumberOfTimes90DaysLate
0 ????126018
1 ?????16033
2 ??????4598
3 ??????1754
4 ???????747
5 ???????342
6 ???????140
7 ????????54
8 ????????25
9 ????????12
10 ????????4
11 ????????1
12 ????????2
13 ????????1
96 ????????5
98 ??????264
0 ????142396
1 ??????5731
2 ??????1118
3 ???????318
4 ???????105
5 ????????34
6 ????????16
7 ?????????9
8 ?????????2
9 ?????????1
11 ????????1
96 ????????5
98 ??????264
0 ????141662
1 ??????5243
2 ??????1555
3 ???????667
4 ???????291
5 ???????131
6 ????????80
7 ????????38
8 ????????21
9 ????????19
10 ????????8
11 ????????5
12 ????????2
13 ????????4
14 ????????2
15 ????????2
17 ????????1
96 ????????5
98 ??????264
3、數據集基本形狀
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Unnamed: 0 150000 non-null int64
1 SeriousDlqin2yrs 150000 non-null int64
2 RevolvingUtilizationOfUnsecuredLines 150000 non-null float64
3 age 150000 non-null int64
4 NumberOfTime30-59DaysPastDueNotWorse 150000 non-null int64
5 DebtRatio 150000 non-null float64
6 MonthlyIncome 120269 non-null float64
7 NumberOfOpenCreditLinesAndLoans 150000 non-null int64
8 NumberOfTimes90DaysLate 150000 non-null int64
9 NumberRealEstateLoansOrLines 150000 non-null int64
10 NumberOfTime60-89DaysPastDueNotWorse 150000 non-null int64
11 NumberOfDependents 146076 non-null float64
dtypes: float64(4), int64(8)
memory usage: 13.7 MB
Give Me Some Credit數據集的下載
數據集下載:Give Me Some Credit | Kaggle
Give Me Some Credit數據集的使用方法
更新中……
交通智能體
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。