DatasetGiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

网友投稿 894 2022-05-30

Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略


目录

GiveMeSomeCredit数据集的简介

1、数据集基本描述

2、EDA后总结

3、数据集基本形状

Give Me Some Credit数据集的下载

Give Me Some Credit数据集的使用方法

GiveMeSomeCredit数据集的简介

银行在市场经济中起着至关重要的作用。他们决定谁可以获得资金,以什么条件,可以做出或打破投资决定。要使市场和社会正常运转,个人和企业都需要获得信贷。

基于Give Me Some Credit数据集,通过预测某人在未来两年内经历财务困境的可能性,改进信用评分的先进水平。信用评分算法,猜测违约的可能性,是银行用来决定是否应该发放贷款的方法。这项竞赛要求参与者通过预测某人在未来两年内遭遇财务困境的可能性,来提高信用评分的技术水平。这项竞赛的目标是建立一个借款人可以用来帮助做出最佳财务决策的模型。该网站提供了25万名借款人的历史数据,奖金总额为5000美元(第一名3000美元,第二名1500美元,第三名500美元)。

1、数据集基本描述

Variable Name

Description/EDA

Type

EDA

11

SeriousDlqin2yrs

Person experienced 90 days past due delinquency or worse

逾期90天或更糟

Y/N

一般逾期超过90天以上,客户标记为0(坏客户),其余标记为1(好客户)。

本数据集中,大约6%的样本违约。

1

age

Age of borrower in years

借款人年龄(以年为单位)

integer

可知有更多的年轻人违约,而且总体分布似乎还不错

2

MonthlyIncome

Monthly income

月收入

real

存在缺失值,29731(19.82%)

数值分布偏斜,我们可以考虑用中位数进行插补。

我们还可以考虑用正态分布值及其均值和标准差进行插补。

3

NumberOfDependents

Number of dependents in family excluding themselves (spouse, children etc.)

家庭受扶养人数(配偶、子女等除外)

integer

存在缺失值,3924 (2.61%)

我们可以考虑用它的众数进行插补,众数为零。

Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

4

DebtRatio

Monthly debt payments, alimony,living costs divided by monthy gross income

每月的债务支付,赡养费,生活费除以每月的总收入

percentage

2.5%的客户的负债大约是他们所拥有资产的3490倍或更多;

对于月收入在2.5%的人来说,只有185人的月收入值是0或1;

这185人中有164人有两种不同的类型,第一种是没有月收入的人没有违约,第二种是有月收入的人有违约。

5

NumberOfOpenCreditLinesAndLoans

Number of Open loans (installment like car loan or mortgage) and Lines of credit (e.g. credit cards)

公开贷款(分期付款,如汽车贷款或抵押贷款)和信用额度(如信用卡)

integer

6

NumberRealEstateLoansOrLines

Number of mortgage and real estate loans including home equity lines of credit

按揭和房地产贷款的数量,包括房屋净值信贷额度

integer

7

RevolvingUtilizationOfUnsecuredLines

Total balance on credit cards and personal lines of credit except real estate and no installment debt like car loans divided by the sum of credit limits

除房地产和汽车贷款等无分期付款债务外,信用卡和个人信用额度余额除以信用额度总和

percentage

定义为所欠款项总额与总信用额度之比率;值的分布是右偏的,考虑删除离群值;

预计随着这个值的增加,违约的人的比例也会增加;但是,我们可以看到,由于该列的最小值设置为13,因此违约者的比例小于属于欠款总额不超过总信用额度的客户池的比例。

因此,我们应该删除那些 RevolvingUtilizationOfUnsecuredLines 的值大于等于 13 的样本。

8

NumberOfTime30-59DaysPastDueNotWorse

Number of times borrower has been 30-59 days past due but no worse in the last 2 years.

借款人逾期30-59天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(13~96)次的样本

9

NumberOfTime60-89DaysPastDueNotWorse

Number of times borrower has been 60-89 days past due but no worse in the last 2 years.

借款人逾期60-89天的次数,但在过去两年没有更糟。

integer

有趣的是,不存在逾期(11~96)次的样本

10

NumberOfTimes90DaysLate

Number of times borrower has been 90 days or more past due.

借款人逾期90天或以上的次数。

integer

有趣的是,不存在逾期(17~96)次的样本

2、EDA后总结

通过可视化分析后可知,当NumberOfTimes90DaysLate的值高于17时,有267个样例,其中三个列NumberOfTimes90DaysLate、NumberOfTime60-89DaysPastDueNotWorse、NumberOfTime30-59DaysPastDueNotWorse共享相同的值,特别是96和98。我们可以看到,分别分享96和98的相同值是不符合逻辑的,因为微不足道的计算可以揭示,30天过期96次,一个人在2年的时间跨度内是不可能的。

NumberOfTime30-59DaysPastDueNotWorse

NumberOfTime60-89DaysPastDueNotWorse

NumberOfTimes90DaysLate

0     126018

1      16033

2       4598

3       1754

4        747

5        342

6        140

7         54

8         25

9         12

10         4

11         1

12         2

13         1

96         5

98       264

0     142396

1       5731

2       1118

3        318

4        105

5         34

6         16

7          9

8          2

9          1

11         1

96         5

98       264

0     141662

1       5243

2       1555

3        667

4        291

5        131

6         80

7         38

8         21

9         19

10         8

11         5

12         2

13         4

14         2

15         2

17         1

96         5

98       264

3、数据集基本形状

# Column Non-Null Count Dtype

--- ------ -------------- -----

0 Unnamed: 0 150000 non-null int64

1 SeriousDlqin2yrs 150000 non-null int64

2 RevolvingUtilizationOfUnsecuredLines 150000 non-null float64

3 age 150000 non-null int64

4 NumberOfTime30-59DaysPastDueNotWorse 150000 non-null int64

5 DebtRatio 150000 non-null float64

6 MonthlyIncome 120269 non-null float64

7 NumberOfOpenCreditLinesAndLoans 150000 non-null int64

8 NumberOfTimes90DaysLate 150000 non-null int64

9 NumberRealEstateLoansOrLines 150000 non-null int64

10 NumberOfTime60-89DaysPastDueNotWorse 150000 non-null int64

11 NumberOfDependents 146076 non-null float64

dtypes: float64(4), int64(8)

memory usage: 13.7 MB

Give Me Some Credit数据集的下载

数据集下载:Give Me Some Credit | Kaggle

Give Me Some Credit数据集的使用方法

更新中……

交通智能体

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:3张图带你了解Scrum
下一篇:【云小课】【第40课】如何通过DRS实现RDS for MySQL到Kafka的数据同步
相关文章