上周一P2篇大家熟悉一些有用的库来学习Python。P3篇让我们学习如何用Pandas在Python中进行探索型数据分析。
为了进一步探索我们的数据,让我向您介绍另一种动物(好像Python还不够!)--熊猫
Pandas是Python中最有用的数据分析库之一(我知道这些名称听起来很奇怪,但请继续!)。它们有助于在数据科学中增加Python的使用。现在我们将使用Pandas从FAL在线学习平台Loan Prediction项目上读取数据集,执行探索性分析并构建我们的第一个基本分类算法来解决此问题。
在加载数据之前,让我们了解Pandas中的两个关键数据结构 - Series(系列)和Dataframe(数据框架)。
Series(系列)可以理解为1维标记/索引阵列。您可以通过这些标签访问此系列的各个元素。
Dataframe(数据框)类似于Excel工作簿 - 您有列名称引用列,并且您有行,可以使用行号访问这些行。根本不同的是,在数据框的情况下,列名和行号称为列和行索引。
Series系列和dataframe数据框构成了Python中Pandas的核心数据模型。首先将数据集读入这些数据框,然后可以非常容易地将各种操作(例如分组,聚合等)应用于其列。
10分钟了解Pandas(文末评论区置顶放链接)
实践数据集-贷款预测项目
您可以在我们官方公众号“金科应用研院”-“在线学习”平台-"深度阅读专区"下载数据集。
数据集包含训练数据(train_loan)、测试数据(test_loan)和样本(sample)。
这里是变量的描述:
变量描述:
变量 描述
Loan_ID 贷款ID
Gender 性别男/女
Married 申请人是否已婚(是/否)
Dependents 家庭子女
Education 申请人教育程度 (毕业/未毕业)
Self_Employed 自雇 (Y/N)
ApplicantIncome 申请人收入
CoapplicantIncome 共同收入
LoanAmount 贷款额度(千)
Loan_Amount_Term 贷款期限(月)
Credit_History 信用历史是否符合征信
Property_Area 居住地类型(城市/半城市/农村)
Loan_Status 贷款批准 (Y/N)
导入库和数据集:
以下是我们将在本次项目中使用的库:numpy
matplotlib
pandas
请注意,在jupyter notebook中,您无需导入matplotlib和numpy。我仍然将它们保存在代码中,以防您在不同的环境中使用代码。
导入库后,使用read_csv()读取数据集。这是代码在此阶段的样子:
快速数据探索:
读取完数据集后,可以使用函数head()查看几行。
head(10)应该打印出10行数据,当然你可以查看更多的数据。
接下来,您可以使用describe()函数查看数据字段的摘要:
describe()函数将在其输出中提供计数,均值,标准差(std),min,quartiles和max.
这里有一些推论,你可以通过查看describe()函数的输出来绘制:LoanAmount有(614 - 592)22个缺失值。
Loan_Amount_Term有(614 - 600)14个缺失值。
Credit_History有(614 - 564)50个缺失值。
我们还可以看到大约84%的申请人拥有credit_history。怎么样?Credit_History字段的平均值为0.84(请记住,对于有信用记录的人,Credit_History的值为1,否则为0)
申请人收入分配似乎符合预期,与CoapplicantIncome相同。
请注意,我们可以通过比较平均值与中位数(即50%数字)来了解数据可能出现的偏差。
对于非数值(例如Property_Area,Credit_History等),我们可以查看频率分布以了解它们是否有意义。频率表可以通过以下命令打印:
同样,我们可以查看信用记录历史的唯一值。请注意,dfname ['column_name']是一种基本索引技术,用于访问数据框的特定列。它也可以是列的列表。更多关于Pandas的基本操作,可以在10分钟了解Pandas学习到!
5月金融科技应用研究院第五期量化风控全线条训练营招生ing,32个实操项目案例,主打就业·晋升月!
报告资料已超过当期发送时限,不想错过后续报告解读和最新公开课,可为公众号开“星标”。咨询请加官微:fintechapplab!