600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > python怎么重新开始_人人都是数据科学家从新开始用Python学习数据科学的完整教程P3...

python怎么重新开始_人人都是数据科学家从新开始用Python学习数据科学的完整教程P3...

时间:2023-06-14 18:59:35

相关推荐

python怎么重新开始_人人都是数据科学家从新开始用Python学习数据科学的完整教程P3...

上周一P2篇大家熟悉一些有用的库来学习Python。P3篇让我们学习如何用Pandas在Python中进行探索型数据分析。

为了进一步探索我们的数据,让我向您介绍另一种动物(好像Python还不够!)--熊猫

Pandas是Python中最有用的数据分析库之一(我知道这些名称听起来很奇怪,但请继续!)。它们有助于在数据科学中增加Python的使用。现在我们将使用Pandas从FAL在线学习平台Loan Prediction项目上读取数据集,执行探索性分析并构建我们的第一个基本分类算法来解决此问题。

在加载数据之前,让我们了解Pandas中的两个关键数据结构 - Series(系列)和Dataframe(数据框架)。

Series(系列)可以理解为1维标记/索引阵列。您可以通过这些标签访问此系列的各个元素。

Dataframe(数据框)类似于Excel工作簿 - 您有列名称引用列,并且您有行,可以使用行号访问这些行。根本不同的是,在数据框的情况下,列名和行号称为列和行索引。

Series系列和dataframe数据框构成了Python中Pandas的核心数据模型。首先将数据集读入这些数据框,然后可以非常容易地将各种操作(例如分组,聚合等)应用于其列。

10分钟了解Pandas(文末评论区置顶放链接)

实践数据集-贷款预测项目

您可以在我们官方公众号“金科应用研院”-“在线学习”平台-"深度阅读专区"下载数据集。

数据集包含训练数据(train_loan)、测试数据(test_loan)和样本(sample)。

这里是变量的描述:

变量描述:

变量 描述

Loan_ID 贷款ID

Gender 性别男/女

Married 申请人是否已婚(是/否)

Dependents 家庭子女

Education 申请人教育程度 (毕业/未毕业)

Self_Employed 自雇 (Y/N)

ApplicantIncome 申请人收入

CoapplicantIncome 共同收入

LoanAmount 贷款额度(千)

Loan_Amount_Term 贷款期限(月)

Credit_History 信用历史是否符合征信

Property_Area 居住地类型(城市/半城市/农村)

Loan_Status 贷款批准 (Y/N)

导入库和数据集:

以下是我们将在本次项目中使用的库:numpy

matplotlib

pandas

请注意,在jupyter notebook中,您无需导入matplotlib和numpy。我仍然将它们保存在代码中,以防您在不同的环境中使用代码。

导入库后,使用read_csv()读取数据集。这是代码在此阶段的样子:

快速数据探索:

读取完数据集后,可以使用函数head()查看几行。

head(10)应该打印出10行数据,当然你可以查看更多的数据。

接下来,您可以使用describe()函数查看数据字段的摘要:

describe()函数将在其输出中提供计数,均值,标准差(std),min,quartiles和max.

这里有一些推论,你可以通过查看describe()函数的输出来绘制:LoanAmount有(614 - 592)22个缺失值。

Loan_Amount_Term有(614 - 600)14个缺失值。

Credit_History有(614 - 564)50个缺失值。

我们还可以看到大约84%的申请人拥有credit_history。怎么样?Credit_History字段的平均值为0.84(请记住,对于有信用记录的人,Credit_History的值为1,否则为0)

申请人收入分配似乎符合预期,与CoapplicantIncome相同。

请注意,我们可以通过比较平均值与中位数(即50%数字)来了解数据可能出现的偏差。

对于非数值(例如Property_Area,Credit_History等),我们可以查看频率分布以了解它们是否有意义。频率表可以通过以下命令打印:

同样,我们可以查看信用记录历史的唯一值。请注意,dfname ['column_name']是一种基本索引技术,用于访问数据框的特定列。它也可以是列的列表。更多关于Pandas的基本操作,可以在10分钟了解Pandas学习到!

5月金融科技应用研究院第五期量化风控全线条训练营招生ing,32个实操项目案例,主打就业·晋升月!

报告资料已超过当期发送时限,不想错过后续报告解读和最新公开课,可为公众号开“星标”。咨询请加官微:fintechapplab!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。