600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > uci数据集_有关葡萄酒质量的数据分析

uci数据集_有关葡萄酒质量的数据分析

时间:2019-11-17 16:54:27

相关推荐

uci数据集_有关葡萄酒质量的数据分析

将会使用NumPy 、 Pandas 以及 Matplotlib 做具体分析。

一、数据来源

来自 UCI 机器学习实验室的葡萄酒质量数据集:

Wine Quality Data Set​archive.ics.uci.edu

数据集是关于红葡萄酒样品的物理化学性质和质量等级。

二、数据集介绍

有两个数据集,提供了有关葡萄牙“青酒”的红葡萄酒和白葡萄酒变体的样本信息。每种样本都由专家做了质量评级,并进行了理化指标检验。包含以下12个字段:

fixed acidity 固定酸度volatile acidity 挥发性酸度citric acid 柠檬酸residual sugar 残糖chlorides 氯化物free sulfur dioxide 游离二氧化硫total sulfur dioxide 总二氧化硫density 密度pH pH值sulphates 硫酸盐alcohol 酒精度quality 质量 - 0 到 10 之间的得分(葡萄酒专家至少 3 次评估的中值)

三、提出问题

哪些化学特性在预测葡萄酒质量方面最为重要?是否特定类型的葡萄酒(红葡萄酒或白葡萄酒)的品质更高?酒精含量更高的葡萄酒是否获得的评价更高?味道更甜(残糖更多)的葡萄酒是否获得的评价更高?什么水平的酸度(pH 值)代表质量更高?

对应以下分析思路:

查看各化学特性与质量评分的相关性,找出那些化学特性会对葡萄酒质量有较大影响; 使用红葡萄酒和白葡萄酒的总体得分来比较得出结论; 观察酒精度和质量评分的关系;观察残糖量与质量评分的关系;质量评分高的时候,pH值集中在哪个区间。

四、探索数据

红葡萄酒的样本共有1599个。

白葡萄酒的样本共有4898个。

每个数据集中有12列。

数据集中没有缺失值。

红葡萄酒数据集中有240个重复行,白葡萄酒中有937个重复行。

红葡萄酒数据集中6个质量唯一值,白葡萄酒数据集中有7个质量唯一值。

五、合并数据集

5.1 创建颜色列

5.2 使用append组合数据框(注意和merge的区别)

5.3 保存已组合的数据集

六、使用可视化探索数据

6.1 各个特征的直方图

固定酸度、pH值和酒精度出现了右偏态。

6.2 质量与各个特征的散点图

酒精度最有可能对质量产生积极的影响。

七、使用groupby得出结论

白葡萄酒的平均质量较红葡萄酒的高。

低酸度水平得到的评分相对较高。

八、使用Query得出结论

酒精含量高时评分较高。

口感偏甜是评分较高。

九、用 Matplotlib 绘图

十、使用 Matplotlib 绘制酒的类型和质量视图

10.1 为红葡萄酒条柱高度和白葡萄酒条柱高度创建数组

颜色和质量等级的每个组合有一个条柱。每个条柱的高度基于这个颜色与这个质量等级的样本的比例。1. 红葡萄酒条柱比例 = 每个质量等级的数量 / 红葡萄酒样本的总数2. 白葡萄酒条柱比例 = 每个质量等级的数量 / 白葡萄酒样本的总数

10.2 在柱状图上绘制比例

设置每个等级组的 x 坐标位置和每个条柱的宽度。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。