葡萄酒数据集数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
葡萄酒数据集数据分析
数据集来源:
引⽤说明
P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.
Modeling wine preferences by data mining from physicochemical properties.
In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.
数据分析参考:阿⾥云天池
需要⽤到的python库:numpy pandas matplotlib seaborn seaborn就是在matplotlib基础上⾯的封装,⽅便直接传参数调⽤
数据集说明
包含红葡萄酒和⽩葡萄酒两个数据集
winequality-red.csv
winequality-white.csv
实例数: red wine -1599 white wine-4898
属性(特征)数:11+输出属性
输⼊变量(基于物理化学测试)
1 - fixed acidity 固定酸度
2 - volatile acidity 挥发性酸度
3 - citric acid 柠檬酸
4 - residual sugar 残糖
5 - chlorides 氯化物
6 - free sulfur dioxide 游离⼆氧化硫
7 - total sulfur dioxide 总⼆氧化硫
8 - density 密度
9 - pH PH值
10 - sulphates 硫酸盐
11 - alcohol 酒精
输出变量(基于感官数据):
12 - quality (score between 0 and 10)
使⽤jupyter notebook
`
读取数据
df=pd.read_csv("winequality-red.csv")
查看dataframe前10⾏
查看数据信息
单变量数据分析
简单的数据统计
df.columns 返回dataframe的列标签
colmn=df.columns.tolist() 将dataframe返回的列标签转换成列表
fig=plt.figure(figsize=(10,6))
for i in range(12):
plt.subplot(2,6,i+1)
sns.boxplot(df[colmn[i]],orient="v", width = 0.5, color = color[0]) plt.ylabel(colmn[i],fontsize=12)
plt.tight_layout()
#print("Figure 1: Univariate Boxplots")
`。