1.Python数据分析预处理实训
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Python数据分析与处理实训
数据集说明
一、开始了解你的数据
探索Chipotle快餐数据
1.将数据集存入一个名为chipo的数据框内
2.查看前10行内容
3.数据集中有多少个列(columns)?
4.打印出全部的列名称
5.数据集的索引是怎样的?
6.被下单数最多商品(item)是什么?
7.在item_name这一列中,一共有多少种商品被下单?
8.一共有多少个商品被下单?
9.将item_price转换为浮点数
10.在该数据集对应的时期内,收入(revenue)是多少?
11.在该数据集对应的时期内,一共有多少订单?
12.每一单(order)对应的平均总价是多少?
二、数据过滤与排序
探索2012欧洲杯数据
1.将数据集存入一个名为euro12的数据框内。
2.只选取Goals这一列。
3.有多少球队参与了2012欧洲杯?
4.该数据集中一共有多少列(columns)?
5.将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的
数据框。
6.对数据框discipline按照先Red Cards再Yellow Cards进行排序。
7.计算每个球队拿到的黄牌数的平均值。
8.找到进球数Goals超过6的球队数据。
9.选取以字母G开头的球队数据。
10.选取前7列。
11.选取除了最后3列之外的全部列。
12.找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting
Accuracy)。
三、数据分组
探索酒类消费数据
1.将数据框命名为drinks
2.哪个大陆(continent)平均消耗的啤酒(beer)更多?
3.打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值。
4.打印出每个大陆每种酒类别的消耗平均值。
5.打印出每个大陆每种酒类别的消耗中位数。
6.打印出每个大陆对spirit_servings饮品消耗的平均值,最大值和最小值。
四、Apply函数
探索1960 - 2014美国犯罪数据
1.将数据框命名为crime。
2.每一列(column)的数据类型是什么样的?
3.将Year的数据类型转换为datetime64。
4.将列Year设置为数据框的索引。
5.删除名为Total的列。
6.按照Year(每十年)对数据框进行分组并求和。
7.何时是美国历史上生存最危险的年代?
五、合并
探索虚拟姓名数据
1.创建DataFrame。
2.将上述的DataFrame分别命名为data1, data2, data3。
3.将data1和data2两个数据框按照行的维度进行合并,命名为all_data。
4.将data1和data2两个数据框按照列的维度进行合并,命名为all_data_col。
5.打印data3。
6.按照subject_id的值对all_data和data3作合并。
7.对data1和data2按照subject_id作连接。
8.找到data1和data2合并之后的所有匹配结果。
raw_data_1 = {
'subject_id': ['1', '2', '3', '4', '5'],
'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']} raw_data_2 = {
'subject_id': ['4', '5', '6', '7', '8'],
'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}
raw_data_3 = {
'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'], 'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}
六、时间序列
探索Apple公司股价数据
1.读取数据并存为一个名叫apple的数据框。
2.查看每一列的数据类型。
3.将Date这个列转换为datetime类型。
4.将Date设置为索引。
5.有重复的日期吗?
6.将index设置为升序。
7.找到每个月的最后一个交易日(businessday)。
8.数据集中最早的日期和最晚的日期相差多少天?
9.在数据中一共有多少个月?
10.按照时间顺序可视化Adj Close值。
七、招聘数据探索与分析
招聘数据探索与分析
1、读取数据并存为一个名叫job_info的数据框。
2、将列命名为:['公司', '岗位', '工作地点', '工资', '发布日期']。
3、哪个岗位招聘需求最多?