1.Python数据分析预处理实训

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Python数据分析与处理实训

数据集说明

一、开始了解你的数据

探索Chipotle快餐数据

1.将数据集存入一个名为chipo的数据框内

2.查看前10行内容

3.数据集中有多少个列(columns)?

4.打印出全部的列名称

5.数据集的索引是怎样的?

6.被下单数最多商品(item)是什么?

7.在item_name这一列中,一共有多少种商品被下单?

8.一共有多少个商品被下单?

9.将item_price转换为浮点数

10.在该数据集对应的时期内,收入(revenue)是多少?

11.在该数据集对应的时期内,一共有多少订单?

12.每一单(order)对应的平均总价是多少?

二、数据过滤与排序

探索2012欧洲杯数据

1.将数据集存入一个名为euro12的数据框内。

2.只选取Goals这一列。

3.有多少球队参与了2012欧洲杯?

4.该数据集中一共有多少列(columns)?

5.将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的

数据框。

6.对数据框discipline按照先Red Cards再Yellow Cards进行排序。

7.计算每个球队拿到的黄牌数的平均值。

8.找到进球数Goals超过6的球队数据。

9.选取以字母G开头的球队数据。

10.选取前7列。

11.选取除了最后3列之外的全部列。

12.找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting

Accuracy)。

三、数据分组

探索酒类消费数据

1.将数据框命名为drinks

2.哪个大陆(continent)平均消耗的啤酒(beer)更多?

3.打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值。

4.打印出每个大陆每种酒类别的消耗平均值。

5.打印出每个大陆每种酒类别的消耗中位数。

6.打印出每个大陆对spirit_servings饮品消耗的平均值,最大值和最小值。

四、Apply函数

探索1960 - 2014美国犯罪数据

1.将数据框命名为crime。

2.每一列(column)的数据类型是什么样的?

3.将Year的数据类型转换为datetime64。

4.将列Year设置为数据框的索引。

5.删除名为Total的列。

6.按照Year(每十年)对数据框进行分组并求和。

7.何时是美国历史上生存最危险的年代?

五、合并

探索虚拟姓名数据

1.创建DataFrame。

2.将上述的DataFrame分别命名为data1, data2, data3。

3.将data1和data2两个数据框按照行的维度进行合并,命名为all_data。

4.将data1和data2两个数据框按照列的维度进行合并,命名为all_data_col。

5.打印data3。

6.按照subject_id的值对all_data和data3作合并。

7.对data1和data2按照subject_id作连接。

8.找到data1和data2合并之后的所有匹配结果。

raw_data_1 = {

'subject_id': ['1', '2', '3', '4', '5'],

'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],

'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']} raw_data_2 = {

'subject_id': ['4', '5', '6', '7', '8'],

'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],

'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {

'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'], 'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

六、时间序列

探索Apple公司股价数据

1.读取数据并存为一个名叫apple的数据框。

2.查看每一列的数据类型。

3.将Date这个列转换为datetime类型。

4.将Date设置为索引。

5.有重复的日期吗?

6.将index设置为升序。

7.找到每个月的最后一个交易日(businessday)。

8.数据集中最早的日期和最晚的日期相差多少天?

9.在数据中一共有多少个月?

10.按照时间顺序可视化Adj Close值。

七、招聘数据探索与分析

招聘数据探索与分析

1、读取数据并存为一个名叫job_info的数据框。

2、将列命名为:['公司', '岗位', '工作地点', '工资', '发布日期']。

3、哪个岗位招聘需求最多?

相关文档
最新文档