第13课《数据清洗与整理》数据分析报告要求
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[2] Gill, R. Mastering English Literature [M]. London: Macmillan, 1985: 42-45.
数据分析报告要求
模板: ❖ 大数据系课程论文模板.zip
参考案例
题目:美食网站菜谱分析
❖ 俗话说:人是铁,饭是钢,一顿不吃饿得慌。自人类诞生之 日起,有人的地方必存在食物。不同的地理条件,造就了各 地人们千姿百态的生活方式,中国地大物博,拥有最富戏剧 性的环境和气候,人们因循自然,从食物中获取能量,竭尽 才智,用美味慰藉家人。经过千年发展,形成了独具特色的 烹饪文化,成为中国源远流长的文化的重要组成部分。
参考案例
❖ 本数据分析只做学习研究范本之用途。 ❖ 提供的结论仅供参考,美食的烹饪涉及的影响因素
还有很多,请各位独立思考。 ❖ 请大家发挥自己的特长和想象力,做喜欢的东西。 ❖ 请大家在课程论文后面附录对本课程的学习体会和
建议,请大家批评指正。 ❖ 最后,祝大家快乐完成课程论文!谢谢!
《大数据系列课程》
数据分析报告要求
❖ 题目自拟
⚫ 结合Python、Kettle、MySQL完成数据爬取、数据清洗、 数据可视化及数据结果分析等。
❖ 注意事项:
⚫ 请认真查看“论文要求”和“提交材料”,保证无遗漏。 ⚫ 论文写完后,请从前到后认真检查,确保无误再提交。 ⚫ 文中图片要清晰,排版要美观,数据分析要合理。 ⚫ 成绩给定依据论文质量,请大家务必用心完成。
参考案例
❖ 本课程论文的实施步骤: ❖ Kettle、 Python、 MySQL互通流程图
参考案例
❖ csv展示:
参考案例
❖ Python程序展示:
参考案例
❖ 可视化展示:菜谱评分
参考案例
❖ 可视化展示:各菜系占比
参考案例
❖ 可视化展示:
# 绘制词云图:川菜
参考案例
❖ 可视化展示:
# 绘制词云图:粤菜
[1] 王海粟. 浅议会计信息披露模式[J]. 财政研究,2004,21(1情况调研报告[J]. 高等理科教育,
2004(1):46-52.
2.专著类
序号]作者.书名[M].出版地:出版社,出版年份:起止页码.
[1] 葛家澍. 林志军.现代西方财务会计理论[M].厦门:厦门大学出版社, 2001:42.
4. 数据清洗代码请用Python完成,且在kettle中调用执行,清洗后的数 据存到MySQL数据表中,将数据库中的该数据.sql文件导出。
5. 用Python语言对清洗后的数据进行可视化分析,保存执行后的图片, 需要贴图到论文中。注:该图要在kettle中执行出现。
6. 对数据可视化后的结果进行问题解析,给出数据分析的结果,若存在 问题,给出参考建议。
text2 = get_cut_words(content_series=df[df['菜系']=='粤菜']['用料']) stylecloud.gen_stylecloud(text=' '.join(text2), max_words=1000,
collocations=False, font_path='C:/Windows/Fonts/STFANGSO.ttf', icon_name='fas fa-heart', size=653, output_name='18ML/ch09/douguo/粤菜.png')
数据分析报告要求
❖提交材料:
1. 使用:大数据系课程论文模板,Latex排版。 2. 上交一份数据分析报告打印稿。 3. 上交文件:爬取的原始数据CSV文件,清洗后的数据.sql
文件及相应的excel文件,.ktr, .kjb文件。 4. 上交论文附录:爬虫源码、数据清洗源码、可视化源码
(Python代码), Latex源文件。 5. 电子版文件名统一规定为:学号姓名.rar(例如:
数据分析报告要求
❖ 内容要求
1. 通过Kettle建立作业/转换,调用Python脚本,实现数据爬取、数据清 洗。
2. 爬取的数据要有实际应用背景,即:所分析的数据是有意义的,爬虫 工具:Python。
3. 所爬取的数据中要有缺失值、异常值、重复值等待处理的数据,且将 该部分截图,贴到论文中,以备比较,如果还有其他需处理的数据, 也请一并截图贴到文中。如果数据集不需要清洗,则该数据集不合格, 请重新获取。爬取数据保存格式为CSV。
闽菜-福建、湘菜-湖南、徽菜-安徽
参考案例
❖ 本课程论文研究的内容: ❖ 爬取豆果网最新发布的中国菜系共3000多个菜谱,然后清洗
数据并做可视化分析,试图走上美食博主的康庄大道。
❖https:///
参考案例
❖ 本课程论文研究的步骤: ✓ 数据获取 ✓ 数据存放(csv格式) ✓ 数据清洗 ✓ 数据可视化 ✓ 数据回放(mySQL数据库) ✓ 生成数据分析报告(pdf、word或html) ✓ 结论
14000001高某.rar)。 6. 交稿日期:2021年1月x日上午 11点 7. 不接受任何理由补交。1月x日当天不交,给0分,重修。 8. 成绩评定:格式 40%, 内容 60%。
数据分析报告要求
❖ 参考文献格式
1. 期刊类
[序号]作者.篇名[J].刊名,出版年份,卷号(期号):起止页码.
❖ 今天巨变的中国,人和食物,比任何时候走的更快。打开各 大美食网站,如豆果美食、下厨房、美食天下等,就知天下 美食。
参考案例
❖ 每提到中国的菜,八大菜系总是先被大家挂在嘴边。但说可 是说,你知道八大菜系到底是哪八大吗?
❖ 中国八大菜系的八大分别是: ❖ 川菜-四川、鲁菜-山东、粤菜-广东、苏菜-江苏、浙菜-浙江、
数据分析报告要求
模板: ❖ 大数据系课程论文模板.zip
参考案例
题目:美食网站菜谱分析
❖ 俗话说:人是铁,饭是钢,一顿不吃饿得慌。自人类诞生之 日起,有人的地方必存在食物。不同的地理条件,造就了各 地人们千姿百态的生活方式,中国地大物博,拥有最富戏剧 性的环境和气候,人们因循自然,从食物中获取能量,竭尽 才智,用美味慰藉家人。经过千年发展,形成了独具特色的 烹饪文化,成为中国源远流长的文化的重要组成部分。
参考案例
❖ 本数据分析只做学习研究范本之用途。 ❖ 提供的结论仅供参考,美食的烹饪涉及的影响因素
还有很多,请各位独立思考。 ❖ 请大家发挥自己的特长和想象力,做喜欢的东西。 ❖ 请大家在课程论文后面附录对本课程的学习体会和
建议,请大家批评指正。 ❖ 最后,祝大家快乐完成课程论文!谢谢!
《大数据系列课程》
数据分析报告要求
❖ 题目自拟
⚫ 结合Python、Kettle、MySQL完成数据爬取、数据清洗、 数据可视化及数据结果分析等。
❖ 注意事项:
⚫ 请认真查看“论文要求”和“提交材料”,保证无遗漏。 ⚫ 论文写完后,请从前到后认真检查,确保无误再提交。 ⚫ 文中图片要清晰,排版要美观,数据分析要合理。 ⚫ 成绩给定依据论文质量,请大家务必用心完成。
参考案例
❖ 本课程论文的实施步骤: ❖ Kettle、 Python、 MySQL互通流程图
参考案例
❖ csv展示:
参考案例
❖ Python程序展示:
参考案例
❖ 可视化展示:菜谱评分
参考案例
❖ 可视化展示:各菜系占比
参考案例
❖ 可视化展示:
# 绘制词云图:川菜
参考案例
❖ 可视化展示:
# 绘制词云图:粤菜
[1] 王海粟. 浅议会计信息披露模式[J]. 财政研究,2004,21(1情况调研报告[J]. 高等理科教育,
2004(1):46-52.
2.专著类
序号]作者.书名[M].出版地:出版社,出版年份:起止页码.
[1] 葛家澍. 林志军.现代西方财务会计理论[M].厦门:厦门大学出版社, 2001:42.
4. 数据清洗代码请用Python完成,且在kettle中调用执行,清洗后的数 据存到MySQL数据表中,将数据库中的该数据.sql文件导出。
5. 用Python语言对清洗后的数据进行可视化分析,保存执行后的图片, 需要贴图到论文中。注:该图要在kettle中执行出现。
6. 对数据可视化后的结果进行问题解析,给出数据分析的结果,若存在 问题,给出参考建议。
text2 = get_cut_words(content_series=df[df['菜系']=='粤菜']['用料']) stylecloud.gen_stylecloud(text=' '.join(text2), max_words=1000,
collocations=False, font_path='C:/Windows/Fonts/STFANGSO.ttf', icon_name='fas fa-heart', size=653, output_name='18ML/ch09/douguo/粤菜.png')
数据分析报告要求
❖提交材料:
1. 使用:大数据系课程论文模板,Latex排版。 2. 上交一份数据分析报告打印稿。 3. 上交文件:爬取的原始数据CSV文件,清洗后的数据.sql
文件及相应的excel文件,.ktr, .kjb文件。 4. 上交论文附录:爬虫源码、数据清洗源码、可视化源码
(Python代码), Latex源文件。 5. 电子版文件名统一规定为:学号姓名.rar(例如:
数据分析报告要求
❖ 内容要求
1. 通过Kettle建立作业/转换,调用Python脚本,实现数据爬取、数据清 洗。
2. 爬取的数据要有实际应用背景,即:所分析的数据是有意义的,爬虫 工具:Python。
3. 所爬取的数据中要有缺失值、异常值、重复值等待处理的数据,且将 该部分截图,贴到论文中,以备比较,如果还有其他需处理的数据, 也请一并截图贴到文中。如果数据集不需要清洗,则该数据集不合格, 请重新获取。爬取数据保存格式为CSV。
闽菜-福建、湘菜-湖南、徽菜-安徽
参考案例
❖ 本课程论文研究的内容: ❖ 爬取豆果网最新发布的中国菜系共3000多个菜谱,然后清洗
数据并做可视化分析,试图走上美食博主的康庄大道。
❖https:///
参考案例
❖ 本课程论文研究的步骤: ✓ 数据获取 ✓ 数据存放(csv格式) ✓ 数据清洗 ✓ 数据可视化 ✓ 数据回放(mySQL数据库) ✓ 生成数据分析报告(pdf、word或html) ✓ 结论
14000001高某.rar)。 6. 交稿日期:2021年1月x日上午 11点 7. 不接受任何理由补交。1月x日当天不交,给0分,重修。 8. 成绩评定:格式 40%, 内容 60%。
数据分析报告要求
❖ 参考文献格式
1. 期刊类
[序号]作者.篇名[J].刊名,出版年份,卷号(期号):起止页码.
❖ 今天巨变的中国,人和食物,比任何时候走的更快。打开各 大美食网站,如豆果美食、下厨房、美食天下等,就知天下 美食。
参考案例
❖ 每提到中国的菜,八大菜系总是先被大家挂在嘴边。但说可 是说,你知道八大菜系到底是哪八大吗?
❖ 中国八大菜系的八大分别是: ❖ 川菜-四川、鲁菜-山东、粤菜-广东、苏菜-江苏、浙菜-浙江、