第13课《数据清洗与整理》数据分析报告要求

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

[2] Gill, R. Mastering English Literature [M]. London: Macmillan, 1985: 42-45.
数据分析报告要求
模板： ❖ 大数据系课程论文模板.zip
参考案例
题目：美食网站菜谱分析
❖ 俗话说：人是铁，饭是钢，一顿不吃饿得慌。自人类诞生之日起，有人的地方必存在食物。不同的地理条件，造就了各地人们千姿百态的生活方式，中国地大物博，拥有最富戏剧性的环境和气候，人们因循自然，从食物中获取能量，竭尽才智，用美味慰藉家人。经过千年发展，形成了独具特色的烹饪文化，成为中国源远流长的文化的重要组成部分。
参考案例
❖ 本数据分析只做学习研究范本之用途。 ❖ 提供的结论仅供参考，美食的烹饪涉及的影响因素
还有很多，请各位独立思考。 ❖ 请大家发挥自己的特长和想象力，做喜欢的东西。 ❖ 请大家在课程论文后面附录对本课程的学习体会和
建议，请大家批评指正。 ❖ 最后，祝大家快乐完成课程论文！谢谢！
《大数据系列课程》
数据分析报告要求
❖ 题目自拟
⚫ 结合Python、Kettle、MySQL完成数据爬取、数据清洗、数据可视化及数据结果分析等。
❖ 注意事项：
⚫ 请认真查看“论文要求”和“提交材料”，保证无遗漏。 ⚫ 论文写完后，请从前到后认真检查，确保无误再提交。 ⚫ 文中图片要清晰，排版要美观，数据分析要合理。 ⚫ 成绩给定依据论文质量，请大家务必用心完成。
参考案例
❖ 本课程论文的实施步骤： ❖ Kettle、 Python、 MySQL互通流程图
参考案例
❖ csv展示：
参考案例
❖ Python程序展示：
参考案例
❖ 可视化展示：菜谱评分
参考案例
❖ 可视化展示：各菜系占比
参考案例
❖ 可视化展示：
# 绘制词云图：川菜
参考案例
❖ 可视化展示：
# 绘制词云图：粤菜
[1] 王海粟. 浅议会计信息披露模式[J]. 财政研究，2004,21(1情况调研报告[J]. 高等理科教育，
2004(1):46-52.
2.专著类
序号]作者.书名[M].出版地：出版社，出版年份：起止页码.
[1] 葛家澍. 林志军.现代西方财务会计理论[M].厦门：厦门大学出版社， 2001：42.
4. 数据清洗代码请用Python完成，且在kettle中调用执行，清洗后的数据存到MySQL数据表中，将数据库中的该数据.sql文件导出。
5. 用Python语言对清洗后的数据进行可视化分析，保存执行后的图片，需要贴图到论文中。注：该图要在kettle中执行出现。
6. 对数据可视化后的结果进行问题解析，给出数据分析的结果，若存在问题，给出参考建议。
text2 = get_cut_words(content_series=df[df['菜系']=='粤菜']['用料']) stylecloud.gen_stylecloud(text=' '.join(text2), max_words=1000,
collocations=False, font_path='C:/Windows/Fonts/STFANGSO.ttf', icon_name='fas fa-heart', size=653, output_name='18ML/ch09/douguo/粤菜.png')
数据分析报告要求
❖提交材料：
1. 使用：大数据系课程论文模板，Latex排版。 2. 上交一份数据分析报告打印稿。 3. 上交文件：爬取的原始数据CSV文件，清洗后的数据.sql
文件及相应的excel文件，.ktr, .kjb文件。 4. 上交论文附录：爬虫源码、数据清洗源码、可视化源码
（Python代码）， Latex源文件。 5. 电子版文件名统一规定为：学号姓名.rar（例如：
数据分析报告要求
❖ 内容要求
1. 通过Kettle建立作业/转换，调用Python脚本，实现数据爬取、数据清洗。
2. 爬取的数据要有实际应用背景，即：所分析的数据是有意义的，爬虫工具：Python。
3. 所爬取的数据中要有缺失值、异常值、重复值等待处理的数据，且将该部分截图，贴到论文中，以备比较，如果还有其他需处理的数据，也请一并截图贴到文中。如果数据集不需要清洗，则该数据集不合格，请重新获取。爬取数据保存格式为CSV。
闽菜-福建、湘菜-湖南、徽菜-安徽
参考案例
❖ 本课程论文研究的内容： ❖ 爬取豆果网最新发布的中国菜系共3000多个菜谱，然后清洗
数据并做可视化分析，试图走上美食博主的康庄大道。
❖https:///
参考案例
❖ 本课程论文研究的步骤： ✓ 数据获取 ✓ 数据存放（csv格式） ✓ 数据清洗 ✓ 数据可视化 ✓ 数据回放（mySQL数据库） ✓ 生成数据分析报告（pdf、word或html） ✓ 结论
14000001高某.rar）。 6. 交稿日期：2021年1月x日上午 11点 7. 不接受任何理由补交。1月x日当天不交，给0分，重修。 8. 成绩评定：格式 40%, 内容 60%。
数据分析报告要求
❖ 参考文献格式
1. 期刊类
[序号]作者.篇名[J].刊名，出版年份，卷号（期号）：起止页码.
❖ 今天巨变的中国，人和食物，比任何时候走的更快。打开各大美食网站，如豆果美食、下厨房、美食天下等，就知天下美食。
参考案例
❖ 每提到中国的菜，八大菜系总是先被大家挂在嘴边。但说可是说，你知道八大菜系到底是哪八大吗？
❖ 中国八大菜系的八大分别是： ❖ 川菜-四川、鲁菜-山东、粤菜-广东、苏菜-江苏、浙菜-浙江、