期末大作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
期末大作业
数据挖掘和基于数据的决策是目前非常重要的研究领域,是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的特殊过程。在商业上,数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析技术,可用于分析企业数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
本次作业要求完成一个相亲配对程序,让相亲者更容易找到自己的意中人。查阅相关文献,以python为工具实现K-近邻算法,从而完成一个基本版的相亲配对系统,在此基础上深入研究聚类算法(K-近邻算法为其中一种),讨论各种聚类思路及算法优劣,完成相应的研究论文。
基本的设计思路提示如下:利用附件datingTestSet.txt文档中提供的三种属性(前三列,其中第1列为对方每年出差/旅行的公里数,第2列为对方玩游戏消耗时间的百分比,第3列为对方每周消费的冷饮公升数)作为测度是否和对方匹配的标准。附件文件第4列表示了你遇到此类人产生的好恶情感,其中largeDoses表示对你极有吸引力,smallDoses表示对你吸引力一般,didntLike 表示是你不喜欢的类型。利用此文件提供的数据,以K-近邻算法为工具,进行数据挖掘,发现你的喜好标准,对新的未标定的待匹配方(即只有前三行数据)给出第4行的好恶情感标签(即largeDoses、smallDoses或didntLike)。
具体要求如下:
1.查找文献,理解完整的K-近邻算法;
2.使用python语言编程实现K-近邻算法,解决相亲配对这一明确的应用问题;
3.撰写的研究论文要有关于聚类算法的详细叙述,论文中的算法应该与程序实
现的算法相印证。
大作业要求:
1.自己设计解决方案,简易的解决方案得分较低,完整的解决方案,即使部分
完成,得分也会较高;
2.作业上交形式为电子版文件。所有文件打包为一个文件,以“学号+姓名”
的方式命名;
3.算法的python源程序(py文件);
4.对此问题进行研究得到的研究性论文,论文包括前言(简介),算法部分(算
法流程图为核心),程序设计部分(程序流程图为核心),实验结果和分析,小结等内容(doc文件);
5.论文必须有规范的发表论文格式,包括题目、作者、单位、摘要、关键字、
正文及参考文献;
6.附有少量参考资料。
字数:论文部分字数限于2000±300,太多太少均扣分。
上交期限:19周周日,由学习委员收齐统一上交。
抄袭0分!