数据挖掘期末大作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘期末大作业
1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。
对于数据挖掘的发展趋势,可以从以下几个方面进行阐述:
(1)数据挖掘语言的标准化描述:标准的数据?
挖掘语言将有助于数据挖掘的系统化开发。改进?多个数据挖掘系统和功能间的互操作,促进其在企?业和社会中的使用。?
(2)寻求数据挖掘过程中的可视化方法:可视?
化要求已经成为数据挖掘系统中必不可少的技术。?可以在发现知识的过程中进行很好的人机交互。?数据的可视化起到了推动人们主动进行知识发现的?作用。?
(3)与特定数据存储类型的适应问题:根据不?
同的数据存储类型的特点,进行针对性的研究是目?前流行以及将来一段时间必须面对的问题。?(4)网络与分布式环境下的KDD问题:随着?
Internet的不断发展,网络资源日渐丰富,这就需要?分散的技术人员各自独立地处理分离数据库的工作?方式应是可协作的。因此,考虑适应分布式与网?络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。?
(5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业?
等领域。由于数据挖掘在处理特定应用问题时存在?局限性,因此,目前的研究趋势是开发针对于特定应?
用的数据挖掘系统。?
(6)数据挖掘与数据库系统和Web数据库系?统的集成:数据库系统和Web数据库已经成为信息?处
理系统的主流。
2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输
入,不知道其对应的输出。请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。
首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。
然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。
在新建的表完成之后,默认的数据表名称为Table_1,并打开表,根据题目提供的数据在表中输入相应的数据如下图所示。
在测试数据被输入到数据库中之后,打开SQL Server Business Intelligence Development Studio 命令,并在文件中新建项目,项目名称命名为MyData,并单击确定,进入下一步,如下图所示。
在进入的新页面上,新建一个数据源,并在出现的新窗口中单击下一步,并选择新建按钮,就会出
现连接管理器窗口,如右图所示。在打开的界面中,在“提供程序”下拉列表框中选择Microsoft OLE DB Provider for SQL Server选项,选择完成
后,单击确定,进入下一界面,至此,完成了数据连接的工作。在建立完数据连接之后,需要建立数据源视图,右键单击数据源视图,并选中“新建数据源视图”命令,在数据库YxqDatabase下的数据表Table_1中,选中这个数据表,然后单击下一步,并更改数据源视图的名称为YxqView,单击完成,这样就建好了数据源视图。如下图所示。
在上面的工作完成之后,我们在界面中单击“挖掘结构”,并新建一个挖掘结构然后点击下一步,在弹出的新窗口“选择挖掘技术”中,我们选择“Microsoft神经网络”选项,并单击下一步,如下图所示。
弹出的新窗口要求对Table_1中的各个列指定类型:键类型、输入类型、可预测类型。把数据表Table_1中的data列定为键类型,x1,x2,x3规定为输入类型,y1,y2规定为可预测类型,选择之后情形如下图所示。
在上图中,单击下一步,再选择默认值,并单击下一步,就完成了挖掘模型的创建。挖掘模型创建完成之后会出现下图所示的窗口。
在此界面中,我们选择“挖掘模型查看器”选项卡,会弹出一个小窗口,提问“服务器内容似乎已过时。是否先生成和部署项目?”单击是按钮,系统将花费一点时间进行部署和生成,见下图所示
。
部署成功后,就会弹出另外一个小窗口,提问“必须先处理Table_1挖掘模型才能浏览其内容。处理模型可能要花费一些时间,具体将取决于数据量。是否继续?”单击“是”按钮,并在新弹出的窗口中单击“运行”按钮”处理成功之后在两个窗口分别单击“关闭”按钮,就会得到下图所示的数据分析图表。
最后,选择“挖掘模型预测”选项卡,进行数据预测,出现的界面如下图所示。
在所示的界面中,我们单击“选项事例表”按钮,在选择导航中,选择事例表为Table_1,将出现下图所示的界面。
在上图所示的结构中,单击工具栏上的“单独查询”按钮,即产生下图所示的界面。
在上图所示的界面中,把表中数据的最后一行分别输入到变量x1,x2,x3后面的空白中,然后把挖掘模型下的Y1,Y2项拖动至最下面一行的最左边位置。然后单击工具栏上的“切换到查询结果”按钮,会出现下图所示的界面。
至此,我们通过神经网络功能预测出了最后两条数据的输出。
3.用ID3算法生成分类决策树
在之前创建好的数据源与数据源视图的前提下,我们开始创建决策树的挖掘结构,单击“挖掘结构”,并从中选择“新建挖掘结构”命令,系统将打开数据挖掘导向。在“欢迎使用数据挖掘向导”页上,单击下一步按钮,在“选择定义方法”页上,确认已选中“你要使用何种数据挖技术?”下拉列
表中选择“Microsoft决策树”选项,如下图所示。
然后单击下一步,出现“指定定型数据”页,如下图所示。在界面中,确保选中RID列右边“键”列中的复选框,这即是决策树分析中所用的属性。
在上图中,单击下一步,在随后“指定列的内容和数据类型”页上,单击下一步按钮,出现“完成向导”页。接下来,我们开始设置决策树挖掘结构的相关参数,在“挖掘模型”选项卡上单击鼠标右键,从弹出的快捷菜单中选择“设置算法参数”命令,系统将打开“算法参数”对话框,如下图所示。