数据仓库与数据挖掘实验报告 -

合集下载

数据仓库与数据挖掘实验报告

一【2 】.上机目标及内容目标：1．懂得数据发掘的根本概念及其进程;2．懂得数据发掘与数据仓库.OLAP之间的关系3．懂得根本的数据发掘技巧与办法的工作道理与进程,控制数据发掘相干对象的运用.内容：将创建一个数据发掘模子以练习发卖数据,并运用“Microsoft 决议计划树”算法在客户群中找出购置自行车模式.请将要发掘的维度（事例维度）设置为客户,再将客户的属性设置为数据发掘算法辨认模式时要运用的信息.然后算法将运用决议计划树从中肯定模式.下一步须要练习模子,以便可以或许浏览树视图并从中读取模式.市场部将依据这些模式选择潜在的客户发送自行车促销信息.请求:运用试验室和指点教师供给的试验软件,卖力完成划定的试验内容,真实地记载试验中碰到的各类问题息争决的办法与进程,并依据试验案例绘出模子及操作进程.试验完成后,应依据试验情形写出试验报告.二.试验道理及根本技巧路线图（方框道理图或程序流程图）联系关系剖析：联系关系剖析是从数据库中发明常识的一类主要办法.时序模式：经由过程时光序列搜刮出反复产生概率较高的模式.分类：分类是在聚类的基本上对已肯定的类找出该类别的概念描写,代表了这类数据的整体信息,既该类的内在描写,一般用规矩或决议计划树范式表示.三.所用仪器.材料（装备名称.型号.规格等或运用软件）1台PC及Microsoft SQL Server套件四.试验办法.步骤（或：程序代码或操作进程）及试验进程原始记载( 测试数据.图表.盘算等)创建 Analysis Services 项目1.打开 Business Intelligence Development Studio.2.在“文件”菜单上,指向“新建”,然后选择“项目”.3.确保已选中“模板”窗格中的“Analysis Services 项目”.4.在“名称”框中,将新项目定名为 AdventureWorks.5.单击“肯定”.更改存储数据发掘对象的实例1.在 Business Intelligence Development Studio 的“项目”菜单中,选择“属性”.2.在“属性页”窗格的左侧,单击“部署”.3.在“目标”选项部分,验证数据库名称是否为 localhost.假如运用的是其他实例,请键入该实例的名称.单击“肯定”.创建数据源1.在解决计划资本治理器中,右键单击“数据源”文件夹,然后选择“新建数据源”.体系将打开数据源领导.2.在“迎接运用数据源领导”页面中,单击“下一步”按钮.3.在“选择若何界说衔接”页上,单击“新建”向 Adventure Works 数据库中添加衔接.体系将打开“衔接治理器”对话框.4.在“衔接治理器”的“供给程序”列表中,选择“本机 OLE DB\Microsoft OLE DB Provider forSQL Server”.5.在“办事器名称”列表中,键入或选择承载 AdventureWorksDW 的办事器的名称.6.在“登录到办事器”组中,选择身份验证办法,并输入凭证.7.在“选择或输入数据库名称”列表中,选择 AdventureWorksDW,再单击“肯定”按钮.8.单击“下一步”按钮进入领导的下一页.9.在“模仿信息”页中,选择“运用办事帐户”,再单击“下一步”.10.请留意,在“完成领导”页中,数据源名称默以为 Adventure WorksDW.11.单击“完成”.新的数据源 Adventure Works DW 将显示在解决计划资本治理器的“数据源”文件夹中.创建数据源视图1.在解决计划资本治理器中,右键单击“数据源视图”,选择“新建数据源视图”.体系将打开数据源视图领导.2.在“迎接运用数据源视图领导”页上,单击“下一步”.3.在“选择数据源”页的“关系数据源”下,体系将默认选中您在上一个义务中创建的 AdventureWorks DW 数据源. 单击“下一步”.若要创建新数据源,请单击“新建数据源”,启动数据源领导.4.在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中：•dbo.ProspectiveBuyer•dbo.vAssocSeqLineItems•dbo.vAssocSeqOrders•dbo.vTargetMail•dbo.vTimeSeries5.单击“下一步”.6.在“完成领导”页上,默认情形下,体系将数据源视图定名为 Adventure Works DW. 单击“完成”.体系将打开数据源视图设计器,显示 Adventure Works DW 数据源视图.创建用于目标邮件计划的发掘构造1.在解决计划资本治理器中,右键单击“发掘构造”并选择“新建发掘构造”启动数据发掘领导.2.在“迎接运用数据发掘领导”页上,单击“下一步”.3.在“选择界说办法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”.4.在“创建数据发掘构造”页的“您要运用何种数据发掘技巧？”下,选择“Microsoft 决议计划树”.5.单击“下一步”.6.在“选择数据源视图”页上,请留意已默认选中 Adventure Works DW.在数据源视图中,单击“浏览”查看各表,然后单击“封闭”返回该领导.7.单击“下一步”.8.在“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”.9.在“指定定型数据”页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框.假如数据源视图中的源表表示一个键,则数据发掘领导将主动选择该列作为模子的键.10.选中 BikeBuyer 列旁边的“输入”和“可猜测”.11.单击“建议”打开“供给相干列建议”对话框.只要选中至少一个可猜测属性,即可启用“建议”按钮.“供给相干列建议”对话框将列出与可猜测列联系关系最亲密的列,并按照与可猜测属性的互相关系对属性进行排序.值大于 0.05 的列将被主动选中,以包括在模子中.12.浏览建议,然后单击“撤消”疏忽建议并保留领导设置的原始值.13.选中以下各列旁边的“输入”复选框：•Age•CommuteDistance •EnglishEducation •EnglishOccupation •FirstName•Gender •GeographyKey •HouseOwnerFlag •LastName •MaritalStatus •NumberCarsOwned •NumberChildrenAtHome •Region•TotalChildren •YearlyIncome14.单击“下一步”.15.在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并肯定命值列是否包含持续或离散值的算法.例如,某列可包含薪金信息,用以作为持续的现实薪金值,也可包含整数,用以表示离散的编码薪金规模（例如 1 = < $25,000;2 = 从 $25,000 到 $50,000）.16.单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;若有必要,请进行更改,以确保设置与下表所示一致.平日,领导会检测数值,并分派响应的数值数据类型;但有些情形下,您可能想要将数值作为文本处理.例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的.YearlyIncome Continuous Double17.单击“下一步”.18.在“将数据拆分为定型集和测试集”页上,对于“测试数据百分比”,请保留默认值 30.19.对于“测试数据分散的最大事例数”,请键入 1000.单击“下一步”.20.在“完成领导”页上的“发掘构造名称”中,键入 Targeted Mailing.21.在“发掘模子名称”中,键入 TM_Decision_Tree.22.选中“许可钻取”复选框.23.单击“完成”.测试发掘模子的精确性映射输入列假如运用外部数据测试发掘模子,则必须确保发掘构造中的列与输入数据中的列匹配.为此,可以运用“指定列映射”对话框.假如直接映射列名,则数据发掘设计器将主动创建关系.若要删除两列之间的映射,请选择将“发掘构造”表中的列链接到“选择输入表”表中的列的行,再按Delete 键.还可以经由过程单击“选择输入表”中的列并将其拖到“发掘构造”中响应的列来手动创建映射.将输入列映射到发掘构造1.在数据发掘设计器中的“发掘精确性图表”选项卡的“输入选择”选项卡中,选择选项“指定其他数据集”.2.单击“指定其他数据集”选项右侧的(…)按钮.此时将打开“指定列映射”对话框.假如您要测试的构造未显示在“发掘构造”窗格中,请单击“选择构造”并选择目标邮件.3.在“选择输入表”框中,单击“选择事例表”.体系将打开“选择表”对话框.在此对话框中选择包含表或须要运用的表的数据源视图,然后选择该表.用于肯定模子精确性的数据必须包含可以映射到可猜测列的列.为了实现本教程的教授教养目标,您须要对用于处理模子的输入列运用雷同的数据并对数据运用筛选器.但是,幻想情形下,您将运用用于处理该模子的数据中保留的测试数据集.在“选择输入选择”选项卡上选择选项“运用发掘构造测试事例”,将选择该数据作为输入.4.在“数据源”列表中,确保已选中 Adventure Works DW.5.在“表/视图名称”列表中,选择 vTargetMail,再单击“肯定”.发掘构造中的列会主动映射到输入表中具有雷同名称的列.筛选输入行假如选择“指定其他数据集”选项,则可以经由过程运用显示事例表列和嵌套表列的一组对话框生成筛选前提.可以从运算符.类型值的列表中进行选择,并衔接前提与逻辑运算符,以创建限制测试所用事例的庞杂前提.对测试数据运用筛选器1.在数据发掘设计器中的“发掘精确性图表”选项卡的“输入选择”选项卡上,单击“打开筛选器编辑器”.2.此时将打开“vTargetMail 数据集筛选器”对话框.在此网格内,输入转换为将运用于源表的WHERE 子句的前提,以限制用于测试的事例.3.在“发掘构造列”下,单击网格内顶部的行.选择 vTargetMail.4.单击“值”单元.此时将打开“筛选器”对话框,该对话框可关心您对 vTargetMail 表设置前提.5.在第一行中,单击“发掘构造列”下的网格,然后从列的列表中选择 Age.6.单击 Age 旁边的“运算符”框,并选择 >（大于）运算符.7.在统一行单击“值”框,并键入 20.8.单击“表达式”窗格以刷新该表达式,并验证它是否精确.单击“肯定”.9.再次单击“肯定”,封闭“筛选数据集”对话框.“输入选择”选项卡中的“筛选表达式”窗格会显示适才创建的筛选表达式vTargetMail:([Age] > 20).当制造晋升图时,模子将仅运用其年纪大于 20 的客户进行测试.显示模子的晋升1.在“选摘要在晋升图中显示的可猜测的发掘模子列”下,确保已在每个模子的“可猜测的列名”列表中选中 Bike Buyer.2.在“猜测值”列中,选择 1.对于具有雷同可猜测列的每个模子,将主动填充雷同的值.显示模子的精确性1.在“选摘要在晋升图中显示的可猜测的发掘模子列”下,确保已在每个模子的“可猜测的列名”列表中选中 Bike Buyer.2.将“猜测值”列保留为空.查看晋升图若要查看晋升图,请切换到“发掘精确性图表”的“晋升图”选项卡.当您单击该选项卡时,便会对办事器和数据库的发掘构造和输入表或测试数据运行猜测查询.猜测成果随后会与已知的现实值进行比较,并将绘制在图上.有关若何运用该图的具体信息,请参阅晋升图（Analysis Services - 数据发掘）.创建查询创建猜测查询的第一步是选择发掘模子和输入表.选择模子和输入表1.在数据发掘设计器“发掘模子猜测”选项卡的“发掘模子”框中,单击“选择模子”.体系将打开“选择发掘模子”对话框.2.在全部树中导航到“目标邮件”构造,睁开该构造并选择 TM_Decision_Tree,再单击“肯定”.3.在“选择输入表”框中,单击“选择事例表”.体系将打开“选择表”对话框.4.在“数据源”中,选择 Adventure WorksDW.5.在“表/视图名称”中,选择 ProspectiveBuyer 表,再单击“肯定”.选择输入表之后,猜测查询生成器便会依据各列的名称在发掘模子和输入表之间创建默认映射.生成猜测查询1.在“发掘模子猜测”选项卡上的网格内的“源”列中,单击第一个空行中的单元格,然后选择ProspectiveBuyer.2.在 ProspectiveBuyer 行的“字段”列中,选择 ProspectAlternateKey.这会将独一标识符添加到猜测查询中,以便标识谁可能购置自行车,以及谁不可能购置自行车.3.在“源”列中,单击下一个空行,然后选择 TM_Decision_Tree.4.在 TM_Decision_Tree 行的“字段”列中,选择 Bike Buyer.这将会输出 Microsoft 决议计划树范子中作为猜测目标的列.5.在“源”列下,单击下一个空行,然后选择“猜测函数”.6.在“猜测函数”行的“字段”列中,选择 PredictProbability.猜测函数供给有关模子若何进行猜测的信息.PredictProbability 函数供给有关精确猜测的概率信息.您可以在“前提/参数”列中指定猜测函数的参数.7.在 PredictProbability 行的“前提/参数”列中,键入 [TM_Decision_Tree].[Bike Buyer].这将指定 PredictProbability 函数的目标列.有关函数的具体信息,请参阅数据发掘扩大插件(DMX) 函数参考.“发掘模子猜测”选项卡的对象栏中的第一个对象是“切换到查询设计视图/切换到查询成果视图”按钮.经由过程单击此按钮上的下箭头,可在所创建的查询的视图之间切换.运用“查询”视图可以查看猜测查询生成器创建的 DMX 代码.运用“成果”视图可以运行查询并查看成果.运用“设计”视图可以向查询中添加新猜测函数.留意：假如在“查询”视图中手动更改查询的文本,则切换回“设计”视图时,不会保留修正后的查询.查看成果经由过程单击“切换到查询设计视图/切换到查询成果视图”按钮（即对象栏上的第一个按钮）旁边的箭头并选择“成果”,可以运行查询.六.试验成果.剖析和结论（误差剖析与数据处理.成果总结等.个中,绘制曲线图时必须用盘算纸或程序运行成果.改良.收成）运用 Microsoft SQL Server Analysis Services 可以很便利地创建庞杂的数据发掘解决计划.Analysis Services 对象可关心我们设计.创建和治理来自数据仓库的多维数据集和数据发掘模子,还可治理对 OLAP 数据和数据发掘数据的客户端拜访.经由过程试验懂得了数据发掘的根本概念及其进程及数据发掘与数据仓库.OLAP之间的关系.对根本的数据发掘技巧与办法的工作道理与进程,控制数据发掘相干对象的运用有了初步的懂得.注：教师必须按照上述各项内容严厉请求,卖力批改和评定学生成绩.。

数据仓库与数据挖掘实验报告

数据仓库与数据挖掘实验报告一、实验目的和意义数据仓库和数据挖掘是现代大数据时代中关键的技术与方法，本实验旨在通过实践操作，了解数据仓库和数据挖掘的基本概念、流程和方法，并基于实验数据进行数据仓库与数据挖掘的实际应用。

二、实验内容及步骤本实验基于某电商平台的网购数据，通过数据仓库的建立和数据挖掘的过程，探索和发现隐藏在数据中的有价值信息。

具体步骤如下：1. 数据收集和预处理获取电商网购数据集，对数据进行清洗和预处理，如缺失值处理、异常值处理和数据集整合等，以保证数据的质量和可用性。

2. 数据仓库的建立基于处理后的数据，进行数据仓库的建立。

根据业务需求和分析目标，确定维度表和事实表的建模方法和关联关系，设计和构建星型或雪花模式的数据仓库。

3. 数据挖掘的实践基于已建立的数据仓库，进行数据挖掘的实践，包括关联规则挖掘、分类与预测、聚类分析、异常检测等。

通过使用数据挖掘工具，如R、Python中的Scikit-learn等，进行模型构建和算法实施，得到数据挖掘结果。

4. 结果分析与应用对数据挖掘结果进行分析和解读，发现和总结其中的规律和知识，得到业务价值和应用建议，为业务决策和目标达成提供支持和参考。

三、实验结果与分析本实验得到了以下数据挖掘结果：1. 关联规则挖掘通过关联规则挖掘的过程，发现了一些有趣和有用的关系，如购买商品A的用户有70%的概率也会购买商品B，可以利用这些关联规则进行交叉销售和推荐。

2. 分类与预测通过构建分类和预测模型，成功预测了用户的购买行为，可以预测出用户未来可能会购买的商品，为精准市场营销和库存管理提供决策支持。

3. 聚类分析通过聚类分析，将用户分为不同的群体，可以对不同群体采取不同的营销策略，提高用户满意度和购买转化率。

4. 异常检测通过异常检测，发现了一些异常行为和欺诈行为，可以及时进行监控和防范，保护用户权益和平台安全。

此外，还通过数据可视化的方式，将分析结果展示出来，如通过柱状图、折线图、散点图等方式进行可视化展示，直观地呈现数据的分布和关系。

数据挖掘实验报告

数据仓库与数据挖掘实验一、聚类算法测算数据集，如下图所示的数据集：1.对mfeat-fac数据集进行测算（1）创建Analysis Services chf项目打开Business Intelligence Development Studio，选择“文件”—“新建”命令，新建一个Analysis Services 项目。

在“名称”文本框中将新项目命名为Analysis Services chf，单击“确定”按钮。

（2）创建数据源Chenhongfei在右侧解决方案资源管理器中，右键单击“数据源”项，从弹出的快捷菜单中选择“新建数据源”命令。

系统将打开数据源向导。

单击“新建”按钮，向Adventure Works数据库添加连接。

系统将打开“连接管理器”对话框，连接到数据库chenhongfei,单击“确定”按钮。

单击“下一步”按钮进入“模拟信息”页，选择“默认值”。

具体如下图所示(3)创建数据源视图Chenhongfei在解决方案资源管理器中，右键单击“数据源视图”，从弹出的快捷菜单中选择“新建数据源视图”命令，系统将打开数据源视图向导。

在“欢迎使用数据源视图向导”页上，单击“下一步”按钮。

选择1视图，然后右击，将它包括在新数据源视图中，如下图所示：（4）创建挖掘结构Cc1在解决方案资源管理器中，右键单击“挖掘结构”，在弹出的快捷菜单中选择“新建挖掘结构”命令，系统将打开数据挖掘向导。

在“欢迎使用数据向导”页上，单击“下一步”按钮。

在“选择定义方法”页上，确认已选中“从现有关系数据库或数据仓库”，单击“下一步”按钮。

在“选择数据挖掘技术”页的“你要使用何种数据挖掘技术？”下拉列表中选择“Microsoft 聚类分析”选项，如下图所示：单击“下一步”按钮，在随后出现的“选择数据源视图”页上，请注意已默认选中Chenhongfei。

单击“选择数据源视图”页上的“下一步”按钮，在“指定表类型”页上，选择cc1表右边“事例”列中的复选框，单击“下一步”按钮。

数据仓库与数据挖掘实验四

数据仓库与数据挖掘实验四一、实验目的本实验旨在通过实践操作，掌握数据仓库与数据挖掘的相关技术，包括数据预处理、数据集成、数据转换和数据挖掘算法的应用。

二、实验背景随着信息化时代的到来，数据量呈指数级增长，如何从这些庞大的数据中提取有用的信息成为了一个重要的研究方向。

数据仓库与数据挖掘技术应运而生，能够帮助我们从海量数据中挖掘出有价值的知识和模式，为决策提供科学依据。

三、实验内容1. 数据预处理数据预处理是数据挖掘的第一步，目的是清洗原始数据，解决数据中存在的噪声、缺失值和异常值等问题。

在本实验中，我们将使用一个包含学生信息的数据集进行数据预处理的实验。

首先，我们需要导入数据集，并对数据进行初步的观察和分析。

可以使用Python编程语言中的pandas库来进行数据的读取和分析。

通过查看数据集的属性、数据类型以及数据的统计信息，我们可以对数据有一个初步的了解。

接下来，我们需要处理数据中存在的缺失值。

可以使用pandas库中的fillna()函数来填充缺失值，常用的填充方法包括均值填充、中位数填充和众数填充等。

根据不同的情况选择合适的填充方法，并对数据进行处理。

最后，我们需要处理数据中的异常值。

可以使用箱线图和散点图等可视化工具来检测异常值，并根据实际情况进行处理。

2. 数据集成数据集成是将多个数据源中的数据合并成一个一致、完整的数据集的过程。

在本实验中，我们将使用两个包含学生信息的数据集进行数据集成的实验。

首先，我们需要对两个数据集进行初步的观察和分析，了解数据的结构和属性。

接下来，我们需要选择一个合适的数据集成方法。

常用的数据集成方法包括追加、合并和连接等。

根据数据集的特点和实际需求，选择合适的方法进行数据集成。

最后，我们需要对合并后的数据集进行处理，解决数据中存在的重复值和冲突值等问题。

可以使用pandas库中的drop_duplicates()函数来去除重复值，并根据实际情况解决冲突值。

3. 数据转换数据转换是将原始数据转换成适合进行数据挖掘的形式的过程。

数据仓库与数据挖掘实验三

数据仓库与数据挖掘实验三一、实验目的本实验旨在通过实际操作，加深对数据仓库与数据挖掘的理解，并掌握数据挖掘的基本流程和常用算法。

二、实验背景随着信息技术的发展，大量的数据被不断产生和积累。

数据挖掘作为一种从大数据中发现有价值信息的技术，受到了广泛关注。

数据仓库作为数据挖掘的基础，提供了数据的集成、存储和管理等功能。

本实验将通过使用数据仓库和数据挖掘工具，对给定的数据集进行分析和挖掘。

三、实验内容1. 数据集准备从给定的数据集中选择合适的数据，进行预处理和清洗。

包括去除重复数据、处理缺失值、处理异常值等。

2. 数据集集成将不同数据源的数据进行集成，合并成一个数据集。

可以使用工具或编程语言来实现数据集的集成。

3. 数据转换对数据进行转换，使其适应数据挖掘算法的要求。

包括数据规范化、数据离散化、数据编码等。

4. 数据挖掘选择合适的数据挖掘算法，对处理后的数据进行挖掘。

可以使用分类、聚类、关联规则等算法进行分析。

5. 模型评估对挖掘得到的模型进行评估和验证。

可以使用交叉验证、混淆矩阵等方法来评估模型的性能。

6. 结果展示将挖掘结果进行可视化展示，可以使用图表、报表等方式呈现。

四、实验步骤1. 数据集准备从给定的数据集中选择合适的数据，并进行数据预处理和清洗。

例如，可以使用Python编程语言的pandas库来处理数据。

2. 数据集集成将不同数据源的数据进行集成，合并成一个数据集。

可以使用SQL语句或数据集成工具来实现数据集的集成。

3. 数据转换对数据进行转换，使其适应数据挖掘算法的要求。

例如，可以使用数据规范化来将数据转换为统一的范围。

4. 数据挖掘选择合适的数据挖掘算法，对处理后的数据进行挖掘。

例如，可以使用决策树算法来进行分类分析。

5. 模型评估对挖掘得到的模型进行评估和验证。

例如，可以使用准确率、召回率、F1值等指标来评估模型的性能。

6. 结果展示将挖掘结果进行可视化展示，例如，可以使用Matplotlib库来绘制图表，展示分类结果。

数据仓库与数据挖掘1实验报告册汽院科院2

《数据仓库与数据挖掘》实验报告册20 - 20 学年第学期班级: 学号: 姓名:目录实验一 Microsoft SQL Server Analysis Services的使用 (3)实验二使用WEKA进行分类与预测 (7)实验三使用WEKA进行关联规则与聚类分析 (8)实验四数据挖掘算法的程序实现 (8)实验一 Microsoft SQL Server Analysis Services的使用实验类型: 验证性实验学时: 4实验目的:学习并掌握Analysis Services的操作, 加深理解数据仓库中涉及的一些概念, 如多维数据集, 事实表, 维表, 星型模型, 雪花模型, 联机分析处理等。

实验内容:在实验之前, 先通读自学SQL SERVER自带的Analysis Manager概念与教程。

按照自学教程的步骤, 完成对FoodMart数据源的联机分析。

建立、编辑多维数据集, 进行OLAP操作, 看懂OLAP的分析数据。

1、实验步骤:启动联机分析管理器:2、建立系统数据源连接。

建立数据库和数据源, 多维数据集编辑多维数据集3、设计存储和处理多维数据集4、浏览多维数据集中的数据按时间筛选数据实验小结:实验二使用WEKA进行分类与预测实验类型: 综合性实验学时: 4实验目的:掌握数据挖掘平台WEKA的使用。

综合运用数据预处理、分类与预测的挖掘算法、结果的解释等知识进行数据挖掘。

从而加深理解课程中的相关知识点。

实验内容:阅读并理解WEKA的相关中英文资料, 熟悉数据挖掘平台WEKA, 针对实际数据, 能够使用WEKA进行数据的预处理, 能选择合适的分类与预测算法对数据进行分析, 并能解释分析结果。

实验步骤:1.在开始->程序->启动WEKA, 进入Explorer界面, 熟悉WEKA的界面功能。

2.选择数据集（实验中的数据可以从网络获取）, 如泰坦尼克号数据集, 将要处理的数据集转换成WEKA能处理的格式, 如.ARFF格式。

数据仓库实验报告

数据仓库与数据挖掘上机实验报告实验目的：学习Analysis Services的操作和基本的数据清洗实验内容：浏览SQL Server 2000 Analysis Services 随机教程；规划需求分析；仓库设计；数据清洗转换；建立分析数据库，设置数据源;建立多维数据库（Cube）；设置多维数据库的数据存储方式及访问权限；利用Excel2000访问Analysis Services实验分析：下面只进行两个关键的实验，数据清洗转换和建立多维数据库（使用Northwind数据库），先用数据清洗转换，将需要的表从源库转换到新数据库，为数据仓库提供需要的数据，要形成的维表有Products,Category,Employees,Dates,Facts(事实表)，在实验二中Products和Category将组成雪花架构的维表。

实验一：数据清洗转换内容：为数据仓库新建一个数据库，将Products，Categories，Employees，Orders，Order Details转换到新数据库，为数据仓库提供需要的数据目的：为数据仓库事实表和各维表建立基本数据步骤：1）新建一个数据库myNorthwind，并准备从Northwind导入数据。

2）建立Products和Categories两个维度表，将维度表需要的列从Northwind数据库复制到myNorthwind。

3）建立Employees维度表，将源表的列内容复制过来，并将源表中first name和lastname合成一个fullname列,在DTS导入/导出向导中使用SQL语句合成新的列fullname。

4）建立Dates维度表，由源表Orders表中OrderDate一列产生出年、月、日、周、季等列，同时保留OrderDate一列。

在处理数据时使用了VBScript中的DatePart 函数。

5）建立Facts表，（事实表）该表的数据来自Order Details表，首先用Select语句将产品类别编号和员工编号等从各自表中取出；其次计算合计列值，计算方法为单价*(1-折扣)*数量；然后将Order Details表的内容复制到Facts表各列即可；再建立主、外键关系。

数据仓库与数据挖掘实验报告

数据仓库与数据挖掘实验报告题目Glass（玻璃）数据集分析院系姓名学号专业班级科目数据仓库与数据挖掘任课老师目录一、实验目的 (1)二、实验内容 (1)1.数据预处理方法（缺失值处理） (1)2.数据可视化 (1)3.分类算法测试及比较 (1)三、实验步骤 (1)1.Weka平台搭建及收集该数据集 (1)2.加载 Glass（玻璃）数据集 (1)3.数据预处理 (2)4.数据可视化 (4)5.分类算法 (5)四、实验总结 (9)一、实验目的1.使用Weka数据预处理方法，对缺失值数据进行处理。

缺失值会使数据挖掘混乱，分析可能会得到错误结论，所以在数据挖掘前最好进行缺失值数据进行处理。

2.使用数据挖掘中的分类算法，对数据集进行分类训练并测试，应用不同的分类算法，比较他们之间的不同。

3.学习与了解Weka平台的基本功能与使用方法。

二、实验内容1.数据预处理方法（缺失值处理）2.数据可视化3.分类算法测试及比较三、实验步骤1.Weka平台搭建及收集该数据集2.加载 Glass（玻璃）数据集（1）Glass（玻璃）数据集预处理界面如图2.1所示：（2）Glass（玻璃）数据属性含义如表2.1所示:表2.1 Glass（玻璃）数据属性含义3.数据预处理（1）Glass（玻璃）数据预处理前数据如图3.1所示：（2）使用缺失值处理函数：weka.filters.unsupervised.attribute.ReplaceMissingValues。

Glass（玻璃）数据预处理后数据如图3.2所示：图3.2 Glass（玻璃）数据预处理后数据图示4.数据可视化Glass（玻璃）数据可视化如图4.1所示：图4.1 Glass（玻璃）数据可视化图示5.分类算法（1）KNN算法：一种统计分类器，对数据的特征变量的筛选尤其有效。

KNN算法如图5.1所示：图5.1 KNN算法图示①元素分析结果如表5.1所示：表5.1 元素分析结果②类型分析结果：准确率为70.5607%，其中214个实例数据有151个正确分类，63个错误分类。

数据仓库与数据挖掘实验一

《数据仓库与数据挖掘》课程实验报告一一、实验目的、内容、原理与环境1.实验目的:掌握在SQL Server 2005示例数据仓库环境下数据加载和建立多维数据模型过程的知识, 训练其把教材上的内容应用到实际中的技能, 为今后继续数据挖掘技术的学习奠定基础。

2.实验内容:在SQL Server 2005示例数据仓库环境下加载数据仓库, 建立多维数据模型。

具体内容包括：创建 Analysis Services 项目 , 定义数据源 , 定义数据源视图 , 修改表的默认名称, 定义多维数据集 , 检查多维数据集和维度属性 , 部署 Analysis Services 项目, 浏览已部署的多维数据集等知识。

3、实验原理与环境:数据仓库环境下数据加载过程和多维数据模型建立的方法。

SQL Server 2005示例数据仓库环境。

二、实验步骤（一）本实验的主要步骤（7步）分别介绍如下:（二）创建 Analysis Services 项目（二）创建数据源（三）定义数据源视图（四）定义多为数据源集（五）部署 Analysis Services 项目（六）浏览已部署的多维数据集(七)提高多维数据集的可用性和易用性三、实验总结通过数据仓库与数据挖掘的这门课的学习, 掌握了数据仓库与数据挖掘的一些基础知识和基本概念, 了解了数据仓库与数据库的区别。

下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。

数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。

主题是数据数据归类的标准, 每个主题对应一个客观分析的领域, 他可为辅助决策集成多个部门不同系统的大量数据。

数据仓库包含了大量的历史数据, 经集成后进入数据仓库的数据极少更新的。

数据仓库内的数据时间一般为5年至10年, 主要用于进行时间趋势分析。

数据仓库的数据量很大。

数据仓库的特点如下：。

数据仓库与数据挖掘实验报告

数据仓库与数据挖掘实验报告引言数据仓库与数据挖掘是当代信息技术领域中的热门研究方向，其在各行各业都有广泛的应用。

本实验报告旨在探讨数据仓库与数据挖掘的相关概念、技术、方法和应用，并通过实验案例来具体说明其在实践中的具体应用效果。

数据仓库定义数据仓库是一种面向主题的、集成的、稳定的、随时间变化的数据集合，用于支持管理决策和分析的需要。

构建数据仓库的步骤1.需求分析：明确决策支持需求，明确数据仓库的目标和范围。

2.数据源选择：确定需要整合的数据源。

3.数据提取和清洗：从数据源中提取数据并进行清洗、转换和加载到数据仓库中。

4.数据集成：将来自不同数据源的数据进行整合和组织，形成一致的数据结构和语义。

5.数据存储和管理：选择合适的数据库管理系统来存储和管理数据仓库中的数据。

6.数据查询和分析：通过数据仓库查询和分析工具进行复杂的查询和分析操作。

7.数据维护和演化：随着业务需求的变化，对数据仓库进行维护和演化。

数据挖掘定义数据挖掘是从大量的数据中发现隐藏在其中的可用信息、知识和模式的过程。

数据挖掘的过程1.数据预处理：对原始数据进行清洗、转换、集成和规范化等预处理操作。

2.特征选择：从大量特征中选择与目标相关性较高的特征，以降低维度和提高模型效果。

3.模型选择：根据问题的性质和要求选择合适的数据挖掘模型，如分类、聚类、关联规则等。

4.模型构建：使用选择的模型对预处理后的数据进行训练和构建模型。

5.模型评估：通过评估指标和方法对构建的模型进行评估，评估模型的准确性和可靠性。

6.模型应用：将构建好的模型应用于新数据，进行预测、分类、聚类等指定任务。

7.模型优化：根据评估结果对模型进行调整和优化，以提高模型的表现和准确性。

数据仓库与数据挖掘的应用客户关系管理1.数据仓库用于存储和管理客户的基本信息、交易记录等，并进行数据分析，实现客户细分、精准营销等。

2.数据挖掘用于挖掘客户的购买模式、偏好和行为特征，为企业提供个性化推荐和定制化服务。

数据仓库与数据挖掘报告

《数据仓库与数据挖掘》实验报告册0000 - 0000学年第 0 学期班级： 00001学号： 000000姓名：臭臭小怪兽授课教师： 0000 实验教师：00000实验学时： 0 实验组号： 0信息管理系目录实验一 Microsoft SQL Server Analysis Services的使用 (3)实验二使用WEKA进行分类与预测 (5)实验三使用WEKA进行关联规则与聚类分析 (9)实验四数据挖掘算法的程序实现 (13)实验一 Microsoft SQL Server Analysis Services的使用实验类型：验证性实验学时：4实验目的：学习并掌握Analysis Services的操作，加深理解数据仓库中涉及的一些概念，如多维数据集，事实表，维表，星型模型，雪花模型，联机分析处理等。

实验内容：在实验之前，先通读自学SQL SERVER自带的Analysis Manager概念与教程。

按照自学教程的步骤，完成对FoodMart数据源的联机分析。

建立、编辑多维数据集，进行OLAP 操作，看懂OLAP的分析数据。

实验步骤：1、启动联机分析管理器：开始->程序－>Microsoft SQL Server－>Analysis Manager。

2、按照 Analysis Service的自学教程完成对FoodMart数据源的联机分析。

3、在开始-设置-控制面板-管理工具-数据源（ODBC），数据源管理器中设置和源数据的连接，“数据源名”为你的班级+学号+姓名。

4、在开始-设置-控制面板-管理工具-服务-MSSQLServerOLAPService, 启动该项服务。

在Analysis Manager中，单击服务器名称，即可建立与 Analysis Servers 的连接；否则，在Analysis Servers 上单击右键，注册服务器，在服务器名称中输入本地计算机的名字，如pc56。

数据仓库与数据挖掘实验报告

数据仓库与数据挖掘实验报告一、引言数据仓库与数据挖掘是当今信息技术领域中非常重要的两个方向，它们的应用范围广泛，可以用于企业管理、市场分析、科学研究等方面。

本实验旨在通过学习和实践，深入了解数据仓库和数据挖掘的基本概念、原理和方法，并利用相应工具进行实际操作。

二、数据仓库实验1. 数据仓库概念及特点数据仓库（Data Warehouse）是指将各种不同来源的数据进行整合、清洗、转换后存储到一个统一的集合中，以便于进行查询和分析。

其主要特点包括：- 面向主题：即按照某个主题或业务领域来组织数据。

- 集成性：将来自不同系统和部门的数据整合到一个统一的存储介质中。

- 非易失性：即一旦存储到数据仓库中，就不能轻易删除或修改。

- 时间性：即记录历史信息，以便于进行趋势分析。

2. 数据仓库建模在建立一个完整的数据仓库之前，需要对其进行建模。

常见的建模方法包括星型模型和雪花模型。

其中星型模型是最常用的一种建模方法，其特点是以一个中心事实表为核心，围绕着它建立多个维度表。

而雪花模型则是在星型模型的基础上进一步拆分出多个层级的维度表。

3. 数据仓库实战在本次实验中，我们使用了SQL Server Management Studio （SSMS）这一数据库管理工具来创建和管理数据仓库。

首先我们需要创建一个数据库，并在其中创建一个事实表和多个维度表。

然后将各种不同来源的数据导入到相应的表中，并进行必要的清洗和转换操作。

最后，我们可以通过SQL查询语句来查询和分析数据。

三、数据挖掘实验1. 数据挖掘概念及过程数据挖掘（Data Mining）是指从大量数据中自动发现隐藏在其中的有价值的信息和知识，并将其应用于决策支持、预测分析等方面。

其主要过程包括：- 数据预处理：包括数据清洗、缺失值处理、异常值处理等。

- 特征选择：根据业务需求选择最有价值的特征变量。

- 模型构建：根据所选特征变量构建相应的分类或回归模型。

- 模型评估：对所构建模型进行评估，确定其准确性和可靠性。

数据挖掘实验报告

数据仓库与数据挖掘实验报告书班级：姓名：学号：指导老师：一．数据的预处理1.1 数据的导入打开软件，在窗口中添加数据源，并进行编辑，在“文件”选项中找到需要添加的目录，录入数据源，即“信用卡交易-Data”数据文件，如图：1.2 抽样为了提高运行速度，减少数据记录数。

需要通过“抽样”节点抽取部分样本进行分析研究。

设定样本为随机抽取30%。

如图：1.3 过滤字段数据文件中有没有涉及到的一部分字段，所以应该在本次分析中把这部分字段过滤掉。

比如“都市化程度、退票、申请书来源、逾期”等。

设置如图所示：1.4 类型设置由于原始数据的类型全部为“连续型”，其中有一部分不符合数据实际特点，为了分析要求，并根据现实情况中数据取值特点，分别更改各个字段的类型，具体类型如图所示：1.5 汇总、重排字段通过汇总研究，求出个人月收入的平均值和标准差，个人月开销的平均值和标准差，月刷卡额的合计和平均值等等，如图：定制输出与学历的关系，排序字段首先显示。

将学历设为第一个字段，年龄平均值设为第二个字段，如图：1.6 数据的选择丢弃性别女，年龄大于20的数据，然后在突出显示性别男，年龄大于35的记录，设置如下图示执行后，弹出下图，显示记录皆为丢弃性别为女，年龄>20的记录之后的记录。

1.7 数据的抽样从数据中抽取一部分数据进行数据分析。

从第一条记录开始连续选取200条记录，如图：同时标注家庭月收入模拟少于6000元。

则下图表中，家庭月收入模拟这一栏红字数据全部是少于6000的记录。

1.8 汇总、选择、抽样数据预处理将整体数据进行了汇总，设置过程如下图所示：。

则显示的列表中有申请书来源、强制停卡记录、性别、个人月收入模拟等6个字段的记录记数。

二、各种图形分析2.1 散点图如图是信用卡交易中的性别与个人每月消费情况的分布情况。

X轴是性别，Y 轴是个人每月消费。

图中可看出男女的个人每月消费大体相等，其中大部分集中0-10000元/月和10000-20000元/月2.2 多重散点图如图是个人月收入、个人月开销、年龄模拟的多重散点图各个年龄段的信用卡交易使用的差异不大， 55岁以上信用卡消费相对来说比较少一些。

数据仓库与数据挖掘实验报告

选择Flag, True value :为T，Falsevalue为F,
后单击该界面类似计算器图标的公式编辑器，在其内容里面写
fruitveg = ‘T’ and fish =’T’后点击check进行检查是否有语法错误，如果没有点击ok
4.在Derive节点后增加table节点，查看增加的health列内容。
五、实验结果
任课教师：***成绩：年月日
（注释：health列可理解为健康食品购买者）
5.去掉table节点，增加type节点，点击读入数据readvalues，把客户的个人信息（valuepmethod sex homeown income age）的Direction列设置成in，health的Direction列设置成out，其他的Direction列信息全部设置为none。
6.在type节点后增加决策树模型C5.0，决策树进行不剪枝设置，运行生成决策树1。
7.对生成的决策树进行分析。
8.对生成的决策树进行剪枝，生成决策树2。
9.分别对生成的模型（决策树1和决策树2）后添加Analysis节点，来对剪枝后的决策树进行分析，来确定是否可以剪枝成决策树2，给出自己的理由。
四、操作步骤
5.用web节点方法调节不同的参数环境，给出各数据属性之间的关联度，并给对结论给出解释。
第二步：决策树分析
要求：1.用自由格式读取Demo文件夹下的文件BASKETS1n，
2．接入type结点，点击readvalues读取数据，去掉一些与关联分析（即对购买商品关联分析）没有用的个人信息数据。
3.添加Derive节点，并重新命名该节点名称为health，Derive as
1
1
1
1
0

数据挖掘实验报告

数据挖掘实验报告
数据挖掘实验报告——数据仓库与数据挖掘
专业：网络营销
一、实验目的
1、熟悉SPSS Clementine 绘图。

2、了解SPSS Clementine 图形选项面板各节点的使用方法。

3、熟练掌握SPSS Cl ementine 数据可视化流程。

二、实验内容
1、打开SPSS Clementine 软件，逐一操作各图形选项面板，熟悉软件功能。

2、打开一有数据库、或新建数据文件，读入SPSS Clementine，并使用各种输出节点，熟悉数据输入输出。

(要求：至少做分布图、直方图、收集图、多重散点图、时间散点图)
三、实验步骤与分析过程
实验二：SPSS Clementine 数据可视化
1、启动Clementine：
2、建立一个流、导入相关数据，打开图形选项面板
3、绘制以下各类图形
（1）以颜色为层次的图
（2）以大小为层次的图
（3）以颜色、大小、形状和透明度为层次的图
（4）以面板图为层次的图
（5）三维收集图
（6）动画散点图
（7）分布图
（8）直方图
（9）收集图
（10）多重散点图
（11）网络图
五、实验总结
通过这次学习让我意识到，对于数据我们不仅要能会用spss统计来分析它
的规律，也要能会通过数据挖掘软件来挖掘数据当中的潜在信息，更好的数据使用者。

也熟悉了SPSS Clementine 的绘图特点，了解SPSS Clementine 图形选项面板各节点的使用方法并熟练掌握SPSS Clementine 数据可视化流程。

数据仓库与数据挖掘实验三

数据仓库与数据挖掘实验三引言概述：数据仓库与数据挖掘是当今信息技术领域中备受关注的两大重要概念。

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

而数据挖掘则是通过分析大量数据，发现其中隐藏的模式、规律和知识，为决策提供支持。

在本次实验中，我们将探讨数据仓库与数据挖掘的关系，以及它们在实际应用中的重要性。

一、数据仓库的概念与特点1.1 数据仓库的定义：数据仓库是一个面向主题的、集成的、时间变化的、非易失性的数据集合，用于支持管理决策。

1.2 数据仓库的特点：- 面向主题：数据仓库关注于特定主题或领域，如销售、市场等。

- 集成性：数据仓库集成了来自不同数据源的数据，保证数据的一致性。

- 时间变化性：数据仓库存储历史数据，可以进行时间序列分析。

- 非易失性：数据仓库的数据不易丢失，保证数据的完整性和持久性。

1.3 数据仓库的作用：- 支持决策：数据仓库提供决策者所需的数据，帮助其做出正确的决策。

- 数据分析：数据仓库可以进行数据分析，发现数据之间的关联和趋势。

- 业务规划：数据仓库可以帮助企业进行业务规划，提高竞争力。

二、数据挖掘的概念与方法2.1 数据挖掘的定义：数据挖掘是从大量数据中发现未知的、潜在有用的信息和知识的过程。

2.2 数据挖掘的方法：- 分类：将数据分为不同类别，如决策树、支持向量机等。

- 聚类：将数据分为不同的簇，发现数据的分布规律。

- 关联规则挖掘：发现数据项之间的关联关系，如购物篮分析。

2.3 数据挖掘的应用：- 市场营销：通过数据挖掘分析客户行为，制定精准的营销策略。

- 风险管理：通过数据挖掘分析风险因素，预测可能的风险事件。

- 医疗保健：通过数据挖掘分析病例数据，辅助医生做出诊断和治疗方案。

三、数据仓库与数据挖掘的关系3.1 数据仓库与数据挖掘的联系：数据仓库提供数据挖掘所需的数据源，为数据挖掘提供支持。

3.2 数据仓库与数据挖掘的区别：- 数据仓库是数据的存储和管理平台，数据挖掘是从数据中发现知识的过程。

数据仓库与及数据挖掘实验报告

XX邮电大学****学年第1学期实验报告课程名称：数据仓库与数据挖掘实验名称：文本的分类实验完成人：姓名：*** 学号：*&*** 姓名：** 学号：**日期：实验一：文本的分类1.实验目的◆掌握数据预处理的方法，对训练集数据进行预处理；◆掌握文本分类建模的方法，对语料库的文档进行建模；◆掌握分类算法的原理，基于有监督的机器学习方法，训练文本分类器；◆了解SVM机器学习方法，可以运用开源工具完成文本分类过程。

2.实验分工***:(1)对经过分词的文本进行特征提取并用lisvm进行训练(2)用训练的模型对测试数据进行预测***：(1)数据采集和预处理(2)分词3.实验环境Ubuntu 13.04+jdk1.74.主要设计思想4.1 实验工具介绍1．NLPIR_ICTCLAS2013NLPIR (又名ICTCLAS2013)，是由中科院张华平博士倾力打造的汉语分词系统。

其主要功能包括中文分词、词性标注、命名实体识别、用户词典功能、支持GBK 编码、UTF8编码、BIG5编码等。

从NLPIR官网可以下载其最新版的Java发布包，然后导入Eclipse，配置运行环境，实现对于语料库的分词。

最新的NLPIR可以通过更改源代码实现新增新词识别、关键词提取、微博分词等功能，极大地方便了使用。

2. Eclipse for JavaEclipse 是一个开放源代码的、基于Java的可扩展开发平台。

就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。

幸运的是，Eclipse 附带了一个标准的插件集，包括Java开发工具（Java Development Kit，JDK）。

3. LibSVM本次实验中我们采用的是台湾大学林智仁博士等开发设计的LIBSVM方法。

这是一个操作简单、易于使用、快速有效的通用SVM 软件包，可以解决分类问题(包括C−SVC 、ν−SVC )，回归问题(包括ε−SVR 、v−SVR ) 以及分布估计(one − class − SVM ) 等问题，提供了线性、多项式、径向基和S形函数四种常用的核函数供选择，可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。

数据仓库与数据挖掘实验报告

数据仓库与数据挖掘实验报告姓名：岩羊先生班级：数技2011学号：XXXXXX实验日期：2013年11月14日目录实验“图书销售分析”的多维数据集模型的设计【实验目的】1、熟悉SQLservermanager studio和VisualStudio2008软件功能和操作特点;2、了解SQLservermanager studio和VisualStudio2008软件的各选项面板和操作方法;3、熟练掌握SQLserver manager studio和VisualStudio2008工作流程。

【实验内容】1.打开SQLserver manager studio软件，逐一操作各选项，熟悉软件功能;2.根据给出的数据库模型“出版社销售图书Pubs”优化结构，新建立数据库并导出；3.打开VisualStudio2008，导入已有数据库、或新建数据文件，设计一个“图书销售分析”的多维数据集模型。

并使用各种输出节点，熟悉数据输入输出。

【实验环境】SQLserver manager studio , VisualStudio2008 , windows7【实验步骤】Step1 建立数据仓库的数据库：1.打开SQL Server manager studio：2.附加备份的数据库文件pubs_DW_Data.MDF和pubs_DW_Log.LDF并且做出优化：3.修改数据库属性：4.建立数据仓库所需的数据库bb（导出）：点击新建：（若库有重名，则换名）Step2 建立数据仓库的多维数据集5. 创建新的分析服务项目：6.新建数据源；导入数据库bb：使用服务账户：6. 新建数据源（本地服务器输入“.”）：选择数据源bb：选择表和视图：得到数据源视图:设置关系：7．建立多维数据集：得到多维数据集：8.处理多维数据集，得出模型：9.模型实例：【实验中的困难及解决办法】问题1：SQLserver中数据库的到导出解决方法：正确地新建数据库，选取需要的表和数据，谨慎选项，顺利导出。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.2数据挖掘技术
关联规则、决策树、聚类分析。
第2章
2.1数据
2.1.1数据属性结构
如表2-1、2-2所示。
表2-1 超市数据交易表
表2-2 影响小学生自控能力的因素分析调查表
2.1.2 数据库的相关处理
1.创建数据库
2.数据集导入
3.设置主键
4.创建数据库关系图
2.1.3
3.1关联规则
3.1.1关联规则挖掘过程图解
1.商业智能项目创建过程图解
2.数据源的创建过程图解
3.数据源视图创建过程图解
4.数据集挖掘结构创建过程图解
5.设置算法参数
6.处理挖掘结构过程图解
2.主要开发软件：SQL Sever 2005
3.辅助软件：Office
2.2数据库的结构模块简介
本数据库有两个数据集组成，超市交易数据集和影响小学生自控能力的因素分析调查表两个数据集。超市交易中有ID和Items两个属性；影响小学生自控能力的因素分析调查表数据集中有年级、学号、姓名、年龄、性别、民族、是否单亲、是否独生子女、父母文化程度、家庭经济状况、是否为班委、教师要求、师生关系、兴趣、性格、自控能力等属性。
做决策树,聚类分析所用的数据集影响小学生自控能力的因素分析调查分析数据库主要父母文化程度，家庭经济状况，教师要求，民族，年纪，年龄，师生关系，是否单亲，是否是独生子女，兴趣，性别，姓名，学号，性格，自控能力属性组成。此表是用来调查影响小学生自控能力的因素有哪些。此数据集做决策树的目的是，可以根据小学生的基本情况大致了解他的自控能力。此数据集做聚类分析，可以从中挖掘出小学生基本情况的分类。
《数据挖掘》大作业
院（系）名称：信息技术学院
专业年级：11级网络工程（物联网方向）
学号：111124092
学生姓名：朱玉
第1章
1.1数据简介
我的数据集是由两个不同的数据库组成，因为做关联规则的时候，影响小学生自控能力的因素分析调查分析数据库，不具备关联规则一对多的条件，因此，我用了课本上的的超市交易数据集。所以做关联规则的超市数据集，在这里我就不多介绍了。