西安交大数据挖掘第一次作业
上海交大网络教育数据挖掘第一次作业
数据挖掘
题目1
标记题目
选择一项:
A.
分类
B.
聚类
C. 自然语言处理
D. 关联规则发现
反馈
你的回答正确
正确答案是:关联规则发现题目2
标记题目
b.
聚类
c. 分类
d. 隐马尔可夫链
反馈
你的回答正确
正确答案是:
聚类
题目3
标记题目
什么是KDD?
选择一项:
A.
数据挖掘与知识发现
B. 动态知识发现
C.
领域知识发现
D.
文档知识发现
反馈
你的回答正确
正确答案是:
数据挖掘与知识发现
题目4
标记题目
使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务
选择一项:
A. 探索性数据分析
B.
建模描述
C. 寻找模式和规则
D.
预测建模
反馈
你的回答正确
正确答案是:探索性数据分析
题目5
标记题目
建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?
选择一项:
A. 探索性数据分析
B. 寻找模式和规则
C.
预测建模
D.
建模描述
反馈
你的回答正确
正确答案是:
预测建模
结束回顾。
数据挖掘作业1
数据挖掘技术选修课大作业学院:计算机学院专业:软件工程姓名:王小妮班级:软工1201学号:12080101071.1数据挖掘技术的定义1.2数据挖掘的含义1.3数据挖掘商业角度的定义1.4数据挖掘和数据仓库1.5数据挖掘和在线分析处理1.6软硬件发展对数据挖掘的影响2数据挖掘的典型技术2.1聚类分析2.1关联规则2.3回归分析2.4其他技术3数据挖掘技术的应用3.1在intnet的应用3.2在金融的应用4学习收获参考文献:1.1数据挖掘技术的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
1.2数据挖掘技术的含义与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。
这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。
人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。
原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。
因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。
在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
资料:11.2数据挖掘第一次作业
数据挖掘第一次作业
姓名:魏雨汐
学号:201528015329017
第1题:(a):
(b).沿着Day维上卷到year,沿着Location维上卷到City,按照city=Los angles 切块,将每一个vendor切片。
(c).位图索引允许在数据立方体中快速搜索,该数据仓库中包含四个维,可以建立四个位图索引表,其中,每个维的每个属性可有位图索引表的一个位向量表示。
如果数据表给定行上该属性值为v,则在位图索引的对应行,表示该值的位为1,该行的其他位均为0。
位图索引对于基数较小的值域比较有效,比较,连接和聚集操作都转化为位运算,减少了处理时间。
但是对于基数较高的值域,位图索引会变得低效,且位图索引表会占用大量的无用空间。
第2题:
散点图见下页
(d).
上机题:
(1).support%:
(2).confidence%:
(3).lift。
西安交大数据挖掘第一次作业
第一次作业Weihua Wang 1.给出一个例子,其中数据挖掘对于商务的成功是至关重要的。
该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?答: 亚马逊在线交易平台上的数据挖掘,显示出数据挖掘对于商务的成功是至关重要的。
该商务需要统计交易用户的消费信息,对用户进行分类;根据用户的历史消费信息,给出推荐广告,并定期往用户邮箱发送商品推荐邮件等等。
该商务应用了关联规则数据挖掘功能。
数据挖掘是一个非常重要且复杂的模块,要发现数据间的关联规则,不可能通过简单的数据查询处理或者简单的统计分析实现。
亚马逊有非常大的数据库,然后也会有各种各样的数据分析包括会跟很多的出版社还有一些中间商建立合作,然后会帮助他们去做书籍的整理、销售,就是客户满意度。
所以,数据量很大,然后亚马逊还需要通过这些数据去挖掘一些对于客户,对于用户有指导性的数据,他们建立的复杂的系统去分析这些数据。
2.使用你熟悉的生活中的数据库,给出关联规则挖掘、序列模式分析、分类、聚类、孤立点分析等数据挖掘功能的例子。
1)关联规则挖掘超市货架的商品摆放:方便面--->火腿肠(大部分人买方便面的同时会买火腿肠)。
2)序列模式分析可口可乐公司根据往年月份销售额的分析,给出不同季节的生产量。
3)分类移动公司根据用户的话费和缴费情况等信息,将用户分为不同的等级的用户,给予不同的透支欠费额度。
4) 聚类研究人员通过对全国各省份经济的分析,将全国经济大致划分为三种不同的经济类型。
5) 孤立点分析税务部门根据纳税户的相关数据,重点调查孤立点的纳税情况。
3. 与挖掘少量数据相比,挖掘海量数据的挑战有哪些?a) 规模大。
需要高效算法, 进行并行处理。
b) 高维特征。
导致搜索空间指数级增长,需要更好的算法进行维度约减。
c) 过拟合。
因过分强调对训练样本的效果导致过度拟合,使得对未知预测样本效果就会变差。
d) 动态、缺失、噪音数据的存在。
数据挖掘作业集答案
数据挖掘作业集答案《数据挖掘》作业集答案第一章引言一、填空题(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示(2)算法的效率、可扩展性和并行处理(3)统计学、数据库技术和机器学习(4)WEB挖掘(5)一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;三、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面(3)请简述不同历史时代数据库技术的演化。
答:1960年代和以前:研究文件系统。
1970年代:出现层次数据库和网状数据库。
1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。
1990年代:研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。
2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML 数据库和整合的信息系统。
(4)请列举数据挖掘应用常见的数据源。
(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。
其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。
(5)什么是模式兴趣度的客观度量和主观度量?答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。
数据挖掘第1次作业
数据挖掘第1次作业2013年2月27日星期三第一章1.给出一个例子,其中数据挖掘对于商务的成功是至关重要的。
该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?答:①例如:All Electronics 的每个分部都有一组自己的数据库,作为一个重要的电子商务,All Electronics需要考虑如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值。
该商务需要的数据挖掘功能有:关联规则挖掘(进行产品的捆绑推荐)、聚类(将客户细分,提供个性化服务)。
②它们不能由数据查询处理或简单的统计分析来实现,因为数据查询处理以及简单的统计分析只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。
2.使用你熟悉的生活中的数据库,给出关联规则挖掘、序列模式分析、分类、聚类、孤立点分析等数据挖掘功能的例子。
答:关联规则挖掘(Association rule)是指寻找在同一个事件中出现的不同项的相关性。
应用于产品目录设计,购物篮分析,以及交叉销售。
例如:在超市购物时候会发现洗发露货架旁边一定摆放着护发素以及沐浴露等,而且婴儿尿布货架旁会出现啤酒等。
序列模式分析是指寻找事件之间在顺序上的相关性。
应用于客户购买行为模式预测、自然灾害预测、web访问模式预测、DNA序列分析以及疾病诊断。
例如:有一个同学在网上订购了一台打印机,可以预测该同学会在之后购买墨盒和打印纸。
分类是指建立一个描述其他属性到类标签属性的函数关系的模型。
例如,银行通过对用户的home owner, marital status, taxable income 等进行分析,来构建decision tree,进而可以明确确定是否对用户发放信用卡。
聚类是将数据划分为相似对象组的过程,使得同一组中的对象相似度最大而不同组中的相似度最小。
例如,一些大型超市以及服装店根据消费者购物情况,对数据进行聚类,将消费者聚类分为普通消费者,VIP或者其它消费者等级,进而可以对消费者实行相对应的优惠政策。
西南交大数值分析第一次大作业答案
数值分析大作业1、证明:1-x-sinx=0在[0,1]内有一个根,使用二分法求误差不大于0.5*10^-4的根要迭代多少次,并输出每一步的迭代解和迭代误差证明:令f(x)= 1-x-sinx;f(0)=1,f(1)=-sin1f(0)*f(1)<0f’(x)=1-cosx<0在[0,1]内恒成立所以1-x-sinx=0在[0,1]内恒有一个根程序:function chap2bisecta = 0;b = 1;fprintf('n || a || b || c || r \n')for k=1:15c = (a+b)/2;r=(b-a)/2;fa =1-a-sin(a);fb =1-b-sin(b);fc =1-c-sin(c);fprintf('%d || %f || %f || %f \n',k,a,b,c,r);if abs(fc)<0.5*10^(-4) r=c; sprintf('the root is: %d' , r);elseif fa*fc<0 b=c;elseif fb*fc<0 a=c;endendroot = (a+b)/2结果:n || a || b || c || r1 || 0.000000 || 1.000000 || 0.500000 ||5.000000e-001 ||2 || 0.500000 || 1.000000 || 0.750000 ||2.500000e-001 ||3 || 0.500000 || 0.750000 || 0.625000 ||1.250000e-001 ||4 || 0.500000 || 0.625000 || 0.562500 ||6.250000e-002 ||125 || 0.500000 || 0.562500 || 0.531250 ||3.125000e-002 ||6 || 0.500000 || 0.531250 || 0.515625 ||1.562500e-002 ||7 || 0.500000 || 0.515625 || 0.507813 ||7.812500e-003 ||8 || 0.507813 || 0.515625 || 0.511719 ||3.906250e-003 || 9 || 0.507813 || 0.511719 || 0.509766 ||1.953125e-003 || 10 || 0.509766 || 0.511719 || 0.510742 ||9.765625e-004 || 11 || 0.510742 || 0.511719 || 0.511230 ||4.882813e-004 || 12 || 0.510742 || 0.511230 || 0.510986 ||2.441406e-004 || 13 || 0.510742 || 0.511230 || 0.510986 ||2.441406e-004 || 14 || 0.510742 || 0.511230 || 0.510986 ||2.441406e-004 || 15 || 0.510742 || 0.511230 || 0.510986 ||2.441406e-004 || root =0.510986328125000。
数据挖掘与知识发现作业一(工程硕士)
属性1
属性2
序号
属性1
属性2
1
2
10
5
7
5
2
2
5
6
6
4
3
8
4
7
1
2
4
5
8
8
4
9
四、员工数据如表,“count”属性表示重复记录数目,“salary”属性是类别属性,其余属性是描述属性。写出建立决策树的过程。
department
status
age
count
salary
s
senior
31..35
数据挖掘与知识发现作业一
一、数据库有5个事务,设最小支持度阈值为60%,最小置信度阈值为80%。
(1)用Apriori算法搜索所有频繁项集的过程。
(2)对Apriori算法找出的频繁项,任选一个找出其所有强关联规则。
事务
I1
{M,O,N,K,E,Y}
I2
{D,O,N,K,E,Y}
I3
{M,A,K,E}
I4
{M,U,C,K,Y}
I5
{C,O,O,K,I,E}
二、使用K均值算法把表中6个点聚为2个簇,假设第一次叠代选择序号1、4作为初始点。
序号
属性1
属性2
序号
属性1
属性2
1
1
1
4
1.2
1.2
2
0.8
1.2
5
0.9
0.7
3
1.3
0.9
6
1
1.4
三、用凝聚层次聚类方法对下面的样本聚类,假定算法的终止条件为3个簇,初始簇为{1}、{2}、{3}、{4}、{5}、{6}、{7}、{8}。
西安交通大学17年3月课程考试《数据结构》作业考核试题标准答案
西安交通大学17年3月课程考试《数据结构》作业考核试题一、单选题(共30 道试题,共60 分。
)1. 与数据元素本身的形式、内容、相对位置、个数无关的是数据的()A. 存储结构B. 逻辑结构C. 算法D. 操作正确答案:B2. 设一棵完全二叉树中有65个结点,则该完全二叉树的深度为()。
A. 8B. 7C. 6D. 5正确答案:B3. 利用直接插入排序法的思想建立一个有序线性表的时间复杂度为()。
A. O(n)B. O(nlog2n)C. O(n)D. O(1og2n)正确答案:C4. 栈的插入和删除操作在()进行。
A. 栈顶B. 栈底C. 任意位置D. 指定位置正确答案:A5. 二路归并排序的时间复杂度为()。
A. O(n)B. O(n)C. O(nlog2n)D. O(1og2n)正确答案:C6. 设某强连通图中有n个顶点,则该强连通图中至少有()条边。
A. n(n-1)B. n+1C. nD. n(n+1)正确答案:C7. 设一个顺序有序表A[1:14]中有14个元素,则采用二分法查找元素A[4]的过程中比较元素的顺序为()A. A[1],A[2],A[3],A[4]B. A[1],A[14],A[7],A[4]C. A[7],A[3],A[5],A[4]D. A[7],A[5],A[3],A[4]正确答案:C8. 下列各种排序算法中平均时间复杂度为O(n)是()。
A. 快速排序B. 堆排序C. 归并排序D. 冒泡排序正确答案:D9. 如下陈述中正确的是()A. 串是一种特殊的线性表B. 串的长度必须大于零C. 串中元素只能是字母D. 空串就是空白串正确答案:A10. 设有一个二维数组A[m][n],假设A[0][0]存放位置在644(10),A[2][2]存放位置在676(10),每个元素占一个空间,问A[3][3](10)存放在什么位置()?脚注(10)表示用10进制表示。
A. 688B. 678C. 692D. 696正确答案:C11. 适于对动态查找表进行高效率查找的组织结构是()A. 有序表B. 分块有序表C. 三叉排序树D. 线性链表正确答案:C12. 设某完全无向图中有n个顶点,则该完全无向图中有()条边。
西安交大数据挖掘第五次作业
第五次作业Weihua Wang 1、假设数据挖掘的任务是将如下八个点聚类为三个类.A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9)距离函数为欧几里得函数.假设初始我们选择A1,B1,C1为每个聚类的中心,用K-means 方法给出:a)在第一次循环后的三个聚类中心b)最后的三个簇解:首先计算A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) A1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 B1(5,8) 3.61 4.24 5 0 3.61 4.12 7.21 1.41 C1(1,2) 8.06 3.16 7.28 7.21 6.71 5.36 0 7.62由上表可得,各点的归属簇为:A1:A1,B1:A3,B1,B2,B3,C2C1:A2,C1第一次循环后三个聚类中心为First1:(2,10)First2:((8+5+7+6+4)/5,(4+8+5+4+9)/5)=(6,6)First3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) F1(2,10) 0 5 8.49 3.61 7.08 7.21 8.06 2.24 F2(6,6) 5.66 4.12 2.83 2.24 1.41 2 6.40 3.61 F3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可得,各点的归属簇为:F1:A1,C2F2:A3,B1,B2,B3F3:A2,C1Second1:((2+4)/2,(10+9)/2)=(3,9.5)Second2:((8+5+7+6)/4,(4+8+5+4)/4)=(6.5,5.25)Second3:((2+1)/2,(5+2)/2)=(1.5,3.5)继续计算各点到簇中心的距离A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) S1(3,9.5) 1.12 4.61 7.43 2.50 6.02 6.26 7.76 1.12 S2(6.5,5.25) 6.54 4.51 1.96 3.13 0.56 1.35 6.39 4.51 S3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:S1:A1,B1,C2S2:A3,B2,B3S3:A2,C1Third1:((2+5+4)/3,(10+8+9)/3)=(3.67,9)Third2:((8+7+6)/3,(4+5+4)/3)=(7,4.33)Third3: ((2+1)/2,(5+2)/2)=(1.5,3.5)A1(2,10) A2(2,5) A3(8,4) B1(5,8) B2(7,5) B3(6,4) C1(1,2) C2(4,9) T1(3.67,9) 1.95 4.33 6.61 1.66 5.20 5.52 7.49 0.33 T2(7,4.33)7.56 5.04 1.05 4.18 0.67 1.05 6.44 5.55 T3(1.5,3.5) 6.52 1.58 6.52 5.70 5.70 4.53 1.58 6.04由上表可知,各点的归属簇为:T1:A1,B1,C2T2:A3,B2,B3T3:A2,C1各点的归属簇至此已不发生变化,故最后的三个簇为:Final1:A1,B1,C2Final2:A3,B2,B3Final3:A2,C12、进行单链和全链层次聚类,绘制树状图显示结果,树状图应当清楚地显示合并的次序。
西安交通大学-数据挖掘-作业6
解:
HITS算法如下:
1.a(i),h(i)分别表示网页结点i 的Authority值和Hub值。
2.在初始情况下,在没有更多可利用信息前,每个页面的这两个权值都是相同
的,可以都设置为1,即:
3.每次迭代计算Hub权值和Authority权值:
✓网页 a(i)在此轮迭代中的Authority权值即为所有指向网页 a (i)页面
的Hub值之和:a(i) = Σh(i) ;
✓网页 a(i)的Hub分值为所指向的页面的Authority值之和:h(i) = Σa(i)
4.重复步骤3:上一轮迭代计算中的权值和本轮迭代之后权值的差异,如果发
现总体来说权值变化小于阈值,说明系统已进入稳定状态,则可以结束计算,
即a(u),h(v)收敛
初始的M矩阵如下:
M=
转置后:
M T=
MM T=
计算M T M
M T M=
不断迭代,设阈值为5,迭代五次,各次的hubness and authority weights值如下:
H======
A====== 最终结果如下:。
大工20春《数据挖掘》课程大作业满分答案
网络教育学院《数据挖掘》课程大作业题目:姓名:学习中心:第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。
《数据挖掘》这门课程是一门实用性非常强的课程,数据挖掘是大数据这门前沿技术的基础,拥有广阔的前景,在信息化时代具有非常重要的意义。
数据挖掘的研究领域非常广泛,主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。
学习过程中,我也遇到了不少困难,例如基础差,对于Python基础不牢,尤其是在进行这次课程作业时,显得力不从心;个别算法也学习的不够透彻。
在接下来的学习中,我仍然要加强理论知识的学习,并且在学习的同时联系实际,在日常工作中注意运用《数据挖掘》所学到的知识,不断加深巩固,不断发现问题,解决问题。
另外,对于自己掌握不牢的知识要勤复习,多练习,使自己早日成为一名合格的计算机毕业生。
第二大题:完成下面一项大作业题目。
2020春《数据挖掘》课程大作业注意:从以下5个题目中任选其一作答。
题目一:Knn算法原理以及python实现要求:文档用使用word撰写即可。
主要内容必须包括:(1)算法介绍。
(2)算法流程。
(3)python实现算法以及预测。
(4)整个word文件名为 [姓名奥鹏卡号学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )作业提交:大作业上交时文件名写法为:[姓名奥鹏卡号学习中心](如:戴卫东101410013979浙江台州奥鹏学习中心[1]VIP)以附件形式上交离线作业(附件的大小限制在10M以内),选择已完成的作业(注意命名),点提交即可。
如下图所示。
注意事项:独立完成作业,不准抄袭其他人或者请人代做,如有雷同作业,成绩以零分计!(一)Knn算法介绍KNN算法,又叫K最邻近分类算法,是数据挖掘分类技术中最简单的方法之一。
大工22春《数据挖掘》在线作业123答案
大工22春《数据挖掘》在线作业1试卷总分:100 得分:100一、单选题(共10 道试题,共50 分)1.下面标识符中不是Python语言的关键字的是:()A.floatB.exceptC.continueD.global答案:A2.以下不属于Python的关键字的是()A.markB.delC.returnD.global答案:A3.Python中定义函数的关键字是()A.defB.defineC.functionD.defunc答案:A4.以下选项对Python文件操作描述错误的是()A.当文件以文本方式打开时,读写会按照字节流方式进行B.Python能以文本和二进制两种方式处理文件C.文件使用结束后要用close()方法关闭,释放文件的使用授权D.Python能通过内置的open()函数打开一个文件进行操作答案:A5.下列不是Python对文件进行读操作的方法是()A.readtextB.readlinesC.readD.readline答案:A6.Python中操作集合时,可以使用哪个函数来对集合进行增加元素的操作()A.appendB.putC.popD.add答案:D7.关于Python中异常处理,以下描述错误的是()A.异常语句可以与else和finally关键字配合使用B.程序异常发生后经过异常处理,程序可以继续执行C.Python通过try、except等关键字提供异常处理功能D.编程语言中的异常和错误完全是相同的概念答案:D8.以下那个关键字不是异常处理语句的关键字()A.elifB.exceptC.tryD.finally答案:A9.以下选项中不是Python关键字的是()A.whileB.exceptC.inD.do答案:D10.以下选项中用来捕获特定类型异常的关键字是()A.doB.passC.whileD.except答案:D二、判断题(共10 道试题,共50 分)11.在Python3.5中,集合类型的各个元素之间存在先后顺序。
西交计算方法A上机大作业
计算方法A 上机大作业1. 共轭梯度法求解线性方程组算法原理:由定理3.4.1可知系数矩阵A 是对称正定矩阵的线性方程组Ax=b 的解与求解二次函数1()2TT f x x Ax b x =- 极小点具有等价性,所以可以利用共轭梯度法求解1()2TT f x x Ax b x =-的极小点来达到求解Ax=b 的目的。
共轭梯度法在形式上具有迭代法的特征,在给定初始值情况下,根据迭代公式:(1)()()k k k k x x d α+=+产生的迭代序列(1)(2)(3)x x x ,,,... 在无舍入误差假定下,最多经过n 次迭代,就可求得()f x 的最小值,也就是方程Ax=b 的解。
首先导出最佳步长k α的计算式。
假设迭代点()k x 和搜索方向()k d 已经给定,便可以通过()()()()k k f x d φαα=+的极小化()()min ()()k k f x d φαα=+来求得,根据多元复合函数的求导法则得:()()()'()()k k T k f x d d φαα=∇+令'()0φα=,得到:()()()()k T k k k T k r d d Adα= ,其中()()k k r b Ax =-然后确定搜索方向()k d 。
给定初始向量(0)x 后,由于负梯度方向是函数下降最快的方向,故第一次迭代取搜索方向(0)(0)(0)(0)()dr f x b Ax ==-∇=- 。
令(1)(0)00x x d α=+其中(0)(0)0(0)(0)T T r d d Adα=。
第二次迭代时,从(1)x 出发的搜索方向不再取(1)r ,而是选取(1)(1)(0)0dr d β=+,使得(1)d 与(0)d 是关于矩阵A 的共轭向量,由此可求得参数0β:(1)(0)0(0)(0)T T r Ad d Adβ=-然后从(1)x 出发,沿(1)d 进行搜索得到(2)(1)(1)1x x d α=+设已经求出(1)()()k k k k x x d α+=+,计算(1)(1)k k r b Ax ++=-。
数据挖掘技术平时作业
数据挖掘技术平时作业第一次:1.什么是数据挖掘?当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。
【参考答案】数据挖掘是指从大量数据中提取有趣的(有价值的、隐含的、先前未知的、潜在有用的)关系、模式或趋势,并用这些知识与规则建立用于决策支持的模型,提供预测性决策支持的方法。
很多学者把数据挖掘当作另一术语KDD的同义词,而另一些学者把数据挖掘看作KDD的一个步骤。
当把数据挖掘看作知识发现过程时,数据挖掘的过程大致有以下几步:!)数据清理与集成2)任务相关数据分析与选择3)数据挖掘实施4)模式评估5)知识理解与应用第二次:1.在现实世界中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
【参考答案】处理空缺的属性值有以下几种方法:1)忽略元组2)人工填写空缺值3)自动填充(1)使用全局常量,如用Unknown 或-∞(2)使用属性的平均值(3)使用与给定元组属于同一类的所有样本的平均值(4)使用可能的值:这些值可以用回归、判定树、基于推导的贝叶斯形式化方法等确定2.假定用于分析的数据包含属性age,数据元组中age的值如下:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70a)使用最小-最大规范化,将age值35转换到[0.0,1.0]区间。
【参考答案】根据公式min'(_max_min)_minmax minAA A AA AVV new new new-=-+-进行计算。
根据提供的数据,maxA=70,minA=13,将将age值35转换到[0.0,1.0]区间,有:V’=(35-13)/(70-13)*(1.0-0.0)+0.0=0.386所以,将值35映射到区间[0.0,1.0]后的值为0.386。
b)使用Z-Score规范化转换age值,其中age的标准差为12.94。
西安交大数据挖掘第二次作业
{Dairyland-Milk,Tasty-Pie}=>Wonder-Bread [66.7%,100%]
Sunset-Milk=>{Wonder-Bread,Dairyland-Cheese} [66.7%,100%]
100%
{Milk,Cheese}=>Bread
100%
{Cheese,Bread}=>Milk
100%
b.解答:
项集
支持度计数
{Wonder-Bread,Dairyland-Milk,Tasty-Pie}
2
{Wonder-Bread,Sunset-Milk,Dairyland-Cheese}
2
强关联规则
第二次作业
Weihua Wang
1、证明。
给定频繁项集L和L的子集S,证明规则S'--->(L-S')的置信度不可能大于S --->(L-S)的置信度。其中,S'是S的子集。
证明:因为S'是S的子集,根据先验性质可得,频繁项集L的子集S和S'都是频繁项集,并且 。
关联规则S'--->(L-S')的置信度为:
{Sunset-Milk,Dairyland-Cheese}=>Wonder-Bread [66.7%,100%]
Dairyland-Milk=>{Wonder-Bread,Tasty-Pie} [66.7%,100%]
Tasty-Pie=>{Dairyland-Milk,Wonder-Bread} [66.7%,100%]
西安交大fortran第一次上机作业
工程分析程序设计 上机作业(一)Fortran 程序设计基础上机目的:掌握程序书写、字符集和标识符、数据类型、声明、算术表达式、表控输入输出语句等编程基本概念。
1、 若有实型数A=1.0, B=3.5, T=10.0, X=5.0; 整型数I=-5, J=7, K=3,求出下面表达式的值-(A+T) (B+(X/T))/(4.0*A) (I*J)/K (I/K)*J+T/X-(K+1)/5+I*A-B SQRT(REAL(ABS(K)+1)) MAX(J,MOD(J,K)) J+INT(T/B)/2 程序:program sj1.1implicit nonereal :: a=1.0,b=3.5,t=10.0,x=5.0integer ::i=-5,j=7,k=3write (*,'("-(A+T)=",f5.1,tr5,"(B+(X/T))/(4.0*A)=",f5.1,tr5,"(I*J)/K=",i3,tr5,"(I/K)*J+T/X=",f5.1,&tr5,"-(K+1)/5+I*A-B=",f5.1,tr5,"SQRT(REAL(ABS(K)+1))=",f5.1,tr5,"MAX(J,MOD(J,K))=",i3,tr5,"J+INT(&T /B)/2=",i3)'),-(A+T),(B+(X/T))/(4.0*A),(I*J)/K,(I/K)*J+T/X,-(K+1)/5+I*A-B,SQRT(REAL(ABS(K)+1)),& MAX (J,MOD (J,K)),J+INT (T/B)/2end program sj1.1运算结果:-(A+T)=-11.0 (B+(X/T))/(4.0*A)= 1.0 (I*J)/K=-11 (I/K)*J+T/X= -5.0 -(K+1)/5+I*A-B= -8.5 SQRT(REAL(ABS(K)+1))= 2.0 MAX(J,MOD(J,K))= 7 J+INT(T/B)/2= 82、 假定a =1.0, b =2.0, c =-1.0,求以下数学表达式的计算值:2234a b a b +-2b a -+ 26ln()1403b c a++cos ⎛⎫1sin tan c -⎛ ⎪⎝⎭程序:program sj12implicit nonereal ::a=1,b=2,c=-1,d(5)integer id(1)=(3*a**2+4*b**2)/(a-b)d(2)=(-b+sqrt (b*b-4*a*c))/2*ad(3)=(6*log ((b+c)**2))/(140/(3+a))d(4)=cos (b/(sqrt (a**2+b**2)))d(5)=sin (atan (sqrt (a**2+b**2)/abs (c)))!print*,log(10)do i=1,5print *,d(i)end program sj12运行结果:-19.000000.41421350.0000000E+000.62596570.91287093、 有一个六边形,求其面积。
西安交大 数据库 答案
复习题(一)1、设R 是二元关系,请分别说明下列关系表达式的结果是什么?并将E1和E2转换为等价的关系代数表达式E1={[][][][]})))2211()()(()(u t u t u R t R u t ≠∨≠∧∧∃参考答案:如果R 只有1行,则结果为空;否则,结果为R 本身。
E2={})()(ba R ab R ab ∧参考答案:结果为R 中第1分量和第2分量交换位置后仍然属于R 的数据行。
2、设有下列关系: R( A, B, C, D ) S( C, D, E) T( F, C, D)b bcd c d me c df a e f c d n c e fb b e f e f nf a d ed ge fd g c d(1) 试计算下列关系表达式的值:E1={t |(∃u)(∃v)(∃w)(R(u)∧S(v)∧T(w)∧u[3]>’c’∧v[2] ≠’d’∧w[3] ≠’f’∧u[4]=v[2]∧v[1]>w[2]∧t[1]=u[2]∧t[2]=u[3]∧t[3]=v[1]∧t[4]=w[3]∧t[5]=w[2])}参考答案:E1( B, R.C, S.C, T.D, T.C)a e e d cb e e d cg e e d cE2 =∏ A, B, R.C, R.D,E,F (σA < 'f '∧E<'n'∧F ≠'c' (R ⋈ S ⋈T))参考答案:E2(A, B, R.C, R.D, E, F)b bcd m ed g c d m eE3 = R ÷∏ C,D (S )参考答案:E3(A B )b bd g(2) 试将E1转换为等价的关系代数表达式参考答案:E1=∏ B, R.C, S.C,T.D, T.C(σC<’c'∧R.D≠'d'∧T.D≠'f'∧R.D=S.D∧S.C>T.C(RⅹSⅹT))(3) 试将E2转换为等价的关系元组演算表达式参考答案:E2={t|∃u)(∃v)(∃w)(R(u)∧S(v)∧T(w)∧u[1]<'f'∧v[3]<'n'∧w[1]≠'c'∧u[3]=v[1]∧u[4]=v[2]∧v[1]=w[2]∧v[2]=w[3]∧t[1]=u[1]∧t[2]=u[2]∧t[3]=u[3]∧t[4]=v[2]∧t[5]=v[3]∧t[6]=w[1])}(4) 对E2进行代数优化参考答案:3、设有下列关系:R( A, B, C, D) S( A, B, E) T( C, F, G)a2 b2 c2 d1 a1 b1 e2 c1 f1 g1a3 b1 c2 d2 a1 b1 e3 c2 f2 g2a3 b1 c3 d3 a1 b4 e2 c2 f3 g1a3 b3 c1 d1 a2 b1 e2a3 b4 c2 d2 a2 b2 e1a3 b4 e3(1)试计算下列关系表达式的值:E1={t|(∃u)(∃v)(∃w)(R(u)∧S(v)∧T(w)∧u[2]=’b1’∧v[1]>’a1’∧w[1]>’c1’∧u[1]>v[1] ∧u[2]=v[2]∧u[3]=w[1]∧t[1]=u[4]∧t[2]=v[3]∧t[3]=w[2])}参考答案:E1( D E F)d2 e2 f2d2 e2 f3E2=∏ R.B,R.C,S.A,F(σD>’d1’∧E=’e3’∧F>’f2’∧R.A=S.A∧R.B=S.B∧R.C=T.C(R×S×T))参考答案:E2( R.B R.C S.A F)b4 c2 a3 f3}E3=R÷S参考答案:E3(A,B)(2) 试将E1转换为等价的关系代数表达式参考答案:E1=∏ R.D,R.E,T.F(σB>’b1’∧S.A>’a1’∧T.C>’c1’∧R.A>S.A∧R.B=S.B(R×S×T))(2)试将E2转换为等价的关系元组演算表达式参考答案:E2={t|(∃u)(∃v)(∃w)(R(u)∧S(v)∧T(w)∧u[4]>’d1’∧v[3]=’e3’∧w[2]>’f2’∧R.A=S.A ∧R.B=S.B∧R.C=T.C∧t[1]=u[2]∧t[2]=u[3]∧t[3]=v[1]∧t[4]=w[2])}(4) 对E2进行代数优化4、设有下列关系:R( A, B, C) S( B, C, D, E) T( D, F, G)a1 b2 c1 b2 c2 d1 e1 d1 f1 g1a1 b2 c2 b2 c2 d2 e1 d1 f2 g2a2 b2 c1 b2 c1 d2 e2 d2 f1 g3a2 b2 c2 b2 c1 d3 e3 d2 f3 g4a2 b3 c1 b3 c4 d1 e1 d3 f1 g5a3 b1 c2 d3 f2 g6a3 b2 c4a3 b3 c4(1)试计算下列关系表达式的值:E1=∏A,S.B,E,F(σA=’a2’∧E=’e1’∧G<’g4’(R⋈S⋈T))参考答案:E1(A , S.C, E, F)a2 c2 e1 f2a2 c2 e1 f1E2={xyz|(∃quvw)∧(R(wqx)∧S(qxyu)∧T(yvz)∧w>’a2’∧u<’e2’∧v=’f1’)}参考答案:E2(C, D, G)c4 d1 g1(2)试将E1转换为等价的关系元组演算表达式参考答案:E1={t|(∃u)( ∃v)( ∃w)(R(u) ∧S(v) ∧T(w) ∧u[2]=v[1] ∧u[3] =v[2]∧v[3]=w[1] ∧u[1]=’a2’ ∧v[4]=’e1’ ∧w[3]<’g4’ ∧t[1]=u[1]∧t[2]=v[2] ∧t[3]=v[3] ∧t[4]=w[2]}(3)试将E2转换为等价的关系代数表达式参考答案:E2=∏C,D,G(σA>’a2’∧E<’e1’∧G=’f1’∧R.B=S.B∧R.C=S.C∧S.D=T.D(R×S×T))E2=∏C,D,G(σA>’a2’∧E<’e2’∧F=’f1’ (R⋈S⋈T))(4)对E1进行代数优化5、以下定义的是某汽车修理厂管理系统数据库,其中加下划线的为关系模式主键,斜体字为外键。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一次作业
Weihua Wang 1.给出一个例子,其中数据挖掘对于商务的成功是至关重要的。
该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?
答: 亚马逊在线交易平台上的数据挖掘,显示出数据挖掘对于商务的成功是至关重要的。
该商务需要统计交易用户的消费信息,对用户进行分类;
根据用户的历史消费信息,给出推荐广告,并定期往用户邮箱发送商品推荐邮件等等。
该商务应用了关联规则数据挖掘功能。
数据挖掘是一个非常重要且复杂的模块,要发现数据间的关联规则,不可能通过简单的数据查询处理或者简单的统计分析实现。
亚马逊有非常大的数据库,然后也会有各种各样的数据分析包括会跟很多的出版社还有一些中间商建立合作,然后会帮助他们去做书籍的整理、销售,就是客户满意度。
所以,数据量很大,然后亚马逊还需要通过这些数据去挖掘一些对于客户,对于用户有指导性的数据,他们建立的复杂的系统去分析这些数据。
2.使用你熟悉的生活中的数据库,给出关联规则挖掘、序列模
式分析、分类、聚类、孤立点分析等数据挖掘功能的例子。
1)关联规则挖掘
超市货架的商品摆放:方便面--->火腿肠(大部分人买方便面的同时会买火腿肠)。
2)序列模式分析
可口可乐公司根据往年月份销售额的分析,给出不同季节的生产量。
3)分类
移动公司根据用户的话费和缴费情况等信息,将用户分为不同的等级的
用户,给予不同的透支欠费额度。
4) 聚类
研究人员通过对全国各省份经济的分析,将全国经济大致划分为三种不同的经济类型。
5) 孤立点分析
税务部门根据纳税户的相关数据,重点调查孤立点的纳税情况。
3. 与挖掘少量数据相比,挖掘海量数据的挑战有哪些?
a) 规模大。
需要高效算法, 进行并行处理。
b) 高维特征。
导致搜索空间指数级增长,需要更好的算法进行维度约减。
c) 过拟合。
因过分强调对训练样本的效果导致过度拟合,使得对未知预测
样本效果就会变差。
d) 动态、缺失、噪音数据的存在。
e) 领域知识的运用。
f) 模式的可理解性。
4. 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得
到如下结果:
a) 计算age 和%fat 的均值、中位数和标准差。
232272394147495052/184654256575826061AgeAve ⨯+⨯+++++++⎛⎫ ⎪⎝⎭
==⨯+++⨯++ 9.526.57.817.831.425.927.4%27.231.234.642.528.833.4/1828.8
30.234.132.941.235.7fatAve ⎛⎫ ⎪ ⎪ ++++++=++++++=+++++⎪⎝⎭
()5052/251AgeMid =+=
()
fatMid=+=
%30.231.2/230.7
AgeS==
=
13.23
b)绘制age和%fat的盒图。
age: Q1=39 ,Q3=57, IQR=57-39=18,1.5IQR=27,
(39-27, 57+27)=(12, 84)
%fat: Q1=26.5, Q3=34.1, IQR=34.1-26.5=7.6, 1.5IQR=11.4,
(26.5-11.4, 34.1+11.4)=(15.1, 45.5)
c)绘制基于这两个变量的散点图和q-q图。
散点图:
q-q图:。