数据挖掘 课后习题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

© 李春权 数据挖掘
哈尔滨医科大学
生物信息科学与技术学院 2012
‹#›
当数据有一些离群点时,采用均值和标准差进行数据标准 化受离群点影响大。这时可用_中位点 和__绝对标准差 代 替。
对象之间相似度和相异度测量方法主要有哪些?
n
1
明可夫斯基距离 d(x, y) (| xk yk |r )r ,当r=1时,该距离称为
SMC = (f11 + f00)/(f01 + f10 + f11 + f00) = (10+60) / (10+20+10+60) = 0.7
J = (f11) / (f01 + f10 + f11)
= 10 / (10 + 20 + 10) = 0.25
© 李春权 数据挖掘
哈尔滨医科大学
生物信息科学与技术学院 2012
的候选项集时,访问了Hash树的哪些叶节点? (b)使用(a)中访问的叶节点确定事务{1,3,4,5,8}包含
的候选项集。
习题
习题
3. 将Apriori算法用于下表所示的数据集,最小支持 度为30%.
习题
3. (a)画出数据集的项集格。并用以下字母标记格中 的每个节点。N:不是候选项集;F:频繁项集; I:经支持度计数后,发现是非频繁的候选项集。 (b)频繁项集的百分比是多少? (c)Apriori算法的剪枝率是多少? (d)假警告率是多少?(假警告率指经过支持度计 算后被发现是非频繁的候选项集所占的百分比。)
习题
2. 对于下面给定的每个序列w=<e1, e2, …ei, ei+1,… elast>,确定它们是否是序列 <{1,2,3}{2,4}{2,4,5}{3,5}{6}>的子序列,时限约 束为:mingap=0; maxgap=3; maxspan=5; ws=1; w=<{1}{2}{3}> w=<{1,2,3,4}{5,6}> w=<{2,4}{2,4}{6}> w=<{1}{2,4}{6}> w=<{1,2}{3,4}{5,6}>
© 李春权 数据挖掘
哈尔滨医科大学
生物信息科学与技术学院 2012
‹#›
(判断对错!)OMIM数据库中每个疾病已知的疾病基因 很少,因此难以利用他们来识别相应的通路。为此我们可 以利用特征选择的方法把疾病亚类汇集起来,如肝移植、 肾移植、…等疾病,称为器官移植疾病。然后得到较多的 基因,再进行识别通路。(错,聚集的方法) 统计学使用抽样是因为__获得__(获得、处理)感兴趣的 整个数据集的费用太高、太费时间。数据挖掘使用抽样是 因为__处理__(获得、处理)所有的数据的费用太高、太 费时间。 已知人类基因有2万个,我们检测了所有1000疾病基因对 在通路中的距离,结果发现它们的平均距离(d)很小。 但我们不确定这种现象是否是疾病基因特有的。试利用抽 样方法来验证这种现象。 连续属性离散化方法主要有_______、_______和_______。 叙述等宽和等频离散化方法的原理。
k 1
_城市块距离_。当r=2时,该距离称为__________。
有两个数据对象,他们都是一维的数据(即简单属性), 那么当他们是标称、序数、或连续属性时,他们之间的相 似度和相异度怎样计算。
如果利用基因表达谱来构建基因相关网络,可以把每个基
因当作数据对象,然后计算对象间的表达相关度。那么计
算这种相关度可以使用___皮尔森相关系数__测度。阐述
习题-2:
数据(或属性)的类型有哪几种?怎样区分这些 类型?每种类型举一个例子。
标称属性的值只提供足够的信息以___区分__对象 . 序数属性的值提供足够的信息确定对象的__序 ___. 对于比率属性的值,进行_差_和___比率__ 操作都是有意义的.
摄氏温度、年龄、质量、长度、基因表达量、一 号染色体的基因起始位置,它们分别属于什么数 据类型。
© 李春权 数据挖掘
哈尔滨医科大学
生物信息科学与技术学院 2012
‹#›
如下是酵母细胞在多个时间点上的全基因组表达
情况。该数据集属于哪种具体的数据集类型?这 种数据有什么特点。
YORF YKR005C YKR006C YKR007W YKR008W YKL225W YKR009C
Time0.0hrs Time0.5hrs Time1.0hrs Time1.5hrs
数据集的类型主要有几类?每种类型又包含哪些 具体的数据集子类型。
© 李春权 数据挖掘
哈尔滨医科大学
生物信息科学与技术学院 2012
‹#›
数据矩阵是一种特殊的记录数据类型。与记录数 据类型相比,特殊在哪里?
目前有100多个代谢通路,如葡萄糖代谢、嘌呤代 谢等,那么葡萄糖代谢属于带有对象之间联系的 数据还是具有图形对象的数据?
© 李春权 数据挖掘
哈尔滨医科大学
生物信息科学与技术学院 2011
‹#›
基于SNN密度的聚类不象JP聚类简单地使 用域值,然后取______作为簇,基于SNN 密度的聚类使用基于SNN密度和_______方 法。
SNN密度的优势。
© 李春权 数据挖掘
哈尔滨医科大学
生物信息科学与技术学院 2011
‹#›
你选择这种测度的理由?并叙述怎样利用这种测度来构建
© 李春网权络。数据(挖因掘 为是哈尔连滨医续科的大学)
生物信息科学与技术学院 2012
‹#›
疾病的发生、发展与通路密切相关。目前已知的 通路有100个。研究人员发现皮肤癌与其中的30个 通路相关,中风与其中的20个通路相关。而且这 两个疾病共享的通路有10个。选择一种方法计算 这两个疾病的相似性值?
习题
确定上面每个子序列w是否是下面序列s的邻接子 序列。 s=<{1,2,3,4,5,6}{1,2,3,4,5,6}{1,2,3,4,5,6}> s=<{1,2,3,4}{1,2,3,4,5,6}{3,4,5,6}> s=<{1,2}{1,2,3,4}{3,4,5,6}{5,6}> s=<{1,2,3}{2,3,4,5}{4,5,6}>
习题-6
1. 考虑下表中的数据 (a)计算项集{e},{b,d}
和{b,d,e}的支持度. (b)利用(a)计算的结果
,计算关联规则 {b,d}=>{e}和 {e}=>{b,d}的置信 度。置信度是对称 的度量吗?
习题
2. 考虑如图所示的候选3-项集的Hash树 (a)给定一个包含项{1,3,4,5,8}的事务,在寻找该事务
(i) {(1 ≤ A ≤ 2),B = 1} → {C = 1} (ii) {(5 ≤ A ≤ 8),B = 1} → {C = 1}
习题
(a)计算这两个规则的支持度和置信度。 (b)为了使用传统的Apriori算法找出这些规则,我们需
要离散化连续属性A。假定我们使用等宽分箱方法 离散化该数据,其中bin-width=2,3,4.对于每个 bin-width,上面两个规则是否能够被Apriori算法 发现?对于每个与前面规则对应的规则,计算其 支持度和置信度。
习题 4. 考虑下面的相依表
(a)对于表I,计算关联模式{A,B}的支持度,兴趣度和φ相关系
数,并计算规则A→B和B→A的置信度。
(b)对于表II ,计算关联模式{A,B}的支持度,兴趣度和φ相关
系数,并计算规则A→B和B→A的置信度。
(c)由(a)和(b)的结果可以得出什么结论。
习题-7
1. 考虑下表所示的数据集。第一个 属性是连续的,而其余两个属性 是非对称二元的。一个规则是强 规则,如果它的支持度超过15% 且置信度超过60%。表中数据支 持如下两个强规则:
‹#›
习题-6
随机森林方法原理 怎样利用多棵决策树来寻找疾病风险 基因 随机森林与组合决策方法的异同点 详细阅读组合决策方法论文 组合决策还适用于解决哪些生物学( 医学)问题
© 李春权 数据挖掘
哈尔滨医科大学
生物信息科学与技术学院 2011
‹#›
习题-9
稀疏化的好处 OPOSSUM聚类算法中重要一个步骤是稀疏化, 叙述该稀疏化方法 Chameleon算法使用接近性和互连性概念以及簇 的局部建模。关键思想是:使用______和______ 概念,仅当合并后的结果簇______原来的两个簇 时,这两个簇才合并。 Jarvis-Patrick(JP)聚类算法首先计算______ 图,然后使用相似度阈值,稀疏化该图找出稀疏 化图的连通分支。
习题
3. 画出连接下图中的图对得到的候选子图,假定使 用边增长算法扩展子图。
-0.01
0.46
0.17
-0.25
0.42
-0.22
0.23
0.11
0.73
0.62
0.54
0.02
0.78
-0.1
0.03
-0.32
-1.24
-0.85
-0.6-0.62源自0.620.170.32
0.21
噪声和离群点的区别?
产生遗漏值的原因有哪些?怎样处理遗漏值? 数据预处理主要有什么方法?
聚集的主要目的有:数据归约、使数据性质 更加稳定、________。
相关文档
最新文档