数据挖掘第二章作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘第二章作业
2.
a)用AM和PM表示的时间
离散的、定量的、区间的。
b)根据曝光表测出的亮度
离散的、定量的、比率的。
c)根据人的判断测出的亮度
连续的、定性的、序数的。
d)按度测出的0和360之间的角度
离散的、定量的、比率的。(可以是连续的,因为按度测出的角度值可以是实数值得属性)
e)奥运会上授予的铜牌、银牌、和金牌
离散的、定量的、比率的。
f)海拔高度
连续的、定量的、比率的。
g)医院中的病人数
离散的、定量的、比率的。
h)书的ISBN号(查找网上的格式)
离散的、定性的、标称的。
i)用如下值表示的透光能力:不透明、半透明、透明
离散的、定性的、序数的。
j)军衔
离散的、定性的、序数的。
K)到校园中心的距离
连续的、定量的、比率的。
l)用每立方厘米克表示的物质密度
连续的、定量的、比率的。
m)外套寄存号码
离散的、定性的、标称的。
14.
用欧几里得度量来对这些大象进行比较或分组。
因为第一所有的属性测出的值都是数值性质的,并且根据取值规模的不同有很大的取值范围;其次同一对象的不同属性之间是没有什么关系的,所以不用相关性度量;再者在本题中每个对象的量值是重要的,而余弦相似度不考虑数据对象的量值;最后将属性值标准化成平均数为0,标准差为1后再应用欧几里得距离是适当的方法。
16.
a)如果出现在一个文档中,tf’ij=tfij*log(m);
如果出现在每个文档中,tf’ij=0;
b)这个标准化反应了如果一个词出现在每一个文档中,那么就不能通过这个词来区分不同的文档,如果这个词出现的很少,那么就可以通过这个词来区分不同的文档。
18.
a)x=010*******
y=010*******
汉明距离=3;
f01=1; f10=2; f11=2;
Jaccard相似度=2/(1+2+2)=0.4;
b)汉明距离更相似于简单匹配系数,因为简单匹配系数=1—汉明距离/所有位数;Jaccard相似度更相似于余弦度量,因为他们都忽略了0-0匹配。
c)用Jaccard相似度更合适。因为我们想要知道两个个体有多少基因是共享的。
d)用汉明距离更适合。因为两个同物种的基因相同的部分很多,所以如果要比较则更关注于基因不同的部分,因此汉明距离更适合。