数据挖掘第二章作业

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘第二章作业

2.

a)用AM和PM表示的时间

离散的、定量的、区间的。

b)根据曝光表测出的亮度

离散的、定量的、比率的。

c)根据人的判断测出的亮度

连续的、定性的、序数的。

d)按度测出的0和360之间的角度

离散的、定量的、比率的。(可以是连续的,因为按度测出的角度值可以是实数值得属性)

e)奥运会上授予的铜牌、银牌、和金牌

离散的、定量的、比率的。

f)海拔高度

连续的、定量的、比率的。

g)医院中的病人数

离散的、定量的、比率的。

h)书的ISBN号(查找网上的格式)

离散的、定性的、标称的。

i)用如下值表示的透光能力:不透明、半透明、透明

离散的、定性的、序数的。

j)军衔

离散的、定性的、序数的。

K)到校园中心的距离

连续的、定量的、比率的。

l)用每立方厘米克表示的物质密度

连续的、定量的、比率的。

m)外套寄存号码

离散的、定性的、标称的。

14.

用欧几里得度量来对这些大象进行比较或分组。

因为第一所有的属性测出的值都是数值性质的,并且根据取值规模的不同有很大的取值范围;其次同一对象的不同属性之间是没有什么关系的,所以不用相关性度量;再者在本题中每个对象的量值是重要的,而余弦相似度不考虑数据对象的量值;最后将属性值标准化成平均数为0,标准差为1后再应用欧几里得距离是适当的方法。

16.

a)如果出现在一个文档中,tf’ij=tfij*log(m);

如果出现在每个文档中,tf’ij=0;

b)这个标准化反应了如果一个词出现在每一个文档中,那么就不能通过这个词来区分不同的文档,如果这个词出现的很少,那么就可以通过这个词来区分不同的文档。

18.

a)x=010*******

y=010*******

汉明距离=3;

f01=1; f10=2; f11=2;

Jaccard相似度=2/(1+2+2)=0.4;

b)汉明距离更相似于简单匹配系数,因为简单匹配系数=1—汉明距离/所有位数;Jaccard相似度更相似于余弦度量,因为他们都忽略了0-0匹配。

c)用Jaccard相似度更合适。因为我们想要知道两个个体有多少基因是共享的。

d)用汉明距离更适合。因为两个同物种的基因相同的部分很多,所以如果要比较则更关注于基因不同的部分,因此汉明距离更适合。

相关文档
最新文档