模式识别4次作业汇总
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
北京工商大学
模式识别作业汇总(2014年秋季学期)
课程名称:模式识别
专业班级:计研141班
学生姓名:董文菲刘倩
指导教师:于重重
成绩:
2015年1月20日
第一次课的作业
1.在Matlab 环境下,利用第一题中给了matlab程序,尝试声音识
别过程,并把程序流程图画出。
解:程序实现了识别“kiss”与“love”两个声音的界面图。程序流程图如下:
2.运行网址
http://www.wcl.ece.upatras.gr/en/ai/resources/demo-emotion -recognition-from-speech
上的java applet ,了解声音识别的过程。
解:智能对话系统的测试点如下图所示,
该智能对话系统可以通过语音交互获取信息,控制娱乐设备等智能应用。情感识别的构成如下图:
情感识别依赖于先进的音频参数化技术,利用高斯混合模型训练情绪识别模型。目前负面情绪的识别得到了很好的结果。
3. 选择鸢尾花数据集(iris,网上下载),并尽可能多地使用《数据
挖掘导论第三章》介绍的不同的可视化技术完成数据预处理(可参看第三章资料中的辅助ppt),形成报告。文献注释和该书网站提供了可视化软件的线索。
解:(1)分类
选择朴素贝叶斯分类器算法,训练选项选择交叉验证,即把数据集分成若干份,1份作为验证集,其余部分作为训练集合。这样的方法保证了数据集的所有元素都被验证过。这里把数据集分为10份来进行训练。
分类器运行的信息,分类器训练的结果,分类器验证验证的结果、准确性计算等信息如下:
Visualize信息图,3种类别用不同颜色表示出来。可以从图中看出哪些属性的组合具有较好的区分度。
(2)离散化(discretize):
类weka.filters.supervised.attribute.Discretize和
weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。
unsupervised.attribute.Discretize:
supervised.attribute.Discretize
(3)规范化(Nomalize):
类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:但scale=2.0,
translation=-1.0时,你能将属性值规范到区间[-1,+1]。
(4)标准化(standardize):
类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中
所有数值属性的值到一个0均值和单位方差的正态分布。
第二次课的作业
1.
解:属性有四种类型:标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。 1)众数
一组数据中出现次数最多的数据就是这组数据的众数。 2)x2检验
亦称卡方检验。统计学中假设检验的方式之一。x 是一个希腊字母,x2可读音为卡方,所以译为卡方检验。卡方检验主要用于定类或定序变量的假设检验,在社会统计中应用非常广泛。 卡方检验的步骤一般为:
(1)建立假设,确定显著水平a与自由度df、查x2值表得到否定域的临界值;(2)由样本资料计算x2值;
(3)将计算所得的x2值与临界x2值(负值都取绝对值)作比较,若计算值大于临界值,则否定Ⅱ0;反之,则承认Ⅱ0。
计算卡方值的公式一般可表示为:
x2=∑[(fo—fc)2/fc]
式中:fo表示实际所得的次数,fc表示由假设而定的理论次数,∑为加总符号。x2检验对于定类与定类或定类与定序变量之间的相关检验应用较多。
例:用卡方检验拟合优度:
[h,p,st] = chi2gof(bins,'ctrs',bins,...
'frequency',obsCounts, ...
'expected',expCounts)
bin:有n组数值则:bin=0:(n-1);
obsCounts:观测值
expCounts:期望值
h,p,st:返回值
3)符号检验
符号检验法:是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。
符号检验与参数检验中相关样本显著性t检验相对应,当资料不满足参数检验条件时,可采用此法来检验两相关样本的差异显著性。
根据符号检验判断差异显著性时也要查表找出相应的临界值。但特别应注意的是在某一显著性水平下,实得的r值大于表中r的临界值时,表示差异不显著,这一点与参数检验时的统计量和临界值的判断结果不同。
4)均值
M = mean(A)
返回沿数组中不同维的元素的平均值。
如果A是一个向量,mean(A)返回A中元素的平均值。
如果A是一个矩阵,mean(A)将中的各列视为向量,把矩阵中的每列看成一个向量,返回一个包含每一列所有元素的平均值的行向量。如果A是一个多元数组,mean(A)将数组中第一个非单一维的值看成一个向量,返回每个向量的平均值。
例:
5)标准差(Standard Deviation)
在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。标准差也被称为标准偏差,或者实验标准差,公式为:
6)皮尔逊相关
皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于1 和-1 之间的值,其中,1 表示变量完全正相关,0 表示无关,-1 表示完全负相关。
7)几何平均数
几何平均数是求一组数值的平均数的方法中的一种。适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。n个观察值连乘积的n次方根就是几何平均数。根据资料的条件不同,几何平均数分为加权和不加权之分。设一组数据为X1,X2,...,Xn,且大于0,则几何平均数Xg为:Xg=√∏xi,i=1,2,...,n 8)算数平均
算术平均数是加权平均数的一种特殊形式(特殊在各项的权重相等)。在实际问题中,当各项权重不相等时,计算平均数时就要采用加权平均数;当各项权相等时,计算平均数就要采用算数平均数。
9)调和平均