定性数据的数量化

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
源自文库
• 名义定性变量如何数量化?
名义分类没有量的概念,不可能对前面顺 序变量那样,根据人们对各等级的认知,给 出各等级的数量值.给名义分数量化,需要 结合具体情况,需要有具体个体的实测数 据,也就是说要有一批样本,再使用统计的 分析研究,按照统计学一些准则,赋予适当 的数量值.
下面分几种情形分别考虑.
δQ(j) sQ
δ1(j)s1+-+δQ(j)sQ
δQ(R) sQ
δ1(R)s1+-+δQ(R)sQ
sQ mQ N
依列联表的计算则易得
x
1 N
RQ
i ( j)si x j ,
j 1 i1
y
1 N
Q
si mi yi ,
i 1

2 y

1 N
Q
si mi
yi 2

jk
以Y作为基准,当然要求α与Y “相近”或相关 程度高,依最小二乘的准则,用
n
n
Q (Yi i )2 (Yi
i ( jk )x jk )2
i 1
i 1
jk
度小量,“这相与近经”典,线因性此回我归们分要析选中择求xjk解使回Q达归到方最程
参数的要求是一样的.可以用微分求极值的
方程组 [ F-1H-η2I]x=0 要x有非零解,则η2应 是 F-1H 的特征根,x是相应的特征向量.
若有s个非零特征根
η12> η22 >--->ηs2 则可求得x的s组解,可从大到小取定需要的
组数,每一个解确定一个一维的分类判定 准则,几个准则一起可确定多维分类判定 准则. 这种情形的数量化实际上与多元Fisher判别 类似,可以用其相应的软件进行计算.


2 b
2 2
xuv
xuv
经计算,可得

2 b

2
xuv n j
T g t (uv)g t ( jk)
2
(
k t 1
nt
)x jk n2
j
nuv n jk x jk ,
k
2 2
xuv n j
k
n
( i (uv) i ( jk))x jk
• 一般应选择这种形状的赋值曲线
• 心理学文献处理的方法是采用七级(或九 级)评价:{很不好,不好,不太好,一般,比较 好,挺好,非常好},相应标为{1,2,3,4,5,6,7}, 找一个符合正常心态的风险厌恶型的赋 值曲线,如柯西型函数
[1 ( x )2 ]1 1 x c
i(t )1
t 1
可以求得α的方差和组间方差
2

1 n
n
( i
i 1
)2

1 n
n

2 i
i 1

2,

2 b

T t 1
nt n
( t
)2

T t 1
nt n

2 t

2
显然应该要求
2


2 b
2
最大.建立正规方程
2 0,
xuv
i
i ( jk)x jk
jk
全体n个个体的均值为
1 n
n i1 j
i ( jk)x jk
k
而各分组的组内均值为
t

1 nt
nt
i
i(t )1
1 nt
j
x jk g t ( jk),
k
nt
T
其中g t ( jk) i(t) ( jk), 有 g t ( jk) n jk
定性数据的数量化
• 数学建模会遇到各种各样的实际问题,在许多问题 中经常会遇到分类变量.像前两年全国的竞赛题, 公务员招聘问题中专家对应聘者的考评,出版社资 源分配问题中读者对出版物评价,部门或图书的分 类等等,都是一些定性数据.
• 如何处理这些分类变量的定性数据?
一种办法是直接按定性数据建模.如统计数据处 理中的对数线性模型, Logit模型等等.
A 2 (11) 2 (1k1) 2 (22) 2 (2k2 ) 2 (R2) 2 (RkR )




n (11) n (1k1) n (22) n (2k2 ) n (R2) n (RkR )
y
2
,
2 x
i 1

1 N
RQ
i ( j)si x j 2 x 2 ,
j 1 i1
cxy

1 N
Q i 1
R
i ( j)si yi x j
j 1
xy,
cxy
y x
这样要使ρ达最大,解正规方程
0,
x j 或者
0
yi
cxy y
(
2 x
)
,
x j
2 x x j
cxy

x
(
2 y
)
yi
y yi
从 cxy
y

2 x
, 对k

1


R有
xk
2 x xk
Q
i 1
i
(
j)si
yi

1 N
(
Q i 1
si mi
yi
Q
)(
i 1
i (k)si
)

y x
4.8003 , 0.7798 , a 0.5371, b 0.0451 最后定出各等级的量化值
f (1) 0.01, f (2) 0.2367, f (3) 0.5066 f (4) 0.7, f (5) 0.8193, f (6) 0.9173, f (7) 1
R
Q
并记 i ( j) mi ,
si mi N,则整个表可表示如下
j 1
i 1
Y X x1
y1
δ1(1) s1
--
--- xj δ1(j) s1
--- xR δ1(R) s1
s1 m1
yi
δi(1) si
--
δi(j) si
δi(R) si
si mi
yQ
δQ(1) sQ
δ1(1)s1+-+δQ(1)sQ

1 N
2
ni yi2
i 1

y2.

2 x

1 N
3
n
j
x
2 j

x
2,
j 1
cxy

1 N
2 i 1
3
nij yi x j
j 1

yx
对数据表作类似的计算,定义
1

i
(
j)

{ 0
i型个体有特征L j i型个体无特征L j
i 1 Q, j 1 R
nuv n jk ,
f
(uv,
jk)

n
i (uv)i ( jk)
i1
1 n
nuv
n
jk
,
n
T
n jk i ( jk) g t ( jk),
i1
t 1
用矩阵记号,记 H=[h(uv,jk)]
方程组为
F=[f(uv,jk)],则
Hx=η2Fx , x’=(x11,--,x1k1,---,xR1,--,xRkR) 即 [ F-1H-η2I]x=0
由于各项目对每一个i全体类的i ( jk )之和均为1, 为使A满秩,从2---R各项目删除一列,相应的 xr1取值0,r= 2---R.
按矩阵记号
Q (Y Ax)' (Y Ax)
正规方程为
Q x jk


2 A(Y

Ax)

0
解出
AY AAx, x (AA)1 AY
R cR1----cRkR
11
1 -- ---
n1
1
---
1 ---
1
1 --1
1 T --
nT
1 ---
1
1 ---
1
1 --1
样本总量n=n1+n2+---+nT,我们仍然给予cjk量 值xjk,R个项目间考虑为加性,仍然记
1
i
(
jk)

{ 0
则有
Yi在第j项目有k类反应 Yi在第j项目无k类反应
有很多情况需要将定性数据数量化,再按数量数 据用于建立数学模型.这就要求定性数据数量化一 定要合理,否则即使模型是合理的、可行的,但分 析结果会脱离实际,没有意义.
• 如何合理地将定性数据数量化?
• 定性数据有两大类:一类数据是有顺序的,也就 是有大小、优劣等顺序,如专家对应聘者的考评、 读者对出版物评价等等.另一类数据则是无顺序, 仅有名义,如部门或图书的分类等等.
上面的数据表与二变量二维列联表很相似, 二维列联表
Y X x1
x2
x3
y1
n11
n12
n13
n1+
y2
n21
n22
n23
n2+
n+1
n+2
n+3
n
对二维变量(Y,X)由列联表可计算出
y

1 N
(n1 y1
n2 y2 ),
x

1 N
(n1 x1
n2 x2

n3 x3 ),

2 y
方法,建立正规方程
Q
xuv
n
2 (Yi
i 1

j
i ( jk )) i (uv) 0,
k
从中解出xjk .
u 1 R, v 1 ku
用矩阵形式比较简洁.给以矩阵记号
1(11) 1(1k1) 1(22) 1(2k2 ) 1(R2) 1(RkR )
• 对有顺序的定性数据往往可直接数量化,但直接 将几个等级数量化成1、2、3、4是不可取的.如 出版社资源分配问题中读者对出版物评价有 {不好,勉强可以,一般, 较好,非常好}五个等级, 但现实中人们对这些等级有确定的认知,不能认 为这些等级是等距的,通常人们对不满意程度的 敏感远远大于对满意程度的敏感.对这些等级量 值的认定是一个与心理学有关的问题.
实际上,可以用现成的回归分析软件求出x, 只要输入向量Y和矩阵A,即可.
在数量化的基础上可以做一些相应的数值 分析,如由x预y,分析1---R这些分类变量间 的关系等等
(II)有分类外基准场合的量化 外基准是样本个体的分类,而不是数值变量.
此时数据形式为
项目 1
2
分类 类 c11----c1k1 c21----c2k2 ------
(III)无外基准场合的量化 样本数据直接记成下列形式,
个体
特征 L1
L2 ----------
LR
S1个 1 1
1
S2个 2
11
1
------
------
------
-----
SQ个 Q 1
1
出现相同特征的个体应该相近,反之在相同个体中 出现的特征应该相近.为了衡量个体与特征间的 亲近关系,若个体有值yi,i=1—Q,特征Lj有值 xj,j=1---R,可以定义两者间相关系数.
j)si x j )


x y
( yh

1 N
Q
si mi yi )
i 1
(B)
(B)式乘上 y x
h (k)sh ,再对h
1


Q求和, 得(对k
1


R)
Q
h (k)sh
h1
yh

1 N
Q
(
i 1
si mi
yi
Q
)( h (k)sh )
h1

i 1
2 n2
j
nuv n jk x jk
k
代入前面的式子,得下列方程组
h(uv, jk)x jk 2
f (uv, jk)x jk , u 1 R, v 1 ku
jk
jk
其中
h(uv,
jk)

T t 1
g t (uv)g t ( nt
jk)

1 n
y x
[
R j 1
Q i 1
i (k) i (
mi
j)
si x j

1 N
(
R j 1
Q
i(
i 1
Q
j)si x j )( h (k)sh )]
f (x)
a ln x b
c x7
[1 (x )2 ]1 1 x c
f (x) {
a ln x b
cx7
式中 , , a, b 为待定参数,c为等级中基 本可接受的等级值,比如在上述分级中{一 般}是可接受的等级,则c=4.然后,最低的定 为接近0,即f(1)=0.01,最高的定为1,f(7)=1, 再认定f(c)=f(4)=0.7,这就可确定出参数
Q
[ i (k)si xk
i 1

1 N
(
R j 1
Q
Q
i ( j)si x j )( i (k)si )
i 1
i 1
( A)
从 cxy x

2 y
, 对h

1


Q有
yh
2 y yh
1
mh
R
i(
j 1
j)x j

1 N
(
R j 1
Q
i(
i 1
(I)有数量外基准值Y场合的量化
这时样本数据形式为
项目 1
2
R

Y
c11----c1K1 c21----c2K2
Y1
1
1
Y2
1
1
-
-
Yi
11
-
-
Yn
1
1
cR1----cRKR 1
1 1
1
Y在记第1,对j个一项个目项有目cj只k类能的有反一应种,则类在反相应应,且位必置 有一种类反应.我们可以定义
1
i 显然有
(
jk
)

{ 0
Yi在第j项目有k类反应 Yi在第j项目无k类反应
kj
i ( jk) 1, i ( jk) • i ( jk ' ) 0,
k 1
这的样线,当性我关们系给的cj话k赋,第予i数个量体值由x分jk时类,项考目虑1简--单-R 确定的值为
i
i ( jk)x jk
相关文档
最新文档