ch1 统计学的基本概念

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学是收集、分析、解释与报告 数据资料的一门科学。
统计学的基本概念
1. 总体与样本 2. 变量与随机变量 3. 同质与变异 4. 参数与统计量 5. 误差与错误 6. 准确性与精确性
1. 总体与样本 Population and sample
总体:根据研究目的确定
的同质研究对象的全体
(集合)。如雪碧饮料。
Edit菜单:数据编辑菜单
类似于Excel
View菜单:SPSS视图菜单
Edit菜单:选项
如果你想 输出结果 是中文的
结果输出 中表格的 样式c
在output中显 示syntax。
在output中文本字 体的大小。
Chart选项
选择你喜欢 的Marker 样式
Data菜单:数据管理
插入与删除行(列)
3. 同质与变异 homogeneity and variation
同质:指事物的性质、影响条件或背景相同或 非常相近。 变异:指同质的个体之间的差异。 例1 调查2007年武汉市7岁男童的身高和体重 同质:2007年、武汉市、7岁男童 变异:身高、体重 研究某降压药的疗效 同质:高血压患者、服用某药 变异:疗效
分有限总体与无限总体 样本:从总体中随机抽 取的部分观察单位。如
50瓶雪碧饮料
2、变量与随机变量
Variable and random variable
变量 —— 可以测量的任何特征或属性 Any characteristic or attribute that can be measured 。如热量值、蛋白 质含量、碳水化合物含量。 随机变量 —— 在概率论中称变量为随 机变量
第1讲 统计学基本概念
陈娟娟 665681 chenjuanjuan@nbu.edu.cn
为什么要进行统计?
问题:抽检了50瓶雪碧饮料的热量值(KJ),结果如 下, 问我们的测量结果是否与雪碧饮料的标注相同?
199.3 193.9 196.1 192.3 191.9 203.2 189.9 193.9 195.0 197.6 199.9 197.3 201.1 195.2 192.4 200.0 200.8 194.1 191.2 199.7 196.6 195.6 198.4 199.6 202.7 191.4 202.6 201.7 205.2 195.3 199.3 194.9 200.9 206.4 189.5 199.5 192.2 193.8 196.8 197.5 195.8 191.6 194.6 201.9 197.3 205.7 195.2 192.4 193.9 200.9
• 首先选定行号(列标) • 点鼠标右键 • Insert Cases 插入行 • Insert Variables 插入列 • Clear 删除
Transpose :数据行列转置
例如我们读取的 “克山病.sav”
转换结果
Descriptive Statistics Compare Means General Linear Model Correlate Regression
--张文彤
学员使用统计方法的情况
2007年春季统计学课程参加者调查
推荐参考书:
四川农业大学生物 统计附实验设计。
SPSS教程 张文彤
推荐网址:
4.64 4.92 4.93 4.90 3.92 5.04 4.70 4.54 3.95 4.40 4.31 3.77
4.16 4.58 5.35 3.71 5.27 4.52 5.21 4.37 4.80 4.75 3.86 5.69
最大值=6.18, 最小值=3.29, 极差=2.89 算术均数=4.72,标准差=0.57
http://go.6to23.com/statdtedm/SAS_SPSS.htm
1
Spss上机练习1
数据编辑窗口(Data Editor)
变量名 记录值
数据视图
变量视图
数据cars.sav 变量命名
变量视图
变量标签
变量类型
New → Data:新建数据文件
Open→ Data:打开数据文件
5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.84
4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.64 5.14 5.46 4.66 4.20
4.21 3.73 5.17 5.79 5.46 4.49 4.85 5.28 4.78 4.32 4.94 5.21 4.68 5.09 4.68 4.91 5.13 5.26 3.84 4.17 4.56 3.52 6.00 4.05 4.92 4.87 4.28 4.46 5.03 5.69 5.25 4.56 5.53 4.58 4.86 4.97 4.70 4.28 4.37 5.33 4.78 4.75 5.39 5.27 4.89 6.18 4.13 5.22 4.44 4.13 4.43 4.02 5.86 5.12 5.36 3.86 4.68 5.48 5.31 4.53 4.83 4.11 3.29 4.18 4.13 4.06 3.42 4.68 4.52 5.19 3.70 5.51
数据基本分析: 平均值 热量(KJ) 197.1 标准差 4.2
(可口可乐公司标注的热量值:195 KJ)
单一样本t测验
将变量选入对话框
结果输出和解释
One-Sample Test
Test Value = 195 95% Confidence Interval of the Difference Lower Upper .876 3.289
你的变量是如 何排列的?
用某种字符 区分 固定的宽度 变量名是否在 数据顶端?
第一条记录从 第几行开始?
(不要管空行)
你的记录是怎样存 储在文件中的?
变量间用的是哪种分隔符?
完成
数据读入结果
File → save → 克山病→ 保存
练习一下读取 不同瘤株的生瘤效果.txt 注意“Are variable names included at the top of your file?” 选 yes!
Open Database → New Query → Excel files → Browse ‘直方图.xls’→ 抓住sheet1 → 释放到 ‘Retrieve files in’ → Finish
File菜单:数据文件的管理
Read Text Data :读入文本文件
克山病.txt
你的文本 文件和预 定义格式 相一致吗?
5. 误差与错误 Error and mistake
误差:试验中不可控因素所引起的实际观 察值与客观真实值之差 • 系统误差 systematic error • 随机误差 random error 错误:试验过程中,人为作用引起的差错 如药品称量错误,数据录入错误等
误差(Error)
测量值=真实值+随机误差+非随机误差 Xi = i + i
1.随机误差(随机抽样误差):
影响因素众多,变化无方向性,不可避免,但可 用统计方法进行分析。 2.系统误差 受确定因素影响,大小变化有方向性。 偏差bias 3.非系统误差(错误) 可以避免 研究者偶然失误而造成的误差。
6. 准确度与可靠度
• 准确度(accuracy)或真实性(validity):观察值 与真值的接近程度,受系统误差的影响(常用 指标:如灵敏度、特异性)。
3. 软件应用
学习和使用统计学的方法
1, 对统计学的概念和方法有一个大概的了解, 以便根据具体情况正确选用统计方法; 2,正确运用统计算方法处理实际资料; 3,把专业与统计知识紧密结合起来,对计算结 果给出合理的解释,从而作出科学的结论。
对于非统计工作者来说,第2部分是最大 的障碍。
本课程教学的基本思路:
学员的计算机语言基础
2007年春季统计学课程参加者调查
统计软件的种类
SPSS: 这是一个很受欢迎的统计软件; 容易操作,输出漂亮,功能齐全; 对于非统计工作者是很好的选择。 Excel: 作为数据表格软件,有一定统计计算功能; 对于简单分析比较方便; 对于较复杂的分析,需要使用函数,甚至根本 没有相应的方法了。多数专门一些的统计推断 问题还需要其他专门的统计软件来处理。

容易操作; 统计资料分析、图表、资料管理; 应用程序开发。
学员使用统计软件的情况
18.3%
46.7%
wk.baidu.com23.3%
2007年春季统计学课程参加者调查
在计算机指令集中,有80%的任务是被20% 的最常用指令所完成的;换言之,另外80%的复 杂指令只完成20%的不常用任务。 80/20规则在SPSS的使用中同样有效!仅以 Analyze菜单为例,其中最常用的子菜单为:
利用现成的统计软件包在计算机上实现各 种统计计算, 只需花较少的时间和精力去学习 第1、3两部分内容。 借助国际上著名的统计分析软件包-- SPSS,作为计算工具,讲述统计理论、方法 及其应用技巧。
学好本课程需要具备什么?
需要: 1. 正确的认识 2. 严谨的态度 3. 必要的信心 不需要: 1. 太好的数学基础 2. 计算机语言
energy
t 3.469
df 49
Sig. Mean (2-tailed) Difference .001 2.0825
t 检验的结果,t =3.469,d.f.= 49, p=0.001。结论: 按α=0.05水准,拒绝H0。我 们测量的雪碧热量值与标注的不同。
统计学—statistics
“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data” ----Webster 国际大辞典
变量(随机变量)的分类
• 离散型变量(discrete variable): 计数资料(15,17,24,…) • 连续性变量(continuous variable): 计量资料(1.65, 1.73, 1.77,…) • 有序变量(ordinal variable): 等级资料(优、良、中、差)
连续型变量(Continuous variable) 与离散型变量(Discrete variable)
根据观察数据之间 有无缝隙(gap),常将 数据分类为离散型变量 (有缝隙)与连续型变 量(无缝隙)两大类。 名义变量一定是离 散型变量; 连续型变量只能是 比、区间和有序变量, 但比、区间和有序变量 也可以是离散型变量。
例2
4. 参数与统计量 parameter and statistic
参数:总体的统计指标,
总体
参 数
抽样
样本
如总体均数、标准差,采 用希腊字母分别记为μ、
推断
统计量
σ。通常是固定的常数。
统计量:样本的统计指标,如样本均数、标准差,采用拉 丁字母分别记为 。 参数附近波动的随机变量 。
120名正常成年男子红细胞计数值(1012/L)
统计软件的种类
SAS: 功能非常齐全的软件; 某些美国政府机构认可; 需要一定的训练才可以使用,对于非专业统 计人员不那么方便。
S-plus: 统计学家喜爱的软件; 其功能齐全,具有强大的编程功能; 专业统计人员可以编制自己的程序来实现自 己的理论和方法。
统计软件的种类
Statistica:
• 可靠度(reliabiliy)—— 也称精密度 (precision)或重复性(repeatability):重复观 察时观察值与其均值的接近程度,受随机误 差的影响(常用指标:一致百分率、Kappa 值)。
准确度和可靠度都好
准确度差、可靠度好
准确度?可靠度差
准确度和可靠度都差
统计学课程
1. 实验设计 2. 数据分析
Open Database :使用数据库查询打开
File → Open Database → New Query
系统会弹出数据库向导的第一个窗口,其中 会列出你使用的机器上已安装的所有数据库驱 动程序,选中所需的数据源,然后单击下一步, 向导会一步一步的提示你如何做,直至将数据 读入SPSS。 试着读入一个Excel文件!
相关文档
最新文档