中科院_统计学课程_1_regression
相关与回归PPT课件PPT课件
(2)求Spearman等级相关系数。
rs
l X ’Y ’
l l X ’X ‘Y ’Y ‘
59.5 0.7539 82.5 75.5
第19页/共40页
2. Spearman等级相关系数的假设检验:
H0:ρS=0
H1: ρS ≠0
=0.05
本例n=10, rs=-0.7539,查rs界值表得:
Y
Y
2
lYY
l XY
2 / l XX lYY bl XY
sy为x 各观察值y 距回归线( )ˆy 的标准差,反映x
的影响被扣除后y 的变异,故称为剩余标准差。
第32页/共40页
Y
Y
2
36.7324 (74.308)2
/ 228.2 12.541
12.541
SY .X
1.1199 12 2
1.1199
sb
0.0741 228.25
0.3256
tb
4.392
0.0741
3.确定P值,判断结果: 按 12 2 10 ,
查t 值表,t0.01(10)=3.169,tb> t0.01(13) ,P<0.01, 按α=0.05水准,拒绝H0 ,接受H1,认为糖尿病患 者血糖和胰岛素之间存在负的直线回归关系。
rs(10,0.02)=0.745,rs> rs(10,0.02) ,则P<0.02,按
α=0.05水准,拒绝H0,接受H1,认为rs有统计
学意义,说明患者血小板数与出血程度呈负
的等级相关关系。
第20页/共40页
第三节 直线回归
随着所探索问题的深入,研究者通常更感兴趣于 其中的一个变量如何定量地影响另一变量的取值, 如医学研究中常需要从某项指标估算另一项指标, 如果这指标分别是测量变量X 和Y,我们希望由X 推算Y的值。
《统计学》课程教学大纲、简介、教案
《统计学》课程教学大纲课程编号:1331050课程名称:《统计学》总学时数:54实验或上机学时:12先修课程:高等数学(微积分、概率论与数理统计)、计算机基础、会计学。
后续课程:计量经济学、国际贸易、国际金融、国际投资学、市场营销学等。
一、说明部分1、课程性质:统计学是研究如何搜集数据,分析数据,以便得出正确认识结论的方法论科学。
它是国家教育部规定的财经类专业的核心课程,主要研究如何用科学的方法去搜集、整理、分析国民经济和社会发展的实际数据,并通过统计所特有的统计指标和指标体系,表明所研究的社会经济现象的规模、水平、速度、比例和效益,以反映社会经济现象发展规律在一定时间、地点、条件下的作用,描述社会经济现象数量之间的联系关系和变动规律。
本课程在非统计专业的本科教学中,一般作为专业基础课程安排在第三学期开设。
2、教学目标及意义:通过本课程的教学,使学生了解统计学的基本原理,掌握统计学的基本方法,在定性分析基础上做好定量分析。
用统计学的知识去“发现问题、分析问题、解决问题”,提高学生们专业的应用技能,以适应社会主义市场经济中各类问题的实证研究、科学决策和经济管理的需要。
同时,也为学习计量经济学、国际投资学、市场营销学等其他分支学科课程奠定基础。
3、教学内容及教学要求:教学内容共计8章:第一章总论 Introduction第二章统计调查Statistical surveys第三章统计整理Statistical Date Arrangement第四章统计指标分析Statistical Indicator Analysis第五章统计抽样Sampling第六章统计相关与回归分析Correlation and regression第七章时间数列分析Time series analysis第八章统计指数Index numbers analysis教学要求:考虑到财经类专业把本课程作为专业基础课开设,本课程的内容既包括统计方法,也包括必要的社会经济指标核算的基本知识。
《统计学》_各章关键术语(中英文对照)
《统计学》_各章关键术语(中英⽂对照)第⼆部分各章关键术语(中英⽂对照)第1章统计学(statistics)随机性(randomness)描述统计学(descriptive statistics)推断统计学(inferential statistics)总体(population)母体(parent)(parent population)样本、⼦样(sample)调查对象总体(respondents population)有限总体(finite population)调查的理论总体(survey’s heoretical population)超总体(super population)变量(variable)数据(data)原始数据(original data)派⽣数据(derived data)定类尺度(nominal scale)定类尺度变量(nominal scale level variable)定类尺度数据(nominal scale level data)定序尺度(ordinal scale)定序尺度变量(ordinal scale level variable)定序尺度数据(ordinal scale level data)定距尺度(interval scale)定距尺度变量(interval scale level variable)定距尺度数据(interval scale level data)定⽐尺度(ratio scale)定⽐尺度变量(ratio scale level variable)定⽐尺度数据(ratio scale level data)分类变量(categorical variable)定性变量、属性变量(qualitative variable)数值变量(numerical variable)定量变量、数量变量(quantitative variable)绝对数变量(absolute number level variable)绝对数数据(absolute number level data)⽐率变量(ratio level variable)⽐率数据(ratio level data)实验数据(experimental data)调查数据(survey data)观察数据(observed data)第2章随机性(randomness)随机现象(random phenomenon)随机试验(random experiment)事件(event)基本事件(elementary event)复合事件(union of event)必然事件(certain event)不可能事件(impossible event)基本事件空间(elementary event space)互不相容事件(mutually exclusive events)统计独⽴(statistical independent)统计相依(statistical dependence)概率(probability)古典⽅法概率(classical method probability)相对频数⽅法概率(relative frequency method probability)主观⽅法概率(subjective method probability)⼏何概率(geometric probability)条件概率(conditional probability)全概率公式(formula of total probability)贝叶斯公式(Bayes’ formula)先验概率(prior probability)后验概率(posterior probability)随机变量(random variable)离散型随机变量(discrete type random variable)连续型随机变量(continuous type random variable)概率分布(probability distribution)特征数(characteristic number)位置特征数(location characteristic number)数学期望(mathematical expectation)散布特征数(scatter characteristic number)⽅差(variance)标准差(standard deviation)变异系数(variable coefficient)贝努⾥分布(Bernoulli distribution)⼆点分布(two-point distribution) 0-1分布(zero-one distribution)贝努⾥试验(Bernoulli trials)⼆项分布(binomial distribution)超⼏何分布(hyper-geometric distribution)正态分布(normal distribution)正态概率密度函数(normal probability density function)正态概率密度曲线(normal probability density curve)正态随机变量(normal random variable)卡⽅分布(chi-square distribution)F_分布(F-distribution)t_分布(t-distribution) “学⽣”⽒t_分布(Student’s t-distribution)列联表(contingency table)联合概率分布(joint probability distribution)边缘概率分布(marginal probability distribution)条件分布(conditional distribution)协⽅差(covariance)相关系数(correlation coefficient)第3章统计调查(statistical survey)数据收集(collection of data)统计单位(statistical unit)统计个体(statistical individual)社会经济总体(socioeconomic population)调查对象总体(respondents population)有限总体(finite population)标志(character)标志值(character value)属性标志(attributive character )品质标志(qualitative character )数量标志(numerical indication)不变标志(invariant indication)变异(variation)调查条⽬(item of survey)指标(indicator)统计指标(statistical indicator)总量指标(total amount indicator)绝对数(absolute number)统计单位总量(total amount of statistical unit )标志值总量(total amount of indication value)(total amount of character value)时期性总量指标(time period total amount indicator)流量指标(flow indicator)时点性总量指标(time point total amount indicator)存量指标(stock indicator)平均指标(average indicator)平均数(average number)相对指标(relative indicator)相对数(relative number)动态相对指标(dynamic relative indicator)发展速度(speed of development)增长速度(speed of growth)增长量(growth amount)百分点(percentage point)计划完成相对指标(relative indicator of fulfilling plan)⽐较相对指标(comparison relative indicator)结构相对指标(structural relative indicator)强度相对指标(intensity relative indicator)基期(base period)报告期(given period)分组(classification)(grouping)统计分组(statistical classification)(statistical grouping)组(class)(group)分组设计(class divisible design)(group divisible design)互斥性(mutually exclusive)包容性(hold)分组标志(classification character)(grouping character)按品质标志分组(classification by qualitative character)(grouping by qualitative character)按数量标志分组(classification by numerical indication)(grouping by numerical indication)离散型分组标志(discrete classification character)(discrete grouping character)连续型分组标志(continuous classification character)(continuous grouping character)单项式分组设计(single-valued class divisible design)(single-valued group divisible design)组距式分组设计(class interval divisible design)(group interval divisible design)组界(class boundary)(group boundary)频数(frequency)(frequency number)频率(frequency)组距(class interval)(group interval)组限(class limit)(group limit)下限(lower limit)上限(upper limit)组中值(class mid-value)(group mid-value)开⼝组(open class)(open-end class)(open-end group)开⼝式分组(open-end grouping)等距式分组设计(equal class interval divisible design)(equal group interval divisible design)不等距分组设计(unequal class interval divisible design)(unequal group interval divisible design)调查⽅案(survey plan)抽样调查(sample survey)有限总体概率抽样(probability sampling in finite populations)抽样单位(sampling unit)个体抽样(elements sampling)等距抽样(systematic sampling)整群抽样(cluster sampling)放回抽样(sampling with replacement)不放回抽样(sampling without replacement)分层抽样(stratified sampling)概率样本(probability sample)样本统计量(sample statistic)估计量(estimator)估计值(estimate)⽆偏估计量(unbiased estimator)有偏估计量(biased estimator)偏差(bias)精度(degree of precision)估计量的⽅差(variance of estimates)标准误(standard error)准确度(degree of accuracy)均⽅误差(mean square error)估计(estimation)点估计(point estimation)区间估计(interval estimate)置信区间(confidence interval)置信下限(confidence lower limit)置信上限(confidence upper limit)置信概率(confidence probability)总体均值(population mean)总体总值(population total)总体⽐例(population proportion)总体⽐率(population ratio)简单随机抽样(simple random sampling)简单随机样本(simple random sample)研究域(domains of study)⼦总体(subpopulations)抽样框(frame)估计量的估计⽅差(estimated variance of estimates)第4章频数(frequency)(frequency number)频率(frequency)分布列(distribution series)经验分布(empirical distribution)理论分布(theoretical distribution)品质型数据分布列(qualitative data distribution series)数量型数据分布列(quantitative data distribution series)单项式数列(single-valued distribution series)组距式数列(class interval distribution series)频率密度(frequency density)分布棒图(bar graph of distribution)分布直⽅图(histogram of distribution)分布折线图(polygon of distribution)累积分布数列(cumulative distribution series)累积分布图(polygon of cumulative distribution)位置特征(location characteristic)位置特征数(location characteristic number)平均值、均值(mean)平均数(average number)权数(weight number)加权算术平均数(weighted arithmetic average)加权算术平均值(weighted arithmetic mean)简单算术平均数(simple arithmetic average)简单算术平均值(simple arithmetic mean)加权调和平均数(weighted harmonic average)加权调和平均值(weighted harmonic mean)简单调和平均数(simple harmonic average)简单调和平均值(simple harmonic mean)加权⼏何平均数(weighted geometric average)加权⼏何平均值(weighted geometric mean)简单⼏何平均数(simple geometric average)简单⼏何平均值(simple geometric mean)绝对数数据(absolute number data)⽐率类型数据(ratio level data)中位数(median)众数(mode)耐抗性(resistance)散布特征(scatter characteristic)散布特征数(scatter characteristic number)极差、全距(range)四分位差(quartile deviation)四分间距(inter-quartile range)上四分位数(upper quartile)下四分位数(lower quartile)在外截断点(outside cutoffs)平均差(mean deviation)⽅差(variance)标准差(standard deviation)变异系数(variable coefficient)第5章随机样本(random sample)简单随机样本(simple random sample)参数估计(parameter estimation)矩(moment)矩估计(moment estimation)修正样本⽅差(modified sample variance)极⼤似然估计(maximum likelihood estimate)参数空间(space of paramete)似然函数(likelihood function)似然⽅程(likelihood equation)点估计(point estimation)区间估计(interval estimation)假设检验(test of hypothesis)原假设(null hypothesis)备择假设(alternative hypothesis)检验统计量(statistic for test)观察到的显著⽔平(observed significance level)显著性检验(test of significance)显著⽔平标准(critical of significance level)临界值(critical value)拒绝域(rejection region)接受域(acceptance region)临界值检验规则(test regulation by critical value)双尾检验(two-tailed tests)显著⽔平(significance level)单尾检验(one-tailed tests)第⼀类错误(first-kind error)第⼀类错误概率(probability of first-kind error)第⼆类错误(second-kind error)第⼆类错误概率(probability of second-kind error)P_值(P_value)P_值检验规则(test regulation by P_value)经典统计学(classical statistics)贝叶斯统计学(Bayesian statistics)第6章⽅差分析(analysis of variance,ANOVA)⽅差分析恒等式(analysis of variance identity equation)单因⼦⽅差分析(one-factor analysis of variance)双因⼦⽅差分析(two-factor analysis of variance)总变差平⽅和(total variation sum of squares)总平⽅和SST(total sum of squares)组间变差平⽅和(among class(group) variation sum of squares),回归平⽅和SSR(regression sum of squares)组内变差平⽅和(within variation sum of squares)误差平⽅和SSE(error sum ofsquares)⽪尔逊χ2统计量(Pearson’s chi-statistic)分布拟合(fitting of distrbution)分布拟合检验(test of fitting of distrbution)⽪尔逊χ2检验(Pearson’s chi-square test)列联表(contingency table)独⽴性检验(test of independence)数量变量(quantitative variable)属性变量(qualitative variable)对数线性模型(loglinear model)回归分析(regression analysis)随机项(random term)随机扰动项(random disturbance term)回归系数(regression coefficient)总体⼀元线性回归模型(population linear regression model with a single regressor)总体多元线性回归模型(population multiple regression model with a single regressor)完全多重共线性(perfect multicollinearity)遗漏变量(omitted variable)遗漏变量偏差(omitted variable bias)⾯板数据(panel data)⾯板数据回归(panel data regressions)⼯具变量(instrumental variable)⼯具变量回归(instrumental variable regressions)两阶段最⼩平⽅估计量(two stage least squares estimator)随机化实验(randomized experiment)准实验(quasi-experiment)⾃然实验(natural experiment)普通最⼩平⽅准则(ordinary least squares criterion)最⼩平⽅准则(least squares criterion)普通最⼩平⽅(ordinary least squares,OLS)最⼩平⽅(least squares)最⼩平⽅法(least squares method)第7章简单总体(simple population)复合总体(combined population)个体指数:价⽐(price relative),量⽐(quantity relative)总指数(general index)(combined index)统计指数(statistical indices)类指数、组指数(class index)动态指数(dynamic index)⽐较指数(comparison index)计划完成指数(index of fulfilling plan)数量指标指数(quantitative indicator index)物量指数(quantitative index)(quantity index)(quantum index)质量指标指数(qualitative indicator index)价格指数、物价指数(price index)综合指数(aggregative index)(composite index)拉斯贝尔指数(Laspeyres’ index)派许指数(Paasche’s index)阿斯·杨指数(Arthur Young’s index)马歇尔—埃奇沃斯指数(Marshall-Edgeworth’s index)理想指数(ideal index)加权综合指数(weighted aggregate index)平均指数(average index)加权算术平均指数(weighted arithmetic average index)加权调和平均指数(weighted harmonic average index)因⼦互换(factor-reversal)购买⼒平价(purchasing power parity,PPP)环⽐指数(chain index)定基指数(fixed base index)连环替代因素分析法(factor analysis by chain substitution method)不变结构指数、固定构成指数(index of invariable construction)结构指数、结构影响指数(structural index)第8章截⾯数据(cross-section data)时序数据(time series data)动态数据(dynamic data)时间数列(time series)发展⽔平(level of development)基期⽔平(level of base period)报告期⽔平(level of given period)平均发展⽔平(average level of development)序时平均数(chronological average)增长量(growth quantity)平均增长量(average growth amount)发展速度(speed of development)增长速度(speed of growth)增长率(growth rate)环⽐发展速度(chained speed of development)定基发展速度(fixed base speed of development)环⽐增长速度(chained growth speed)定基增长速度(fixed base growth speed)平均发展速度(average speed of development)平均增长速度(average speed of growth)平均增长率(average growth rate)算术图(arithmetic chart)半对数图(semilog graph)时间数列散点图(scatter diagram of time series)时间数列折线图(broken line graph of time series)⽔平型时间数列(horizontal patterns in time series data)趋势型时间数列(trend patterns in time series data)季节型时间数列(season patterns in time series data)趋势—季节型时间数列(trend-season patterns in time series data)⼀次指数平滑平均数(simple exponential smoothing mean)⼀次指数平滑法(simple exponential smoothing method)最⼩平⽅法(leas square method)最⼩平⽅准则(least squares criterion)原资料平均法(average of original data method)季节模型(seasonal model)(seasonal pattern)长期趋势(secular trends)季节变动(变差)(seasonal variation)季节波动(seasonal fluctuations)不规则变动(变差)(erratic variation)不规则波动(random fluctuations)时间数列加法模型(additive model of time series)时间数列乘法模型(multiplicative model of time series)。
统计学pt知名专家讲座
取值及其意义
完全负有关
无线性有关
完全正有关
-1.0 -0.5 0 +0.5 +1.0
r
负有关程度增长 正有关程度增长
15
使用有关系数时应注意:
● X和Y 都是相互对称旳随机变量; ● 线性有关系数只反应变量间旳线性有关程
度,不能阐明非线性有关关系; ● 样本有关系数是总体有关系数旳样本估计
值,因为抽样随机性,样本有关系数是个随 机变量,其统计明显性有待检验; ● 有关系数只能反应线性有关程度,不能拟 定因果关系,不能阐明有关关系详细接近哪 条直线。
1702 1886 2316 2423 2567
30
2.回归方程(regression equation) p365
1. 描述 y 旳平均值或期望值怎样依赖于 x 旳方
程称为回归方程
2. 一元线性回归方程旳形式如下
3.
E( y ) = b0+ b1 x
▪ 方程旳图示是一条直线,也称为直线回归方程 ▪ b0是回归直线在 y 轴上旳截距,是当 x=0 时 y 旳期
1. r 旳取值范围是 [-1,1] 2. |r|=1,为完全有关
r =1,为完全正有关
有关系 数旳性
r =-1,为完全负正有关
质在p359
3. r = 0,不存在线性有关关系
4. -1r<0,为负有关
5. 0<r1,为正有关
6. |r|越趋于1表达关系越亲密;|r|越趋于0表达关
系越不亲密
14
7
10.1.2.有关关系旳描述与测度P354
1)散点图(scatter diagram)
完全正线性有关
正线性有关
完全负线性有关
统计学教程 第五章
经济、管理类 基础课程
统计学
样本相关系数的计算公式
r
( x x )( y y ) (x x ) ( y y)
2
2
或化简为 r
10 - 13
n xy x y n x x n y y
2 2 2 2
10 - 4
经济、管理类 基础课程
变量间的关系
统计学 (相关关系correlation relationship)
1. 变量间关系不能用函数关 y 系精确表达 2. 一个变量的取值不能由另 一个变量唯一确定 3. 当变量 x 取某个值时,变 量 y 的取值可能有几个 4. 各观测点分布在直线周围 x
10 - 5
经济、管理类 基础课程
变量间的关系
统计学 (相关关系correlation relationship)
相关关系的例子
居民消费支出(y)与收入(x)之间的关系
商品销售额(y)与广告费支出(x)之间的关系
粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、 温度(x3)之间的关系 子女身高 (y)与父母身高(x)之间的关系 收入水平(y)与受教育程度(x)之间的关系
估计标准误差越小,回归模型拟合的越好。但 是作为判断和评价标准,估计标准完成不如判定 系数。
10 - 32
【例】根据上例中的数据,配合人均消费 金额对人均国民收入的回归方程 统计学
时间
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 10 - 33
b0 和 b1 称为模型的参数
经济、管理类 基础课程
《回归分析》教学大纲
回归分析RegressionAna1ysis一、课程基本信息课程编号:111093适用专业:统计学专业课程性质:专业必修开课单位:数学与数据科学学院学时:48(理论学时40;实验学时8)学分:3考核方式:考试(平时成绩占30%+考试成绩70%)中文简介:回归分析是应用统计学中一个重要的分支,在自然科学、管理科学和社会经济等领域应用十分广泛。
《回归分析》课程是统计学专业的学科专业必修课是学生掌握统计学的基本思想、理论和方法的主要课程,是培养学生熟练应用计算机软件处理统计数据的能力的基础课程。
通过本课程的学习,使学生掌握应用统计的一些基本理论与方法,初步掌握利用回归分析解决实际问题的能力。
二、教学目的与要求本课程的主要目的是学生在学习后,能够系统掌握回归分析的理论与方法,并在此基础上,掌握回归分析应用的艺术技巧,并利用其分析认识实际问题。
本课程注重回归分析的基本理论与方法,同时通过案例教学与实际应用来剖析回归分析的理论与方法所蕴含的统计思想及其应用艺术。
教学中在回归分析理论与方法的基础上结合社会、经济、自然学科学领域的研究实例,把回归分析方法与实际应用结合起来,注重定性分析与定量分析的紧密结合,强调每种方法的优缺点和实际运用中应注意的问题,研究与实践中应用回归分析的经验和体会融入其中,使学生充分体会到回归分析的应用艺术,并提高解决问题的能力。
通过本课程的学习,在理论教学过程中,可以结合国内外回归分析相关学者的研究经历和成果,传播科学研究所需要的实事求是、脚踏实地的精神,培养学生的科学素养。
在实践教学中,利用案例分析、软件仿真等方式培养学生的实践能力和创新思维,激发学生主动研究新问题和设计新方法的兴趣,让学生在实践中深刻体会科学研究的乐趣,也可以鼓励有突出能力的学生通过创新创业或成果转化为社会发展贡献年轻的力量。
三、教学方法与手段1.教学方法:课堂讲授中要重点对基本概念、基本方法和解题思路的讲解;采用启发式教学,培养学生思考问题、分析问题和解决问题的能力;引导和鼓励学生通过实践和自学获取知识,培养学生的自学能力和创新能力。
(NEW)中国科学技术大学管理学院《432统计学》[专业硕士]历年考研真题及详解
目 录2012年中国科学技术大学管理学院432统计学[专业硕士]考研真题2012年中国科学技术大学管理学院432统计学[专业硕士]考研真题及详解2013年中国科学技术大学管理学院432统计学[专业硕士]考研真题2013年中国科学技术大学管理学院432统计学[专业硕士]考研真题及详解2014年中国科学技术大学管理学院432统计学[专业硕士]考研真题2014年中国科学技术大学管理学院432统计学[专业硕士]考研真题及详解2015年中国科学技术大学管理学院432统计学[专业硕士]考研真题2015年中国科学技术大学管理学院432统计学[专业硕士]考研真题及详解2016年中国科学技术大学管理学院432统计学[专业硕士]考研真题2016年中国科学技术大学管理学院432统计学[专业硕士]考研真题及详解2012年中国科学技术大学管理学院432统计学[专业硕士]考研真题2012年中国科学技术大学管理学院432统计学[专业硕士]考研真题及详解一、单项选择题(本题包括1~10题,每小题3分,共30分)1.假设一个袋子中有黑色、白色和红色三种颜色的球,它们的比例为3:4:3,现每次有放回地从袋子随机摸出一个球,记下被摸出球的颜色,如此反复,则白球比黑球先被摸出的概率为( )。
A.3/7B.4/7C.4/10D.3/10【答案】B【解析】与每次取到的球是红色无关,所以此问题等价于袋中有黑色球:白色球=3:4,求第一次摸球摸到白色球的概率。
2.设A,B表示两个随机事件,若P(AB)=0,则事件A,B( )。
A.互斥B.不同时发生C.相互独立D.以上都不对【答案】D【解析】举例说明:取X=[-1,1],A=“x∈[-1,0]”,B=“x∈[0,1]”,则ABC三项均不正确。
3.投掷一枚硬币n次,若记其中正面和反面出现的次数分别为x和y,则x和y的相关系数为( )。
A.0B.0.5C.-1D.1【答案】C【解析】相关系数又称线性相关系数。
hgfx
而( i Yi) Y 是由随机因素造 成的 ,称为残差 . 上 图给出了总离 差分解 示意图.
《应 统计学》 统计学》
可以证明:
课
(Yi Y )2 = ∑(Yi Y )2 + ∑(Yi Yi )2 ∑
SST总离 总离 差平方和 SSR回归 回归 平方和 SSE残差 残差 平方和
统计学上定义了一个这样的判定系数,记为r2,它是判 定回归直线拟合度的重要指标.
对回归方程中各系数的显著性检验,可以采用t检验法,一般 只需检验自变量的系数,常数项不需检验. 具体步骤如下: 一,提出原假设 Ho:b=0 二,构造检验统计量 :
t=
b S / ∑( X X )
2 E i
2
《应 统计学》 统计学》
课
可以证明,当H0成立时,t~t(n-2) 三,确定显著性水平α,并根据自由度(n-2),查t分布表,得到相 应的临界值tα/2(n-2). 四,得出检验结果:
《应 统计学》 统计学》
课 多元线形回归分析
Multiple linear regression analysis
7.3
因素:因变量Y受多个自变量影响作用. 目标:研究自变量对因变量的线性影响. 方法:多元线性回归分析.
(1)回归模型 )
Y + a + b1X1 + b2 X2 +bp X p + β 2 ε ~ N(0,σ )
课
为了确定未知参数,的值,可以取一个容量为n的样本(X1,Y1), (X2,Y2),…,(Xn,Yn),回归分析就是要根据样本找出a, b的估计 值, b^ ,用经验回归函数
Y = a + bX
近似地描述Y与X的相关关系.该函数所表示的直线叫样 本回归直线,是直线的截距,b^是直线的斜率.上式也称为 Y关于X的线性回归方程,, b^称为回归系数. (2) 参数 , b^ ,σ2 估计 , 回归原则:最小二乘法,即残差平方和最小 Q为残差平方和,则
35种原点回归模式
35种原点回归模式详解在数据分析与机器学习的领域中,回归分析是一种重要的统计方法,用于研究因变量与自变量之间的关系。
以下是35种常见的回归分析方法,包括线性回归、多项式回归、逻辑回归等。
1.线性回归(Linear Regression):最简单且最常用的回归分析方法,适用于因变量与自变量之间存在线性关系的情况。
2.多项式回归(Polynomial Regression):通过引入多项式函数来扩展线性回归模型,以适应非线性关系。
3.逻辑回归(Logistic Regression):用于二元分类问题的回归分析方法,其因变量是二元的逻辑函数。
4.岭回归(Ridge Regression):通过增加一个正则化项来防止过拟合,有助于提高模型的泛化能力。
5.主成分回归(Principal Component Regression):利用主成分分析降维后进行线性回归,减少数据的复杂性。
6.套索回归(Lasso Regression):通过引入L1正则化,强制某些系数为零,从而实现特征选择。
7.弹性网回归(ElasticNet Regression):结合了L1和L2正则化,以同时实现特征选择和防止过拟合。
8.多任务学习回归(Multi-task Learning Regression):将多个任务共享部分特征,以提高预测性能和泛化能力。
9.时间序列回归(Time Series Regression):专门针对时间序列数据设计的回归模型,考虑了时间依赖性和滞后效应。
10.支持向量回归(Support Vector Regression):利用支持向量机技术构建的回归模型,适用于小样本数据集。
11.K均值聚类回归(K-means Clustering Regression):将聚类算法与回归分析相结合,通过对数据进行聚类后再进行回归预测。
12.高斯过程回归(Gaussian Process Regression):基于高斯过程的非参数贝叶斯方法,适用于解决非线性回归问题。
统计学课程大纲
统计学课程大纲I. 课程简介(Introduction)- 课程名称:统计学(Statistics)- 学分:3- 前置课程要求:高中数学基础- 课程目标:通过学习统计学的基本概念、原理和方法,使学生能够熟练应用统计学的工具进行数据分析和决策。
II. 教学目标(Learning Objectives)- 理解统计学的基本概念,如总体、样本、变量、参数和统计量等。
- 掌握常见的统计学方法,包括描述统计、推断统计和回归分析等。
- 学会运用统计软件进行数据分析和结果解释。
- 培养学生的逻辑思维和问题解决能力。
III. 课程大纲(Course Outline)1. 第一部分:描述统计(Descriptive Statistics)- 数据的收集与整理- 数据的图表展示- 中心趋势和离散程度的度量- 数据的分组和频数分布表- 统计图形的绘制2. 第二部分:概率与概率分布(Probability and Probability Distributions)- 概率的基本概念- 随机变量与概率分布- 常见概率分布:离散随机变量的分布(如二项分布、泊松分布)和连续随机变量的分布(如正态分布)- 期望值和方差的计算3. 第三部分:统计推断(Statistical Inference)- 抽样方法与抽样分布- 点估计与区间估计- 假设检验的基本步骤- 单总体参数检验与双总体参数检验- 方差分析与相关分析4. 第四部分:回归分析(Regression Analysis)- 简单线性回归模型- 多元线性回归模型- 模型的评价与解释5. 第五部分:统计软件应用(Statistical Software Application)- 统计软件简介- 统计软件基本操作与应用案例演示- 学生实践与作业辅导IV. 教学评估(Assessment)- 平时表现:课堂参与、作业完成情况,占总评成绩的20%。
- 期中考试:考查学生对描述统计和概率的理解与应用,占总评成绩的30%。
logistic regression估计概率
logistic regression估计概率logistic regression是一种用于估计概率的统计学方法,在很多领域都有广泛的应用。
本文将为您逐步介绍logistic regression的基本原理、应用场景、建模步骤以及优缺点。
一、基本原理logistic regression是一种广义线性模型,用于预测一个二分类(也可扩展到多分类)问题,其中依赖变量是一个二值变量。
该模型基于logit函数,将输入特征与对数几率线性组合,来预测概率。
二、应用场景logistic regression在许多领域都有广泛的应用,如金融风险评估、医学诊断、市场营销、信用评分等。
其中,以下是一些常见的应用场景:1. 违约预测:基于个人的信用记录、财务状况等特征,估计其违约的概率,从而进行风险评估。
2. 疾病诊断:根据医学检测指标,预测某个人可能患有某种疾病的概率,用于辅助医生做出诊断决策。
3. 市场营销:根据客户的个人信息、购买历史等特征,预测其购买某个产品的概率,从而进行个性化推荐或定制化营销策略。
三、建模步骤下面是进行logistic regression建模的一般步骤:1. 数据准备:收集、清洗和准备用于建模的数据集,确保数据的质量和完整性。
2. 特征选择:根据领域知识和数据分析,选择与目标变量相关的特征,作为模型的输入变量。
3. 数据标准化:对连续型特征进行标准化处理,使其均值为0,方差为1,以消除不同尺度对建模结果的影响。
4. 模型拟合:使用logistic regression算法拟合模型,并根据训练数据优化模型参数,使得模型能够最好地拟合数据。
5. 模型评估:使用测试数据评估模型的预测性能,可以使用常见的指标如准确率、精确率、召回率、F1值等。
6. 模型调优:根据评估结果,调整模型参数或重新选择特征,进一步提升模型的性能。
7. 预测应用:使用经过训练和调优的模型,对新样本进行预测,并根据预测结果进行决策。
logistic_regression_analysis_z-score_概述及解释说明
logistic regression analysis z-score 概述及解释说明1. 引言1.1 概述本篇文章旨在介绍和解释逻辑回归分析Z得分(Z-Score)方法。
逻辑回归是一种广泛应用于分类问题的统计模型,它利用自变量与因变量之间的关系来预测某个事件或结果发生的概率。
而Z-Score则是一种统计指标,用于衡量数据的偏离程度和标准化程度。
结合逻辑回归和Z-Score的分析方法,在实际应用中可以提供更准确、可靠和可解释性强的预测结果。
1.2 文章结构本文将按照以下顺序进行论述:首先,我们将对逻辑回归分析Z-Score方法进行总体概述,并介绍其定义、背景和意义;接着,我们将详细探讨该方法在不同领域中的应用,并突出其优势与局限性;最后,我们将通过具体实例来演示该方法的实施步骤,并呈现相关数据分析结果和讨论。
1.3 目的本文旨在帮助读者理解逻辑回归分析Z-Score方法并能够正确应用于实际问题中。
通过阅读本文,读者将了解该方法在分类问题中的作用与应用,并掌握实施步骤和结果解释的技巧。
无论您是从事统计学研究、数据分析还是企业决策的相关人员,本文将为您提供一份有关逻辑回归分析Z-Score方法的全面介绍和详细说明,帮助您在实践中取得成功。
2. Logistic Regression Analysis Z-Score概述2.1 概念解释Logistic回归分析是一种用于预测二元(是或否)结果的统计分析方法。
它基于线性回归模型,但通过使用logistic函数将因变量转换为概率结果。
这种转换使得我们能够计算出每个自变量对因变量的影响程度,并进一步预测结果发生的可能性。
Z-score,也称作标准化分数或标准分,是统计学中常用的一种标准化方法。
它可以衡量一个数据点在整体样本中的相对位置,并告诉我们该数据点与平均值之间的距离。
通过Z-score,我们可以判断一个样本值是否偏离了平均值,并进行比较和分析。
2.2 应用领域Logistic回归分析和Z-score在多个领域都有广泛应用。
医学统计学-第五章线性回归(1)
体表 体重 体表 体重 体表 体重
体表 1.000 .918 . .000 10 10
体重 .918 1.000 .000 . 10 10
分析:此表给出了体重和体表的相关系数阵和P值。
Va ri abl es En ter ed/ Re mov edb
Model 1
Variables
Entered 体 重a
Sig. .153
3.Regression过程 菜单 “Analyze” | “Regression ” | “linear ”命令
Enter 强迫进入
将“体表[y]”选入 【Dependent框】; 将“体重[x]”选入 【Independent(s) 框】中, 点击 “Statistics”按 钮
a. Lilliefors Significance Correction
可以认为体重值、血压值服从正态分布。
Sig. .573
.397
3.相关分析过程 菜单 “Analyze” | “Correlate ” | “Bivariate ”命令
【Variables框】用于选 入需要进行相关分析的 变量,至少需要选入两个。
判断X和Y是否是线性相关的。
5.1 相关分析原理 1.直线相关: (1)两个变量均服从正态分布 Pearson简单相关分析
总体相关系数:
样本相关系数:
性质:
r绝对值愈接近1,两个变量间的线性相关越密切 r绝对值越接近0,两个变量间的线性相关越不密切
相关系数的检验 原假设
则:
(× )
(2)如果不服从正态分布,则应考虑变量变换,或采用 等级相关来分析。
.823
a. Predictors: (Constant), 体重
single regression analysis -回复
single regression analysis -回复1. 什么是单一回归分析?单一回归分析是一种统计学方法,用于研究因变量和自变量之间的关系。
它的目标是通过建立一个线性模型,根据自变量的值预测因变量的值。
在单一回归分析中,我们只考虑一个自变量对因变量的影响。
2. 为什么单一回归分析重要?单一回归分析可以帮助我们理解因变量和自变量之间的关系,并根据自变量的变化预测因变量的值。
这对于决策制定和预测未来趋势都是非常有用的。
例如,我们可以使用单一回归分析来预测销售量如何受到广告投入的影响,或者如何预测房价受到房屋面积的影响。
3. 单一回归分析的步骤是什么?单一回归分析通常包括以下步骤:步骤一:收集数据首先,我们需要收集包括因变量和自变量的数据。
通常,我们需要收集足够数量的数据以获得可靠的结果。
步骤二:绘制散点图在收集数据后,我们可以绘制自变量和因变量的散点图。
通过观察散点图,我们可以初步了解两个变量之间的关系。
步骤三:计算相关系数为了确定自变量和因变量之间的关系强度,我们可以计算相关系数。
常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数。
步骤四:建立模型在计算相关系数后,我们可以建立一个线性模型来描述两个变量之间的关系。
这个模型可以写成Y = β0 + β1X ,其中Y是因变量,X是自变量,β0是截距,β1是斜率。
步骤五:拟合模型和评估结果接下来,我们需要使用最小二乘法来拟合模型,找到最佳的截距和斜率值。
然后,我们可以评估模型的拟合程度,常用的评估指标有R方值和调整后的R方值。
步骤六:检验假设最后,我们需要检验假设是否成立。
一般来说,我们希望自变量对因变量有统计上显著的影响。
我们可以使用t检验或F检验来检验假设的成立程度。
4. 单一回归分析有哪些限制?单一回归分析也有一些限制。
首先,它假设因变量和自变量之间是线性关系,如果关系是非线性的,则可能需要使用其他的回归分析方法。
其次,单一回归分析假设了一个因变量只受一个自变量影响的情况,但在现实生活中,很多情况下因变量受多个自变量影响。
regression方程pa pb
回归分析是一种统计学方法,用于探索和建立变量之间的关系。
回归方程是回归分析的核心,用于描述自变量和因变量之间的数学关系。
本文将介绍回归方程的基本概念以及其在实际问题中的应用。
一、回归方程的基本概念1.1 回归方程的定义回归方程是描述自变量和因变量之间关系的数学表达式。
通常用于预测或解释因变量的取值。
回归方程通常表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1, X2, ..., Xn表示自变量,β0, β1, β2, ..., βn 表示回归系数,ε表示误差项。
1.2 回归方程的构建回归方程的构建通常分为两种方法:参数估计和非参数估计。
参数估计是指根据样本数据估计回归系数的取值,通常使用最小二乘法。
非参数估计则是通过拟合数据点来构建回归方程。
1.3 应用范围回归方程广泛应用于各个领域,包括经济学、金融学、生态学、医学等。
在商业领域,回归方程用于预测销售额、市场需求等。
在科学研究中,回归方程用于探索变量之间的关系。
二、回归方程的应用2.1 简单线性回归简单线性回归是最基本的回归模型,用于描述一个自变量和一个因变量之间的线性关系。
简单线性回归的回归方程可以表示为:Y = β0 + β1X + ε其中,Y表示因变量,X表示自变量,β0, β1表示回归系数,ε表示误差项。
2.2 多元线性回归多元线性回归是描述多个自变量和一个因变量之间的线性关系。
多元线性回归的回归方程可以表示为:Y = β0 + β1X1 + β2X2 + ... + βnXn + ε其中,Y表示因变量,X1, X2, ..., Xn表示自变量,β0, β1, β2, ..., βn 表示回归系数,ε表示误差项。
2.3 Logistic回归Logistic回归用于处理因变量为二元变量的情况,通常用于分类和预测。
Logistic回归的回归方程可以表示为:P(Y=1|X) = 1 / (1 + e^-(β0 + β1X1 + β2X2 + ... + βnXn))其中,P(Y=1|X)表示因变量为1的概率,X1, X2, ..., Xn表示自变量,β0, β1, β2, ..., βn表示回归系数。
线性相关
5
第一节 线性相关
一、线性相关的概念: 如果两个随机变量中,一个变量由小到大变
化时,另一个变量也相应地由小到大(或由大到 小 )地变化,并且测得两变量组成的坐标点在直 角坐标系中呈线性趋势,就称这两个变量存在 线性相关关系。 其中,X和Y无主次之分。
6
7
相关分析的资料获取:
从研究总体随机抽取 n个对象,每个对象观察X
3
•
线性相关分析是研究两个变量间是否有线性
关系以及线性关系的方向和密切程度的方法。
•
线性回归分析是描述两个变量间依存变化的 方法。
本章介绍两个变量间的线性回归与相关, 及等级相关。
4
第一节 线性相关
一、线性相关的概念 二、相关系数的意义及计算 三、相关系数的假设检验 四、总体相关系数的区间估计 五、线性相关分析时的注意事项
H1 : ρ≠0, 正常成年男性的血浆清蛋白含量与血红蛋 白含量之间有线性相关关系。
α=0.05
21
三、相关系数的假设检验:
( 2)计算检验统计量
r0 tr Sr
1 r / n 2
2
r
Sr为相关系数 r的标准误 自由度为
n2
2
tr
0.756 1 0.756 15 2
1 (1 r ) 1 1 0.756 z ln ln 0.987 2 (1 r ) 2 1 0.756
z的95%置信区间(0.421,1.553)
r1 e 1 e 1 0.398 2 z1 20.421 1 e 1 e
2 z1 20.421
e 2 z2 1 e 21.553 1 r2 2 z2 21.553 0.914 1 e 1 e
regression数学
regression数学回归分析是一种统计学方法,用于建立一个变量与其他变量之间的关系模型。
它可以用来预测一个变量的值,基于其他已知的变量。
在简单线性回归中,我们假设有两个变量X和Y,其中X是自变量,Y是因变量。
我们希望通过X来预测Y的值。
简单线性回归的数学表达式如下:Y = β0 + β1*X + ε其中,Y是因变量的值,X是自变量的值,β0是截距,β1是斜率,ε是误差项。
我们的目标是找到最佳的β0和β1,使得预测值Y与实际观测值Y之间的差距最小化。
这可以通过最小化残差平方和来实现:RSS = Σ(Yi - (β0 + β1*Xi))^2其中,RSS是残差平方和,Yi是实际观测值,Xi是对应的自变量值。
为了找到最佳的β0和β1,我们可以使用最小二乘法。
最小二乘法通过最小化残差平方和来确定最佳拟合线的参数。
具体而言,我们可以通过求解以下方程得到β0和β1的估计值:β1 = Σ((Xi - X_mean)(Yi - Y_mean)) / Σ((Xi - X_mean)^2)β0 = Y_mean - β1*X_mean其中,X_mean和Y_mean分别是X和Y的均值。
这样,我们就得到了回归方程,可以用来预测Y的值:Y = β0 + β1*X这个方程描述了X和Y之间的线性关系。
通过估计β0和β1,我们可以根据给定的X值来预测Y的值。
需要注意的是,回归分析还有很多其他的变体和扩展,例如多元线性回归、非线性回归、岭回归等。
每种回归方法都有其特定的数学表达和求解方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
平方和 RSS0:有 p0 + 1 个参数的较小模型的最小二乘拟合的残差 平方和,即较大模型中的 p1 - p0 个参数被约束为0
F的分布为 Fp 1
c 21当n较大时,近似为 p
Y:log (Buchannan 的得票数 ) X:log ( Bush 的得票数 )
µ ˆ ˆ b 0 = - 2.3298, se b 0 = 0.3529
( )
µ ˆ ˆ b1 = 0.7303, se b1 = 0.0358
( )
ˆ Y 2.3298 0.7303X
残差分布更合理?
偏差—方差折中
1
线性回归模型
线性回归模型:假设 E Y | X x 是线性的:
r x E Y | X x 0 j x j
j 1 p
线性回归模型是一个古老的工具,但仍然很有用…
简单,有封闭形式的解 对回归效果很容易进行解释 应用广泛,因为Xi 可以为任何变量的任何函数 如 Y sin X cos X 0 1 2 X2 X1
2
一元线性回归
假定 Yi r X i i ,其中 r x 0 1 x 假定 E i | X i 0, V i | X i 2。 在一维情况下,未知参数为斜率 1 和截距 0 ˆ ˆ 令 1 和 0 分别表示 1 和 0 的估计,则匹配的线为
( )
p 也可用p-value计算: _ value = P ( Z > w ) = 2F (- w )
ˆ µ ˆ 2未知时, 1 的真正分布为t分布: b1 se (b1 ) ~ tn- 2
但样本数n较大时,可用正态分布近似
6
预测及其标准误差
ˆ ˆ 预测为: X 0 1 X ˆ r
ˆ se b1 =
( )
s2 ( X i - X )2 邋
i= 1 n
µ ˆ , se b1 =
( )
sˆ 2
n
( X i - X )2
i= 1
ˆ 1 的1-α置信区间为:b1 ±
µ ˆ za 2 se b1
( )
5
假设检验
若要检验假设 H 0 : 1 0 vs. H1 : 1 0 ,可用Wald检 ˆ µ ˆ 验统计量 W = b1 se b1 ,如果W > za 2 ,拒绝 H 0
上节课内容
[ESL] Chp2中一些重要的观点…
X1 目标:找到一个“好”的模型,根据一些预测子 , , X p 预测变量Y 2 好:风险(期望预测误差)最小: R f X E Y f X 答案:fˆ x E Y | X x ,但是 … E Y | X x 是什么 ?
2 n
2
ˆ E r x r x
2
2
ˆ 2 MSE r x ˆ 2 V r x
ˆ 预测的1-α置信区间: Y
z 2ˆn
8
例:[Weiss]13.6
例13.6(2001年总统选举):
Y:Buchannan 的得票数 X:Bush 的得票数
n 2 n 2
最小的 1 和 0:
n ( X i X )Yi ˆ 1 i n1 ( X i X )2 i 1 ˆ ˆ 0 Y 1 X
1 n 2 的无偏估计为: 2 ˆ ˆi n 2 i 1
2
4
期望预测误差分解: 若 Y f X ,其中 V 2且 fˆ X 为模型 f X 的估计
2 2 ˆ x E y f x | X x E f x fˆ x | X x ˆ R f 0 0 0 0 0 0 0 2 ˆ V E f ( x0 ) f x0 2 2 ˆ ˆ bias f x0 V f x0
但样本数n较大时,可用正态分布近似
19
最小二乘估计的性质
若要检验一组系数的显著性,可用F统计量:
(RSS0 - RSS1 ) ( p1 - p0 ) F= RSS1 (n - p1 - 1)
残差平方和随 变量数目的变化
其中:
RSS1:有 p1 + 1 个参数的较大模型的最小二乘拟合的残差
ˆ ˆ ˆ r x 0 1 x ˆ ˆ 预测值/匹配值为 Yi r X i
ˆ ˆ ˆ 残差为 i Yi Yi Yi 0 1 X i ˆ
3
点估计
最小二乘(least squares)估计为使得残差平方和
RSS 0 , 1 i 1 i i 1 Yi 0 1 X i
RSS
2s 144444444 444444443 i= 1 42 4
所以最小二乘估计的结果也是极大似然估计 且方差 2 的极大似然估计为
1 n 2 ˆ ˆ 2 i n i 1
14
多元线性回归
更一般地,当输入向量X为一个p维向量时,称为 p元线性回归 数据对为 X1 , Y1 ,, X n , Yn ,权重向量为 。为了 包括所有的截距项,我们给每个特征增加一维, 并置为1,通常将其放在第一列,即 X i X i 0 , X i1 ,..., X ip 则模型变为
则似然函数为
f X , Y f X f Y | X
i 1 i i i 1 X i Y |X i i
n
n
f X X i fY | X Yi | X i i 1 i 1
L1 L2
13
n
n
最小二乘估计与MLE
ˆ ˆ ˆ ˆ ˆ ˆ ˆ V r X V 0 1 X V 0 V 1 2 xCov 0 , 1
7
预测误差
在观测 X x处,响应的真值为 Y r x 则预测误差为
ˆ E Y Y | X x
Yi X i i X ij j i
j 0 p
其中 E i | X i 0 ,并假设所有的观测有相同的 方差 2 V i | X i
15
多元线性回归:矩阵形式
X 10 X 20 输入矩阵: X X n0 1 2 噪声向量为 n
则线性回归模型为:
y X ε
16
最小二乘估计
最小二乘估计:残差项的平方和最小
RSS ( ) y X y X
T
这是一个p+1个参数的二次方程,对 求导 数并使导数为0:
RSS ( ) 2XT y X 0
17
最小二乘估计的性质
标准误差和置信区间
ˆ V | Xn
1 n 2 2 n Xi n i 1 ( X i X )2 X
i 1
X 1
ˆ 1
( X
i 1 n i 1
n
i
X )Yi X )2 i
( X
ˆ ˆ 0 Y 1 X
10
例:[Weiss]13.10
对例13.6中的选取数据,对两个票数取log后,
µ ˆ ˆ b1 = 0.7303, se b1 = 0.0358
( )
95%置信区间为: 0.7303 贝2 0.0358 = (0.66,0.80)
检验 H 0 : 1 0 vs. H1 : 1 0 ,Wald统计量为: µ ˆ ˆ w = b - 0 se (b ) = 0.7307 0.0358 = 20.40
假设 p 1 p 1 的矩阵 XT X 可逆,则
无偏性 ˆ V X X
ˆ XT X 1 XT y
ˆ E
在给定 X1 ,, X n 的条件下
2
T
1
ˆ P
一致性
ˆ ~ N , 2 XT X 1
X 11 X 1 p Y1 X 21 X 2 p Y2 ,输出向量: y X n1 X np Yn 0 1 ,参数向量 p
µ ˆ ˆ b 0 = 66.0991, se b 0 = 17.2926 ˆ b1 = 0.0035,
( ) µ ˆ se (b ) = 0.0002
1
ˆ Y 66.0991 0.0035 X
当残差是随机正态分布时, 线性回归的推断是最精确的
9
例:[Weiss]13.6
例13.6(续):
而根据模型得到预测值为
ˆ Y 2.3298 0.7303X 6.388441 预测误差为: ˆn 0.093775,
95%置信区间为:(6.200, 6.578),不包含真值8.151045,预测值显 著小于真值 不取log的回归模型得到预测误差的95%置信区间为:(493, 717), 而实际票数为3467