影响戒烟成功因素的分析--数学建模

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

影响戒烟成功因素的分析
高利
(理学院11信科1班)
摘要:为了分析影响戒烟成功的主要因素,原题提供了包括234人的调查数据。

涉及的影响因素包括年龄、性别、每日抽烟只数、CO浓度和调整的CO浓度。

本文就是以234人的调查数据为基础,对数据进行处理和分析,利用计算机编程和数学模型的方法,探寻影响戒烟成功的主要因素,并在最后根据文本的相关研究结果对广大烟民提出建议。

问题一主要分析了不同年龄和不同性别的累加发病率分布情况,主要利用计算机编程,对原始数据进行分组、筛选和统计,并作出分布直方图。

经过分析得知男性的累加发病率为84.55%,女性的累加发病率为87.10%,略高于男性,青年人(18---40岁)累加发病率最高,为87.72%,中年人(41---65岁)次之,为84.68%,老年人(66岁)以后很少,为77.78%。

问题二是判断年龄、性别、每日抽烟支数、调整的CO浓度等因素哪些对戒烟时间有影响,并要求给出定量的分析。

针对此问题,本文只取戒烟天数小于365天的被调查者为研究对象,并把原始数据中空缺的数据行排除,首先画出个因素与戒烟天数的散点图,直接观察数据间的关系,再通过计算两组数据的相关,比较其绝对值的大小,定量的给个影响因素对戒烟天数的影响程度初系数ρ
xy
步排序,处理结果为影响程度有大到小排序:CO浓度,每日抽烟支数,调整CO 浓度,年龄。

问题三利用建立适当的数学模型,讨论影响戒烟成功的主要因数,并对模型进行可靠性分析。

在这里主要建立了统计回归模型。

由于原始数据散点图比较散乱,不容易直接看出两组数据间的关系,也不方便直接处理,所以首先对原始数据做了预处理,等距分组,并求出每组戒烟天数的均值,以减小数据的波动,方便观察数据之间的宏观关系,再利用处理后的数据建模分析,通过建立统计回归模型对处理后的数据做了二次函数拟合,再进行回归分析,比较回归方程的决定系数R2等,进一步量化和判断不同因素对戒烟成功影响程度的大小,得到的结论是每天抽烟支数和CO浓度是影响戒烟成功的最主要因素。

关键词:累加发病率;相关系数;分组平均;二次函数拟合;Mathematica。

1问题的提出
吸烟不仅危害自身健康,而且由此引起的被动吸烟更是危害公众身心健康的主要原因,因此为了帮助烟民尽快摆脱烟瘾的困扰,有必要深入调查分析一下影响戒烟成功的主要因素。

影响戒烟成功的因素很多,可能的因素包括年龄、性别、每日抽烟的支数、烟民体内的CO浓度等,但影响烟民戒烟成功的主要因素有哪些?各个因素的影响程度如何?对于有意愿戒烟的烟民如何更好地把握这些因素,更有效的戒烟?原题给出了涉及234人的相关调查数据,用以分析影响戒烟成功的主要因素,本文主要以这些数据为依据,进行相关的处理与分析。

2问题的分析
2.1问题一
由题意知,累加发病率是原吸烟者戒烟一段时间后又再次吸烟的比例。

前面假设原戒烟者在研究截止时间内没有再吸烟为戒烟成功,即在研究期限一年内如果再吸烟,戒烟失败,为再犯者。

对于问题一,把各因素的调查数据进行分组。

如把年龄分成不同的年龄段,以上述判断标准对每个年龄段分别计算相应的累加发病率,并作出分布直方图,进行比较。

2.2问题二
原题定时,戒烟天数是从0到他(她)退出戒烟或研究截止时间的天数,所以数据中戒烟天数是365天的戒烟者,其戒烟天数是不确定的。

对于问题二,本文采取把戒烟天数是365天的数据排除,只对戒烟天数小于365天的数据进行处理和分析。

首先通过编程对数据进行筛选,并可视化——以各影响因素的数据值为横坐标,以纵坐标为戒烟天数,作出散点图。

再根据散点图分析影响因素与戒烟天数之间的关系。

至于定量分析,通过计算两组数据的相关系数ρ
,由相关
XY
系数ρ
来衡量影响因素与戒烟天数之间关系的大小。

XY
2.3问题三
对于问题三,本文主要采用了统计回归模型,在处理问题二的时候发现,各影响因素与戒烟天数之间的关系并不非常的明显,散点图不是很集中,不便于直接处理。

本文采取的方案是在建立模型之前先对原始数据做一个转化,首先利用Mathematica编制一个统一的数据处理程序,把每个可能影响因素都做等距分组,分组数在程序调用时输入,在对每一组的所有戒烟天数求平均值,得到一个统计平均的结果,这样可以有效的减小数据的波动,有利于看清数据之间的关系,对于关系比较明显的影响因素,建立统计回归模型,进行回归分析,深入探讨各影响因素对戒烟天数及戒烟成功的影响的大小。

3条件的假设
(1)假设在研究截止时间(一年)内没有再吸烟(戒烟天数为365天)的原戒烟者戒烟成功。

(2)假设原烟民戒烟的可信度是很低,有些调查数据可能不真实,在数据处理的过程中给予以排除。

(3)假定全部被调查者中没有人中途退出研究。

4符号的约定
:年龄;
X
A
:性别(1表示男,2表示女);
X
G
:每日抽烟支数;
X
Cig
X
:CO浓度;
CO
:调整的CO浓度;
X
LC
Y:戒烟天数;
ρXY:两组数据的相关系数。

5模型的建立与求解
5.1问题一
为了直观得了解所有234人的总体戒烟情况,作出如下散点图:
由图1看出,被调查的234人中大多数经过很短时间后又再次抽烟,只有少数人戒烟天数达到365天,只占总人数的14.10%,本文假设在研究截止时间内没有再抽烟的烟民戒烟成功,所以累加发病率的具体定义为戒烟天数小于365的烟民数量占研究样本总人数的比例,据此,本文分别对不同年龄段和不同性别的累加发病率进行计算和比较。

不同性别。

经过简单的统计计算,可以得到不同性别的累加发病率的分布情况:
可以发现男性的累加发病率为84.55%,女性的累加发病率为87.10%,略高于男性。

不同年龄段。

根据中国年龄分段标准,18--40岁为青年人,41--65岁为中年人,66岁以后为老年人,本文按此把所有被调查者的年龄分为三段。

经过编程统计计算,可以得到不同年龄段的累加发病率的分布情况:
可以发现,青年人累加发病率最高,为87.72%,中年人次之,为84.68%,老年人最少,为77.78%。

5.2问题二
首先对数据进行筛选。

原始数据中有部分空缺,把有空缺的被调查者的数据删除。

由上面分析,戒烟天数是365天的戒烟者,其戒烟天数是不确定的,也应该给予删除。

然后作出影响因素与戒烟天数的数据散点图,如图4。

数据分析。

直接观察散点图,发现每个影响因素与戒烟天数之间的关系都不是非常明显。

假设影响因素与戒烟天数之间如果存在线性关系或是其他某种单调关系,对该影响因素的深入分析,对戒烟者成功戒烟是有帮助的。

为了定量分析不同影响因素对戒烟天数影响程度的大小,本文采取相关系数ρXY 分析。

表1不同影响因素与戒烟天数的相关系数
相关系数是反映两组数据线性相关性的量,其绝对值越接近1,两组数据的线性相关性越大,其符号反映的是两组数据相关性的正负。

由表1发现四中影响因素与戒烟天数都是负相关,影响程度由大到小排序为:CO 浓度,每日抽烟支数,调整CO 浓度,年龄。

对于性别因素。

因为XG 的值只有两种,所以只比较不同性别戒烟天数的平均值,经过计算可知,男性别戒烟天数平均为27天,女性戒烟天数平均为39天,高于男性。

X A X Cig X LC X CO ρXY
-0.04689
-0.22878
-0.10792
-0.27763
5.3问题三
经过对问题二的分析发现,各影响因素与戒烟天数之间的关系并不非常明显,相关性都比较小。

观察散点图,数据比较分散,波动比较大,不方便与直接处理,所以本文的思路是先对原始数据进行预处理,采用分段区求和取平均的方案。

按影响因素的值等距分段,再计算每一段所对应戒烟天数的平均值,这样做的好处是能得到一个统计平均的结果,有利于减小数据的波动,可以更好地看清楚数据之间的关系,最后对所有得到的数据进行建模分析系。

程序:
Indata=Import[“indata.xls”][[1]];
daD={};
Do[AppendTo[daD,{indata[[i,1]],indata[[i,8]]}],{i,2,
Length[indata]}];
Show[ListPlot[daD,AspectRatio->0.5,Filling->Axis,
ImageSize->500],
FrameLabel->{Style[“ID”,12],Style[“Y:戒烟天数”,12]},Frame->True] 生成表1
下面分析一下算法。

自定义函数seperatefun[]有四个输入变量,其中data 为原始数据,i为所研究的影响因素在原始数据中对应的列,start用于调整扫描的起始位置,m是打算分的组数。

具体步骤如下:
(1)提取影响因素的数据向量,计算最大值和最小值;
(2)根据组数m和最大值和最小值计算组距;
(3)通过一层循环,分别计算每组所对应戒烟天数的平均值,并以每组的中间点为代表点
(4)每一次循环把代表点和相应的平均值存储在列表中,退出循环后,返回结果列表。

这里m取为20组,把年龄、每天抽烟支数、调整CO浓度、CO浓度四种影响因素的数据处理后,即可发现每天抽烟支数和CO浓度与戒烟天数存在者较为明显的线性关系,而年龄-戒烟天数和调整CO浓度-戒烟天数散点图仍旧比较分散,这就是可以初步得知每天抽烟支数和CO浓度对戒烟天数的影响比较大。

为了更进一步的分析这两个因素对戒烟天数的影响的成都读,本文利用统计分析回归模型,对数据进行线性拟合(二次函数拟合)和回归分析。

根据散点图的特点,两组因素都用二次函数拟合:
Y=β
0+β
1
X
Cig

2
X2
Cig

Y=β
0+β
1
X
CO

2
X2
CO

利用Mathematica中的LinearModelFit[]函数,即可使模型得解。

函数代码:
Partfun[data_,i_,start_,m_]:=Module[
{dapart={},j,tran,min,max,dat,n},
dat=Table[data[[l,i]],{l,start,Length[data]}];
Min=Min[dat];max=Max[dat];
If[IntegerQ[m]&&0<=max-min,
n=(max-min)/m,
N=1];
For[j=0,min+j*n<min+(j+1)*n,
AppendTo[tran,data[[1,8]]]],
{1,start,Length[data]}];
If[Length[tran]!=0,
AppendTo[dapart,min+j*n+n/2,Mean[tran]}]]
];
Dapart
]
表2.每天抽烟支数-戒烟天数回归分析
参数参数估计值参数置信区间
β099.0969 [61.6743,136.52]
β1-5.39584 [-9.81353,-0.978157] β20.082034 [-0.0289668,0.193035] R2=0.761314 F=25.9115 P=0.000653633
表3.CO浓度-戒烟天数回归分析
参数参数估计值参数置信区间
β089.882 [62.605,117.159]
β1-0.293954 [-0.460374,-0.127535]
β20.00025613 [0.0000343839,0.00047787
5]
R2=0.695233 F=28.1568 P=0.0000879904
从表2和表3的回归分析可知每天抽烟支数对应的决定系数R2比CO浓度对应的决定系数R2稍小,而且每天抽烟支数对应的参数置信区间比CO浓度对应的参数置信区间总体上要短,这说明每天抽烟支数与抽烟天数的关系比戒烟者体内CO浓度与戒烟天数的关系稍强。

综上可知,每天抽烟支数和CO浓度是影响戒烟成功的主要因素,总体上,每天抽烟支数越多,CO浓度越高,戒烟时间越短,戒烟越不容易成功。

6结果分析与建议
综合前三问的分析,可以发现不同年龄,不同性别的戒烟者累加发病率和戒烟天数虽然都有差别,但差别并不大,调整的CO浓度与戒烟天数的散点图也很分散,关系不大。

而每日抽烟支数和CO浓度与戒烟天数的关系相对来说较为明显,据此本文对有意愿戒烟的人士提出以下几点建议:
(1)年龄和性别对戒烟成功的影响不是很大,所以有志于戒烟的人不论男性还是女性,也不论年龄大小都是有可能戒烟的,不要认为自己年纪大了,就戒不掉烟了。

(2)每日抽烟支数对戒烟成功的影响较大,戒烟者先前每日抽烟的支数越多,戒烟天数可能就越短。

戒烟成功就越困难,这应该是来自于自己习惯的力量,所以要想戒烟首先应该有坚强的毅力。

(3)CO的水平反映了一个烟民先前抽烟的数量,经过本文的分析论证,它也是影响戒烟成功的主要因素,这说明克服先前的烟瘾,把烟成功的戒掉确实是需要毅力的,想成功戒烟没有坚强的毅力是不行的。

7模型的评价与改进
(1)本文以原题所提供的数据为基本,对数据进行了详尽细致的处理和分析,充分挖掘了数据中隐含的信息;
(2)全文紧密围绕寻找影响戒烟成功的主要因素的核心,方向明确,重点突出;(3)在建立模型求解之前,先对原始数据做了预处理,利用分组统计平均的方法,使原本十分散乱的数据更加集中,能更好的在宏观上看出数据之间的关系,方便了后续的建模求解;
(4)建立了统计回归模型,通过Mathematica求解计算和回归分析,比较细致地、定量地分析了不同影响因素对戒烟天数的影响程度。

参考文献:
[1]吴赣昌,《概率论与数理统计》中国人民大学出版社,2011:105-110;
[2]黄红莲,《两个随机变量的独立性与不相关性》咸宁师专学报,2001,21(6);
[3]姜启源,谢金星,叶俊《数学模型》(第三版)高等教育出版社,2009:294-301;
[4]姜启源,谢金星,邢文训,张立平《大学数学实验》(第二版)清华大学出版社,2010。

相关文档
最新文档