R语言课程设计--个人所得税回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成绩:
统计计算与软件期末大作业
大作业题目:
任课老师:
姓名:
学号:
班级:
摘要
在纳税单位的选择上,有家庭和个人两种选择方法,选择不同的纳税单位会对国家财政收入、纳税人税负造成不同影响。目前我国个人所得税制以个人为纳税单位,按其收入类别进行划分,在进行合理扣除后乘以相应税率计征。而在国外,一些国家允许将家庭作为个人所得税的纳税单位,具有一定的借鉴意义。本文结合我国国情,探索个人所得税的影响因素。当前,我国个人所得税的纳税单位为个人,针对不同类型的收入分别采用统一的扣除标准和税率,随着我国经济的快速发展,人们的收入水平也随之不断提升。在现行的个人所得税制度下,个人作为纳税义务主体,必须按照相关税法对个人收入缴纳所得税,这就导致个人获取的实际收入会有所减少。
关键词:个人所得税;回归分析;聚类分析;时间序列分析
Abstract
There are two ways to choose tax paying units: family and individual. Different tax units will have different effects on national fiscal revenue and taxpayer's tax burden.At present, the individual income tax system of our country takes the individual as the tax unit, divides it according to its income category, and multiplies the tax rate by the corresponding tax rate after the reasonable deduction.In foreign countries, some countries allow the family to be the individual income tax unit, which has certain reference significance.This paper explores the influence factors of personal income tax in combination with the national conditions of our country. At present, the tax unit of personal income tax in China is individual, and a unified deduction standard and tax rate are applied to different types of income. With the rapid development of China's economy, people's income level is also rising.Under the current personal income tax system, individuals as income tax entities must pay income tax according to the relevant tax laws, which leads to a decrease in personal income.
Key words: personal income tax; regression analysis; cluster analysis; time series analysis
一.数据预处理
首先,将个人所得税收表保存为CSV(逗号分隔)格式,之后用函数将数据读入到R的内存中。为了方便之后的操作,对各列进行命名,其中NY代表年度时间,CSJMNRJKZPSR,CZDWZGNPJGZ,CZJMCXCKYE,DQSCZZ,DECYZJZ,CZFSYDWCYRYS,DFCZSR,GRSDS,YBYSSR,ZFXJJSR 分别代表城市居民年人均可支配收入、城镇单位职工年平均工资、城镇居民储蓄存款余额、地区生产总值、第二产业增加值、城镇非私营单位从业人员数、地方财政收入、个人所得税、一般预算收入、政府性基金收入。同时给出各类别下的样本量个数。从原始数据中可知样本量为16,不是很多,如果再进行分块,可能由于样本量的限制无法得到最好的结果,因此,下文中的训练集和测试集均选用原始数据来充当。
二.建模应用:财政收入的数据分析
2.1分类与预测:回归分析
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量之间的关系。这种技术通常用于预测分析以及发现变量之间的因果关系。本次运用了lm函数进行回归建模。
Multiple R-squared和Adjusted R-squared这两个值,常被叫做“拟合优度”和“修正拟合优度”,是指回归方程对样本的拟合程度,越接近“1”,拟合程度越高。显然,这个回归模型的拟合优度为0.9764,拟合程度一般。而标准化残差则可以认为是模型用城市居民年人均可支配收入、城镇非私营单位从业人员数、城镇居民储蓄存款余额、地区生产总值、第二产业增加值、地方财政收入、政府性基金收入预测个人所得税的平均误差。各个变量的P值都大于0.05,即各个变量都显著不为零。
图 1
图1为模型的回归诊断图。左上图是残差对拟合值做图,显然残差值与拟合值就没有任何系统关系,即因变量与自变量存在相关关系;右上图为残差QQ图,用以观察残差是否符合正态分布,显然图上的点基本都落在呈45°的直线上,即残差满足正态分布;左下图是标准化残差对拟合值,用于判断模型残差是否等同方差,图上的点呈随机分布状态,故模型残差满足同方差假设;右下图是残差与杠杆图。
2.2聚类分析:
2.2.1 层次聚类算法
图 2
从图2可以看出,在聚类树的最下端,每个样本独自为一类,越往上,一条分支里的样本多,直至所有的样本聚为一类。
2.2.2其他聚类分析函数