数据挖掘r语言总结报告

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总结报告

课程名称:数据挖掘R语言

任课教师:

姓名:

专业:计算机科学与技术

班级:

学号:

计算机科学与技术学院

2018 年 6 月 19 日

一、数据预处理

针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。必要时还需对原数据集进行统计变换后形成易于分析的形式。

为每条数据添加字段:所属地区。根据下图中划分的美国四大地区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。

首先导入数据:

gundata<-read.csv("d:/gun.csv",sep = ",",stringsAsFactors = FALSE,header = TRUE,quote=””)

n_injured","congressional_district","latitude","longitude","state_hou se_district","state_senate_district")]

gd <-

subset(gundata,select=c(incident_id,date,state,city_or_county,n_kille d,

n_injured,congressional_district,latitude,longitude,state_house_distr ict,state_senate_district))

然后根据州字段将所有数据划分为四个地区

阿拉巴马州 Alabama

阿拉斯加州 Alaska

亚利桑那州 Arizona

阿肯色州 Arkansas

加利福尼亚州 California

科罗拉多州 Colorado

哥伦比亚特区Columbia

康涅狄格州 Connecticut

特拉华州 Delaware

佛罗里达州 Florida

佐治亚州 Georgia

夏威夷州 Hawaii

爱达荷州 Idaho

伊利诺州 Illinois

印弟安纳州 Indiana

爱荷华州 Iowa

堪萨斯州 Kansas

肯塔基州 Kentucky

路易斯安那州 Louisiana

缅因州 Maine

马里兰州 Maryland

麻塞诸塞州 Massachusetts

密歇根州 Michigan

明尼苏达州 Minnesota

密西西比州 Mississippi

密苏里州 Missour

蒙大拿州 Montana

内布拉斯加州 Nebraska

内华达州 Nevada

新罕布希尔州 New Hampshire

新泽西州 New Jersey

新墨西哥州 New Mexico

纽约州 New York

北卡罗来纳州 North Carolina

北达科他州 North Dakota

俄亥俄州 Ohio

奥克拉荷马州 Oklahoma

俄勒冈州 Oregon

宾西法尼亚州 Pennsyivania

罗德岛州 Rhode Island

南卡罗来纳州 South Carolina

南达科他州 South Dakota

田纳西州 Tennessee

德克萨斯州 Texas

犹他州 Utah

佛蒙特州 Vermont

弗吉尼亚州 Virgina

华盛顿州 Washington

西佛吉尼亚州 West Virginia

威斯康辛州 Wisconsin

怀俄明州 Wyoming

东北部

Maine,New Hampshire,Vermont,Massachusetts,Rhode Island,Connecticut,New York,Pennsyivania,New Jersey

中西部

Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,North Dakota,South Dakota,Nebraska,Kansas,Minnesota,Iowa

南部

Delaware,Maryland,District of Columbia,Virgina,West Virginia,North Carolina,South

Carolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklah oma,Texas,Arkansas,Louisiana

西部

Iowa,Montana,Wyoming,Nevada,Utah,Colorado,New

Mexico,Arizona,Alaska,Washington,Oregon,California,Hawaii

for (i in 1:length(gd[,1])){

if (gd[i,3]=="Maine"|gd[i,3]=="New Hampshire"|gd[i,3]=="Vermont"|gd[i,3]=="Massachusetts"|gd[i,3]=="Rhod e Island"|gd[i,3]=="Connecticut"|gd[i,3]=="New York"|gd[i,3]=="Pennsylvania"|gd[i,3]=="New Jersey")

{

gd[i,9]="东北部"

}

else if

(gd[i,3]=="Wisconsin"|gd[i,3]=="Michigan"|gd[i,3]=="Illinois"|gd[i,3] =="Ohio"|gd[i,3]=="Indiana"|gd[i,3]=="Missouri"|gd[i,3]=="North Dakota"|gd[i,3]=="South

Dakota"|gd[i,3]=="Nebraska"|gd[i,3]=="Kansas"|gd[i,3]=="Minnesota"|gd [i,3]=="Iowa")

{

gd[i,9]="中西部"

}

else if

(gd[i,3]=="Delaware"|gd[i,3]=="Maryland"|gd[i,3]=="District of Columbia"|gd[i,3]=="Virginia"|gd[i,3]=="West

Virginia"|gd[i,3]=="North Carolina"|gd[i,3]=="South Carolina"|gd[i,3]=="Georgia"|gd[i,3]=="Florida"|gd[i,3]=="Kentucky"|g d[i,3]=="Tennessee"|gd[i,3]=="Mississippi"|gd[i,3]=="Alabama"|gd[i,3] =="Oklahoma"|gd[i,3]=="Texas"|gd[i,3]=="Arkansas"|gd[i,3]=="Louisiana ")

{gd[i,9]="南部"}

else

if(gd[i,3]=="Iowa"|gd[i,3]=="Montana"|gd[i,3]=="Wyoming"|gd[i,3]=="Ne vada"|gd[i,3]=="Utah"|gd[i,3]=="Colorado"|gd[i,3]=="New

Mexico"|gd[i,3]=="Arizona"|gd[i,3]=="Alaska"|gd[i,3]=="Washington"|gd [i,3]=="Oregon"|gd[i,3]=="California"|gd[i,3]=="Hawaii")

{gd[i,9]="西部"}}

然后用fix(gd)将第九列的字段修改为part:

相关文档
最新文档