数据挖掘r语言知识学习归纳报告

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

总结报告

课程名称:数据挖掘R语言

任课教师:

姓名:

专业:计算机科学与技术

班级:

学号:

计算机科学与技术学院

2018 年 6 月19 日

一、数据预处理

针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。必要时还需对原数据集进行统计变换后形成易于分析的形式。

为每条数据添加字段:所属地区。根据下图中划分的美国四大地区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。

首先导入数据:

gundata<-read.csv("d:/gun.csv",sep = ",",stringsAsFactors = FALSE,header = TRUE,quote=””)

然后将需要的字段取出来,在这里取出了一下几个字段:

gundata[,c("incident_id","date","state","city_or_county","n_killed","n_injur ed","congressional_district","latitude","longitude","state_house_district"," state_senate_district")]

gd <-

subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed, n_injured,congressional_district,latitude,longitude,state_house_district,st ate_senate_district))

然后根据州字段将所有数据划分为四个地区

阿拉巴马州Alabama

阿拉斯加州Alaska

亚利桑那州Arizona

阿肯色州Arkansas

加利福尼亚州California

科罗拉多州Colorado

哥伦比亚特区Columbia

康涅狄格州Connecticut

特拉华州Delaware

佛罗里达州Florida

佐治亚州Georgia

夏威夷州Hawaii

爱达荷州Idaho

伊利诺州Illinois

印弟安纳州Indiana

爱荷华州Iowa

堪萨斯州Kansas

肯塔基州Kentucky

路易斯安那州Louisiana

缅因州Maine

马里兰州Maryland

麻塞诸塞州Massachusetts

密歇根州Michigan

明尼苏达州Minnesota

密西西比州Mississippi

密苏里州Missour

蒙大拿州Montana

内布拉斯加州Nebraska

内华达州Nevada

新罕布希尔州New Hampshire 新泽西州New Jersey

新墨西哥州New Mexico

纽约州New York

北卡罗来纳州North Carolina 北达科他州North Dakota

俄亥俄州Ohio

奥克拉荷马州Oklahoma

俄勒冈州Oregon

宾西法尼亚州Pennsyivania

罗德岛州Rhode Island

南卡罗来纳州South Carolina

南达科他州South Dakota

田纳西州Tennessee

德克萨斯州Texas

犹他州Utah

佛蒙特州Vermont

弗吉尼亚州Virgina

华盛顿州Washington

西佛吉尼亚州West Virginia

威斯康辛州Wisconsin

怀俄明州Wyoming

东北部

Maine,New Hampshire,Vermont,Massachusetts,Rhode Island,Connecticut,New York,Pennsyivania,New Jersey

中西部

Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,North Dakota,South

Dakota,Nebraska,Kansas,Minnesota,Iowa

南部

Delaware,Maryland,District of Columbia,Virgina,West Virginia,North Carolina,South

Carolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklah oma,Texas,Arkansas,Louisiana

西部

Iowa,Montana,Wyoming,Nevada,Utah,Colorado,New

Mexico,Arizona,Alaska,Washington,Oregon,California,Hawaii

for (i in 1:length(gd[,1])){

if (gd[i,3]=="Maine"|gd[i,3]=="New Hampshire"|gd[i,3]=="Vermont"|gd[i,3]=="Massachusetts"|gd[i,3]=="Rh ode Island"|gd[i,3]=="Connecticut"|gd[i,3]=="New York"|gd[i,3]=="Pennsylvania"|gd[i,3]=="New Jersey")

{

gd[i,9]="东北部"

}

else if

(gd[i,3]=="Wisconsin"|gd[i,3]=="Michigan"|gd[i,3]=="Illinois"|gd[i,3]==" Ohio"|gd[i,3]=="Indiana"|gd[i,3]=="Missouri"|gd[i,3]=="North Dakota"|gd[i,3]=="South

相关文档
最新文档