数据挖掘r语言总结报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总结报告
课程名称:数据挖掘R语言
任课教师:
姓名:
专业:计算机科学与技术
班级:
学号:
计算机科学与技术学院
2018 年 6 月 19 日
一、数据预处理
针对不同分析目标,选择合适的字段,并将字段值处理成适于分析的形式。必要时还需对原数据集进行统计变换后形成易于分析的形式。
为每条数据添加字段:所属地区。根据下图中划分的美国四大地区,将每条数据中表示的案件发生地在该字段上划分为东北部、中西部、南部和西部四个值。
首先导入数据:
gundata<-read.csv("d:/gun.csv",sep = ",",stringsAsFactors = FALSE,header = TRUE,quote=””)
n_injured","congressional_district","latitude","longitude","state_hou se_district","state_senate_district")]
gd <-
subset(gundata,select=c(incident_id,date,state,city_or_county,n_kille d,
n_injured,congressional_district,latitude,longitude,state_house_distr ict,state_senate_district))
然后根据州字段将所有数据划分为四个地区
阿拉巴马州 Alabama
阿拉斯加州 Alaska
亚利桑那州 Arizona
阿肯色州 Arkansas
加利福尼亚州 California
科罗拉多州 Colorado
哥伦比亚特区Columbia
康涅狄格州 Connecticut
特拉华州 Delaware
佛罗里达州 Florida
佐治亚州 Georgia
夏威夷州 Hawaii
爱达荷州 Idaho
伊利诺州 Illinois
印弟安纳州 Indiana
爱荷华州 Iowa
堪萨斯州 Kansas
肯塔基州 Kentucky
路易斯安那州 Louisiana
缅因州 Maine
马里兰州 Maryland
麻塞诸塞州 Massachusetts
密歇根州 Michigan
明尼苏达州 Minnesota
密西西比州 Mississippi
密苏里州 Missour
蒙大拿州 Montana
内布拉斯加州 Nebraska
内华达州 Nevada
新罕布希尔州 New Hampshire
新泽西州 New Jersey
新墨西哥州 New Mexico
纽约州 New York
北卡罗来纳州 North Carolina
北达科他州 North Dakota
俄亥俄州 Ohio
奥克拉荷马州 Oklahoma
俄勒冈州 Oregon
宾西法尼亚州 Pennsyivania
罗德岛州 Rhode Island
南卡罗来纳州 South Carolina
南达科他州 South Dakota
田纳西州 Tennessee
德克萨斯州 Texas
犹他州 Utah
佛蒙特州 Vermont
弗吉尼亚州 Virgina
华盛顿州 Washington
西佛吉尼亚州 West Virginia
威斯康辛州 Wisconsin
怀俄明州 Wyoming
东北部
Maine,New Hampshire,Vermont,Massachusetts,Rhode Island,Connecticut,New York,Pennsyivania,New Jersey
中西部
Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,North Dakota,South Dakota,Nebraska,Kansas,Minnesota,Iowa
南部
Delaware,Maryland,District of Columbia,Virgina,West Virginia,North Carolina,South
Carolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklah oma,Texas,Arkansas,Louisiana
西部
Iowa,Montana,Wyoming,Nevada,Utah,Colorado,New
Mexico,Arizona,Alaska,Washington,Oregon,California,Hawaii
for (i in 1:length(gd[,1])){
if (gd[i,3]=="Maine"|gd[i,3]=="New Hampshire"|gd[i,3]=="Vermont"|gd[i,3]=="Massachusetts"|gd[i,3]=="Rhod e Island"|gd[i,3]=="Connecticut"|gd[i,3]=="New York"|gd[i,3]=="Pennsylvania"|gd[i,3]=="New Jersey")
{
gd[i,9]="东北部"
}
else if
(gd[i,3]=="Wisconsin"|gd[i,3]=="Michigan"|gd[i,3]=="Illinois"|gd[i,3] =="Ohio"|gd[i,3]=="Indiana"|gd[i,3]=="Missouri"|gd[i,3]=="North Dakota"|gd[i,3]=="South
Dakota"|gd[i,3]=="Nebraska"|gd[i,3]=="Kansas"|gd[i,3]=="Minnesota"|gd [i,3]=="Iowa")
{
gd[i,9]="中西部"
}
else if
(gd[i,3]=="Delaware"|gd[i,3]=="Maryland"|gd[i,3]=="District of Columbia"|gd[i,3]=="Virginia"|gd[i,3]=="West
Virginia"|gd[i,3]=="North Carolina"|gd[i,3]=="South Carolina"|gd[i,3]=="Georgia"|gd[i,3]=="Florida"|gd[i,3]=="Kentucky"|g d[i,3]=="Tennessee"|gd[i,3]=="Mississippi"|gd[i,3]=="Alabama"|gd[i,3] =="Oklahoma"|gd[i,3]=="Texas"|gd[i,3]=="Arkansas"|gd[i,3]=="Louisiana ")
{gd[i,9]="南部"}
else
if(gd[i,3]=="Iowa"|gd[i,3]=="Montana"|gd[i,3]=="Wyoming"|gd[i,3]=="Ne vada"|gd[i,3]=="Utah"|gd[i,3]=="Colorado"|gd[i,3]=="New
Mexico"|gd[i,3]=="Arizona"|gd[i,3]=="Alaska"|gd[i,3]=="Washington"|gd [i,3]=="Oregon"|gd[i,3]=="California"|gd[i,3]=="Hawaii")
{gd[i,9]="西部"}}
然后用fix(gd)将第九列的字段修改为part: