数据挖掘快速入门教程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? accuracy = 1 - sum(abs(predictions - titanic[Survived])) / len(predictions)
? print ('Accuracy of Linear Regression on the training set is ' + str(accuracy))
王屯屯学习情况汇报
? 海量数据
相关领域
处理数据量庞大的问题
? 大数据
数据是异源异构的
? 数据挖掘
数据中的知识挖掘
? 人工智能
计算出一些可以表现出智能行为的东西
? 统计学
利用数据来做推论
学习了哪些内容
? 韩嘉炜:数据挖掘概念与技术
认识数据,数据预处理,分类,聚类(初高级),离群点检测,数据挖掘的研究问题 和未来发展。其他还有数据立方体技术等。
? predictors = [Pclass, Sex, Age, SibSp, Parch, Fare, Embarked]
? alg = LinearRegression()
? kf = KFold(titanic.shape[0], n_fold=s3, random_state = 1)
?
选择哪一个分类器 ? 提高分类准确率
组合分类方法:装袋,提升,随机森林
如何将数据聚类
? 划分方法 K-均值,k-中心点
? 层次方法 凝聚,分类,多阶段,概率层次模型
? 基于密度的方法 DBSCAN,OPTICS,DENCLUE
? 基于网络的方法 STING,CLIQUE
看论文与动手结合
? 论文 大量阅读相关优秀论文
?
test_predictions = alg.predict(titanic[predictors].iloc[test,:])
?
predictions.append(test_predictions)
? predictions = np.concatenate(predictions,axis = 0) ? predictions[predictions > .5] = 1 ? predictions[predictions <= .5] = 0
? 实践 宏观了解数据挖掘:参加竞赛; 熟悉大数据处理相关技术,包括但不限于 Hadoop、Hive、Hbase、Impala、Spark, Kafaka、Flume、Sqoop、Storm、Redis等。
? import pandas ? import numpy as np ? from sklearn.linear_model import LinearRegression ? from sklearn.linear_model import LogisticRegression ? from sklearn.cross_validation import KFold ? from sklearn import cross_validation
? 刘 冰:网络数据挖掘
关联规则挖掘,监督学习,半监督学习,无监督学习。其他还有网络信息挖掘,网络 爬虫等
? 林轩田:机器学习
三大监督学习
? Martin: 神经网络
三大神经网络结构,性能曲面,性能优化。其他的还有有监督的 Hebb学习等经典的学 习方法
数据挖掘过程
数据预处理 数据清理,数据集成,数据选择,数据变换
ቤተ መጻሕፍቲ ባይዱ
titanic.loc[titanic[Sex] == emale, Sex] = 1
? ? ? ?
titanic[Embarked] = titanic[Embarked].fillna(S) titanic.loc[titanic[Embarked] == S, Embarked] = 0 titanic.loc[titanic[Embarked] == C, Embarked] = 1 titanic.loc[titanic[Embarked] == Q, Embarked] = 2
构建模型 使用智能的方法提取数据模式
模型评估 根据某种兴趣度亮度,识别代表知识的真正有 趣的模式
知识表示 使用可视化技术和知识表示模式,向用户提供 挖掘到的知识
数据的表现形式
? 神经网络 ? 决策树 ? 规则集合 ? 数学形式
挖掘功能
? 类、概念描述 ? 挖掘频繁技术、关联规则和相关性 ? 用于预测预测分析的分类和回归 ? 聚类分析 ? 离群点检测
? titanic = pandas.read_csv(../input/train.csv)
?
titanic[Age] = titanic[Age].fillna(titanic[Age].median())
? titanic.loc[titanic[Sex] == male, Sex] = 0
?
? alg = LogisticRegression(random_state = 1) ? scores = cross_validation.cross_val_score(alg, titanic[predictors], titanic[Survived],=c3v) ? print ('Accuracy of Logistic Regression using cross-validation on the training set is ' + str(scores.mean()))
predictions = []
? for train, test in kf:
?
train_predictors = (titanic[predictors].iloc[train,:])
?
train_target = titanic[Survived].iloc[train]
?
alg.fit(train_predictors, train_target)
用到的技术
? 统计学 ? 数据库系统与数据仓库 ? 信息检索 ? 机器学习
如何构建模型
? 决策树学习 ? 神经网络方法 ? 朴素贝叶斯分类 ? 支持向量机 ? K最近邻分类 ? 基于规则的分类 ? 概要评估与选择
如何将数据分类
? 分类方法 ? 决策树归纳,贝叶斯分类,基于规则的分
类,神经网络分类 ? 性能评估
相关文档
最新文档