数据挖掘 填空题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.知识发现是一个完整的数据分析过程,主要包括以下几个步骤:确定知识发现的目标、数据采集、数据探索、数据预处理、__数据挖掘_、模式评估。

2._特征性描述_是指从某类对象关联的数据中提取这类对象的共同特征(属性)。

3.回归与分类的区别在于:___回归__可用于预测连续的目标变量,___分类__可用于预测离散的目标变量。

4.__数据仓库_是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应。

5.Pandas的两种核心数据结构是:__Series__和__DataFrame__。

6.我们可以将机器学习处理的问题分为两大类:监督学习和_无监督学习__。

7.通常,在训练有监督的学习的机器学习模型的时候,会将数据划分为__训练集__和__测试集__,划分比例一般为0.75:0.25。

1.分类问题的基本流程可以分为__训练__和__预测_两个阶段。

2.构建一个机器学习框架的基本步骤:数据的加载、选择模型、模型的训练、__模型的预测_、模型的评测、模型的保存。

3.__回归分析_是确定两种或两种以上变量间相互依赖关系的一种统计分析方法,是应用及其广泛的数据分析方法之一。

4.在机器学习的过程中,我们将原始数据划分为训练集、验证集、测试集之后,可用的数据将会大大地减少。为了解决这个问题,我们提出了__交叉验证_这样的解决办法。

5.当机器学习把训练样本学得“太好”的时候,可能已经把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,这样会导致泛化性能下降。这种现象在机器学习中称为__过拟合__。

6.常用的降维算法有__主成分分析__、___因子分析__和独立成分分析。

7.关联规则的挖掘过程主要包含两个阶段__发现频繁项集_和__产生关联规则__。

1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的

2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])

3、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类

4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],

'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)

5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法

6、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种

7、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)

8、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等

9、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用

( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数) 10、OLAP的中文意思是指( 在线分析处理)

1、常见的数据仓库体系结构包括( 两层架构 )、( 独立型数据集市 )、( 依赖型数据集市和操作型数据存储)、( 逻辑型数据集市和实时数据仓库 )等四种

2、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)

3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等

4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用

( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)

5、OLAP的中文意思是指( 在线分析处理)

6、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])

7、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)

8、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)

9、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)

10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)

1、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等

2、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用

( 信息增益 ),C4.5算法使用( 信息增益率 ),CART算法使用( 基尼系数)

3、OLAP的中文意思是指( 在线分析处理)

4、如果ser = pd.Series(np.arange(4,0,-1),index = ["a","b","c","d"]),则ser.values=?([4, 3, 2, 1]),ser * 2=([8, 6, 4, 2])

5、线性回归最常见的两种求解方法,一种是( 最小二乘法),另一种是( 梯度下降法)

6、对于回归分析中常见的过拟合现象,一般通过引入( 正则化 )项来改善,最有名的改进算法包括( Ridge岭回归)和( Lasso套索回归)

7、Python字符串str = 'Hello World!',print(str[-2])的结果是?(d)

8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)

9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤

10、假如Li=[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])

1、数据仓库是一个( 面向主题的 ) 、( 集成的 )、( 相对稳定的 )、 ( 反映历史变化 )的数据集合,通常用于( 决策支持的 )目的

2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])

3、数据挖掘模型一般分为(有监督学习 )和( 无监督学习 )两大类

4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],

相关文档
最新文档