Problems-Data-Quantiles_ANSWERS

合集下载

机器学习:模型与算法智慧树知到课后章节答案2023年下浙江大学

机器学习:模型与算法智慧树知到课后章节答案2023年下浙江大学

机器学习:模型与算法智慧树知到课后章节答案2023年下浙江大学浙江大学第一章测试1.sigmoid函数的值域为?()。

答案:(0,1)2.哪些属于监督学习重要元素?()。

答案:标注数据;学习模型;损失函数3.分析不同变量之间存在关系的研究叫回归分析。

()答案:对4.强可学习和弱可学习是等价的。

()答案:对5.下面的说法正确的是()。

答案:逻辑回归只能处理二分类问题第二章测试1.下面的说法正确的是()。

答案:K均值聚类算法实质上是最小化每个类簇的方差。

2.哪一项是皮尔逊相关系数的性质?()。

答案:X与Y协方差的绝对值小于等于13.下面的说法正确的有()。

答案:EM算法分为求取期望和期望最大化两个步骤。

;在K均值聚类算法中,欧式距离与方差量纲相同。

4.K均值聚类属于监督学习。

()答案:错5.特征人脸方法的本质是用称为“特征人脸”的特征向量按照线性组合形式表达每一张原始人脸图像。

()答案:对第三章测试1.下列哪一项不是运用半监督学习的原因()。

答案:为获得更高的机器学习性能2.在半监督学习中下列哪种说法是错误的()。

答案:“聚类假设的推广,对输出值没有限制”属于聚类假设的范畴。

3.半监督学习方法有:()。

答案:基于图表的半监督学习;半监督SVM;生成方法4.在有标记数据极少的情形下往往比其他方法性能更好是半监督学习生成式方法流程的优点。

()答案:对5.基于图表的半监督学习不用占有太大内存。

()答案:错第四章测试1.下列说法正确的是()。

答案:感知机网络只有输入层/输出层,无隐藏层。

2.一元变量所构成函数f在x处的梯度为()答案:3.常用的池化操作有::()。

答案:最大池化;平均池化4.One-hot向量可以刻画词与词之间的相似性()答案:错5.前馈神经网络中存在反馈。

()答案:错第五章测试1.下列说法错误的是()。

答案:循环神经网络不能处理任意长度的序列2.下列说法正确的是()。

答案:如果一个完全连接的RNN有足够数量的sigmoid型隐藏神经元,它可以以任意的准确率去近似任何一个非线性动力系统个。

spss期末试题及答案

spss期末试题及答案

spss期末试题及答案一、选择题(每题2分,共20分)1. SPSS中,用于描述数据集中的变量分布情况的统计量是()。

A. 平均值B. 中位数C. 众数D. 标准差答案:ABC2. 在SPSS中,进行数据录入时,如果需要输入缺失值,应该使用以下哪个符号表示?()A. 0B. 9C. -D. *答案:C3. 以下哪个选项不是SPSS中的数据类型?()A. 数值型B. 字符串C. 逻辑型D. 图像型答案:D4. 在SPSS中,进行相关性分析时,通常使用哪种统计方法?()A. t检验B. 方差分析C. 卡方检验D. 皮尔逊相关系数答案:D5. SPSS中,用于创建数据文件的命令是()。

A. GET FILEB. SAVEC. OPEN DATAD. NEW DATA答案:A6. 在SPSS中,如果要对数据进行分组处理,应该使用以下哪个功能?()A. 分类汇总B. 数据筛选C. 数据排序D. 数据转换答案:A7. SPSS中,用于绘制数据分布直方图的命令是()。

A. GRAPHB. CHARTC. PLOTD. HISTOGRAM答案:B8. 在SPSS中,如果要进行回归分析,应该使用以下哪个菜单选项?()A. 分析B. 描述统计C. 预测D. 回归答案:D9. SPSS中,用于计算数据集中变量的方差的命令是()。

A. DESCRIPTIVESB. FREQUENCIESC. MEANSD. CORRELATIONS答案:A10. 在SPSS中,如果要对数据进行因子分析,应该使用以下哪个菜单选项?()A. 因子B. 聚类C. 多变量D. 描述统计答案:A二、填空题(每题3分,共15分)1. 在SPSS中,数据视图的窗口分为三个部分:________、变量视图和数据视图。

答案:数据结构视图2. SPSS中,用于计算数据集中变量的均值的命令是________。

答案:MEANS3. 在SPSS中,进行独立样本t检验的命令是________。

机器学习与深度学习框架考核试卷

机器学习与深度学习框架考核试卷
B. Adam
C. RMSprop
D.学习率衰减
8.以下哪些技术可以用于改善神经网络训练过程?()
A.梯度消失
B.梯度爆炸
C. Batch Normalization
D.参数共享
9.以下哪些框架支持GPU加速计算?()
A. TensorFlow
B. PyTorch
C. Caffe
D. Theano
10.以下哪些方法可以用于处理不平衡数据集?()
B. LSTM
C. CNN
D. Transformer
17.以下哪些技术可以用于提升神经网络的可解释性?()
A.可视化技术
B. attention机制
C. LIME
D. SHAP
18.以下哪些是深度学习中的预训练方法?()
A.零样本学习
B.迁移学习
C.对抗性学习
D.自监督学习
19.以下哪些是强化学习的主要组成部分?()
7.词嵌入(或词向量)
8.泛化
9.数据增强
10. ROC
四、判断题
1. ×
2. √
3. ×
4. ×
5. √
6. ×
7. ×
8. √
9. ×
10. √
五、主观题(参考)
1.机器学习是利用算法让计算机从数据中学习,深度学习是机器学习的一个分支,使用多层神经网络进行学习。深度学习在实际应用中的例子有:自动驾驶汽车中的图像识别系统。
()
9.在深度学习中,为了防止过拟合,我们可以在训练过程中对输入数据进行______。
()
10.在模型评估中,______曲线可以用来评估分类模型的性能,尤其是对于不平衡数据集。
()

机器学习期末试题及答案

机器学习期末试题及答案

机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。

答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。

答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。

答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。

答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。

答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。

答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。

防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。

- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。

- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。

机器学习练习题

机器学习练习题

机器学习练习题考试练习题单项选择题1.在中创建⼀个元素均为0的数组可以使⽤( )函数。

[A]A.zeros( )B.arange( )C.linspace( )D.logspace( )2.通常( )误差作为误差的近似。

[A]A.测试B.训练C.经验D.以上都可以3.梯度为( )的点,就是的最⼩值点,⼀般认为此时模型达到了收敛。

[B]A.-1B.0C.1D.4.创建⼀个3*3的,下列代码中错误的是( )。

[C]A.np.arange(0,9).reshape(3,3)B.np.eye(3)C.np.random.random([3,3,3])D.np.mat(“1,2,3;4,5,6;7,8,9”)5.关于数据集的标准化,正确的描述是:( )。

[A]A.标准化有助于加快模型的收敛速度B.标准化⼀定是归⼀化,即数据集的取值分布在[0,1]区间上C.数据集的标准化⼀定是让标准差变为1D.所有的模型建模之前,必须进⾏数据集标准化6.Python安装第三⽅库的命令是( )。

[C]A.pip –hB.pyinstaller <拟安装库名>C.pip install <拟安装库名>D.pip download <拟安装库名>7.如果发现模型在验证集上的准确性整体⾼于训练集,在验证集上的损失整体低于训练集,则最可能的情况是:( )。

[B]A.验证集的数据样本与训练集相⽐,数量过少和过于简单B.模型没有采⽤正则化⽅法C.以上都对8.DL是下⾯哪个术语的简称( )。

[D]A.⼈⼯智能B.机器学习C.神经⽹络D.深度学习9.验证集和测试集,应该:( )。

[A]A.样本来⾃同⼀分布B.样本来⾃不同分布C.样本之间有⼀⼀对应关系D.拥有相同数量的样本10.⼀般使⽤以下哪种⽅法求解线性回归问题:( )。

[A]A.最⼩⼆乘法B.最⼤似然估计C.对数变换D.A和B11.以下哪个函数可以实现画布的创建?( )。

数据挖掘 填空题

数据挖掘 填空题

1.知识发现是一个完整的数据分析过程,主要包括以下几个步骤:确定知识发现的目标、数据采集、数据探索、数据预处理、__数据挖掘_、模式评估。

2._特征性描述_是指从某类对象关联的数据中提取这类对象的共同特征(属性)。

3.回归与分类的区别在于:___回归__可用于预测连续的目标变量,___分类__可用于预测离散的目标变量。

4.__数据仓库_是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应。

5.Pandas的两种核心数据结构是:__Series__和__DataFrame__。

6.我们可以将机器学习处理的问题分为两大类:监督学习和_无监督学习__。

7.通常,在训练有监督的学习的机器学习模型的时候,会将数据划分为__训练集__和__测试集__,划分比例一般为0.75:0.25。

1.分类问题的基本流程可以分为__训练__和__预测_两个阶段。

2.构建一个机器学习框架的基本步骤:数据的加载、选择模型、模型的训练、__模型的预测_、模型的评测、模型的保存。

3.__回归分析_是确定两种或两种以上变量间相互依赖关系的一种统计分析方法是应用及其广泛的数据分析方法之一。

4.在机器学习的过程中,我们将原始数据划分为训练集、验证集、测试集之后,可用的数据将会大大地减少。

为了解决这个问题,我们提出了__交叉验证_这样的解决办法。

5.当机器学习把训练样本学得“太好”的时候,可能已经把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,这样会导致泛化性能下降。

这种现象在机器学习中称为__过拟合__。

6.常用的降维算法有__主成分分析__、___因子分析__和独立成分分析。

7.关联规则的挖掘过程主要包含两个阶段__发现频繁项集_和__产生关联规则__1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习)和(无监督学习)两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、常见的数据仓库体系结构包括(两层架构)、(独立型数据集市)、(依赖型数据集市和操作型数据存储)、(逻辑型数据集市和实时数据仓库)等四种7、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)8、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等9、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)10、OLAP的中文意思是指(在线分析处理)1、常见的数据仓库体系结构包括(两层架构)、(独立型数据集市)、(依赖型数据集市和操作型数据存储)、(逻辑型数据集市和实时数据仓库)等四种2、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)5、OLAP的中文意思是指(在线分析处理)6、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,1]),ser*2=([&6,4,2])7、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)9、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等2、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)3、OLAP的中文意思是指(在线分析处理4、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,1]),ser*2=([&6,4,2])5、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)6、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)7、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li二[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习)和(无监督学习)两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,l]),ser*2=([&6,4,2])7、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)9、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的2、数据挖掘模型一般分为(有监督学习)和(无监督学习)两大类3、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法4、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)5、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)6、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,1]),ser*2=([&6,4,2])7、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li二[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1如果dfl二pd.DataFrame([[l,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[&&NaN]]), 则dfl.fillna(100)=?([[l,2,3],[100,100,2],[100,100,100],[8,8,100]])2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10 ,15,20]})则df.groupby('key').sum()=?(A:15,B:30,C:45)3、常见的数据仓库体系结构包括(两层架构)、(独立型数据集市)、(依赖型数据集市和操作型数据存储)、(逻辑型数据集市和实时数据仓库)等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、OLAP的中文意思是指(在线分析处理)6、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)7、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li二[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据挖掘模型一般分为(有监督学习)和(无监督学习)两大类2、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法3、常见的数据仓库体系结构包括(两层架构)、(独立型数据集市)、(依赖型数据集市和操作型数据存储)、(逻辑型数据集市和实时数据仓库)等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,l]),ser*2=([8,6,4,2])6、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)7、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li二[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]})则df.groupby('key').sum()=?(A:15,B:30,C:45)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)5、OLAP的中文意思是指(在线分析处理)6、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,1]),ser*2=([&6,4,2])7、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)9、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)10、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤。

《机器学习》期末考试试卷附答案

《机器学习》期末考试试卷附答案

《机器学习》期末考试试卷附答案一、选择题(每题5分,共25分)1. 机器学习的主要目的是让计算机从数据中____,以实现某些任务或预测未知数据。

A. 抽取特征B. 生成模型C. 进行推理D. 分类标签答案:B. 生成模型2. K-近邻算法(K-NN)是一种____算法。

A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习答案:A. 监督学习3. 在决策树算法中,节点的分裂是基于____进行的。

A. 信息增益B. 基尼不纯度C. 均方误差D. 交叉验证答案:A. 信息增益4. 支持向量机(SVM)的主要目的是找到一个超平面,将不同类别的数据点____。

A. 完全分开B. 尽量分开C. 部分分开D. 不分开答案:B. 尽量分开5. 哪种优化算法通常用于训练深度学习模型?A. 梯度下降B. 牛顿法C. 拟牛顿法D. 以上都对答案:D. 以上都对二、填空题(每题5分,共25分)1. 机器学习可以分为监督学习、无监督学习和____学习。

A. 半监督B. 强化C. 主动学习D. 深度答案:A. 半监督2. 线性回归模型是一种____模型。

A. 线性B. 非线性C. 混合型D. 不确定型答案:A. 线性3. 在进行特征选择时,常用的评估指标有____、____和____。

A. 准确率B. 召回率C. F1 分数D. AUC 值答案:B. 召回率C. F1 分数D. AUC 值4. 神经网络中的激活函数通常用于引入____。

A. 非线性B. 线性C. 噪声D. 约束答案:A. 非线性5. 当我们说一个模型具有很好的泛化能力时,意味着该模型在____上表现良好。

A. 训练集B. 验证集C. 测试集D. 所有集答案:C. 测试集三、简答题(每题10分,共30分)1. 请简要解释什么是过拟合和欠拟合,并给出解决方法。

2. 请解释什么是交叉验证,并说明它的作用。

答案:交叉验证是一种评估模型泛化能力的方法,通过将数据集分成若干个互斥的子集,轮流用其中若干个子集作为训练集,其余子集作为验证集,对模型进行评估。

数据科学家面试30题

数据科学家面试30题

数据科学家面试30题1. 什么是数据科学家的角色?2. 请解释什么是数据清洗(data cleaning)。

3. 数据清洗的步骤有哪些?4. 为什么特征选择是数据预处理的重要步骤?5. 请解释什么是正态分布(normal distribution)。

6. 什么是回归分析(regression analysis)?有哪些常用的回归方法?7. 请解释什么是决策树(decision tree)。

8. 什么是朴素贝叶斯(Naive Bayes)算法?它在什么场景下适用?9. 请解释什么是支持向量机(Support Vector Machine,SVM)。

10. 请解释什么是聚类分析(cluster analysis)。

11. 什么是神经网络(neural network)?它的应用领域有哪些?12. 请解释什么是深度研究(deep learning)。

13. 什么是异常检测(anomaly detection)?有哪些常见的异常检测方法?15. 请解释什么是自然语言处理(natural language processing,NLP)。

16. 什么是大数据(big data)技术?有哪些常见的大数据处理框架?18. 什么是机器研究(machine learning)?它是如何工作的?19. 请解释什么是监督研究(supervised learning)和无监督研究(unsupervised learning)。

20. 什么是交叉验证(cross-validation)?21. 请解释什么是特征工程(feature engineering)。

22. 什么是模型评估(model evaluation)和模型选择(model selection)?23. 请解释过拟合(overfitting)和欠拟合(underfitting)。

24. 什么是数据挖掘(data mining)?它与数据科学有何区别?25. 请解释什么是时间序列分析(time series analysis)。

机器学习期末复习题及答案

机器学习期末复习题及答案

一、单选题1、在条件随机场(CRF)中,参数的学习通常使用哪种优化算法?()A.K-Means聚类B.梯度提升机(GBM)C.支持向量机(SVM)D.随机梯度下降(SGD)正确答案:D2、在概率无向图模型中,什么是团分解(Cluster Decomposition)?()A.一种通过节点之间的边传播信息,以更新节点的边缘概率的方法B.一种用于计算图的分割的算法C.一种将联合概率分布分解为多个局部概率分布的方法D.一种用于表示联合概率分布的无向树正确答案:C3、在数据不完备时,下列哪一种方法不是贝叶斯网络的参数学习方法()A.拉普拉斯近似B.最大似然估计方法C.蒙特卡洛方法D.高斯逼近正确答案:B4、在有向图模型中,什么是条件独立性?()A.给定父节点的条件下,子节点之间独立B.所有节点之间都独立C.所有节点的状态相互独立D.任意两个节点都是独立的正确答案:A5、在概率有向图模型中,节点表示什么?()A.变量B.参数C.条件概率D.边正确答案:A6、下列哪一项表示簇中样本点的紧密程度?()A.簇个数B.簇大小C.簇描述D.簇密度正确答案:D7、闵可夫斯基距离表示为曼哈顿距离时p为:()A.1B.2C.3D.4正确答案:A8、谱聚类与K均值聚类相比,对于什么样的数据表现更好?()A.低维数据B.高维数据C.线性可分数据D.高密度数据正确答案:B9、SVM适用于什么类型的问题?()A.既可用于线性问题也可用于非线性问题B.仅适用于回归问题C.仅适用于非线性问题D.仅适用于线性问题正确答案:A10、对于在原空间中线性不可分的问题,支持向量机()A.在原空间中寻找非线性函数划分数据B.无法处理C.利用核函数把数据映射到高维空间D.在原空间中寻找线性函数划分数据正确答案:C11、LDA主题模型中的alpha参数控制着什么?()A.单词分布的稀疏性B.文档-主题分布的稀疏性C.模型大小D.模型收敛速度正确答案:B12、LDA的全称是什么?()tent Dirichlet AllocationB.Linear Discriminant Analysistent Data AnalysisD.Lin Latent Dirichlet Allocation ear Data Algorithm正确答案:A13、以下对于梯度下降法中学习率lr的阐述,正确的是()A.lr小,收敛速度较快B.lr大,收敛速度较慢C.lr小,收敛速度较慢且较不易收敛D.lr大,收敛速度较快但可能导致不收敛正确答案:D14、在EM算法中,E代表期望,M代表()A.均值B.最大化C.最小化D.均方误差正确答案:B15、梯度下降中如何有效地捕捉到目标函数的全局最优?()A.调整学习速率B.增加模型复杂度C.使用梯度下降的变种算法D.增加训练样本量正确答案:C二、多选题1、下列机器学习常用算法中哪个属于分类算法?()A.K-meansB.最小距离分类器C.KNN(K近邻)D.逻辑回归正确答案:B、C、D2、下列关于决策树的说法正确的是?()A.CART使用的是二叉树B.其可作为分类算法,也可用于回归模型C.不能处理连续型特征D.它易于理解、可解释性强正确答案:A、B、D3、下列属于k近邻算法中常用的距离度量方法的是?()A.余弦相似度B.欧式距离C.曼哈顿距离D.闵可夫斯基距离正确答案:A、B、C、D4、下列属于深度模型的是?()A.DNNB.LightgbmC.LSTMD.Seq2Seq正确答案:A、C、D5、sklearn中RFECV方法分成哪两个部分?()A.RFEB.CVC.NLPD.MM正确答案:A、B6、以下关于蒙特卡洛方法描述正确的是()A.蒙特卡洛方法计算值函数可以采用First-visit方法B.蒙特卡洛方法方差很大C.蒙特卡洛方法计算值函数可以采用Every-visit方法D.蒙特卡洛方法偏差很大正确答案:A、B、C7、为什么循环神经网络可以用来实现自动问答,比如对一句自然语言问句给出自然语言回答()A.因为自动问答可以看成是一种序列到序列的转换B.因为循环神经网络能够处理变长输入C.因为循环神经网要比卷积神经网更强大D.因为卷积神经网络不能处理字符输入正确答案:A、B8、通常有哪几种训练神经网络的优化方法()A.梯度下降法B.随机梯度下降法C.小批量随机梯度下降法D.集成法正确答案:A、B、C9、隐马尔可夫模型的三个基本问题是()A.估值问题B.寻找状态序列C.学习模型参数D.状态更新正确答案:A、B、C10、在数据不完备时,贝叶斯网络的参数学习方法有()A.高斯逼近B.蒙特卡洛方法C.拉普拉斯近似D.最大似然估计方法正确答案:A、B、C11、基于约束的方法通过统计独立性测试来学习结点间的()A.独立性B.相关性C.依赖性D.完备性正确答案:A、B12、基于搜索评分的方法,关键点在于()A.确定合适的搜索策略B.确定评分函数C.确定搜索优先级D.确定选择策略正确答案:A、B13、条件随机场需要解决的关键问题有()A.特征函数的选择B.参数估计C.模型推断D.约束条件正确答案:A、B、C14、以下关于逻辑斯蒂回归模型的描述正确的是()A.针对分类的可能性进行建模,不仅能预测出类别,还可以得到属于该类别的概率B.直接对分类的可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题C.模型本质仍然是一个线性模型,实现相对简单D.逻辑斯蒂回归模型是线性回归模型正确答案:A、B、C、D15、LDA模型在做参数估计时,最常用的方法是()A.Gibbs采样方法B.变分推断C.梯度下降D.Beam search正确答案:A、B三、判断题1、关于EM算法的收敛性,EM算法理论上不能够保证收敛()正确答案:×2、多次运行,随机化初始点是对存在局部最优点的函数求解的一种方案()正确答案:√3、训练算法的目的就是要让模型拟合训练数据()正确答案:×4、循环神经网络按时间展开后就可以通过反向传播算法训练了()正确答案:√5、GIS算法的收敛速度由计算更新值的步长确定。

数据挖掘工程师招聘笔试题及解答(某大型央企)

数据挖掘工程师招聘笔试题及解答(某大型央企)

招聘数据挖掘工程师笔试题及解答(某大型央企)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、数据挖掘中,以下哪种算法属于监督学习算法?A、K-Means聚类算法B、决策树算法C、Apriori算法D、神经网络算法2、在数据挖掘过程中,以下哪个阶段不是数据预处理的一部分?A、数据清洗B、数据集成C、数据规约D、数据增强3、在数据挖掘中,以下哪种算法通常用于分类任务?A、K均值聚类算法B、K最近邻算法C、决策树算法D、Apriori算法4、在处理大规模数据集时,以下哪种技术通常用于提高数据挖掘的性能?A、数据抽样B、特征选择C、并行计算D、数据预处理5、某大型央企在进行客户满意度调查时,收集到了以下数据:客户满意度评分(1-10分),购买产品的数量,客户性别(男/女)。

为了分析不同性别客户对产品的满意度差异,以下哪种统计方法最为合适?A. 相关性分析B. 描述性统计C. 聚类分析D. 逻辑回归6、在进行数据挖掘项目时,发现数据集中存在大量缺失值。

以下哪种策略最有利于提高模型的质量?A. 直接删除含有缺失值的样本B. 使用均值、中位数或众数填充缺失值C. 使用模型预测缺失值D. 忽略缺失值,继续进行数据挖掘7、以下哪项不是数据挖掘过程中的预处理步骤?A. 数据清洗B. 数据集成C. 数据挖掘D. 数据变换8、在数据挖掘任务中,以下哪种算法通常用于分类问题?A. 聚类算法B. 关联规则算法C. 回归算法D. 决策树算法9、在数据挖掘过程中,以下哪项不是特征选择的方法?A. 相关性分析B. 主成分分析C. 决策树D. 支持向量机 10、下列关于K-means聚类算法的描述,错误的是:A. K-means算法是一种基于距离的聚类方法B. K-means算法需要预先指定聚类数量C. K-means算法在迭代过程中可能会陷入局部最优解D. K-means算法适用于高维数据二、多项选择题(本大题有10小题,每小题4分,共40分)1、关于数据挖掘技术,以下说法正确的是:A、数据挖掘是一种通过分析大量数据来发现有价值信息的过程。

《机器学习导论》题集

《机器学习导论》题集

《机器学习导论》题集一、选择题(每题2分,共20分)1.以下哪个选项不是机器学习的基本类型?A. 监督学习B. 无监督学习C. 强化学习D. 深度学习2.在监督学习中,以下哪个选项是标签(label)的正确描述?A. 数据的特征B. 数据的输出结果C. 数据的输入D. 数据的预处理过程3.以下哪个算法属于无监督学习?A. 线性回归B. 逻辑回归C. K-均值聚类D. 支持向量机4.在机器学习中,过拟合(overfitting)是指什么?A. 模型在训练集上表现很好,但在新数据上表现差B. 模型在训练集上表现差,但在新数据上表现好C. 模型在训练集和新数据上表现都很好D. 模型在训练集和新数据上表现都差5.以下哪个选项不是交叉验证(cross-validation)的用途?A. 评估模型的泛化能力B. 选择模型的超参数C. 减少模型的训练时间D. 提高模型的准确性6.在梯度下降算法中,学习率(learning rate)的作用是什么?A. 控制模型训练的迭代次数B. 控制模型参数的更新速度C. 控制模型的复杂度D. 控制模型的训练数据量7.以下哪个激活函数常用于神经网络中的隐藏层?A. Sigmoid函数B. Softmax函数C. ReLU函数D. 线性函数8.以下哪个选项不是决策树算法的优点?A. 易于理解和解释B. 能够处理非线性数据C. 对数据预处理的要求不高D. 计算复杂度低,适合大规模数据集9.以下哪个评价指标适用于二分类问题?A. 准确率(Accuracy)B. 召回率(Recall)C. F1分数(F1 Score)D. 以上都是10.以下哪个算法属于集成学习(ensemble learning)?A. 随机森林B. K-近邻算法C. 朴素贝叶斯D. 感知机二、填空题(每空2分,共20分)1.在机器学习中,数据通常被分为训练集、_______和测试集。

2._______是一种常用的数据预处理技术,用于将数值特征缩放到一个指定的范围。

机器学习课程期末考试试题

机器学习课程期末考试试题

机器学习课程期末考试试题### 机器学习课程期末考试试题一、选择题(每题2分,共20分)1. 在机器学习中,通常所说的“过拟合”是指:- A. 模型在训练集上表现很好,但在测试集上表现较差 - B. 模型在训练集上表现较差- C. 模型在训练集和测试集上表现都很差- D. 模型在训练集上表现一般,但在测试集上表现很好2. 支持向量机(SVM)的核心思想是:- A. 找到最佳拟合线- B. 找到最佳拟合平面- C. 在特征空间中找到最优的决策边界- D. 在数据空间中找到最优的决策边界3. 以下哪个算法是用于聚类分析的?- A. 逻辑回归- B. 决策树- C. K-means- D. 随机森林4. 在神经网络中,激活函数的作用是:- A. 增加模型的复杂度- B. 引入非线性因素- C. 减少模型的复杂度- D. 使模型更容易训练5. 交叉验证的主要目的是什么?- A. 减少模型训练时间- B. 减少模型的过拟合风险- C. 提高模型的泛化能力- D. 增加模型的复杂度二、简答题(每题10分,共30分)1. 描述机器学习中的“训练集”和“测试集”的区别,并解释为什么在机器学习中需要将数据集分为训练集和测试集。

2. 解释什么是“决策树”,并简述如何使用决策树进行分类。

3. 什么是“梯度下降”算法?它在机器学习中如何应用?三、计算题(每题25分,共50分)1. 假设我们有一个简单的线性回归问题,模型的预测函数为 \( f(x) = wx + b \),其中 \( w \) 是权重,\( b \) 是偏置项。

给定数据集 \( \{(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\),其中\( y_i = wx_i + b + \epsilon_i \),\( \epsilon_i \) 是噪声项。

请推导最小二乘法的权重 \( w \) 和偏置 \( b \) 的更新公式。

药品仓储数据分析与预测考核试卷

药品仓储数据分析与预测考核试卷
A. ABC分类法
B.经济订货批量(EOQ)
C.最低库存法
D.最小二乘法
16.药品仓储数据分析中,以下哪项不是数据可视化的一种方法?()
A.雷达图
B.散点图
C.折线图
D.水平轴图
17.下列哪项不是药品销售预测中常用的模型?()
A.逻辑回归
B.线性回归
C.决策树
D. ARIMA模型
18.药品仓储数据中,以下哪项不是影响药品保质期的因素?()
A.时序性
B.季节性
C.随机性
D.可预测性
22.下列哪项不是药品仓储数据分析中常用的聚类分析方法?()
A. K-means算法
B.聚类层次法
C.主成分分析
D.聚类层次法
23.在进行药品销售趋势分析时,以下哪种图表最适合展示长期趋势?()
A.饼图
B.柱状图
C.折线图
D.散点图
24.下列哪项不是影响药品仓储效率的因素?()
六、案例题(本题共2小题,每题5分,共10分)
1.案例背景:某药品公司希望对其主要产品的销售数据进行预测,以便更好地规划生产和库存管理。公司提供了过去一年的销售数据,包括月份、销售量、促销活动等信息。
问题:
(1)如何选择合适的模型进行药品销售预测?
(2)在预测过程中,如何处理季节性和促销活动对销售量的影响?
A.温度
B.湿度
C.压力
D.光照
19.下列哪项不是药品仓储数据分析中常用的数据预处理技术?()
A.缺失值处理
B.异常值处理
C.数据标准化
D.数据加密
20.在进行药品销售预测时,以下哪项不是模型评估指标?()
A.精度
B.召回率

2022年SAS大赛初赛试题

2022年SAS大赛初赛试题

2022年SAS大赛初赛试题Sa数据分析大赛试题注意:建立逻辑库tet保存所有原始数据集,每道题要将代码和运行结果保存在word文档中。

1、(20分)a600605所给数据中包含上证股票600605,1995-2001年的行情信息。

其数据信息如下所示。

[题目要求]1)使用Data步计来计算a600605这支股票在1995-1998年的市场收益,即该股票的月收益率(个股月收益率=[(本月收盘价-上月收盘价)/上月收盘价]某100%),过程中不要使用dif和lag函数。

其中date的格式设置为‘1995-01’的形式,并删除1995年1月的观测数据。

签改为“月收益率”2、(30分)数据集credit_old中存放的是用于构建客户信用模型的数据,其中Target为被解释变量,其他变量为解释变量。

由于字符变量不能用于后续的统计分析工作,因此需要将credit_model中的字符变量重编码为数值变量。

由于分析时并不关心每个水平的具体编码是什么,因此按照从1到K(K为该变量水平数)编码即可,比如Re变量一共用3个水平,分别是U、R、S,编码为1、2、3即可。

但是需要使用宏进行自动处理。

[题目要求]1)将TEST库下的credit_old数据集复制到work逻辑库下,并重命名为credit_new。

(5分)2)使用数据字典读取credit_new数据集下所有解释变量中的字符变量的个数和名称。

(10分)3)编写宏,为每一个字符变量重新编码,以“变量名_cd”的命名方式保存新的编码,并添加到原credit_new数据集的后面,效果如下:(15分)2)对四个变量,进行两两的列联表分析,生成的列联表保存,进行分卡方检验和其他分类数据相关系数的计算。

3)对于2中形成列联表,对于每个格子计算频数占总频数的比例,然后检验任意两个格子间的比例差异是否显著(两比例是否相等检验),z(p1p2)p1(1p1)p2(1p2)n1n2要求计算出检验的P值。

量化投资与机器学习技术考核试卷

量化投资与机器学习技术考核试卷
9. ABCD
10. ABC
11. ABC
12. ABC
13. ABC
14. ABC
15. ABCD
16. ABD
17. ABC
18. ABCD
19. ABC
20. A
三、填空题
1.策略回测
2.新的/未知
3.价格/收益
4.特征/属性
5.风险
6.标准化/归一化
7.成交量
8.神经元
9.趋势跟踪
10. PCA
A.填充缺失值
B.删除含有缺失值的行或列
C.使用模型预测缺失值
D.忽略缺失值
8.以下哪些是量化投资中常用的技术分析指标?()
A.移动平均线
B.相对强弱指数(RSI)
C.成交量
D.布林带
9.在机器学习中,以下哪些模型可以被用于回归任务?()
A.线性回归
B.决策树
C.神经网络
D.支持向量机
10.以下哪些是量化投资中的因子投资策略?()
A.动量策略
B.价值策略
C.质量策略
D.波动率策略
11.在机器学习中,以下哪些方法可以用于处理数据不平衡问题?()
A.过采样
B.欠采样
C. SMOTE算法
D.增加惩罚项
12.以下哪些是量化投资中的对冲策略类型?()
A.股指期货对冲
B.期权对冲
C.统计对冲
D.新闻对冲
13.以下哪些是机器学习中的集成学习算法?()
3.过拟合指模型在训练集上表现好,但泛化能力差;欠拟合指模型在训练集上表现不佳。避免方法包括增加数据量、正则化和交叉验证等。
4.机器学习在风险管理中的应用包括预测市场风险、信用风险和流动性风险。例如,使用支持向量机预测违约概率,或神经网络分析市场趋势以避免大幅回撤。

机器学习-习题答案

机器学习-习题答案

机器学习-习题答案(总9页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--(题目略)(a). 第一步:S0 {<(Q Q Q Q ), (Q Q Q Q)>}G0 {<( ), ( )>}第二步:S1 {<(male brown tall US), (female black short US)> G1 {<( ), ( )>}第三步:S2 {<(male brown ), (female black short US)>G2 {<( ), ( )>}第四步:S3 {<(male brown ), (female black short US)>G3 {<(male ), ( )>,< >,< US>}第五步:S4 {<(male brown ), (female short )>G4 {<(male ), ( )>}(b).假设中的每个属性可以取两个值,所以与题目例题一致的假设数目为: (2*2*2*2)*(2*2*2*2) = 256(c). 这个最短序列应该为8,25628=如果只有一个训练样例,则假设空间有25628=个假设,我们针对每一个属性来设置训练样例,使每次的假设空间减半。

则经过8次训练后,可收敛到单个正确的假设。

<female,blanck,short,Portuguese>,<female,blonde,tall,Indian> <male,brown,short,Portuguese>,<female,blonde,tall,Indian><male,blanck,tall,Portuguese>,<female,blonde,tall,Indian><male,blanck,short,US>,<female,blonde,tall,Indian><male,blanck,short,Portuguese>,<male,blonde,tall,Indian><male,blanck,short,Portuguese>,<female,black,tall,Indian><male,blanck,short,Portuguese>,<female,blonde,short,Indian> <male,blanck,short,Portuguese>,<female,blonde,tall,US>(d). 若要表达该实例语言上的所有概念,那么我们需要扩大假设空间,使得每个可能的假设都包括在内,这样假设空间就远远大于256,而且这样没法得到最终的没法收敛,因为对每一个未见过的训练样例,投票没有任何效果,因此也就没有办法对未见样例分类。

机器学习练习题与答案

机器学习练习题与答案

机器学习练习题与答案《机器学习》练习题与解答1. 小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。

1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。

解析:这道题只有一个同学做错。

本题考察有监督学习的概念。

有监督学习是从标签化训练数据集中推断出函数的机器学习任务。

有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。

具体差别请看周志华《机器学习》书中的例子,一看便懂:2. 背景同上题。

请判断2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。

过拟合的英文名称是 Over-fitting(过拟合)。

为了说清楚“过”拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。

一个直观的例子,是下面的电阻和温度的例子。

我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。

现在我们有一系列关于“温度”和“电阻”的测量值。

一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。

拟合的数学意义:在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值{f1,f2,…,fn}(未必都是准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数f(λ1, λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小。

【说说过拟合】古人云“过犹不及”。

安徽省宿州市2024高三冲刺(高考数学)统编版能力评测(提分卷)完整试卷

安徽省宿州市2024高三冲刺(高考数学)统编版能力评测(提分卷)完整试卷

安徽省宿州市2024高三冲刺(高考数学)统编版能力评测(提分卷)完整试卷一、单选题:本题共8小题,每小题5分,共40分 (共8题)第(1)题已知函数是定义在上的偶函数且,当时,,若,则()A.B.C.D.第(2)题将函数的图象向左平移个单位长度,所得图象的函数()A.在区间上单调递减B.在区间上单调递减C.在区间上单调递增D.在区间上单调递增第(3)题平面内相距的A,B两点各放置一个传感器,物体在该平面内做匀速直线运动,两个传感器分别实时记录下两点与的距离,并绘制出“距离---时间”图象,分别如图中曲线所示.已知曲线经过点,,,曲线经过点,且若的运动轨迹与线段相交,则的运动轨迹与直线所成夹角的正弦值以及分别为()A.B.C.D.第(4)题已知三棱锥中,,,,,且平面平面,则该三棱锥的外接球的表面积为()A.B.C.D.第(5)题若函数,有三个不同的零点,则实数的取值范围是()A.B.C.D.第(6)题已知集合,,求()A.B.C.D.第(7)题2023年1月底,人工智能研究公司OpenAI发布的名为“ChatGTP”的人工智能聊天程序进入中国,迅速以其极高的智能化水平引起国内关注.深度学习是人工智能的一种具有代表性的实现方法,它是以神经网络为出发点的,在神经网络优化中,指数衰减的学习率模型为,其中L表示每一轮优化时使用的学习率,表示初始学习率,D表示衰减系数,G表示训练迭代轮数,表示衰减速度.已知某个指数衰减的学习率模型的初始学习率为0.8,衰减速度为12,且当训练迭代轮数为12时,学习率衰减为0.5.则学习率衰减到0.2以下(不含0.2)所需的训练迭代轮数至少为(参考数据:)()A.35B.36C.37D.38第(8)题若在处取得最小值,则()A.1B.3C.D.4二、多选题:本题共3小题,每小题6分,共18分 (共3题)第(1)题在棱长为2的正方体中,分别为棱,,的中点,为侧面的中心,则()A.直线平面B.直线平面C.三棱锥的体积为D.三棱锥的外接球表面积第(2)题某中学为了解性别因素是否对本校学生体育锻炼的经常性有影响,从本校所有学生中随机调查了50名男生和50名女生,得到如下列联表:经常锻炼不经常锻炼男4010女3020a0.10.050.012.7063.841 6.635经计算,则可以推断出()A.该学校男生中经常体育锻炼的概率的估计值为B.该学校男生比女生更经常锻炼C.有95%的把握认为男、女生在体育锻炼的经常性方面有差异D.有99%的把握认为男、女生在体育锻炼的经常性方面有差异第(3)题已知函数,其中x和的部分值如下表所示,则下列说法正确的是()x0A.B.C.D.三、填空题:本题共3小题,每小题5分,共15分 (共3题)第(1)题已知函数,则____________.第(2)题设О为坐标原点,A为椭圆C:上一个动点,过点A作椭圆C内部的圆E:的一条切线,切点为D,与椭圆C的另一个交点为B,D为AB的中点,若OD的斜率与DE的斜率之积为2,则C的离心率为___________.第(3)题已知一个关于、的二元一次方程组的增广矩阵是,且,则__________;四、解答题:本题共5小题,每小题15分,最后一题17分,共77分 (共5题)第(1)题已知点,为抛物线上任意一点,且为的中点.设动点的轨迹为曲线.(Ⅰ)求曲线的方程;(Ⅱ)关于的对称点为.是否存在斜率为的直线交曲线于,两点,使得为以为底边的等腰三角形?若存在,请求出的面积;若不存在,请说明理由.第(2)题已知四棱锥中,四边形为矩形,平面平面,,,点、分别是线段、的中点.(1)证明:平面;(2)求三棱锥的体积.第(3)题设函数,曲线在点处的切线方程为.(1)求的解析式;(2)求的极值.第(4)题已知椭圆的两个焦点为,是椭圆上一点,若,.(1)求椭圆的方程;(2)直线过右焦点(不与轴重合)且与椭圆相交于不同的两点,在轴上是否存在一个定点,使得的值为定值?若存在,写出点的坐标(不必求出定值);若不存在,说明理由.第(5)题在中,内角,,所对的边分别为,,,且.(1)求;(2)若,求的最小值.。

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Data:Asymmetry&Quantiles
1.Make a stem-and-leaf display of the following data.
4652464042464037464052
323732524032524052464652
2.Below are the values of20loans,in thousands of dollars.
59.259.561.665.566.672.974.877.379.283.7
85.685.886.687.087.190.293.398.6100.2100.7
(i)Calculate the median.
The median is about84.65
(ii)Calculate thefirst and third quartiles.
Thefirst and third quartiles are about71.3and87.9. (iii)Calculate the26th and83rd percentiles.
The26th and83rd percentiles are about75.4and92.6. (iv)Draw a box plot of the data.
Dr Toche —Selected Problems
3
3.Walter Gogel Company is an industrial supplier of fasteners,tools,and springs.The amounts
of its invoices vary widely,from less than $20.00
to more than $400.00.Below is a box plot of 80invoices sent during the month of January.Write a brief report summarizing the invoice amounts.Report the values of the first and third quartiles,the median,and whether there is any skewness.If there are any outliers,approximate the value of these invoices.
20406080
Walter Gogel Company is an industrial supplier of fasteners, tools, and springs.
amounts of its invoices vary widely, from less than $20.00 to more than $400.00. Du
he month of January the company sent out 80
invoices. Here is a box plot of thes voices. Write a brief report summarizing the invoice amounts. Be sure to include i mation on the values of the first and third quartiles, the median, and whether there i
skewness. If there are any outliers, approximate the value of these invoices.*
050100150200250
4.McGivern Jewelers reported the shape,size,price,and cut grade for33of its diamonds.
(Dataset from the publisher.)
(i)Draw a box plot of the variable‘price’and comment on the result.Are there any outliers?
What is the median price?What are the values of thefirst and the third quartiles?
(ii)Draw a box plot of the variable‘size’and comment on the result.Are there any outliers?
What is the median price?What are the values of thefirst and the third quartiles?
(iii)Draw a scatter diagram of‘price’(on the vertical axis)and‘size’(on the horizontal axis).
Are the variables correlated?Does any point seem to be different from the others?
(iv)Draw a contingency table for the variables‘shape’and‘cut grade’.What is the most common cut grade?What is the most common shape?What is the most common combination of cut grade and shape?
5.Refer to the North Valley real estate data recorded on houses sold during the last year.Prepare
a report on the selling prices of the houses based on the answers to the following questions.
(i)Compute the minimum,maximum,median,and thefirst and the third quartiles of price.
Create a box ment on the distribution of house prices.
The boxplot shows that the distribution is positively skewed with about7outliers
on the right(the‘positive’side).This is confirmed by thefinding that mean>
median.A comparison of Bowley and Fisher-Pearson coefficients of skewness
shows that the positive skew is caused mainly by the presence of outliers.
(ii)Inspect a scatter diagram with price on the vertical axis and the size of the house on the horizontal.Is there a relationship between these variables?
The scatter diagram shows that price and size are positively correlated.
(iii)For houses without a pool,draw a scatter diagram with price on the vertical axis and the size of the house on the horizontal.Do the same for houses with a pool.How do the relationships between price and size for houses without a pool and houses with a pool compare?
The scatter diagrams for houses with a pool and without a pool show that the
correlation between price and size is roughly the same for houses with or without
a pool.The data for houses without a pool has one clear outlier,which does not
however affect the relationship much.The data for houses with a pool has more
observations at the high size-price end.However,plotting a regression line on top
of the scatter reveals that the size-price relation is stronger for houses with a pool.
Running a robust regression—instead of ordinary least squares—or running
a trimmed ols(outliers removed)—reveals that,for houses without a pool,the
positive association is weaker without the outlier.。

相关文档
最新文档