如何成为一名数据科学家？

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

如何成为一名数据科学家？
这几年，围绕大数据和数据科学有许多炒作。

其实要理解某样东西，有时需要清楚的了解它不是什么；数据科学家，不是统计学家，不是数据分析师，不是软件工程师，不是业务分析师，他们对这些领域都有一些了解，但又不完全精通于这些领域。

所以正确的做法是抓住大数据行业的中点，摒弃过时的手法。

比如，你需要了解的知识虽然有统计学、计算机科学、机器学习。

但你并不需要对其无所不知，也没有必要纠结那些极其复杂的算法。

数据科学家在商业分析、统计学和计算机科学领域是通才，他们可以开发数据、收集策略并使用数据发现一些可操作的商业见解。

也就是说，数据科学家要具有创造性，能根据分析业务，通过数据，制定分析，提出方案，推动增长。

所以现在你发现了，数据科学包含的知识非常广泛，既不像网络上说的各种算法那样高深莫测，也不是三言两语就能解释清楚如何成为数据科学家这个问题那么简单。

首先，要理解数据科学，基本数学知识包括：
•代数，基本矩阵论；
•微积分入门课程；要掌握的理论不多。

只需要理解计算复杂度，了解特殊函数
•统计与概率论基础入门课程；可以挑一本基础统计学书籍阅读掌握
从技术的角度出发，要掌握的技能和知识有：
•R语言；
•Python(或Perl)；了解基本网络爬虫知识，有助于获取互联网上能找到的非结构化数据
•Excel；PowerPiviot插件可以用来处理大数据集
•SQL ；数据库的设计和访问要有基本了解
•(图形)可视化工具；
但是掌握一门专业知识最好的方法还是系统性的阅读书籍。

如果想进一步了解数据科学家的工作或者如何提升自己的数据科学技能，我推荐以下这几本书籍：《数据天才》、《敏捷数据科学》、《数据科学家养成手册》、《Python大战机器学习》
评论
机器之心头条号优质科技原创作者 05-16 18:14 43赞
踩
在外界看来，「大数据」和「数据科学」这样的词看起来复杂又神秘。

数据科学被称为「21世纪最性感的工作」。

所要成为一名数据科学家，要实有际的付出，比如，需要具备成为数据科学家的三项能力，以及为走向数据科学做好一些准备，观看一些有关数据科学的优秀在线课程，阅读不得不读的数据科学经典书籍；如果，你学有所成，也可以找一些好的测试题自我检验一下；而以上，正是本文所要分享的内容，希望对你能有所帮助！
数据科学家需要具备的三项能力
数据科学家」这个词覆盖的角色很广，涵盖了学术、金融和政府等多种产业和组织。

然而，有三个重要的能力是每位数据科学家都必须理解的：
1、必须理解数据是有意义的
我们经常忽视一个事实，那就是数据是有含义的，并且理解其中的意义非常重要。

如果我们想要在数字中获得有用的洞察，就必须超
越数字，理解它们暗藏的内涵。

这一点与算法和工程等没有关系。

理解数据是一门艺术，真的非常重要。

2、必须理解你需要解决的问题，以及数据与之的联系
此时，你可以打开工具箱，找到正确的分析方法和算法来分析数据。

机器学习可以进行技术分析。

除了机器学习之外，还有几百种技术可以用数据来解决问题，例如运筹学、决策论、博弈论、控制论等，这些理论都有很长的历史。

一旦你理解了数据和你试图解决的问题，下一步就应该选择匹配的算法，来获得有意义的解。

3、必须理解工程问题
第三个能力是理解和运用执行分析任务的设备，就是「如果你在正确的时间和地点没有基础设备来高效精确地运行分析任务，那一切都是白搭。

」
做好走向数据科学的准备
1、最重要的是：无论你想要在目前的工作中学到什么，都要找到方法
找到一个涉及更多编码/数据分析且对你的雇主有帮助的项目。

尝试使任何无聊的任务自动化。

即使这个过程需要5 倍的时间（即使这样的任务你只做一次！），但你正是通过这样来学习。

2、分析您拥有的任何数据
比如消费前的研究数据（即决定要购买哪种微波炉），个人健身追踪器的数据，烹饪食谱的营养数据，为孩子调查的学前教育数据。

把它变成一个小型的数据分析项目，并写到博客中。

例如如果你是研究生，你可以分析所教学生的年级数据。

3、学习最重要的数据科学软件工具
Python's data science stack（pandas / numpy / scipy）是最有用的技术（阅读本书！），紧随其后的是SQL。

在学习其他语言之前我会专注于学习 Python 和 SQL。

Python 被广泛使用且非常灵活。

如果你决定参与到更多的软件开发工作，或者全面进入机器学习，你会有优势。

4、使用 Kaggle
做教程，参加论坛，参加比赛（不要担心你处于什么水平- 只是专注于每天做得更好一点）。

这是学习实用机器技能的最好方法。

5、搜索您所在地区的数据科学和技术会议
随着数据科学在过去几年的激增，如今在全球有各种会议。

例如，Google 最近在加利福尼亚州山景城举办了一次 T ensorFlow Dev 峰会，但有全世界观众一起观看直播（包括尼日利亚的阿布贾，印度的哥印拜陀和摩洛哥的拉巴特）。

数据科学在线课程
在线课程是一个了不起的资源。

你可以在家里舒适地跟随世界上最好的数据科学家学习。

通常作业是学习最多的地方，所以不要跳过它们！这里有几个我最喜欢的课程：
•Andrew Ng 的经典机器学习公开课（虽然没有在Octave / MATLAB 上花太多时间，但他把算法解释地非常完美），或许用Python 完成这项工作更好
•快速实习深度学习课程。

透露：我协助开设了这门课程，我们得到了许多学生的积极反馈。

其中唯一的先决条件是一年的编码经验。

•Udacity 的数据科学系列。

•Udacity 的Web 开发课程。

如果想成为一个数据科学家在技术上不需要了解这些，但成为一个更好的软件开发人员可以使你成为一个更好的数据科学家，了解如何构建自己的网络应用程序非常有用。

上述强调的问题之一是，在线可用的信息、教程和课程的数量或许巨大的，最大的风险之一是不能持之以恒，不能完成或坚持足够长
的时间来学习它。

重要的是找到一个「足够好」的课程或项目，然后坚持下去。

找到或组建一个见面团队来一起学完在线课程或许对解决这个问题有帮助。

在线课程对获取知识非常有用（做完作业非常重要，这是你学习的方式）。

不过，我还没发现获得证书有啥好处。

（虽然我知道这是一个新增长的领域）。

因为之前雇佣数据科学家时，我面试过很多求职者，而且自己也有这方面的求职经验，都是经验之谈。

数据科学家要读的书籍
作为一位数据科学家、数据工程师或机器学习研究者，面对市面上各种各样的相关书籍一定会感觉难以取舍。

这是一份数据驱动的客观书单，希望可以有所帮助：
1.An Introduction to Statistical Learning: With Applications in R（统计学习导论 : 基于R应用）
价格：英文版 61.36 美元，中文版 63.1 元
品质得分：10/10
这本书在亚马逊上评分非常高，其作者是来自南加利福尼亚大学、斯坦福大学和华盛顿大学的四位教授 Gareth James、Daniela Witten、Trevor Hastie 和Rob Tibshirani；他们都有统计学背景。

这本书比《The Elements of Statistical Learning（统计学习基础）》更为实用，它给出了一些使用 R 语言实现的案例。

2.The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition（统计学习基础：数据挖掘、推理和预测）
价格：英文版 62.0 美元，中文版 45 元
品质得分：9/10
亚马逊上的高分书籍，作者是斯坦福大学的三位统计学教授。

第一作者 Trevor Hastie 具有统计学和生物统计学方面的研究背景。

关于
这本书的一个有趣的事情是作者们以统计学的视角看待机器学习问题。

这本书似乎过于关注理论了，所以一些读者可能倾向于略过它。

3.Pattern Recognition and Machine Learning（模式识别与机器学习）
价格：英文版 60.0 美元，无中文版
品质得分：8/10
亚马逊上的高分书籍，作者是著名作家 Christopher M. Bishop，他是微软剑桥研究院的一位杰出科学家，领导微软机器学习与感知研究组。

这本书在技术上全面覆盖了各种机器学习主题，包括回归、线性分类、神经网络、核方法和图模型。

4. Machine Learning: A Probabilistic Perspective（机器学习：概率学的观点）
价格：英文版 79.16 美元，无中文版
品质得分: 7/10
Machine Learning: A Probabilistic Perspective 一书提供了可以自动检测数据模式，然后使用得出的模式预测未来数据的方法。

该教材基于统一的、概率学的方法对机器学习领域提供了全面的介绍。

该书的作者Kevin Murphy 是谷歌的一位研究人工智能、机器学习、计算机视觉、知识基础建设和自然语言处理的研究科学家。

5. Data Mining: Concepts and Techniques, Third Edition（数据挖掘：概念与技术，第三版）
价格：英文版 50.0 美元，中文版 79.0 元
品质得分： 6/10
Data Mining: Concepts and Techniques, Third Edition 一书的作者是伊利诺伊大学香槟分校计算机科学系的Jiawei Han（韩家炜）教授。

这本书能让你了解、应用从大数据集中发现隐藏模式的理论和实践知识。

这本书在亚马逊上获得了较为平均的评价。

6. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition（数据挖掘：实用机器学习工具与技术，第3版）
价格：英文版 37.5 美元，中文版 79.0 元
品质得分： 6/10
这本书在亚马逊上的评价相当不错，其作者为新西兰怀卡托大学的三位计算机科学教授。

他们也是基于 Java 的数据挖掘软件 Weka 的主要贡献者。

因此，这本书重在数据挖掘领域的具体实现方面，尤其是基于 Weka 软件的工作平台。

7. Probabilistic Graphical Models: Principles and Techniques （概率图模型：原理与技术）
价格：英文版 91.66 美元，中文版 198 元
品质得分： 6/10
Probabilistic Graphical Models: Principles and Techniques 这本独特的书提供了设计自动推理系统的概率图框架。

这本书的作者是两位计算机科学教授：来自斯坦福大学人工智能实验室的Daphne Koller 和来自耶路撒冷希伯来大学的 Nir Friedman。

8. Introduction to Information Retrieval（信息检索导论）
价格：英文版 57.0 美元，中文版 69 元
品质得分： 6/10
Introduction to Information Retrieval 的第一作者是斯坦福计算机科学教授Christopher Manning。

这是讲解网络时代的信息检索的教科书，包括网络搜索，以及与文本分类和文本聚类的基本概念相关的领域。

9. Machine Learning（机器学习）
价格：英文版 211.6 美元，中文版 35 元
品质得分： 5/10
Machine Learning 是机器学习领域一本非常著名的著作，其作者是美国卡内基·梅隆大学计算机科学教授 Tom Mitchell。

Tom Mitchell 是世界上第一个机器学习系的第一任系主任。

Machine Learning 一书涵盖了机器学习的一些基本领域，包括学习、决策树学习、神经网络、贝叶斯学习、强化学习等。

10. Speech and Language Processing, 2nd Edition（语音和语
言处理，第二版）
价格：英文版 78.65 美元，无中文版
品质得分： 5/10
Speech and Language Processing 的作者是斯坦福大学语言学和计算机科学教授Dan Jurafsky。

这是全面覆盖语言技术的第一本书——在所有层次上且包含所有现代技术。

基于大型企业使用的应用统计和其它机器学习算法，这本书在语言技术这一主题上使用了实证的方法
11. Introduction to Data Mining（数据挖掘导论）
价格：英文版 118.91 美元，中文版 49.0 元
品质得分： 4/10
这本书在亚马逊上获得了很好的评分，其作者是三位计算机科学教授：密歇根州立大学的 Pang-Ning Tan、明尼苏达大学的 Michael Steinbach 和Vipin Kumar。

这本书涵盖了数据挖掘的不同基本领域，如：分类、关联分析、聚类和异常检测。

12. Neural Networks for Pattern Recognition（用于模式识别的神经网络）
价格：英文版 88.42 美元，无中文版
品质得分： 4/10
Neural Networks for Pattern Recognition 算是一本老书了，但其作者是微软剑桥研究院的杰出科学家 Christopher M. Bishop。

13. Foundations of Statistical Natural Language Processing （统计自然语言处理基础）
价格：英文版 87.27 美元，中文版 55 元
品质得分： 4/10
Foundations of Statistical Natural Language Processing 是亚马逊上评分非常好的一本自然语言处理书籍。

用统计方法处理自然语言文本近来已经占据了主导地位。

这本书对统计自然语言处理（NLP）进行了全面的介绍，含所有开发 NLP 工具所需的理论和算法。

14. Handbook of Statistical Analysis and Data Mining
Applications（统计分析和数据挖掘应用手册）
价格：英文版 72.81 美元，无中文版
品质得分： 4/10
这本书在亚马逊的评分高于平均分，其作者是三位在数据挖掘和统计学领域有行业经验的博士。

这本书是一本指导商业分析师、科学家、工程师和研究者的全面的专业参考书，其中包含不同阶段的数据分析、建模和实现。

15. Understanding Machine Learning: From Theory to Algorithms（理解机器学习：从理论到算法）
价格：英文版 52.76 美元，无中文版
品质得分： 4/10
Understanding Machine Learning: From Theory to Algorithms 提供了解释机器学习基本思想的广泛理论和将这些原理转化成实际算法的数学推导。

这本书的两位作者是分别来自耶路撒冷希伯来大学和滑铁卢大学的计算机科学教授。

16. Foundations of Machine Learning（机器学习基础）
价格：英文版 96.56 美元，无中文版
品质得分： 3/10
Foundations of Machine Learning 是一本研究生阶段的教科书，介绍了机器学习的基本概念和方法。

这本书描述了几种重要的算法，提供了这些算法的理论基础，并阐释了这些算法应用的主要方面。

其作者 Mehryar Mohri 是纽约大学库朗数学科学研究所的计算机科学教授。

40 道数据科学测试题（附答案）
如果你是一名数据科学家，那就需要对机器学习很擅长，而不只是三脚猫的功夫。

测试包括机器学习、深度学习、时序问题以及概率。

数据科学家可以就这些关键技能进行自我评估。

算是对以上内容的一个补充。

假定特征F1 可以取特定值：A、B、C、D、E 和F，其代表着学生在大学所获得的评分。

现在请答题：
1. 在下面说法中哪一项是正确的？
A. 特征 F1 是名义变量（nominal variable）的一个实例。

B. 特征 F1 是有序变量（ordinal variable）的一个实例。

C. 该特征并不属于以上的分类。

D. 以上说法都正确。

答案为（B）：有序变量是一种在类别上有某些顺序的变量。

例如，等级 A 就要比等级 B 所代表的成绩好一些。

2. 下面哪个选项中哪一项属于确定性算法？
A.PCA
B.K-Means
C. 以上都不是
答案为（A）：确定性算法表明在不同运行中，算法输出并不会改变。

如果我们再一次运行算法，PCA 会得出相同的结果，而 k-means 不会。

3. 两个变量的 Pearson 相关性系数为零，但这两个变量的值同样可以相关。

A. 正确
B. 错误
答案为（A）：Y=X2，请注意他们不仅仅相关联，同时一个还是另一个的函数。

尽管如此，他们的相关性系数还是为0，因为这两个变量的关联是正交的，而相关性系数就是检测这种关联。

详情查看：/wiki/Anscombe's_quartet
4. 下面哪一项对梯度下降（GD）和随机梯度下降（SGD）的描述是正确的？
1.在 GD 和 SGD 中，每一次迭代中都是更新一组参数以最小化损失函数。

2.在 SGD 中，每一次迭代都需要遍历训练集中的所有样本以更新
一次参数。

3.在GD 中，每一次迭代需要使用整个训练集或子训练集的数据更新一个参数。

A. 只有 1
B. 只有 2
C. 只有 3
D.1 和 2
E.2 和 3
F. 都正确
答案为（A）：在随机梯度下降中，每一次迭代选择的批量是由数据集中的随机样本所组成，但在梯度下降，每一次迭代需要使用整个训练数据集。

5. 下面哪个/些超参数的增加可能会造成随机森林数据过拟合？
1.树的数量
2.树的深度
3.学习速率
A. 只有 1
B. 只有 2
C. 只有 3
D.1 和 2
E.2 和 3
F. 都正确
答案为（B）：通常情况下，我们增加树的深度有可能会造成模型过拟合。

学习速率在随机森林中并不是超参数。

增加树的数量可能会造成欠拟合。

6. 假如你在「Analytics Vidhya」工作，并且想开发一个能预测文章评论次数的机器学习算法。

你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 写过的总文章数量等等。

那么在这样一个算法中，你会选择哪一个评价度量标准？
1.均方误差
2.精确度
3.F1 分数
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 和 3
E. 2 和 3
F. 1 和 2
答案为（A）：你可以把文章评论数看作连续型的目标变量，因此该问题可以划分到回归问题。

因此均方误差就可以作为损失函数的度量标准。

7. 给定以下三个图表（从上往下依次为1，2，3）. 哪一个选项对以这三个图表的描述是正确的？
A. 1 是 tanh，2 是 ReLU，3 是 SIGMOID 激活函数
B. 1 是 SIGMOID，2 是 ReLU，3 是 tanh 激活函数
C. 1 是 ReLU，2 是 tanh，3 是 SIGMOID 激活函数
D. 1 是 tanh，2 是 SIGMOID，3 是 ReLU 激活函数
答案为（D）：因为 SIGMOID 函数的取值范围是 [0,1]，tanh 函数的取值范围是 [-1,1]，RELU 函数的取值范围是 [0,infinity]。

8. 以下是目标变量在训练集上的 8 个实际值 [0,0,0,1,1,1,1,1]，目标变量的熵是所少？
A. -(5/8 log(5/8) + 3/8 log(3/8))
B. 5/8 log(5/8) + 3/8 log(3/8)
C. 3/8 log(5/8) + 5/8 log(3/8)
D. 5/8 log(3/8) – 3/8 log(5/8)
答案为（A）：信息熵的公式为：
9. 假定你正在处理类属特征，并且没有查看分类变量在测试集中的分布。

现在你想将 one hot encoding（OHE）应用到类属特征中。

那么在训练集中将 OHE 应用到分类变量可能要面临的困难是什么？
A. 分类变量所有的类别没有全部出现在测试集中
B. 类别的频率分布在训练集和测试集是不同的
C. 训练集和测试集通常会有一样的分布
D. A 和 B 都正确
E. 以上都不正确
答案为（D）：A、B 项都正确，如果类别在测试集中出现，但没有在训练集中出现，OHE 将会不能进行编码类别，这将是应用OHE 的主要困难。

选项 B 同样也是正确的，在应用 OHE 时，如果训练集和测试集的频率分布不相同，我们需要多加小心。

10.Skip gram 模型是在 Word2vec 算法中为词嵌入而设计的最优模型。

以下哪一项描绘了 Skip gram 模型？
A. A
B. B
C. A 和 B
D. 以上都不是
答案为（B）：这两个模型都是在Word2vec 算法中所使用的。

模型 A 代表着 CBOW，模型 B 代表着 Skip gram。

11. 假定你在神经网络中的隐藏层中使用激活函数 X。

在特定神经元给定任意输入，你会得到输出「-0.0001」。

X 可能是以下哪一个激活函数？
A. ReLU
B. tanh
C. SIGMOID
D. 以上都不是
答案为（B）：该激活函数可能是tanh，因为该函数的取值范围是 (-1,1)。

12. 对数损失度量函数可以取负值。

A. 对
B. 错
答案为（B）：对数损失函数不可能取负值。

13. 下面哪个/些对「类型 1（Type-1）」和「类型 2（Type-2）」错误的描述是正确的？
1.类型 1 通常称之为假正类，类型 2 通常称之为假负类。

2.类型 2 通常称之为假正类，类型 1 通常称之为假负类。

3.类型 1 错误通常在其是正确的情况下拒绝假设而出现。

A. 只有 1
B. 只有 2
C. 只有 3
D. 1 和 2
E. 1 和 3
F. 3 和 2
答案为（E）：在统计学假设测试中，I 类错误即错误地拒绝了正
确的假设（即假正类错误），II 类错误通常指错误地接受了错误的假设（即假负类错误）。

14. 下面在 NLP 项目中哪些是文本预处理的重要步骤？
1.词干提取（Stemming）
2.移去停止词（Stop word removal）
3.目标标准化（Object Standardization）
A. 1 和 2
B. 1 和 3
C. 2 和 3
D. 1、2 和 3
答案为（D）：词干提取是剥离后缀（「ing」，「ly」，「es」，「s」等）的基于规则的过程。

停止词是与语境不相关的词（is/am/are）。

目标标准化也是一种文本预处理的优良方法。

15. 假定你想将高维数据映射到低维数据中，那么最出名的降维算法是PAC 和t-SNE。

现在你将这两个算法分别应用到数据「X」上，并得到数据集「X_projected_PCA」，「X_projected_tSNE」。

下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？
A. X_projected_PCA 在最近邻空间能得到解释
B. X_projected_tSNE 在最近邻空间能得到解释
C. 两个都在最近邻空间能得到解释
D. 两个都不能在最近邻空间得到解释
答案为（B）：t-SNE 算法考虑最近邻点而减少数据维度。

所以在使用 t-SNE 之后，所降的维可以在最近邻空间得到解释。

但 PCA 不能。

16-17 题的背景：给定下面两个特征的三个散点图（从左到右依次为图 1、2、3）。

16. 在上面的图像中，哪一个是多元共线（multi-collinear）特征？
A. 图 1 中的特征
B. 图 2 中的特征
C. 图 3 中的特征
D. 图 1、2 中的特征
E. 图 2、3 中的特征
F. 图 1、3 中的特征
答案为（D）：在图1 中，特征之间有高度正相关，图2 中特征有高度负相关。

所以这两个图的特征是多元共线特征。

17. 在先前问题中，假定你已经鉴别了多元共线特征。

那么下一步你可能的操作是什么？
1.移除两个共线变量
2.不移除两个变量，而是移除一个
3.移除相关变量可能会导致信息损失。

为了保留这些变量，我们可以使用带罚项的回归模型（如 ridge 或 lasso regression）。

A. 只有 1
B. 只有 2
C. 只有 3
D. 1 或 3
E. 1 或 2
答案为（E）：因为移除两个变量会损失一切信息，所以我们只能移除一个特征，或者也可以使用正则化算法（如 L1 和 L2）。

18. 给线性回归模型添加一个不重要的特征可能会造成：
1.增加 R-square
2.减少 R-square
A. 只有 1 是对的
B. 只有 2 是对的
C. 1 或 2 是对的
D. 都不对
答案为（A）：在给特征空间添加了一个特征后，不论特征是重要还是不重要，R-square 通常会增加。

19. 假设给定三个变量X，Y，Z。

(X, Y)、(Y, Z) 和(X, Z) 的Pearson 相关性系数分别为 C1、C2 和 C3。

现在 X 的所有值加 2（即X+2），Y 的全部值减 2（即 Y-2），Z 保持不变。

那么运算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D1、D2 和 D3。

现在试问 D1、D2、D3 和 C1、C2、C3 之间的关系是什么？
A. D1= C1, D2 < C2, D3 > C3
B. D1 = C1, D2 > C2, D3 > C3
C. D1 = C1, D2 > C2, D3 < C3
D. D1 = C1, D2 < C2, D3 < C3
E. D1 = C1, D2 = C2, D3 = C3
F. 无法确定
答案为（E）：特征之间的相关性系数不会因为特征加或减去一个数而改变。

20. 假定你现在解决一个有着非常不平衡类别的分类问题，即主要类别占据了训练数据的99%。

现在你的模型在测试集上表现为99% 的准确度。

那么下面哪一项表述是正确的？
1.准确度并不适合于衡量不平衡类别问题
2.准确度适合于衡量不平衡类别问题
3.精确率和召回率适合于衡量不平衡类别问题
4.精确率和召回率不适合于衡量不平衡类别问题
A. 1 and 3
B. 1 and 4
C. 2 and 3
D. 2 and 4
答案为（A）：参考问题 4 的解答。

21. 在集成学习中，模型集成了弱学习者的预测，所以这些模型的集成将比使用单个模型预测效果更好。

下面哪个/些选项对集成学习模型中的弱学习者描述正确？
1.他们经常不会过拟合
2.他们通常带有高偏差，所以其并不能解决复杂学习问题
3.他们通常会过拟合
A. 1 和 2
B. 1 和 3
C. 2 和 3
D. 只有 1
E. 只有 2
F. 以上都不对
答案为（A）：弱学习者是问题的特定部分。

所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。

22. 下面哪个/些选项对 K 折交叉验证的描述是正确的
1.增大 K 将导致交叉验证结果时需要更多的时间
2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心
3.如果K=N，那么其称为留一交叉验证，其中N 为验证集中的样本数量
A. 1 和 2
B. 2 和 3
C. 1 和 3
D. 1、2 和 3
答案为（D)：大K 值意味着对过高估计真实预期误差（训练的折数将更接近于整个验证集样本数）拥有更小的偏差和更多的运行时间（并随着越来越接近极限情况：留一交叉验证）。

我们同样在选择K 值时需要考虑 K 折准确度和方差间的均衡。

23 题至24 题的背景：交叉验证在机器学习超参数微调中是十分
重要的步骤。

假定你需要为 GBM 通过选择 10 个不同的深度值（该值大于2）而调整超参数「max_depth」，该树型模型使用5 折交叉验证。

4 折训练验证算法（模型 max_depth 为 2）的时间为 10 秒，在剩下的 1 折中预测为 2 秒。

23. 哪一项描述拥有 10 个「max_depth」不同值的 5 折交叉验证整体执行时间是正确的？
A. 少于 100 秒
B. 100-300 秒
C. 300-600 秒
D. 大于等于 600 秒
E. 无法估计
答案为（D）：因为深度为2 的5 折交叉验证每一次迭代需要训练 10 秒和测试 2 秒。

因此五折验证需要 12*5 = 60 秒，又因为我们需要搜索 10 个深度值，所以算法需要 60*10 = 600。

24. 在先前的答案中，如果你训练同样的算法调整 2 个超参数，假设是max_depth 和learning_rate。

你想要选择正确的值对抗max_depth（从给定的10 个深度值中）和学习率（从5 个不同的学习率做选择）。

在此情况下，整体时间是下面的哪个？
A.1000-1500 秒
B.1500-3000 秒
C. 多于或等于 3000 Second
D. 都不是
答案为（D）：和 23 题一样。

25. 下表是机器学习算法 M1 的训练错误率 TE 和验证错误率 VE，基于 TE 和 VE 你想要选择一个超参数（H）。