【招聘海外留学生】想去谷歌、微软、Uber等大牛公司做数据分析,最新面试真题(已分类)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

【招聘海外留学生】想去谷歌、微软、Uber等大牛公司做数据分析，最新面试真题（已分类）

来自Glassdoor的最新数据可以告诉我们各大科技公司最近在招聘面试时最喜欢向候选人提什么问题。首先有一个令人惋惜的结论：根据统计，几乎所有的公司都有着自己的不同风格。由于Glassdoor允许匿名提交内容，很多乐于分享的应聘者向大家提供了Facebook、谷歌、微软等大公司的面试题。我们把其中的一部分列出以供大家参考。

通用问题

Apple

1.如果你有几百万用户，每个用户都会发生数百笔交易，这些交易存在于数十种产品中。你该如何把这些用户细分成有意义的几类？

Microsoft

1.描述一个你曾经参与的项目，以及它的优点。

2.如何处理具有高基数（high-cardinality）的类属特征？

3.如果想要给Twitterfeed写summarize，你要怎么办？

4.在应用机器学习算法之前纠正和清理数据的步骤是什么？

5.如何测量数据点之间的距离？

6.请定义一下方差。

7.请描述箱形图（boxplot）和直方图（histogram）之间的差异，以及它们的用例。

Twitter

1.你会使用什么功能来为用户构建推荐算法？

Uber

1.选择任何一个你真正喜欢的产品或应用程序，并描述如何改善它。

2.如何在分布中发现异常？

3.如何检查分布中的某个趋势是否是由于异常产生的？

4.如何估算Uber对交通和驾驶环境造成的影响？

5.你会考虑用什么指标来跟踪Uber付费广告策略在吸引新用户上是否有效？然后，你想用什么办法估算出理想的客户购置成本？

1.（对大数据工程师）请解释REST是什么。

机器学习问题

Google

1.为什么要使用特征选择（featureselection）？

2.如果两个预测变量高度相关，它们对逻辑回归系数的影响是什么？系数的置信区间是什么？

3.高斯混合模型（GaussianMixtureModel）和K-Means之间有什么区别？

4.在K-Means中如何拾取k？

5.你如何知道高斯混合模型是不是适用的？

6.假设聚类模型的标签是已知的，你如何评估模型的性能？

Microsoft

1.你有哪些引以为豪的机器学习项目？

2.随便找一个机器学习算法，然后描述它。

3.请解释GradientBoosting是如何工作的。

4.（对数据挖掘工程师）请解释决策树模型。

5.（对数据挖掘工程师）什么是神经网络？

6.请解释偏差方差权衡（Bias-VarianceTradeoff）。

7.如何处理不平衡二进制分类？

8.L1和L2正则化之间有什么区别？

Uber

1.你会通过哪种特征来预测Uber司机是否会接受订单请求？你会使用哪种监督学习算法来解决这个问题，如何比较算法的结果？

1.点出及描述三种不同的内核函数，在哪些情况下使用哪种？

2.随意解释机器学习里的一种方法。

3.如何应付稀疏数据？

IBM

1.如何防止过拟合（overfitting）？

2.如何处理数据中的离群值？

3.如何评估逻辑回归与简单线性回归模型预测的性能？

4.监督学习和无监督学习有什么区别？

5.什么是交叉验证（cross-validation），为什么要使用它？

6.用于评估预测模型的矩阵的名称是什么？

7.逻辑回归系数和胜算比（OddsRatio）之间存在什么关系？

8.主成分分析（PCA）和线性和二次判别分析（LDA和QDA）之间的关系是什么？

9.如果你有一个因变量分类，又有一个连续自变量的混合分类，你将使用什么算法，方法或工具进行分析？

10.（对行业分析师）逻辑与线性回归有什么区别？如何避免局部极小值？

Salesforce

1.你会使用哪些数据和模型来测量损耗/流失？如何测试模型性能？

2.假设我是一名非技术人员，请向我解释一种机器学习算法。

CapitalOne

1.如何构建一个模型来预测信用卡诈骗？

2.如何处理丢失或不良数据？

3.如何从已存在的特征中导出新的特征？

4.如果你试图预测客户的性别，但只有100个数据点，可能会出现什么问题？

5.在拥有两年交易历史的情况下，哪些特征可以用来预测信用风险？

6.请设计一个用来下井字棋的人工智能程序。

Zillow

1.请解释过拟合，以及如何防止过拟合。

2.为什么SVM需要在支持向量之间最大化边缘？

Hadoop

Twitter

1.如何使用Map/Reduce将非常大的图形分割成更小的块，并根据数据的快速/动态变化并行计算它们的边缘？

2.（对数据工程师）给定一个列表：123,345234,678345,123…其中第一列是粉丝的ID，第二列是被粉者的ID。查找所有相互后续对（上面的示例中的对是123，345）。当列表超出内存时，如何使用Map/Reduce来解决问题？

CaptialOne

1.（对数据工程师）什么是Hadoop序列化（serialization）？

2.解释一个简单的Map/Reduce问题。

Hive

1.（对数据工程师）请编写返回情感分数的HiveUDF。例如，假如好=1，坏=-1，平均数=0，那么对餐厅做评价时因为「食物好，服务差」，你的分数可能为1-1=0 Spark

CaptialOne

1.（对数据工程师）用Scala语言，RDD在Spark中是如何工作的？

统计和概率问题

Google

1.假设我是一名非技术人员，请向我解释一下交叉验证（Cross-validation）。

2.请描述一下非正态概率分布，随后告诉我们它该如何应用？

Microsoft

1.（对数据挖掘）请解释异方差（heteroskedasticity）是什么，以及如何解决它。

Twitter

1.在给定Twitter用户数据的情况下，你该如何衡量参与度？

Uber

1.时间序列预测技术有什么不同？

2.解释原理组件分析（PrincipleComponentAnalysis，PCA）和PCA使用的方程。

3.如何解决多重共线性（Multicollinearity）？

4.（对分析师）请写一个方程，优化我们在Twitter和Facebook上的广告费用支出。