毕业生笔试题：阿里巴巴数据分析笔试题

合集下载

阿里巴巴笔试题答案

第一题选C，不解释吧，按位与就行第二题选D，不解释，2*3*sizeof(int*)=48（64位机器上是8字节一个指针）第三题选C，我不确定，不过，应该是的第四题选D，明显考的是补码第5题选D，果断访问错误（这是Java的代码）第6题选B，大家都懂第7题果断A啊第8题果断是B，不解释，大家懂第9题是B，’0’不是’\0’，这个要注意第10题果断是Fibonacci，显然是C，前几个是0，1，2，3，5，8，13，21第11题选B，计算量是2^35，现在计算机的主频是2^30，所以差不多是几秒的事第12题是B，显然有n=4N1+3N3+2N2+N1+1=N4+n3+n2+n1，所以N0=82，不解释第13题果断是D，这个老题目了，不解释第14题是C，二分查找嘛，大家都会，不解释第15题是Fulkerson算法，算出来是46，每一次选一个增广路径即可，直接选不出来为止第16题选185，显然，它给了120块钱(楼主二了)和一个物品（值65元），所以亏损185 这个题目楼主是这样想的，结果二了第17题是2，不解释Fermart小定理，2^6 mod 7= 1，所以2^100=2^4=16=2 mod 7第18题，我觉得是B，不知道对不对，这个不会第19题，算得不太精细，选了A，不确定。

第20题C，概率与级数运算，不解释第21题，果断B，D，malloc，new申请到的是Virtual Memory，不过，windows里面还真可以申请到物理内存，用的是VirtualAllocEx API即可第22题B,C肯定对，D不确定，感觉是对的，不过，没敢选第23题，其实就是解n^14<10^16，解出n<= 13，所以选14，15（我是推出n<10^(8/7)然后算出n<=13第24题，D，因为选出第一个是白的，所以位于A的概率是2/3第25，不可能，需要2.8*10^8 bit，而蓝牙只能传2.4*10^7bit所以一帧需要0.2S第26题(mnlogn)不解释，归并而已第27题显然是17分钟第28，错两个地方1，没考虑只有一个数，2，可能死循环（给你数组0，2，3让查找1）楼主两个都想到了，写的时候忘记了写1，悲剧第29题，果断SkipList，地球人懂的O(PLogpN)。

阿里巴巴集团笔试题目

阿里巴巴集团笔试题目下面是由应届毕业生网分享的题目第一题、5亿个不重复的商品的ID（每一个商品的ID是64位），现在有一个存放了10亿个商品ID（商品的ID会有重复）的日志文件，请设计一种方法找出5亿个商品中没有出现在日志文件中的商品。

假设所能使用的内存为2G。

[html] view plaincopyprint?01.2G的文件只能存放2.5亿的商品ID，因为5亿商品大小为5*10*8B=4G。

可以考虑将5亿商品ID哈希到四个文件中A[4]。

然后将10亿个商品哈希到另外四个文件中B[4]。

每次读入一个A文件读入一个B文件，将B文件哈希到A文件中，A文件中的值为0的键值就是没有被日志文件包含的。

但是日志文件分成四个之后，每一个的大小事2G无法一次性的读入，可以一次读一半或者分成8个文件。

以上为博主的思路，欢迎各位指正。

2G的文件只能存放2.5亿的商品ID，因为5亿商品大小为5*10*8B=4G。

可以考虑将5亿商品ID哈希到四个文件中A[4]。

然后将10亿个商品哈希到另外四个文件中B[4]。

每次读入一个A文件读入一个B文件，将B文件哈希到A文件中，A文件中的值为0的键值就是没有被日志文件包含的。

但是日志文件分成四个之后，每一个的大小事2G无法一次性的读入，可以一次读一半或者分成8个文件。

以上为博主的思路，欢迎各位指正。

[cpp] view plaincopyprint?01.第二题、有一个词组的列表，list string wordlist={ a boy , hello word , small cat ,.......};有一个字符串string stringlist={ a boy can catch small cats }.要求找出出现在stringlist中的wordlist的词组。

比如a boy 就出现了，但是small cat没出现。

只要有一个出现了就返回true，否则返回false[cpp] view plaincopyprint?01. bool Find(list string wordlist,string stringlist)02.{03. int length=wordlist.length();04. int i;05. for(i=0;i length;i++)06. {07. if(stringlist.find(wordlist[i])!=stringlist.end() *(stringlist.find(wordlist[i])++)==' ')08. {09. return true;。

阿里巴巴校园招聘测试笔试题总结

选择题（每题5分）1。

某校园网用户无法访问外部站点210。

102。

58。

74，管理人员在windows 操作系统下可以使用( ）判断故障发生在校园网内还是校园网外.A. ping 210.102.58.74 B。

tracert 210.102.58。

74C. netstat 210。

102.58。

74D. arp 210.102.58.742。

在C++语言中,若类C中定义了一个方法int f（int a，int b)，那么方法（）不能与该方法同时存在于类C中。

A．int f（int x，int y） B．int f(float a，int b）C．float f(int x，float y) D．int f(int x,float y)3. 两个小组独立地测试同一个程序,第一组发现25个错误，第二组发现30个错误，在两个小组发现的错误中有15个是共同的，那么可以估计程序中的错误总数是（）个。

A．25 B．30 C．50D．60答案1:（25+30—15）/（80%)=50先算出两组发现的bug总数,再根据测试的2/8定律（即测试只能查到系统中80％的错误)结果当然是50了答案2:设错误总数为X，那么甲发现错误的概率P(甲）为 25 / X，乙发现错误的概率P（乙)为 30 / X ,甲乙同时发现错误的概率P（同）为 15 / X .因为 P(甲）*P(乙）=P（同) ，所以(25 / X）＊（30 / X) = 15 / X计算而得X=504。

对于软件的β测试，下列描述正确的是（）.A．β测试就是在软件公司内部展开的测试，由公司专业的测试人员执行的测试B．β测试就是在软件公司内部展开的测试，由公司的非专业测试人员执行的测试C．β测试就是在软件公司外部展开的测试，由专业的测试人员执行的测试D．β测试就是在软件公司外部展开的测试，可以由非专业的测试人员执行的测试综合题(每题15分）淘宝每层办公区茶水间都有一台饮料自动售卖机，可选饮料包含有奶茶，咖啡,果珍等，由于是公司福利不需要投币即可使用。

阿里巴巴数据笔试题

阿里巴巴数据笔试题《领导力的五个层次》在企业中，领导力是非常重要的素质之一，只有具备领导力的人才有能力带领团队向前发展。

但是，领导力也是有不同的层次的，今天我们就来谈谈领导力的五个层次。

一、个人领导力个人领导力是指一个人在自己的岗位上通过自身的努力、自我管理和个人价值观的指导，发挥出应有的水平。

个人领导力包括情绪控制、自我激励、个人品格等多个方面。

只有掌握了个人领导力，才能更好的引领自己前进。

二、团队领导力团队领导力是指通过协调团队成员，发挥有效的团队合作和协作，在组织中稳定地发挥作用，实现组织目标。

这种领导力要求领导者具备组织和管理能力、心理学和团队建设知识以及统计和分析能力。

三、组织领导力组织领导力是指通过有效的组织管理来实现组织的目标和使整个机构运转的合理性，相当于组织的全能型领导者。

组织能力是在高度复杂和竞争性的环境中进行组织管理，需要具备的是良好的组织管理技能、综合分析和推动能力。

四、社会领导力社会领导力是指领导者在社会层面上担任重要角色的能力，要求领导者关注整个社会的利益和需求，以更高的智慧和更广阔的视野制定更好的发展战略，推动社会进步。

五、全球领导力全球领导力是指领导者在全球范围内，使用跨国和跨文化的领导技能，在多种地理和文化背景下领导明智和有效的战略和业务。

要具备的能力包括文化理解、跨文化交际能力、跨国，跨区域合作能力以及全球经济发展态势的洞察力。

以上便是领导力的五个层次，每一层次都有其独特的要求和能力需求，只有成为一个全面的领导者，才能更好地带领组织前进。

数据分析笔试题及答案

数据分析笔试题及答案一、选择题（每题2分，共10分）1. 数据分析中，以下哪个指标不是描述性统计指标？A. 平均数B. 中位数C. 标准差D. 相关系数答案：D2. 在进行数据清洗时，以下哪项操作不是必要的？A. 处理缺失值B. 去除异常值C. 转换数据类型D. 增加数据量答案：D3. 以下哪个工具不是数据分析常用的软件？A. ExcelB. RC. PythonD. Photoshop答案：D4. 假设检验中，P值小于显著性水平α，我们通常认为：A. 拒绝原假设B. 接受原假设C. 无法判断D. 结果不可靠答案：A5. 以下哪个不是时间序列分析的特点？A. 趋势性B. 季节性C. 随机性D. 稳定性答案：D二、简答题（每题5分，共15分）1. 请简述数据可视化的重要性。

答案：数据可视化是数据分析中的重要环节，它能够帮助分析者直观地理解数据的分布、趋势和模式。

通过图表、图形等形式，可以更清晰地展示数据之间的关系，便于发现数据中的规律和异常点，从而为决策提供支持。

2. 描述数据挖掘中的“关联规则”是什么，并给出一个例子。

答案：关联规则是数据挖掘中用来发现变量之间有趣关系的一种方法，特别是变量之间的频繁模式、关联、相关性。

例如，在超市购物篮分析中，关联规则可能揭示“购买了牛奶的顾客中有80%也购买了面包”。

3. 解释什么是“数据的维度”以及它在数据分析中的作用。

答案：数据的维度指的是数据集中可以独立变化的属性或特征。

在数据分析中，维度可以帮助我们从不同角度观察和理解数据，进行多维度的分析和比较，从而获得更全面的数据洞察。

三、计算题（每题10分，共20分）1. 给定一组数据：2, 3, 4, 5, 6, 7, 8, 9, 10，请计算这组数据的平均数和标准差。

答案：平均数 = (2+3+4+5+6+7+8+9+10) / 9 = 5.5标准差 = sqrt(((2-5.5)^2 + (3-5.5)^2 + ... + (10-5.5)^2) / 9) ≈ 2.87232. 如果一家公司在过去5年的年销售额分别为100万、150万、200万、250万和300万，请计算该公司年销售额的复合年增长率（CAGR）。

阿里巴巴校招数据分析师职位笔试题目

阿里巴巴校招数据分析师职位笔试题目第1篇：阿里巴巴校招数据分析师职位笔试题目1、选择题1、一下哪个属于离散变量水稻亩产量家庭收入商品价格汽车产量2、卡方分布的样本方差分别是n12n4n3、有个人买*，中奖概率为1/10,每次花200元，连续买5次，如果中奖则奖金为1000元，问不赔钱的概率是多少4、世界男女比例相当，黄种人比其他人种多的多，其他人种男的比女的多，以下那句是正确的黄种人男人比黑种人女人多黄种人女人比黑种人男人多5、关于聚类分析的题目，判断哪句不正确6、均值>中位数>众数，问这个分布偏左还是偏右7、随机无放回抽样跟随机有放回抽样比较，哪个方差大，还是相等8、回归分析y=a+bx，如果存在自相关，问b的值如何，是正负还是0，还有显著*如何。

2、问答题1、sql语句，表a有member_id,city，表b有member_id,price 几项，将a和b链接，且指定城市和price>10.member_id为主键.如果不会写就给出数据分析的思想2、数据清理中，处理缺失值的方法3、回归分析中出现的多重共线*问题是什么，如何处理3、分析题1、对不同价位区间的商品做活动，表a给活动出流连次数与总体浏览次数，表b给出活动商品转换率和总体商品转换率，分析现象2、某电商推出一款新的产品，希望这个产品能大卖，让你给这个主题取个名字，如果你是数据未完，继续阅读 >第2篇：阿里巴巴校园招聘笔试题目分享导读：时间为2014年8月29日，均为网上答题。

第一部分为单选题，共20题，要在40分钟内完成。

每个人的选择题都不一样，应该是后台有题库，每个人的试卷都是随机生成的。

第二部分为附加题，一般为1道问答题，2道编程题。

以下是由应届毕业生网小编j.l为您整理推荐的阿里巴巴校园招聘笔试题目分享，欢迎参考阅读。

通过算法生成的随机数是“伪随机”的，也就是说，在设定好第一个数之后，后面的数字的序列是确定的，并且经过一个非常大的循环会回到第一个数的状态，然后周而复始。

阿里笔试题

阿里笔试题第一部分单选題（前10题，每题2分；后10迄八：◎‘‘0分.选对得满分•选错倒扣1分，不选得0分・），r, 次内疗访皿SF）甌%力］和SATA祕盘勿机访何/川H J分山丿心儿加少•儿空机儿| *秒B.几微秒•儿「微抄•儿I矗秒」I）、儿！7・丨克秒• I儿；®转化成7泄制数是Ik 346 C\ 338 D. 336MJ如的1P地址空间为］92」68.5.0/24•采用定长子网划分.了网掩码％255.255.255.248.则该网冷的蔽大（网个数、毎个于网内的录大可分配地址个敢为各为•C\ 8. 32I)、S.30以卜关「経式存備结构说払曲戻的足—八・g 0〃緒第构的存储密度小B勿彳汀八乱山敌抑;域和拒£|城级成（的k A川Ml丈〃储比顺庁存储快P烬旳I何临的跟协T I町能郴邻J 忖I //出勺Arint <>［卄［4］｛｛仁们，｛八“引，「・」•儿2~ a/l 1/21 的他为.&依、t读入数据元L'■叭c\冋・山B「、^77^;c、仃向图和无向图都可以进行逊D、图的遍历并法町以执fj 4仃同路的图t10・<\ 16仆机器上跑卜列loo函数的结果足 voi^TUUf ）int i = 65536;cout << i <<*#*；1 « 65535;cout << 1;\・・1.65535 B.o.655'>1).()・」A. 32. 6讪和丿哎阿勿丿J操仆列心{\c・h・“：Dw|c.d.b.c.f.a.g}（以下毎题3分）11 •有一段年代久远的C 卄代码.内部疋紺垓朵.现白需要利用其实现-个亲疋件以卜叩亍的方案•应3优先选抒A.修改老代码的lilh 満足新的高求 - .C\修改老代科的内邦逻洞・满足新的需求：:上 i Z ；D ・将老代码抛弃.fie 朮新实现炎恢的逻辑 1 « i i 4 2« r % it \ h 5个页梅I 便川MW 灯l 机樹始%*tt.丽*列为oI. 7、6・2. 3・7w 2、9. X. I. 0. 2・糸址将发.4一一次缺人・A. II ■ A、IK 72 t> B D 、«l ，”f 1500km 的两机费 A b B i >GB ftlEUpSilI IP 连按｛\ 100s 的H ・J 刨内从A 件输到仗已知KIP 连樓連芷A TCP 协农Z' （F - F f ' 朋门皿传送加Q 2・J0”m/s•伎设机“;闸帯宽足够高•那么A 节总的发送级冲区可以讹E 为加小人、6MB几 12MB C> l»MB 。

阿里巴巴笔试题及答案

阿里巴巴笔试题及答案篇一：阿里巴巴oracle-dba 笔试题及答案】txt>1: 列举几种表连接方式hash join/merge join/nest loop(cluster join)/index join2: 不借助第三方工具，怎样查看sql 的执行计划set autot onexplain plan set statement_id = item_id for sql;select * from table(dbms_xplan.display);在optimizer_mode=choose 时, 如果表有统计信息(分区表外) ,优化器将选择cbo, 否则选rbo 。

rbo 遵循简单的分级方法学, 使用15 种级别要点，当接收到查询，优化器将评估使用到的要点数目,然后选择最佳级别(最少的数量)的执行路径来运行查询。

cbo 尝试找到最低成本的访问数据的方法, 为了最大的吞吐量或最快的初始响应时间,计算使用不同的执行计划的成本，并选择成本最低的一个,关于表的数据内容的统计被用于确定执行计划。

4: 如何定位重要(消耗资源多)的sql select sql_textfrom v$sqlwhere disk_reads 1000 or (executions 0 and buffer_gets/executions 30000); 5: 如何跟踪某个session 的sql execdbms_system.set_sql_trace_in_session(sid,serial#,sql_trace); selectsid,serial# from v$session where sid = (select sid from v$mystat where rownum = 1);exec dbms_system.set_ev(sid,serial#,event_10046,level_12,);6:sql 调整最关注的是什么查看该sql 的response time(db block gets/consistent gets/physicalreads/sorts (disk))7: 说说你对索引的认识(索引的结构、对dml 影响、为什么提高查询性能) b-tree index/bitmap index/function index/patitional index(local/global) 索引通常能提高select/update/delete 的性能, 会降低insert 的速度, 8: 使用索引查询一定能提高查询的性能吗？为什么索引就是为了提高查询性能而存在的,如果在查询中索引没有提高性能, 只能说是用错了索引,或者讲是场合不同9: 绑定变量是什么？绑定变量有什么优缺点？绑定变量是相对文本变量来讲的,所谓文本变量是指在sql 直接书写查询条件，这样的sql 在不同条件下需要反复解析,绑定变量是指使用变量来代替直接书写条件，查询bind value 在运行时传递，然后绑定执行。

阿里巴巴笔试题+解析(完整)

阿里巴巴面试题1、 20个阿里巴巴B2B技术部的员工被安排为4排，每排5个人，我们任意选其中4人送给他们一人一本《effective c++》，那么我们选出的4人都在不同排的概率为：A、 5^4*5!*15!/20!B、 4^5*5!*15!/20!C、 5^4*4!*16!/20!D、 4^5*4!*16!/20!2、若有序表的关键字序列为（b,c,d,e,f,g,q,r,s,t），则在二分查找关键字b的过程中，先后进行的关键字依次为：A、f,c,bB、f,d,bC、g,c,bD、g,d,b3、 perl里面声明：open（FILE,mode，file）; 操作的描述，下列哪项不正确？A、 FILE可以用变量$file来代替B、 mode可以和file写在一起，例如：open（FILE, ‘>file’）C、 mode为+<的时候，只可以读文件，不能写文件（既可以读也可以写）D、 mode可以省略不写4、有一个虚拟存储系统，若进程在内存中占3页（开始时内存为空），若采用先进先出（FIFO）页面淘汰算法，当执行如下访问页号序列后1，2，3，4，5,1，2，5，1，2，3，4，5，会发生多少缺页？A、7B、8C、9D、105、设有一个顺序栈S，元素s1、s2、s3、s4、s5、s6依次进栈，如果6个元素的出栈顺序为s2、s3、s4、s6、s5、s1，则顺序栈的容量至少应为多少？A、2B、3C、4D、56、下列关于文件索引结构的叙述中，哪一个是错误的？A、采用索引结构，逻辑上连续的文件存放在连续的物理块中B、系统为每个文件建立一张索引表C、索引结构的优点是访问速度快，文件长度可以动态变化D、索引结构的缺点是存储开销大7、在ASC算法team日常开发中，常常面临一些数据结构的抉择，令人纠结。

目前大家在策划一个FBI项目（Fast Binary Indexing），其中用到的词汇有6200条，词汇长度在10-15之间，词汇字符是英文字母，区分大小写。

阿里数据分析师校招笔试题参考

阿里数据分析师校招笔试题参考阿里数据分析师校招笔试题参考1观测宇宙中单位体积内星球的个数，属于什么分布：A学生分布B泊松分布C正态分布D二项分布2一些关于数据挖掘说法是正确的A数据挖掘是万能的B如果你建立了一个database，那就意味着你已经有足够的数据可以做数据挖掘了C数据挖掘=数据+算法，数据挖掘人员大部分的时间用来处理复杂的`挖掘算法DABC均有错3已知随机变量X,Y分别服从泊松分布P,卡方分布X2(t)，E(X)=4,D(Y)=9,则参数s,t分别：A2,9;B4,9C4,4.5;D2,4.54下面算法中哪一种不属于广义线性回归算法A生存模型算法 Bbeta回归算法 Clogit回归算法 D判别分析算法5有一列1000万淘宝买家的淘宝运费险保费数据，要计算该列数据的P1-P100分位数，可使用哪个SAS语句？Aproc sort Bproc rank Cproc univariate Dproc freq6X服从区间（2，6）上的均匀分布，求对X进行3次独立观测中，至少有2次的观测值大于3的概率。

A0.84375 B0.75275 C0.65275 D0.803707下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是？A回归系数的符号与专家经验知识不符B方差膨胀因子（VIF）<5C其中两个预测变量的相关系数>=0.85 D变量重要性与专家经验严重违背8由于淘宝买家消费数据是亿级别，假设为了快速计算买家每月的平均消费额，采用抽样1W个买家来计算A采用分层抽样方法把全量淘宝买家按照星级，每层抽取相同的数量，计算平均值B采用系统抽样方法，把全量买家随机排序，每隔一定数量抽一个，计算平均值C采用无放回随机方法，从全量买家中随机挑选一个买家，不放回，如此循环D采用有放回随机方法，从全量买家中随机挑选一个买家，然后再放回，如此循环9请找出数列4，9，23，60，157的下一项（）A 411B 314C 425D ABC均错11以下哪个语法不是R的基础语言Aproc glot Bselect *from tableCkc<-kmeans(data,3) Dprint”hello world”Esd<-summary(data) Fimport12分析师在工作中的良好习惯是A将工作空间的密码共享给别人B将数据下载到私人电脑进行分析处理C在处理资源高峰期提交大任务运算D不定期地将分析报告分享给团队E定期清理存储空间F固话日常需要分析的数据表方便计算16请分析淘宝消费者的流失情况17淘宝和天猫上每天都有大量的用户在线上购买，作为分析师可以从哪些角度对用户进行分析，说明理由20已知A商家近五年每月的成交数据，请列出两种不同的时间序列预测模型可以用来预测商家接下来三个月的成交，并详细阐述在使用每一种方法前需要对数据进行什么预处理以及具体方法21你理解中的分析师是什么样的？你觉得自己目前应聘分析师职位的优势是什么？并说明理由。

(完整word版)数据分析笔试题分析(word文档良心出品)

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。

一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。

在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。

未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评：考察的内容是统计学基础功底。

二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。

聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。

聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。

其中，前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。

阿里巴巴集团校园招聘笔试题

阿里巴巴集团校园招聘笔试题阿里巴巴集团校园招聘笔试题第一部分单选题(前10题，每题2分;后10题，每题3分。

选对得满分，选错倒扣1分，不选得0分)1、一次内存访问，SSD硬盘访问和SATA硬盘随机访问的时间分别是()A、几微秒，几毫秒，几十毫秒B、几十纳秒，几十微秒，几十毫秒C、几十纳秒，几十微秒，几十毫秒D、几微秒，几十微秒，几十毫秒2、8进制数256，转化成7进制数是(B)A、356B、336C、338D、3463、某网络的IP地址空间为192.168.5.0/24，采用定长子网划分，子网掩码为255.255.255.248，则该网络的最大子网个数、每个子网内最大可分配地址个数各位(C)A、8,32B、32,8C、32,6D、8,304、以下关于链式存储结构说法错误的是(A)A、查找节点时链式存储比顺序存储快B、每个节点是由数据域和指针域组成C、比顺序存储结构的存储密度小D、逻辑上不相邻的节点物理上可能相邻5、假定一个二维数组的定义语句为“int a[3][4]={{3,4},{2,8,6}};”，则元素a[1][2]的值为(A)A、6B、4C、2D、86、下面函数的功能是(C)int fun (char *s){char *p=s;while(*p++);return p-s-1;}A、计算字符串的位(bit)数B、复制一个字符串C、求字符串的长度D、求字符串存放的位置7、判断有向图是否存在回路，利用(A)方法最佳A、拓扑排序B、求最短路径C、求关键路径D、广度优先遍历8、依次读入数据元素序列{a,b,c,d,e,f,g}进栈，元素进栈或出栈顺序是未知的，下列序列中，不可能成为栈空时弹出的元素构成序列的有(D)A、{d,e,c,f,b,g,a}B、{c,d,b,e,f,a,g}C、{e,f,d,g,c,b,a}D、{f,e,g,d,a,c,b}9、下列有关图的遍历说法中，不正确的是(C)A、有向图和无向图都可以进行遍历操作B、基本遍历算法两种：深度遍历和广度遍历C、图的遍历必须用递归实现D、图的遍历算法可以执行在有回路的图中10、在16位机器上跑下列foo函数的结果是(B)void foo(){int i = 65536;cout << i <<”,”;i = 65535;cout << i;}A、-1,65535B、0,-1C、-1,-1D、0,6553511、有一段年代久远的C++代码，内部逻辑复杂，现在需要利用其实现一个新的需求，假定有以下可行的方案，应当优先选择(D)A、修改老代码的接口，满足新的需求B、将老代码抛弃，自己重新实现类似的逻辑C、修改老代码的内部逻辑，满足新的需求D、在这段代码之外写一段代码，调用该代码的一些模块，完成新功能需求12、在5个页框上使用LRU页面替换算法，当页框初始为空时，引用序列为0、1、7、8、6、2、3、7、2、9、8、1、0、2，系统将发生(C)次缺页A、13B、12C、11D、8分析：缺页为：0、1、7、8、6、2、3、9、8、1、0，共11次13、阿里巴巴有相距1500km的机房A和B，现有100GB数据需要通过一条FTP连接在100s的时间内从A传输到B。

2021年阿里数据分析师 ___笔试题

阿里数据分析师 ___笔试题阿里数据分析师 ___笔试题时间为90分钟题型：10道选择，3道简答，2道分析题回忆版选择题：1)若 r=0,则两者的关系：我选择的是没有线性关系2)以下两种行为分别对应哪种分类算法的评价标准:行为1： ___如何判别某人是小偷行为2：小偷是如何被识别出来(+_+行为记不清楚，请记得的童鞋补上)选项是Recall Precision ROC的组合，这题不会3)以下哪项对Hadoop的描述是不正确的4)HIVE的`描述5)公司员工的平均工资是3000，中位数是2500，众数是2000，则下面哪个说法不正确：我选择的是大部分员工的工资都在20006)有个小松鼠从离家100米的地方搬松子回家，共有1000颗(?)，小松鼠每次最多能搬50颗，小松鼠很馋，每走两米就要吃掉一颗，问小松鼠最后能搬多少颗松子回家?A 0B 5C 10D 25 呜呜~记不太清，我选了07)正态分布的区间估计，若其他条件不变，置信水平L越小，则置信上限和置信下限的差A 越大B 越小C 不变D 不确定1)世界上每十万人中有一个患有艾滋病，如果某人患有艾滋病，则一定会被检查出来，如果某人没有患艾滋病，被错误诊断的概率为1%，假设有一个人被诊断出是阳性，那么他患艾滋病的概率多大?2)按要求写出SQL语句a)表t1，字段有user_id(字符型),city(城市，字符型),age(年龄，数值型)b)表t2，字段有user_id(字符型),yyyymmdd(数值型，日期),age(年龄，数值型),city,GMV_1 ___(销量，数值型)其中表t2中的user_id都能在t1中user_id找到创建一个表t3,使其中包含t1中所有user_id，年龄大于或者等于16,城市是广州或者深圳，表t2中12月销量汇总3)什么是层次分析法?使用的一般过程?举个使用的场景或者例子1)淘宝是万能的，怎挑出小众且有品位的店铺，给出方案2)双11做促销活动，商家发放促销券，请从平台和商家角度完成以下分析：a)给出评估指标b)根据给出的数据，为商家和平台推动计划给出建议其中， ___券是商家自动发放的，有两种，一种是满200减50，一种是满300减100; ___券发放日期为10月15到11月10，使用时间为11月11日模板,内容仅供参考。

(完整版)数据分析师笔试题目

网易数据分析专员笔试题目一、基础题1、中国现在有多少亿网民？2、百度花多少亿美元收购了91无线？3、app store排名的规则和影响因素4、豆瓣fm推荐算法5、列举5个数据分析的博客或网站二、计算题1、关于简单移动平均和加权移动平均计算2、两行数计算相关系数。

（2位小数，还不让用计算器，反正我没算）3、计算三个距离，欧几里德，曼哈顿，闵可夫斯基距离三、简答题1、离散的指标，优缺点2、插补缺失值方法，优缺点及适用环境3、数据仓库解决方案，优缺点4、分类算法，优缺点5、协同推荐系统和基于聚类系统的区别四、分析题关于网易邮箱用户流失的定义，挑选指标。

然后要构建一个预警模型。

五、算法题记不得了，没做。

反正是决策树和神经网络相关。

1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。

2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？4、什么是：协同过滤、n-grams, map reduce、余弦距离？5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？6、如何设计一个解决抄袭的方案？7、如何检验一个个人支付账户都多个人使用？8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？12、你最喜欢的编程语言是什么？为什么？13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS, R, Python, Perl语言的区别是？15、什么是大数据的诅咒？16、你参与过数据库与数据模型的设计吗？17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？18、你喜欢TD数据库的什么特征？19、如何你打算发100万的营销活动邮件。

2018-2019-201X年阿里巴巴数据分析师笔试题-word范文模板 (2页)

2018-2019-201X年阿里巴巴数据分析师笔试题-word范文模板本文部分内容来自网络整理，本司不为其真实性负责，如有异议或侵权请及时联系，本司将立即删除！== 本文为word格式，下载后可方便编辑和修改！ ==201X年阿里巴巴数据分析师笔试题201X年3月29日阿里巴巴数据分析师(北京)一、10道填空，每题3分1、小松鼠采到了100颗坚果要运回家。

家离放坚果的地方有100米远。

小松鼠每次最多运50颗。

BUT!小松鼠很馋。

每走2米就要吃一颗坚果。

问小松鼠最多能运回家多少颗坚果?A 0B 10C 25 D50答案：应该是25颗吧!(先运50颗50米，吃了25颗，返回去，回去的途中没吃的了，再运50颗到50米的地方，又吃了25颗，再把剩下的运回家，又吃25颗，还剩25颗。

)吐槽一下，题目应该说明：小松鼠足够聪明，至少比参加考试的人聪明。

2、标号12345的5个球，一次取两个，和为3或者6的概率是多少? 答案：0.3。

不解释。

3、考了LOGISTIC回归。

4、聚类分析法，k_means。

5、其他条件相同，置信水平越低，则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定应该是B吧。

6、precision、ecall、ROC。

剩下的不记得了。

二、三道题，每题10分。

1、已知每10万人中有1人得艾滋病。

现在有一种检查，如果被测者患病则一定能查出来。

如果被测者没病，有1%的测试出错也显示阳性。

现在一个人检查结果是阳性。

问真正得病的概率?答案：貌似所有的讲全概率公式的书上都有这道题。

2、SQL。

阿里巴巴数据分析笔试题以及相关问题

2016阿里巴巴数据分析校园招聘笔试21道题，100分，60分钟一、单选题（10）1.想了解上海市小学生的身高，需要抽取500个样本，这项调查中的样本是A.从中抽取的500名学生的身高B.上海市全部小学生的身高C.从中抽取的500名小学生D.上海市全部小学生2.以下对k-means聚类算法解释正确的是A.能自动识别类的个数，随即挑选初始点为中心点计算B.能自动识别类的个数，不是随即挑选初始点为中心点计算C.不能自动识别类的个数，随即挑选初始点为中心点计算D.不能自动识别类的个数，不是随即挑选初始点为中心点计算3.以下哪个是常见的时间序列算法模型A.RSIB.MACDC.ARMAD.KDJ4.有个袋子装有2个红球，2个蓝球，1个黄球，取出球之后不再放回，请问取两次出来的球是相同颜色的概率是多少A.0.3333B.0.2500C.0.2000D.0.16675.65，8，50，15，37，24，（）。

括号中的数字是（）A.25B.26C.22D.276.一组数据，均值>中位数>众数，问这组数据A.左偏B.右偏C.钟型D.对称7. SQL 语言允许使用通配符进行字符串匹配的操作，其中’%’可以表示 A ．零个字符 B ． 1个字符 C ．多个字符 D ．以上都是8. 关于正态分布，下列说法错误的是 A. 正态分布具有集中性与对称性B. 正态分布的军事与方差能够决定正态分布的位置与形态C. 正态分布的偏度为0，峰度为1D. 标准正态分布的均值为0，方差为19. 以下不同的场景中，使用分析方法不正确的有A. 根据商家最近一年的经营与服务数据，用聚类算法判断出天猫商家在各自主营类目下所属的商家层级B. 根据商家近几年的成交数据，用聚类算法拟合出用户未来一个月可能的消费金额公式C. 用关联规则算法分析出购买汽车坐垫的买家是否适合推荐汽车脚垫D. 根据用户最近购买的商品信息，用决策树算法识别出淘宝买家可能是男还是女10. 下列时间序列模型中，那个模型可以较好地拟合波动性的分析与预测 A. AR 模型 B. MA 模型 C. ARMA 模型 D. GARCH 模型二、多选题（5）11. Excel 工作簿a 中有两列id 、age ，工作簿b 中有一列id ，需要找到工作簿b 中id 对应的age ，可用的函数包括 A. Index+match B. Vlookup C. Hlookup D. Find E. If F. Like12. 现在有M 个桶，每个桶都有N 个乒乓球，乒乓球的颜色有K 种，并且假设第i 个桶第j 种颜色的球的个数为ij C ，比例为ijij C R N=，现在要求颜色纯度越高，下列哪种算法描述是合理的 A.()/ijN K C -∑越小越纯B. ()-*ijijC LOG R ∑越小越纯C.()1-*ijijR R ∑越小越纯D. ()()1-1-ijijR R ∑越小越纯E.()21-ij R ∑越小越纯F. ()-*ijijR LOG R ∑越小越纯13. 关于相关系数，下列描述中正确的有：A. 相关系数为0.8时，说明两个变量之间呈正相关关系B. 相关系数等于1相较于相关系数等于-1，前者的相关性更强C. 相关性等于1相较于相关系数等于0，前者的相关性更强D. Pearson 相关系数衡量了两个定序变量之间爱你的相关程度E. Spearman 相关系数可以衡量两个定序变量之间的相关程度F. 性关系数为0.2相较于-0.8，前者的相关性更强14. 关于线性回归的描述，以下正确的有A. 基本假设包括随即干扰项是均值为0的同方差正态分布B. 基本假设包括随即干扰项下是均值为0的同方差正态分布C. 在违背基本假设时，普通最小二乘法估计量不再是最佳线性无偏估计量D. 在违背基本假设时，模型不在可以估计E. 可以用DW 检验残差是否存在序列相关性F. 多重共线性会使得参数估计值方差减少15. 下列哪些方法可以用来对高位数据进行降维 A. LASSO B. 主成分分析 C. 聚类分析 D. 小波分析法 E. 线性判别法F. 拉普拉斯特征映射三、问答题16. 程序员A 在某个环境中编写代码，发现这个环境中只有一个函数rand9能产生1-9这9个数字，请问他该如何使用这个rand9函数编写一个能随机产生1-10的10个数字的rand10函数18.公司要构建淘宝商家健康指数，所以要对最近1年内交易的淘宝商家进行问卷调研。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《毕业生：阿里巴巴数据分析师笔试题》
最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。

答案在最后，可不要提前偷看哦。

———————————————问题分割线———————————————
一、异常值是指什么？请列举1种识别连续型变量异常值的方法？
二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。

三、根据要求写出SQL
表A结构如下：
Member_ID（用户的ID，字符型）
Log_time（用户访问页面时间，日期型（只有一天的数据））
URL（访问的页面地址，字符型）
要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）
四、销售数据分析
根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师，
a)从数据中，你看到了什么问题？你觉得背后的原因是什么？
b)如果你的老板要求你提出一个运营改进计划，你会怎么做？
五、用户调研
某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：
a)试验需要为决策提供什么样的信息？
b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线———————————————
一、
异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。

在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。

未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

【点评】考察的内容是统计学基础功底。

二、
聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。

聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。

聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。

其中，前两种算法是利用统计学定义的距离进行度量。

k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后
再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。

一般都采用均方差作为标准测度函数。

k 个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：
（1）从n个数据对象任意选择k个对象作为初始聚类中心；
（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；
（3）重新计算每个（有变化）聚类的均值（中心对象）；
（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。

优点：本算法确定的K个划分到达平方误差最小。

当聚类是密集的，且类与类之间区别明显时，效果较好。

对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O（NKt），其中N是数据对象的数目，t是迭代的次数。

一般来说，K<<N，t<<N。

缺点：1.K是事先给定的，但非常难以选定；2.初始聚类中心的选择对聚类结果有较大的影响。

【点评】考察的内容是常用数据分析方法，做数据分析一定要理解数据分析算法、应用场景、使用过程，以及优缺点。

三、
createtableBasselectMember_ID,min(Log_time),URLfromAgroupbyMember_ID;
【点评】SQL语句，简单的数据获取能力，包括表查询、关联、汇总、函数等。

四、
a)从这一周的数据可以看出，周末的销售额明显偏低。

这其中的原因，可以从两个角度来看：站在消费者的角度，周末可能不用上班，因而也没有购买该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。

b)针对该问题背后的两方面原因，我的运营改进计划也分两方面：一是，针对消费者周末没有购买欲望的心理，进行引导提醒消费者周末就应该准备好该产
品；二是，通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

【点评】数据解读能力，获取数据是基本功，仅仅有数据获取能力是不够的，其次是对数据的解读能力。

五、
a)试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b)根据三类客户的数量，采用分层比例抽样；
需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数；
选用统计方法为：分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验（two-samplet-test）。

【点评】业务理解能力和数据分析思路，这是数据分析的核心竞争力。

【综上所述】从阿里的题目里面可以看出，一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力。

有志成为数据分析师的亲们，向着理想奔跑吧！
（更多大数据与商业智能领域干货、兼职机会及行业资源分享等请关注大圣众包微信服务号，或添加大圣妹个人微信号（dashengmeme))。