阿里数据分析笔试题
大数据分析师招聘笔试题与参考答案(某大型集团公司)2025年
2025年招聘大数据分析师笔试题与参考答案(某大型集团公司)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、大数据分析中常用的数据挖掘技术不包括以下哪一项?A. 分类与预测B. 关联规则挖掘C. 数据清洗与预处理D. 虚拟现实技术展示2、在大数据环境下,处理和分析海量数据的软件工具通常不包括以下哪一种?A. HadoopB. SparkC. MySQLD. Oracle3、在进行数据分析之前,通常需要对数据进行预处理。
以下哪个步骤不属于数据预处理的范畴?A. 数据清洗B. 数据转换C. 数据聚合D. 数据挖掘Hadoop的核心组件?A. HDFS(Hadoop Distributed File System)B. MapReduceC. SparkD. Hive5、以下哪种工具在大数据分析中常用于数据挖掘和预测分析?A. PythonB. HTMLC. CSSD. Java6、在大数据分析中,处理和分析结构化的数据通常指的是什么?A. 纯粹的文字信息B. 包含数字的表格数据C. 图像和视频等非文本信息D. 社交媒体上的评论和帖子等文本数据7、在进行数据分析之前,通常需要对数据进行预处理。
以下哪个步骤不属于数据预处理的范畴?A. 数据清洗B. 数据转换C. 数据聚合D. 数据可视化的核心组件之一?A. SparkB. FlinkC. HBaseD. Kafka9、在进行数据分析时,以下哪个步骤不是必须的?A. 定义问题B. 收集数据C. 数据清洗D. 数据可视化 10、在进行数据分析时,以下哪个工具不是常用的数据分析工具?A. ExcelB. PythonC. RD. SQL二、多项选择题(本大题有10小题,每小题4分,共40分)1、在进行数据分析之前,通常需要进行以下哪些步骤?A. 定义目标B. 数据收集C. 数据清洗D. 数据转换2、大数据分析中,以下哪些工具是常用的?A. ExcelB. SQLC. PythonD. R3、在进行数据分析之前,以下哪些步骤是必要的准备工作?A. 定义目标B. 数据收集C. 数据清洗D. 数据转换E. 数据可视化4、在大数据分析中,以下哪些因素可能会影响分析结果的准确性?A. 数据质量B. 分析工具的先进性C. 数据量D. 分析人员的经验5、(多项选择题)关于大数据分析的描述,以下哪些说法是正确的?A. 大数据分析只关注数据的数量,而不关注数据的质量。
阿里巴巴数据分析师认证答案
阿里巴巴数据分析师认证答案一、10道填空,每题3分1、小松鼠采到了100颗坚果要运回家。
家离放坚果的地方有100米远。
小松鼠每次最多运50颗。
BUT!小松鼠很馋。
每走2米就要吃一颗坚果。
问小松鼠最多能运回家多少颗坚果?A 0B 10C 25 D50答案:应该是25颗吧!(先运50颗50米,吃了25颗,返回去,回去的途中没吃的了,再运50颗到50米的地方,又吃了25颗,再把剩下的运回家,又吃25颗,还剩25颗。
)吐槽一下,题目应该说明:小松鼠足够聪明,至少比参加考试的人聪明。
2、标号12345的5个球,一次取两个,和为3或者6的概率是多少? 答案:0.3。
不解释。
3、考了LOGISTIC回归。
4、聚类分析法,k_means。
5、其他条件相同,置信水平越低,则置信区间上下限差值越() A.越大B.越小C.为0 D不确定应该是B吧。
6、precision、ecall、ROC。
剩下的不记得了。
二、三道题,每题10分。
1、已知每10万人中有1人得艾滋病。
现在有一种检查,如果被测者患病则一定能查出来。
如果被测者没病,有1%的测试出错也显示阳性。
现在一个人检查结果是阳性。
问真正得病的概率?答案:貌似所有的讲全概率公式的书上都有这道题。
2、SQL两张表合并,主键是USER_ID,然后把深圳市、广州市,大于16岁的,发生在2013年12月的一项挑出来加起来。
不会SQL的话就写思路。
我就不会。
3、层次分析法AHP的含义,具体步骤。
并举一个适合用层次分析法的案例。
阿里巴巴校招数据分析师职位笔试题目
阿里巴巴校招数据分析师职位笔试题目第1篇:阿里巴巴校招数据分析师职位笔试题目1、选择题1、一下哪个属于离散变量水稻亩产量家庭收入商品价格汽车产量2、卡方分布的样本方差分别是n12n4n3、有个人买*,中奖概率为1/10,每次花200元,连续买5次,如果中奖则奖金为1000元,问不赔钱的概率是多少4、世界男女比例相当,黄种人比其他人种多的多,其他人种男的比女的多,以下那句是正确的黄种人男人比黑种人女人多黄种人女人比黑种人男人多5、关于聚类分析的题目,判断哪句不正确6、均值>中位数>众数,问这个分布偏左还是偏右7、随机无放回抽样跟随机有放回抽样比较,哪个方差大,还是相等8、回归分析y=a+bx,如果存在自相关,问b的值如何,是正负还是0,还有显著*如何。
2、问答题1、sql语句,表a有member_id,city,表b有member_id,price 几项,将a和b链接,且指定城市和price>10.member_id为主键.如果不会写就给出数据分析的思想2、数据清理中,处理缺失值的方法3、回归分析中出现的多重共线*问题是什么,如何处理3、分析题1、对不同价位区间的商品做活动,表a给活动出流连次数与总体浏览次数,表b给出活动商品转换率和总体商品转换率,分析现象2、某电商推出一款新的产品,希望这个产品能大卖,让你给这个主题取个名字,如果你是数据未完,继续阅读 >第2篇:阿里巴巴校园招聘笔试题目分享导读:时间为2014年8月29日,均为网上答题。
第一部分为单选题,共20题,要在40分钟内完成。
每个人的选择题都不一样,应该是后台有题库,每个人的试卷都是随机生成的。
第二部分为附加题,一般为1道问答题,2道编程题。
以下是由应届毕业生网小编j.l为您整理推荐的阿里巴巴校园招聘笔试题目分享,欢迎参考阅读。
通过算法生成的随机数是“伪随机”的,也就是说,在设定好第一个数之后,后面的数字的序列是确定的,并且经过一个非常大的循环会回到第一个数的状态,然后周而复始。
阿里巴巴数据分析师笔试题(实习)附参考答案
阿里巴巴数据分析师笔试题(实习)附参考答案一、异常值是指什么?请列举1种识别连续型变量异常值的方法?参考答案:异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。
在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
参考答案:聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。
其中,前两种算法是利用统计学定义的距离进行度量。
k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
阿里巴巴品牌数据银行分析师考试真题及答案
阿里巴巴品牌数据银行分析师考试真题及答案Up主考了6次终于通过!在考试过程中呕心沥血整理了57道真题和答案,部分含解析。
-------------------------------------------------开始学习的分割线-----------------------------------------------------1.“在自定义分析板块中圈选数据上传的人群,并对其进行“人群透视”,这一行为是对所有匹配成功的用户进行透视”,这种说法正确吗?答案:错误2.下列哪些操作可以在营销活动沉淀中完成?答案:查看观看某场直播的消费者的基础画像,如性别、年龄分布等3.“某品牌通过分析发现,2019年D11大促期间的兴趣人群中,历史上曾经处于过认知天数76-90天的人群流转到购买状态的比例较高,因此可以在全链路分布中去圈选出这波易流转的人群进行二次投放”,这种行为正确吗?答案:错误4.以下哪项是品牌数据银行自定义分析不能圈选到的数据?答案:近30天品牌号曝光人群解析:品牌号只能直接圈选关注/加入品牌号的人群,不能圈选曝光人群。
5.如果认知流转到兴趣原因分析结果为“猜你喜欢”触点覆盖少流转高,“处于认知天数0-15天”覆盖多流转低,那么品牌可以圈选什么人群进行运营,促进流转?答案:认知人群交猜你喜欢触达人群6.链路流转原因分析中横坐标代表覆盖的人数,从左到右逐渐增加;纵坐标代表流转率,从下往上逐渐升高;答案:错误,横坐标代表起始人数7.自定义分析中的人群包设置更新与不设置更新的区别是人群包的选定时间必须是相对时间答案:正确解析:固定日期内无法更新8.“数据银行人群应用到营销策略中心后,不再需要经过达摩盘通道,就可以直接去钻展应用”,这种说法正确吗?答案:正确9.“自定义分析-人群包更新,在数据银行产品中找到自定义分析,在要设置更新人群包后边,点击“秒表”按钮即可,中途可以暂停。
”这种说法正确?答案:错误,人群更新期间不可以暂停10.(不定项)双11即将来袭,小明打算做一个历史大促沉淀新客人群再营销场景,以下做法中正确的有?答案:将618期间沉淀的AI消费者圈出来然后剔除最近一天PL将618期间有过店铺收藏、加购的人群圈出来然后剔除最近一天PL解析:核心在于保留新客,要剔除PL11.(不定项)以下场景描述中,哪个场景属于R复购力指标场景?答案:除了“高价值人群召回”,其他三个都选12.(不定项)2020年10月1日,品牌可以洞察全链路分布下哪个人群包进行人群透视差异对比?答案:全选解析:全链路分布下人群透视差异对比,可选择品牌消费者、全链路分布消费者以及现有人群进行差异对比;现有人群可选择类型包含:自定义人群、营销活动沉淀人群、应用市场人群。
阿里巴巴笔试题及答案
阿里巴巴笔试题及答案篇一:阿里巴巴oracle-dba 笔试题及答案】txt>1: 列举几种表连接方式hash join/merge join/nest loop(cluster join)/index join2: 不借助第三方工具,怎样查看sql 的执行计划set autot onexplain plan set statement_id = item_id for sql;select * from table(dbms_xplan.display);在optimizer_mode=choose 时, 如果表有统计信息(分区表外) ,优化器将选择cbo, 否则选rbo 。
rbo 遵循简单的分级方法学, 使用15 种级别要点,当接收到查询,优化器将评估使用到的要点数目,然后选择最佳级别(最少的数量)的执行路径来运行查询。
cbo 尝试找到最低成本的访问数据的方法, 为了最大的吞吐量或最快的初始响应时间,计算使用不同的执行计划的成本,并选择成本最低的一个,关于表的数据内容的统计被用于确定执行计划。
4: 如何定位重要(消耗资源多)的sql select sql_textfrom v$sqlwhere disk_reads 1000 or (executions 0 and buffer_gets/executions 30000); 5: 如何跟踪某个session 的sql execdbms_system.set_sql_trace_in_session(sid,serial#,sql_trace); selectsid,serial# from v$session where sid = (select sid from v$mystat where rownum = 1);exec dbms_system.set_ev(sid,serial#,event_10046,level_12,);6:sql 调整最关注的是什么查看该sql 的response time(db block gets/consistent gets/physicalreads/sorts (disk))7: 说说你对索引的认识(索引的结构、对dml 影响、为什么提高查询性能) b-tree index/bitmap index/function index/patitional index(local/global) 索引通常能提高select/update/delete 的性能, 会降低insert 的速度, 8: 使用索引查询一定能提高查询的性能吗?为什么索引就是为了提高查询性能而存在的,如果在查询中索引没有提高性能, 只能说是用错了索引,或者讲是场合不同9: 绑定变量是什么?绑定变量有什么优缺点?绑定变量是相对文本变量来讲的,所谓文本变量是指在sql 直接书写查询条件,这样的sql 在不同条件下需要反复解析,绑定变量是指使用变量来代替直接书写条件,查询bind value 在运行时传递,然后绑定执行。
阿里大数据练习(习题卷2)
阿里大数据练习(习题卷2)第1部分:单项选择题,共67题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在DataWorks中,()是指使用系统或计算资源的客户,即公司。
A)DataWorks项目B)MaxCompute项目空间C)组织D)个人账号答案:C解析:2.[单选题]若有以下的定义:int t[3][2];能正确表示t数组元素地址的表达式是()。
A)&t[3][2]B)t[3]C)&t[1]D)t[2]答案:D解析:3.[单选题]设有如下定义: struct sk {int a; float b;} data,*p;若要使p指向data中的a域,正确的赋值语句是()。
A)p=(struct sk*)&data.a;B)p=(struct sk*) data.a;C)p=&data.a;D)*p=data.a;答案:A解析:4.[单选题]当( ),Oracle才提交事务。
A)DBRW进程将数据写回磁盘后B)LGWR进程将日志写入在线重做日志文件后C)PMON进程提交进程变化后D)SMON进程写入数据后答案:B解析:5.[单选题]描述是正确的关于数据库 buffer cache 中的 pinned buffer的是( )。
A)buffe 目前正在被访问B)buffer 是空的,没有被使用C)buffer 的内容被修改且必须通过 DBWn 进程刷新到磁盘D)buffer 作为即将老化的候选并且内容和磁盘上的内容相同答案:A解析:6.[单选题]在oracle中获取前10条的关键字是( )。
A)TopC)LimitD)rownum答案:D解析:7.[单选题]大数据计算服务提供了大数据的存储和计算服务,非常适合应用于大数据分析的领域。
以下说法中错误的是:( )。
A)可以实现大型互联网企业的数据仓库和BI分析B)提供了便捷的分析处理海量数据的手段,用户可以不必关心分布式计算细节,从而达到分析大数据的目的C)可以支持实时OLAP分析D)可以基于历史数据,进行用户特征和兴趣挖掘答案:C解析:8.[单选题]某企业的数据仓库运行在大数据计算服务上,开发人员在加工数据时发现用户表user中的用户标识字段user_id有部分脏数据,正确的格式应该是8位的字符串。
阿里巴巴品牌数据银行分析师考试真题题库
阿里巴巴品牌数据银行分析师单选1.A A和I人群的品牌互动触点分布是统计当前人群最近()天和()天内踩过各触点的人群数量和占各人群总数比15;152.A 发生过无品牌倾向搜索且点击的人群属于哪类人群认知3.A 假设某个人群的总数为100万,最近15天踩过“阿里妈妈”触点的有30万人,其中最近15天踩过“钻石展位”触点的有10万人,那么该人群“钻石展位触点”的占比为多少0.14.A 品牌属性的触点只会归属品牌AIPL,不会归属二级类目AIPL5.A 品牌希望在数据银行收割预售期高意向人群,应该在哪里操作?自定义分析6.A 数据银行可以圈定流失TOP5品牌人群正确7.A 月均消费金额的定义是什么最近180天,消费者在淘宝天猫上的月均消费金额8.B 关于AIPL下列说法正确的是哪个Interest 兴趣是指参与了微淘互动(对微淘内容进行了评论、点赞、收藏、转发);或浏览过大于等于2天品牌商品;或收藏加购过品牌商品的消费者等。
9.B 某品牌女王节期间(3月3日~3月9日)创建人群后开启人群质量报告追踪后可以看到流失到哪些品牌否10.B 品牌活跃消费者中,“认知”和“兴趣”人群活跃有效期是以下哪个15天11.B 自定义分析中,全链路状态AIPL一般默认能取到的最长时间期限为180天12.B 自定义人群设置更新的周期最长不超过多少天7天13.C 阿里巴巴Uni ID Infrastructure的数据量官方公布的数字是哪个6亿14.C 下列关于同行业TOP5品牌的定义,哪个是错误的?品牌维度同行业TOP5品牌:根据当前品牌所覆盖的每个二级类目中的活跃消费者总量确定每个二级类目的权重,再对当前每个二级类目维度的同行业TOP5品牌,求其消费者总量*对应二级类目权重,再对结果排序取TOP5品牌,不排除当前品牌本身15.C 下面哪个行为不属于认知行为在试用中心申请过品牌商品试用16.C 自定义分析中,以货圈人条件多于()个,不支持实时计算4个17.D 品牌数据银行是品牌消费者数据资产管理中心,下面的选项中,不属于品牌数据银行核心价值的选项是哪个?跨公域和私域的用户数据融合(核心价值:真实还原消费者全链路旅程;360度的人群画像;全媒体的应用激活;线上线下全渠道的融合)18.D 数据融合中,人群上传后能够匹配到的范围是哪个全网范围内的人群19.D 新增上传人群中,上传文件的匹配方式是什么20.D 自定义分析中,人群条件多于()个,不支持实时计算6个21.产品开通使用后,可以查看多长周期内的数据在产品开通后,从开通日期起默认导入前一个月的数据22.当沉淀多个营销活动人群的时候,几个人群之间的关系是并集23.对于自定义分析中人群圈选条件的执行顺序,以下说法正确的是先后顺序24.各层级消费者的品牌互动触点分布,是统计当前人群最近()天踩过的触点15天25.关于A/I/P/L,下列说法正确的是哪个?Loyalty忠诚是指365天内有过26.关于行业包的说法,以下哪一个选项是错误的行业包问题中未匹配到的问法,我们可以自己补充进去27.活跃消费者分析中的FAST指标是指哪个?品牌当前有效的认知(15天)/兴趣(15天)/购买(两年半)/忠诚(1年)的消费者总数28.某奶粉品牌在双十一期间进行UD外投,品牌希望知道本次外投触达人数的TA%,以下圈选逻辑正确的是(注:双十一时段为10月20日至11月1日;此品牌的TA为孕期阶段和宝宝年龄0-3岁)孕早中晚并宝宝年龄0-3岁交10月20日人-11月11日UD曝光29.目前数据银行同步应用到达摩盘通道的人群包的人数要求是多少1万-1000万30.目前数据银行支持直播/微淘/淘宝头条数据回流的只有3种途径正确31.品牌B上周参与了聚划算-商品团活动,想找到浏览过某个聚划算商品的人群有哪些,并对这些人进行二次营销,要做的第一步是什么自定义分析-以货圈人32.全链路分布的AIPL人群的品牌互动触点分布逻辑中,加入一个ID被聚划算曝光,又点击了品牌的钻展广告进入品牌店铺购买了商品,则下面的描述中不正确的是哪个购买人群的阿里妈妈触点计1人,不计入店铺触点33.数据银行和客户运营平台的联动,以下哪个说法是不正确的数据银行同步的人群包在客户运营平台可以对潜客发短信34.无店铺客户可以开通品牌数据银行吗?数据来源和沉淀是哪里可以开,但必须有支付宝认证的淘宝企业账号35.下列消费行为中,哪个不属于“兴趣”行为?浏览了品牌号内容36.下面关于消费者总量、消费者品类购买力、消费者转化率的定义,哪个是错误的?“消费者总量”:品牌最近365天的认知、兴趣、购买、忠诚消费者人数,若品牌开通不足365天,则有几天算几天。
阿里数据分析师校招笔试题参考
阿里数据分析师校招笔试题参考阿里数据分析师校招笔试题参考1观测宇宙中单位体积内星球的个数,属于什么分布:A学生分布B泊松分布C正态分布D二项分布2一些关于数据挖掘说法是正确的A数据挖掘是万能的B如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了C数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的`挖掘算法DABC均有错3已知随机变量X,Y分别服从泊松分布P,卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别:A2,9;B4,9C4,4.5;D2,4.54下面算法中哪一种不属于广义线性回归算法A生存模型算法 Bbeta回归算法 Clogit回归算法 D判别分析算法5有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句?Aproc sort Bproc rank Cproc univariate Dproc freq6X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率。
A0.84375 B0.75275 C0.65275 D0.803707下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是?A回归系数的符号与专家经验知识不符B方差膨胀因子(VIF)<5C其中两个预测变量的相关系数>=0.85 D变量重要性与专家经验严重违背8由于淘宝买家消费数据是亿级别,假设为了快速计算买家每月的平均消费额,采用抽样1W个买家来计算A采用分层抽样方法把全量淘宝买家按照星级,每层抽取相同的数量,计算平均值B采用系统抽样方法,把全量买家随机排序,每隔一定数量抽一个,计算平均值C采用无放回随机方法,从全量买家中随机挑选一个买家,不放回,如此循环D采用有放回随机方法,从全量买家中随机挑选一个买家,然后再放回,如此循环9请找出数列4,9,23,60,157的下一项()A 411B 314C 425D ABC均错11以下哪个语法不是R的基础语言Aproc glot Bselect *from tableCkc<-kmeans(data,3) Dprint”hello world”Esd<-summary(data) Fimport12分析师在工作中的良好习惯是A将工作空间的密码共享给别人B将数据下载到私人电脑进行分析处理C在处理资源高峰期提交大任务运算D不定期地将分析报告分享给团队E定期清理存储空间F固话日常需要分析的数据表方便计算16请分析淘宝消费者的流失情况17淘宝和天猫上每天都有大量的用户在线上购买,作为分析师可以从哪些角度对用户进行分析,说明理由20已知A商家近五年每月的成交数据,请列出两种不同的时间序列预测模型可以用来预测商家接下来三个月的成交,并详细阐述在使用每一种方法前需要对数据进行什么预处理以及具体方法21你理解中的分析师是什么样的?你觉得自己目前应聘分析师职位的优势是什么?并说明理由。
(完整word版)数据分析笔试题分析(word文档良心出品)
从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。
一、异常值是指什么?请列举1种识别连续型变量异常值的方法?异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。
在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
点评:考察的内容是统计学基础功底。
二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。
其中,前两种算法是利用统计学定义的距离进行度量。
k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
2021年阿里数据分析师 ___笔试题
阿里数据分析师 ___笔试题阿里数据分析师 ___笔试题时间为90分钟题型:10道选择,3道简答,2道分析题回忆版选择题:1)若 r=0,则两者的关系:我选择的是没有线性关系2)以下两种行为分别对应哪种分类算法的评价标准:行为1: ___如何判别某人是小偷行为2:小偷是如何被识别出来(+_+行为记不清楚,请记得的童鞋补上)选项是Recall Precision ROC的组合,这题不会3)以下哪项对Hadoop的描述是不正确的4)HIVE的`描述5)公司员工的平均工资是3000,中位数是2500,众数是2000,则下面哪个说法不正确:我选择的是大部分员工的工资都在20006)有个小松鼠从离家100米的地方搬松子回家,共有1000颗(?),小松鼠每次最多能搬50颗,小松鼠很馋,每走两米就要吃掉一颗,问小松鼠最后能搬多少颗松子回家?A 0B 5C 10D 25 呜呜~记不太清,我选了07)正态分布的区间估计,若其他条件不变,置信水平L越小,则置信上限和置信下限的差A 越大B 越小C 不变D 不确定1)世界上每十万人中有一个患有艾滋病,如果某人患有艾滋病,则一定会被检查出来,如果某人没有患艾滋病,被错误诊断的概率为1%,假设有一个人被诊断出是阳性,那么他患艾滋病的概率多大?2)按要求写出SQL语句a)表t1,字段有user_id(字符型),city(城市,字符型),age(年龄,数值型)b)表t2,字段有user_id(字符型),yyyymmdd(数值型,日期),age(年龄,数值型),city,GMV_1 ___(销量,数值型)其中表t2中的user_id都能在t1中user_id找到创建一个表t3,使其中包含t1中所有user_id,年龄大于或者等于16,城市是广州或者深圳,表t2中12月销量汇总3)什么是层次分析法?使用的一般过程?举个使用的场景或者例子1)淘宝是万能的,怎挑出小众且有品位的店铺,给出方案2)双11做促销活动,商家发放促销券,请从平台和商家角度完成以下分析:a)给出评估指标b)根据给出的数据,为商家和平台推动计划给出建议其中, ___券是商家自动发放的,有两种,一种是满200减50,一种是满300减100; ___券发放日期为10月15到11月10,使用时间为11月11日模板,内容仅供参考。
数据分析笔试题目
数据分析笔试题目在数据分析领域,笔试题目是一种常见的评估方法。
通过笔试题目,雇主可以了解应聘者的数据分析能力、逻辑思维和解决问题的能力。
本文将为您提供一些常见的数据分析笔试题目及其解答,帮助您更好地准备笔试。
题目一:销售数据分析一家电商公司需要分析其销售数据,以帮助制定销售策略和预测未来销售额。
以下是该公司最近一年的月销售额数据,请根据数据回答以下问题:月份销售额(万元)1 1202 1503 1804 1305 1606 2007 2208 1909 21011 26012 2801. 请计算该公司在整个年度内的总销售额。
2. 请计算该公司的月均销售额。
3. 请计算该公司年销售额的增长率。
解答:1. 该公司在整个年度内的总销售额为120 + 150 + 180 + 130 + 160 + 200 + 220 + 190 + 210 + 230 + 260 + 280 = 2340 万元。
2. 该公司的月均销售额为总销售额除以12个月,即2340 / 12 = 195 万元。
3. 该公司年销售额的增长率为(年度最后一个月销售额 - 年度第一个月销售额)/ 年度第一个月销售额,即(280 - 120)/ 120 = 1.33,即增长率为133%。
题目二:用户行为分析某社交媒体平台希望分析用户的行为数据,以改善用户体验和提高用户留存率。
以下是一个用户在一周内的登录行为数据,请根据数据回答以下问题:日期登录次数周二 12周三 10周四 18周五 20周六 16周日 141. 请计算该用户在这一周内的平均每天登录次数。
2. 请计算该用户在这一周内的最高单日登录次数。
3. 请计算该用户周三相比于周一的登录次数变化率。
解答:1. 该用户在这一周内的平均每天登录次数为(15 + 12 + 10 + 18 + 20 + 16 + 14)/ 7 = 15次。
2. 该用户在这一周内的最高单日登录次数为20次。
3. 该用户周三相比于周一的登录次数变化率为(周三登录次数 - 周一登录次数)/ 周一登录次数,即(10 - 15)/ 15 = -0.33,即变化率为-33%。
(完整版)数据分析师笔试题目
网易数据分析专员笔试题目一、基础题1、中国现在有多少亿网民?2、百度花多少亿美元收购了91无线?3、app store排名的规则和影响因素4、豆瓣fm推荐算法5、列举5个数据分析的博客或网站二、计算题1、关于简单移动平均和加权移动平均计算2、两行数计算相关系数。
(2位小数,还不让用计算器,反正我没算)3、计算三个距离,欧几里德,曼哈顿,闵可夫斯基距离三、简答题1、离散的指标,优缺点2、插补缺失值方法,优缺点及适用环境3、数据仓库解决方案,优缺点4、分类算法,优缺点5、协同推荐系统和基于聚类系统的区别四、分析题关于网易邮箱用户流失的定义,挑选指标。
然后要构建一个预警模型。
五、算法题记不得了,没做。
反正是决策树和神经网络相关。
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。
2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?4、什么是:协同过滤、n-grams, map reduce、余弦距离?5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?6、如何设计一个解决抄袭的方案?7、如何检验一个个人支付账户都多个人使用?8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?12、你最喜欢的编程语言是什么?为什么?13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。
14、SAS, R, Python, Perl语言的区别是?15、什么是大数据的诅咒?16、你参与过数据库与数据模型的设计吗?17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?18、你喜欢TD数据库的什么特征?19、如何你打算发100万的营销活动邮件。
2018-2019-201X年阿里巴巴数据分析师笔试题-word范文模板 (2页)
2018-2019-201X年阿里巴巴数据分析师笔试题-word范文模板本文部分内容来自网络整理,本司不为其真实性负责,如有异议或侵权请及时联系,本司将立即删除!== 本文为word格式,下载后可方便编辑和修改! ==201X年阿里巴巴数据分析师笔试题201X年3月29日阿里巴巴数据分析师(北京)一、10道填空,每题3分1、小松鼠采到了100颗坚果要运回家。
家离放坚果的地方有100米远。
小松鼠每次最多运50颗。
BUT!小松鼠很馋。
每走2米就要吃一颗坚果。
问小松鼠最多能运回家多少颗坚果?A 0B 10C 25 D50答案:应该是25颗吧!(先运50颗50米,吃了25颗,返回去,回去的途中没吃的了,再运50颗到50米的地方,又吃了25颗,再把剩下的运回家,又吃25颗,还剩25颗。
)吐槽一下,题目应该说明:小松鼠足够聪明,至少比参加考试的人聪明。
2、标号12345的5个球,一次取两个,和为3或者6的概率是多少? 答案:0.3。
不解释。
3、考了LOGISTIC回归。
4、聚类分析法,k_means。
5、其他条件相同,置信水平越低,则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定应该是B吧。
6、precision、ecall、ROC。
剩下的不记得了。
二、三道题,每题10分。
1、已知每10万人中有1人得艾滋病。
现在有一种检查,如果被测者患病则一定能查出来。
如果被测者没病,有1%的测试出错也显示阳性。
现在一个人检查结果是阳性。
问真正得病的概率?答案:貌似所有的讲全概率公式的书上都有这道题。
2、SQL。
阿里巴巴 数据分析笔试题以及相关问题
2016阿里巴巴数据分析校园招聘笔试21道题,100分,60分钟一、单选题(10)1.想了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是A.从中抽取的500名学生的身高B.上海市全部小学生的身高C.从中抽取的500名小学生D.上海市全部小学生2.以下对k-means聚类算法解释正确的是A.能自动识别类的个数,随即挑选初始点为中心点计算B.能自动识别类的个数,不是随即挑选初始点为中心点计算C.不能自动识别类的个数,随即挑选初始点为中心点计算D.不能自动识别类的个数,不是随即挑选初始点为中心点计算3.以下哪个是常见的时间序列算法模型A.RSIB.MACDC.ARMAD.KDJ4.有个袋子装有2个红球,2个蓝球,1个黄球,取出球之后不再放回,请问取两次出来的球是相同颜色的概率是多少A.0.3333B.0.2500C.0.2000D.0.16675.65,8,50,15,37,24,()。
括号中的数字是()A.25B.26C.22D.276.一组数据,均值>中位数>众数,问这组数据A.左偏B.右偏C.钟型D.对称7. SQL 语言允许使用通配符进行字符串匹配的操作,其中’%’可以表示 A . 零个字符 B . 1个字符 C . 多个字符 D . 以上都是8. 关于正态分布,下列说法错误的是 A. 正态分布具有集中性与对称性B. 正态分布的军事与方差能够决定正态分布的位置与形态C. 正态分布的偏度为0,峰度为1D. 标准正态分布的均值为0,方差为19. 以下不同的场景中,使用分析方法不正确的有A. 根据商家最近一年的经营与服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级B. 根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式C. 用关联规则算法分析出购买汽车坐垫的买家是否适合推荐汽车脚垫D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女10. 下列时间序列模型中,那个模型可以较好地拟合波动性的分析与预测 A. AR 模型 B. MA 模型 C. ARMA 模型 D. GARCH 模型二、多选题(5)11. Excel 工作簿a 中有两列id 、age ,工作簿b 中有一列id ,需要找到工作簿b 中id 对应的age ,可用的函数包括 A. Index+match B. Vlookup C. Hlookup D. Find E. If F. Like12. 现在有M 个桶,每个桶都有N 个乒乓球,乒乓球的颜色有K 种,并且假设第i 个桶第j 种颜色的球的个数为ij C ,比例为ijij C R N=,现在要求颜色纯度越高,下列哪种算法描述是合理的 A.()/ijN K C -∑越小越纯B. ()-*ijijC LOG R ∑越小越纯C.()1-*ijijR R ∑越小越纯D. ()()1-1-ijijR R ∑越小越纯E.()21-ij R ∑越小越纯F. ()-*ijijR LOG R ∑越小越纯13. 关于相关系数,下列描述中正确的有:A. 相关系数为0.8时,说明两个变量之间呈正相关关系B. 相关系数等于1相较于相关系数等于-1,前者的相关性更强C. 相关性等于1相较于相关系数等于0,前者的相关性更强D. Pearson 相关系数衡量了两个定序变量之间爱你的相关程度E. Spearman 相关系数可以衡量两个定序变量之间的相关程度F. 性关系数为0.2相较于-0.8,前者的相关性更强14. 关于线性回归的描述,以下正确的有A. 基本假设包括随即干扰项是均值为0的同方差正态分布B. 基本假设包括随即干扰项下是均值为0的同方差正态分布C. 在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量D. 在违背基本假设时,模型不在可以估计E. 可以用DW 检验残差是否存在序列相关性F. 多重共线性会使得参数估计值方差减少15. 下列哪些方法可以用来对高位数据进行降维 A. LASSO B. 主成分分析 C. 聚类分析 D. 小波分析法 E. 线性判别法F. 拉普拉斯特征映射三、问答题16. 程序员A 在某个环境中编写代码,发现这个环境中只有一个函数rand9能产生1-9这9个数字,请问他该如何使用这个rand9函数编写一个能随机产生1-10的10个数字的rand10函数18.公司要构建淘宝商家健康指数,所以要对最近1年内交易的淘宝商家进行问卷调研。
大数据分析师招聘笔试题与参考答案2025年
2025年招聘大数据分析师笔试题与参考答案(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、大数据分析师通常需要具备哪些编程语言的知识?A. Java和PythonB. Java和C++C. C++和PythonD. SQL和R2、在大数据处理中,以下哪种技术常用于进行数据预处理,提高数据质量?A. HadoopB. SparkC. 数据清洗D. 数据挖掘3、大数据分析师在进行市场分析时,需要从大量数据中快速找到关键信息。
以下哪些工具能够帮助分析师高效地从数据中发现模式?A、Microsoft ExcelB、Google SheetsC、HadoopD、Python数据分析库(如Pandas)4、在进行数据预处理时,处理缺失值的方法有很多种。
以下哪种方法通常不是首选的处理缺失值的方式?A、删除含有缺失值的记录B、使用均值、中位数或众数填充C、使用基于模型的方法预测缺失值D、将缺失值填充为0或-15、在数据预处理阶段,下列哪种方法不是用来处理缺失值的?A. 删除含有缺失值的记录B. 使用均值、中位数或众数填充缺失值C. 利用算法预测缺失值D. 增加新的特征来代替缺失值E. 保留缺失值不做处理6、以下哪种数据可视化工具最适合用于展示数据间的相关性?A. 柱状图B. 散点图C. 饼图D. 折线图7、以下哪项不是大数据分析中的数据预处理步骤?()A. 数据清洗B. 数据转换C. 数据集成D. 数据加载8、下列关于Hadoop架构的描述,错误的是()A. Hadoop采用分布式存储系统HDFSB. Hadoop采用分布式计算框架MapReduceC. Hadoop的YARN负责资源管理和任务调度D. Hadoop不支持数据实时处理9、题干:大数据分析技术的发展趋势中,哪项技术被认为是提升数据分析效率的关键因素?A. 分布式计算技术B. 云计算平台C. 大数据存储技术D. 机器学习算法 10、题干:在数据预处理环节,以下哪种不属于数据分析异常值检测的方法?A. 箱线图B. 标准差检验C. 假宾美貌检验D. 卡方检验二、多项选择题(本大题有10小题,每小题4分,共40分)1、在大数据处理中,下列哪些技术可以用于提高数据处理速度?A. 分布式计算B. 数据压缩C. 内存计算D. 手动编码优化E. 使用更高效的算法2、关于Hadoop生态系统中的组件,以下哪些描述是正确的?A. HDFS提供高吞吐量的数据访问,适合大规模数据集的应用。
数据岗位招聘笔试题及解答2024年
2024年招聘数据岗位笔试题及解答(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、以下哪个指标不属于数据分析师常用的数据分析指标?A、用户留存率B、平均订单金额C、页面浏览量D、员工满意度2、在数据分析中,以下哪种数据类型最适合用于进行时间序列分析?A、分类数据B、数值型数据C、文本数据D、时间戳数据3、以下哪项不是数据分析的步骤?A、数据清洗B、数据探索C、数据分析D、数据可视化4、在进行数据清洗时,以下哪种情况不需要处理?A、数据缺失B、数据重复C、异常值D、格式错误5、题干:在数据挖掘过程中,以下哪一项不是常用的数据预处理技术?A、数据清洗B、数据集成C、数据规约D、数据扩充6、题干:在处理缺失值问题时,以下哪种方法不适合用于高维数据集?A、均值填充B、众数填充C、K最近邻(KNN)插补D、决策树模型7、在数据分析中,以下哪个指标通常用于衡量数据质量?A、准确率B、召回率C、F1分数D、AUC8、以下哪种数据类型通常用于表示时间序列数据?A、分类数据B、数值数据C、字符串数据D、时间戳数据9、关于数据清洗,以下哪种说法是正确的?A. 数据清洗是指对数据进行简单的复制粘贴B. 数据清洗是指将所有错误的数据全部删除C. 数据清洗是指去除数据中的噪声、异常值和重复数据D. 数据清洗是指对数据进行排序和筛选 10、以下哪个不是数据挖掘的步骤?A. 数据预处理B. 特征选择C. 模型训练D. 模型评估二、多项选择题(本大题有10小题,每小题4分,共40分)1、以下哪些工具或技术通常用于数据分析和处理?()A、SQLB、PythonC、R语言D、HadoopE、Tableau2、以下哪些统计方法适用于时间序列数据的分析?()A、移动平均B、自回归模型C、指数平滑D、线性回归E、聚类分析3、以下哪些是数据分析师常用的数据分析工具?()A. ExcelB. PythonC. R语言D. TableauE. SQL4、在数据分析过程中,以下哪些是数据清洗的常见步骤?()A. 去除重复数据B. 填充缺失值C. 数据类型转换D. 异常值处理E. 数据标准化5、以下哪些指标可以用于评估数据分析师的工作效率?()A、数据处理速度B、数据可视化效率C、问题解决能力D、报告生成速度6、在数据清洗过程中,以下哪些步骤是常见的?()A、缺失值处理B、异常值检测C、数据类型转换7、以下哪些数据清洗方法是数据分析师在处理数据时常用的?A. 填空处理B. 异常值检测C. 数据归一化D. 文本数据分词8、以下哪些指标是衡量数据仓库性能的重要指标?A. 响应时间B. 数据加载速度C. 数据一致性D. 数据更新频率9、以下哪些指标通常用于衡量数据分析师的工作效率?()A、数据处理速度B、模型准确率C、报告产出速度D、数据清洗效率E、模型迭代次数 10、在数据分析过程中,以下哪些是常见的数据清洗步骤?()A、处理缺失值B、数据标准化C、异常值检测D、重复数据识别三、判断题(本大题有10小题,每小题2分,共20分)1、数据岗位的笔试题中,对于数据清洗环节,使用Python的Pandas库进行数据缺失值的处理时,fillna()方法可以用于填充整个Series中的缺失值。
2022年阿里生意参谋数据分析师部分试题
1.小明想看看竞争对手店铺的引流关键词是哪些,小李说这是无法看到的,你认为他说的对吗?错误2. 开直通车调整时间折扣要分析哪个模块?错误答案1:访客分析正确答案:访客分布本题考点:客户进店时间分析答案解析:通过访客分布掌握店铺进店的访客访问时间的方法3.小易发现近期店铺流量下滑,想要找到流失指数最大的店铺,通过生意参谋-竞争-竞店识别-TOP流失店铺列表进行查找竞店分析,是否正确?正确4. 连带分析关联洞察主商品可以一键前往详情装修页,自由选择与主商品关联度高的商品来装修。
正确5. 连带分析关联洞察一个主商品最多可以同步多少关联商品到店铺推荐?错误答案1:10个正确答案:30个答案解析:关联洞察一个主商品最多可以同步30个关联商品到店铺推荐6. 小李想看看店铺的进店人群和成交人群有没有出现偏差,请问以下哪个模块能找到他想要的人群数据?访客对比7. 老王是王家杂货铺的店长,他在复盘上个月数据的时候发现,客服小甲有12个咨询是没有回复的,如果上个月小甲共有100个咨询量,那么客服小甲上个月的回复率是多少?0.888. 连带效果分析,每个监控商品仅展示其引导访客数排名前30的连带商品。
错误9. 小王想看看店铺自身店铺的引流关键词是哪些,请问以下哪个模块能找到他想要的数据?错误答案1:店内路径正确答案:选词助手答案解析:操作路径:生意参谋—流量—选词助手—引流搜索词10. 竞品的流量结构里有一个流量来源是猫客搜索,这些客户是从淘宝APP搜索进来的访客。
这种说法正确吗?正确答案:错误答案解析:猫客素搜索的流量来源于客户通过天猫APP进来的访客搜索11. 小明在监控看板看到了销售目标进度没有跟上,于是小明先看是访客数据没有跟上还是转化数据没有跟上,再看对应的数据是哪个节点没有跟上,然后再通过全量商品分析了解是哪个宝贝拖后腿,再进一步分析该宝贝为什么会拖后腿,请问小明这样分析店铺的做法正确吗?正确12. 行业年度走势变化参考数据指标为?交易指数13. 商家进行行业分析,想快速看到行业三级子类目单独的交易指数趋势要选择哪一级类目才能看到?行业大盘选择三级类目-点击交易指数14. 流量看板哪里可以看到实时数据?流量总览15. 小芳通过分析发现自己店铺的转化率比同行同层均值要低,最终UV价值也比同行同层均值要低,所以小芳决定做一些店铺营销提升转化率,小芳的思路正确吗?正确16. 装修店铺后应该重点关注哪个模块?动线分析17. 通过生意参谋下载店铺访客时段分布数据,不可以选择的时间周期是?14天18. 连带分析可以查看哪个端口的的数据?错误答案1:PC端和无线端正确答案:无线端答案解析:猫客素搜索的流量来源于客户通过天猫APP进来的访客搜索19. 店长小王想知道美工做的主图效果,可以在生意参谋店内路径入口页面看到主图效果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2016阿里巴巴数据分析师职位笔试题目
阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。
一、异常值是指什么?请列举1种识别连续型变量异常值的方法?
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。
在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
点评:考察的内容是统计学基础功底。
二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理
和步骤。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的
方法(grid-based method)、基于模型的方法(model-based method)等。
其中,前两种算法是利用统计学定义的距离进行度量。
k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
其流程如下:
(1)从n个数据对象任意选择k 个对象作为初始聚类中心;
(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;
(3)重新计算每个(有变化)聚类的均值(中心对象);
(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。
优点:本算法确定的K 个划分到达平方误差最小。
当聚类是密集的,且类与类之间区别明显时,效果较好。
对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。
一般来
说,K<<n,t<<n p="" 。
<="">
缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。
点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。
三、根据要求写出SQL
表A结构如下:
Member_ID(用户的ID,字符型)
Log_time(用户访问页面时间,日期型(只有一天的数据))
URL(访问的页面地址,字符型)
要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ;
点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。
另外,这个答案其实是不对的,实现有很多方法,任由大家去发挥吧。
四、销售数据分析
以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,
a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?
b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?
a) 从这一周的数据可以看出,周末的销售额明显偏低。
这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。
b) 针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。
点评:数据解读能力,获取数据是基本功,仅仅有数据获取能力是不够的,其次是对数据的解读能力。
五、用户调研
某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:
a) 试验需要为决策提供什么样的信息?
c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
b) 根据三类客户的数量,采用分层比例抽样;
需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;
选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。
点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。
综上所述:一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力,即将成为数据分析师的亲们,你们准备好了吗?。