斯坦福学姐全方位解析Data Science微讲座文字福利(世毕盟留学)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
斯坦福学姐全方位解析Data Science微讲座文字福利
我现在是Stanford Data Science在读Master,原世毕盟学员,本科背景是Industrial Engineering,因为还没有毕业,尚未进入业界工作,经验有限,请大家多多包涵~
首先跟大家介绍一下Data Science这个领域。
可以先看几个例子。
如果你觉得这些问题很有意思,值得思考和讨论,那么我们就是同志了!抱歉我可能会有一些中英夹杂,希望大家不要介意。
简单来说,Data Science = Math (Especially Statistics) + Computer Science Boundaries among subjects are getting unclear.
所以它也不是简单的相加,而是要满足下面一些条件:数学作为理论基础,CS 作为方法/途径,目标是解决实际问题(作总结,做分析,做预测,做决策,…)如果你的问题能在纸上列算式解决,或者没有任何数学基础,或者跟实际问题没有丝毫关联,那么可能距离人们普遍说的Data Science就有一定距离了。
它包含的数学知识有Calculus, Linear Algebra, Discrete Math, Optimization, Mathematical Modeling, Stochastic Process, Simulation, …
统计学知识有Probability, Statistical Modeling, Time Series, Statistical Learn ing, …CS方面的Basic Programming, Data Structure and Algorithms, Machine Learning, Artificial Intelligence, Network Analysis, Data Visualization, Data Mining, Database, …
统计学里的Statistical Learning跟CS里的Machine Learning其实是一回事,也就是说现在学科界限变得越来越模糊了,也就有了今天的Data Science。
下面给大家讲讲我为什么选择Data Science (因为我也并不知道别人是怎么想的) 这跟我的本科背景有关,不知道大家是否了解Industrial Engineering,我们会接触很多不同领域的问题,制造,物流,医疗,规划等等,然后会用许多不同的方法去解释这些问题,有定量的,也有定性的。
其中我最喜欢的是使用数学方法和CS技能去解决问题的经历。
现在学了更多的DS,我觉得这个行业有一定程度的Uncertainty或者说是Exploration-Based,我们呢并不完全知道最后会得到什么样的结果,更多的是一个实验性的过程,工作也显得有意思一些。
我自己的动机其实就是这么简单,对科学技术的发展持乐观态度,所以选择了这个行业
下面给大家讲讲什么样的人适合做Data Science。
看到这个群里有这么多人,也有很多人说这是21世纪最性感的工作,我觉得很惶恐...
首先第一点You like math and programming.(At least you don’t hate them.)这个我相信大家应该大部分都满足,否则你就要想一想你是不是仅仅在追赶潮流。
第二点是You are excited about solving real-world problems using math and programming.这个也比较抽象,大家意会就行。
或者换句话说You are curious about how people solve the problems I talked about in the “Examples” section.
我理解的Data Science大概就是这样。
当然了现在网络上有很多资源,很多的公开课啊,博客啊,都可以更多的去了解。
下面简单介绍一些美国Data Science的硕士项目。
其中我自己觉得好的有这么一些,Stanford ICME, CMU MCDS, NYU Data Science, Northwestern Analytics, Georgia Tech Analytics。
当然这些都是比较靠前的学校,综排稍微靠后一点的学校也有很多不错的项目。
因为我只对自己的项目比较熟悉,就给大家介绍一下我的项目Stanford ICME(Institute of Computational and Mathematical Engineering)
官网是这个/
在Data Science这个词语出现之前,这个系就存在了,就是做计算数学的,后来慢慢开设了一些不同的track,我们是一个只有研究生的独立学院,我这一届是34个Master
Four Tracks: General, Data Science, Imaging Science, Computational Geoscience, Computational Finance, (Computational Biology in the future.)
由于这个系原来是搞数学的,所以相应对数学比较看重一点,所以General Track 一般会更喜欢数学背景,其他的track可能对这方面要求宽松一点。
比如我们data science track四个中国人除了我之外一个经济背景,还有两个海本是math + CS double major
Data Science track还有一个特别的地方就是由ICME和Statistics合办,两个系分别招生,课程要求相同,所拿学位不同。
美国高校的DS master项目课程设置区别也比较大,具体的大家可以到每个项目的官网上去看,有的偏重统计,有的偏重CS。
我们项目是12学分数学+ 12学分统计+ 15学分CS + 6学分Data Lab
有的非常CS-oriented的项目比如IUB的这个:
/iub/soic/2015-2016/graduate/degree-programs/master-of-data-s cience/index.shtml
具体申请这些项目有什么硬性要求,大部分学校都要求你是理工科背景,然后有基本的数学知识:微积分,线性代数,概率论与统计学基础(If you feel uncomfortable when taking these courses, please think more about your choice.)基本的Programming Skills (任何一种编程语言)。
当然一般明文写出来的要求都是很多人都能满足的要求,所以事实上任何数学/CS相关课程都是加分项。
以上就是有关这个Data Science master的相关信息
下面是关于就业
因为我自己打算在美国找工作,所以对国内的就业市场不太了解,所以现在也只说美国的。
A lot of IT companies in Bay Area are hiring data scientists. (Facebook, LinkedIn, Uber, Walmart Lab, Amazon, …)
Quant Analysts in NYC. (I’m not interested in this area.)
If you find yourself especially interested in programing its elf, it’s also very likely to find a job as Software Engineer.
Other Non-IT companies are also hiring Data Scientist/Data Analyst/Business Analyst.
大概就是这些。
那么要成为一个Data Scientist需要具备哪些能力呢,你可以到LinkedIn上去搜job,然后看一下各大公司的Jod Description。
基本上大致就会有个了解,我随便找了一个,大概是这样
上面这个是我总结的。
一般工作的要求会是这个的子集。
攻读DS的学位和找DS的工作又不完全是一回事,大家如果要从事这一行的话一定要有一个活到老学到老的精神。
因为有很多技术和工具在不断革新,有时候学校学到的知识在真正使用的时候并不是那么一回事。
当你解决一个问题的时候,要准备好别人向你提问,因为一般Data Science领域的问题都是open-ended的,你可能用的是一种按方法,别人又会有其他想法,所以沟通能力也很重要,让别人知道你是怎么想的,理解别人是怎么想的
因为我自己也还没找到工作,只实习过一个暑假,也没法给大家讲太多啦,捂脸。
最后就是关于申请,首先硬件条件,我觉得不需要说了
• Reasonable GPA/GRE/TOEFL.
• Math and CS foundations.
• Motivation.
具体多少分算是Reasonable这个大家应该心里有数。
然后Math and CS foundations我上面说过基本要求,但是大家也不要满足于基本要求哈。
有了以上这些之后就是去充实自己的背景,当然也不是说完全出于功利的目的要去做什么事,既然你决定做这一行,说明你自己本身也是感兴趣的,所以不要有太多压力。
我本人也是一个做事全凭好恶完全不顾头尾对未来没有任何计划走一步算一步的人。
然后大家听取多方意见的同时也要有自己的判断,毕竟我或者其他人也只比你们大不了多少,经验教训不一定全是宝藏。
说到充实自己的背景Select relevant courses (On-campus or Online)
这个肯定的,因为你不了解,所以你得多了解(废话)。
申请的时候有时候来不及补充太多经历的话Find out the data-science-related part out of your past experience.
当然更好的是Do relevant projects(课程大作业/跟导师做项目/实习)
更高级的就是Do your own project! (Also helpful for job hunting.)
其实我自己现在也没时间(懒)去做上面说的这个。
不过大家有主观能动性强一点的同学可以尝试https:///上面的一些练手的项目。
或者Find dataset online and do whatever you want!
比如UCI好像就有很多数据集,或者你直接google: data science dataset
答疑环节
Q: 学姐能说说你当初申请的时候自己的背景吗?就是GPA、GT 实习之类的??还能说说你们这届的data science的四个中国人的背景吗??
A:我本科是industrial engineering,大四才决定要申ds,所以之前我没做过什么准备,但是我们专业本身就会有一些数学和计算机的课,比如说运筹学,线性规划,随机过程,数据库,数据结构算法等等,然后我自己做的project,我也都是硬拉了一些出来,其他硬件背景的话,成绩排名前20%,我是清华的本科。
GRE 是161+170+3.0,托福是103。
Q: 我想问一下,stanford的stats master和ds的课有挺多重叠。
另外非重叠部分stats其实也可以拿来当选修课。
(而且ds招的人比stats少很多…)所以学姐当时为什么没有考虑竞争更小一点的stats呀?或者说ds有哪些特有的优势?
A:他们的不同我前面也说了,招生是从不同两个系不同招生,但是它的课程要求是一样的,毕业的时候拿的学位不一样,我当时没有选stats是因为没有发现这个项目。
Q: 学姐您好!我的问题是在ds领域的话,美东和美西都有很好的ds master项目。
那在工作机会的数量和质量上有差异吗?有哪方面的差异呢?
A:如果你是在纽约,那可能你做比较偏金融的可能性会大一些,但不是说你就局限在这些领域,在美西的话,因为我现在在湾区,我周围都是一些IT公司,所以走这条路的可能性大一些,但也没有具体的限制。
Q: 学姐在哪里实习的?
A: 实习的话我是在workday,就是一家为其他公司提供HR和financial服务的公司,我当时所在的组叫incites,就是为我们的产品提供incites,就是做预测员工离职概率的一个项目。
我当时负责的是这个项目下面的一些小的project,比如说是去为不同的individual production做aggregates,然后为我们的模型做benchmark等等,就是大家一起在工作,这就是我们公司产品的一个新的功能,所以有很多具体的小的部分要去探索,因为时间也比较短,所以我负责的就是这些。
Q: 学姐好,如果学姐打字比较累语音也可以,我想问学姐学的工工和data science 还算是有比较大的跨度?如何跨专业申请呢?学姐当时做了什么特别准备吗?A:我是很晚才准备的,我之前做的项目里面的有做过一些建模与仿真的东西,当然是是在制造业,制造系统,去做物流的网络规划,也用一些算法,比如说我当时暑假实习是在中国南车,做自动化配送的仿真,其实你说有关系吧就可以有关系,你说没关系吧也可以是没关系。
Q: 我想问一下从online选择的课必入数学的或者cs的对申请的帮助大吗?选课需要注意哪些呢?
A:有帮助肯定有帮助,你最好可以选一些带project的课,做完之后你可以有东西写在你的简历里面,当然这是从功利的角度来讲的,如果你有特别喜欢的也可以去上。
选课需要注意什么其实我也不是很清楚,就是选一些machine learning 这种听起来比较高级的吧。
Q: 请问学姐,我本科就是data science专业。
所以数学和cs会涉猎,但是可能比不上专业的。
所以在申请master或者phd的时候会不会有局限。
然后还有,data science一般申请什么master或者phd,including data science。
谢谢学姐
A:我觉得现在还没什么ds的phd吧,因为ds是个比较偏应用的专业,所以大部分学校会开设master,你可以申cs下面偏machine learning,偏AI的phd。
Q: 学姐,做数据分析挖掘的project需要做成什么样呢?写成报告和论文吗?A:比如说你要申请的话,你可以不写成报告,但是你要写你做了什么,所以你肯定要有东西,首先你要有想法,要有模型,你要画点图什么的,最后得出什么结论,分析了哪些东西,你要是一门具体的课的话,你就要写成报告。
Q: 请问能多分享些你现在收集的ds技术类网站吗?谢谢
A:这个我还真没收集多少,平时没有很关注这些,不好意思。
Q: 请问申请斯坦福的统计dept里面的DS track和ICME的DS track申请难度有什么不同么?我们应该选择哪个?
A:我觉得ds的申请的难度是与日俱增,所以按照我前几年的经验,我也说不好现在有什么变化,而且我之前根本不知道统计下面有这个track,我自己感觉是mse的比较好申一点,但我不是很确定。
Q: 感觉ds和mfe都是math+CS+statistics,这两个专业有各自特殊的侧重吗?A:当然有侧重啦,mfe就是侧重金融,当然它学的也是那些东西,理论上讲是差不多的,但是你要对金融有一定的热情,或者说你想去从事这个行业,ds的话就general一点吧,其实我也不是很了解金融方面的问题。
Q:Reasonable GPA/GRE/TOEFL,具体多少分算是reasonable,我心里没数,如果GPA不是特别优异,有点点犯愁,有合适的方式去查询高校参考的GPA,我回忆起,好像到学校官网上能查看到历年招收学生的成绩
A:这个你就要咨询GGU的咨询师了,因为不同学校会设不同的线,有的可能他条件好一点的话,GPA要求也不是那么高,查询参考GPA的话,有些学校也不会写明,我的GPA是3.85,当时清华还没有4.0制,我是自己在别的网站上算的,也不知道有没有参考价值。
Q: 谢谢学姐分享!学姐看过来!想问问学姐本科是复旦大学社会学+GPA3.5 社会学对申请data science有什么帮助嘛~
A:其实现在社会学也有很多弄ds的,主要看你的具体经历吧,GPA的话我不好说,如果社会学学的文科东西比较多的话,你最好要上一些数学和计算机的课,否则的话他可能觉得你理工科背景不够,像我身边也有很多同学他们本科是学经济的,但是他们的毕设做的是神经网络有关的,那这也算是很有关的背景。
Q: 学姐我现在大一,对一些问题不是很了解,现在在eecs没分专业,cs基础肯定有保障,但是为了gpa我的数学选的高数线代不是数分高代。
请问如果我研究生想转ds,我的math背景是不是不够还有对于我们这样大一学生有什么学习上的指导和建议嘛谢谢!
A:我觉得你现在考虑这些有些over think,我觉得高数现代也可以,不是说这样就math背景不够,你cs以后也会学一些离散数学啊什么的,你可以自己去补两门统计的课。
对学习上的指导的话,我觉得不要太过功利吧,感觉你的行文可能显得你考虑的东西比较多,但是我觉得你还是想学点什么就学点什么。
Q: 我们申请和海本的会被一起考虑么?会有劣势么?怎么弥补呢?
A:肯定会和海本的一起考虑,会不会有劣势我也不好说,主要还看你自己的水平吧。
Q: 学姐我想问一下,我听一些前辈说,目前深度学习的研究已经走到尽头了,您觉得继续学习深度神经网络,会不会对未来发展有影响,尤其是做研究方向的A:我觉得这些话天天都有很多人在说吧,而且我现在只是一个master,其实我对很多研究的东西不是很了解,所以我不能说未来研究有什么影响,但是我对科学技术的发展还是持一个极度乐观的态度的,所以我觉得计算机和人类还可以做很多事情。
Q: 你好,想问下当初你申请的时候背景是怎样的呢?主要是实习和科研方面。
另想问下Stanford的DS偏重ml、ann么?
A:我做的科研写到文书里面的,就是一些课程的project,包括物流规划和制造系统仿真的一些东西,当时毕设做的是比较数学的题目,是叫做基于蒙特卡洛马尔科夫链的随机采样算法研究,但毕设是下学期做的,所以也没用上。
斯坦福的ds偏重什么,你可以去看它的课程具体要求,数学课和统计课比起其他的ds相对多一点,但具体选cs的课的话你可以尽可能选难的,主要因为它是课程导向的项目。
Q: 师姐,大四再选随机过程之类的课会有帮助么?只有基础的数学课,申请会不会有困难?
A:对你今后的人生和职业发展肯定有帮助,对申请有没有帮助我就不知道了,可能你来不及去具体做一些什么,当然你可以把它写到你的选课名单里,让人家看到你上这门课了。
不只有基础的数学课,我周围大部分人都不只上过基础的数学课,你可能得多上一点,因为现在申请ds的人越来越多了。
Q: 请问一下学姐。
相比传统cs背景的同学。
ds的优势是不是在于学习新算法(甚至自己设计)的能力更强,因为有相关数学统计背景?
A:ds优势就是比较偏重数学,因为有些学cs的同学比较偏重工程性的,就是说具体去实现一个什么东西,所以他对具体的东西、底层的东西不需要太了解,做ds的可能会更多思考一些理论的东西,虽然说实际过程中,如果你不是去做一些很复杂的东西,可能用不到太多自己设计的算法,但是你学习新算法的能力肯定更强。
Q: 学姐你好,我今年大三准备申请ds的研究生了,请问需要准备些什么?申请流程大概是怎样的?
A:需要准备些什么,你就上一些相关的课,挖掘一些相关的经历,自己做一些project,你可以去一些学校官网上看一下它的要求,比如要求你上哪些课程、要求有哪些的经历以及其他硬性要求,按部就班一步步做就行了。
申请流程你可以自己百度,或者问一下GGU的咨询师。
Q: 学姐你好,想请问一下学姐,我本科纯数学应该怎么准备呢?对于统计和DS 是实习比较重要还是科研比较重要啊?大三要怎么准备比较合理?谢谢学姐~A:你可以多做些programming的东西去平衡一下,然后我觉得实习和科研都可以,看你具体工作了,有的实习听上去名头很大,但做的东西很无聊,最后也没什么可用的,就不好。
你做科研能做出一些东西,比如可以发个paper,就很好,但是有的科研的话可能做半天做不出什么东西,或者老板很坑,所以说具体还是要看你做的内容。
Q: big data到底和计算数学更靠近呢,还是和概率统计?前面说到的,多少分算是reasonable?
A:因为现在学科之间的界限很模糊,不能把它直接归到哪个里面去,它肯定是各种方法都用,但是侧重点不同,有的去研究big data计算性,就和计算数学靠的更近,有的又是研究一些实际问题,或者说是去建个模什么的,所以不能一概而论。
具体多少分我也没发根据ds的方法得出一个结论,所以你还是去询问一下见过更多example的GGU老师们吧~
世毕盟上海咨询小助手:
我们今天的讲座就到此结束啦!还有疑问需要继续咨询的同学可以联系世毕盟老师哦~听讲座的小伙伴们都可以获得我们提供的免费的专业一对一咨询!case by case!需要的微信可以预约咨询!
请关注“世毕盟上海”微信公众号获得更多留学资讯!。