金融博士转数据-2年学习材料汇总

统计/生物统计/精算/数据科学/机器学习(含深度学习和强化学习)
本版讨论各种专业问题,相关职业问题,转专业问题,以及机器学习在各个学科的应用。
回复
头像
SOD楼主
论坛元老
论坛元老
SOD 的博客
帖子互动: 1369
帖子: 26069
注册时间: 2022年 7月 23日 22:53

金融博士转数据-2年学习材料汇总

帖子 SOD楼主 »

DS DA 复习找工作 分类整理资料汇总 2021 (
xueguqing 2021-3-5 15:22:12 | 只看该作者


背景 Situation

本人Econ PhD, 博后,之前field experiments做的比较多,和业界公司也有一些合作

基于个人兴趣,未来work life balance的考虑,以及北美学术教职的竞争激烈程度,终于下定决心转行DS去业界。
基于以往经历,对produce sense和 AB Testing 相对比较有信心。但Programming 需要好好加强,很熟悉Stata (但业界不用…),R 入门级别(但感觉业界用Python更多?),SQL 和Python 是从零学起。

因为还在全职工作,只能利用晚上和周末复习。自己复习了一段时间,但投入时间不够。犹豫要不要参加Part-time DS Bootcamp,主要是想用Peer Effect 督促自己复习和面试。
计划下个月开始一边面试部分公司,一边继续完善技能。先从DA面试开始练习(因为需要的技能相对没有那么多),然后DS。MLE需要更加专业的技能,如果后面有时间再考虑。
超级感谢地里众多资料,个人比较喜欢整理和规划,也希望分享给地里的小伙伴,希望都顺利上岸。
.1point3acres

目标(任务)Task
优先复习DA需要的技能,然后面试公司提高经验
增加DS需要的技能,面试Target 公司;希望到年底拿到多个offer,解决工作和签证问题(这个后面单独开贴讨论)
找到情况类似一起复习找工作的小伙伴(或小组),相互督促和鼓励,共同进步
复习资料整理 Action
资料框架
          - 前面会按照技能分类整理出推荐的资料,包括网课、书、问题总结、blog等。          - 顺序:SQL, Statistics & Probability,AB Testing/Experiment, Product Sense / (Take Home) Data Challenge,Python, BQ, Machine Learning
          - 各部分整理过程中为了方便,也从其他帖子里直接复制了不少内容,在最后帖子汇总里列出。          . 1point3acres
          - 后面“帖子汇总”列出了地里以及其他网站我参考整理是用到的帖子;感兴趣的可以点击进去仔细阅读。对一些帖子根据我的理解注明了特点,个人观点仅供参考,不一定准确。. From 1point 3acres bbs
          - 资料不是越多越好,一定要根据自己情况考虑投入产出比。我把同类资料里推荐较多或评价较好的排在前面,欢迎交流。选择适合自己的最重要。
资料分享:汇总里有一些书和汇总pdf,尽量附上原帖,鼓励购买支持正版。确实有经济困难的,可以见以下链接下载(资料不全,欢迎地里补充)。
. 1point3acres.com

SQL.--
基础知识. Χ
        - W3school https://www.w3schools.com/sql/ . 1point 3 acres
        - SQLzoo https://sqlzoo.net/
        - Mode Analytics https://mode.com/sql-tutorial/introduction-to-sql/
Course
        - Udacity, SQL for Data Analysis https://www.udacity.com/course/sql-for- ... sis--ud198 . 1point3acres
        - CodeAcademy, Analyze data with SQL https://www.codecademy.com/learn/paths/ ... a-with-sql
        - EDx: IBM SQL for Data Science https://www.edx.org/es/course/sql-for-data-science
Practice
        - Facebook and other companies 面试题
        - HackerPank https://www.hackerrank.com/
      - 适合初学者
        - Leetcode https://leetcode.com/
      - 有一个Leetcode的题库和答案 https://drive.google.com/file/d/ ... bX/view?usp=sharing. From 1point 3acres bbs
. 1point3acres

Statistics & Probability
Course
        - Khan Academy Statistics and Probability https://www.khanacademy.org/math/statistics-probability
        - Duke Introduction to Probability and Data with R, Coursera https://www.coursera.org/learn/probability-intro
        - JHU的Statistical Inference https://www.coursera.org/learn/statistical-inference
        - Duke, Inferential Statistics, Coursera, https://www.coursera.org/learn/inferent ... tics-intro
        - Datacamp: https://www.datacamp.com/
            - Poisson distribution, exponential distribution, permutation, bootstrap
        - Introduction to Probability and Data with R 理清一些看似很基础但不一定清楚的统计概念 https://www.coursera.org/learn/probabil ... me/welcome            
Practice:Brilliant https://brilliant.org/
Book: Practical Statistics for Data Scientists 🔗www.amazon.com
            - Good one, very practical, strongly recommend.. 1point 3acres

Interview question summary. Χ
          - 100+ Data Science Interview Questions You Must Prepare for 2021 https://www.edureka.co/blog/inte ... nterview-questions/
          - Statistics Interview Questions and Answers https://www.janbasktraining.com/ ... nterview-questions/. .и
          - key concept (来自DS 面试 统计类问题 学习资料总结 https://www.1point3acres.com/bbs/thread-610533-1-1.html).
                    1. P-value, significance level, confidence level, confidence interval
                    2. Common Distributions (pdf, mean, variance): Normal, Binomial, Bernoulli, Geometric, Poisson, Exponential
                    3. Central limit theorem and underlying assumption
                    4. Law of large number
                    5. Hypothesis testing and how to calculate the sample size for hypothesis testing
                    6. Estimator vs. estimate
                    7. Simpson's Paradox and correction formula. Χ
                    8. Bias-variance trade-off. Χ
                    9.  ANOVA
                    10.  Bootstrap
                    11. Type 1 and type 2 error
                    12. Precision vs. recall
                    13.  Z test and T-test (formula, underlying assumption)
                    14. Bayesian formula for conditional probability

AB Testing/Experiment. 1point 3 acres
Course:Udacity A/B Testing. by Google: https://www.udacity.com/course/ab-testing--ud257
          - Notes:http://rpubs.com/superseer/ab_testing.google  и
          - A Summary of Udacity A/B Testing Course https://towardsdatascience.com/a ... course-9ecc32dedbb1
          - 评论
                   - 必看,入门
           - 很详细,但有时候比较琐碎,需要和一些课程交互理解. Χ
        - 总结
                   - Define metrics: sanity checking metrics, evaluation metrics.--
                   - Design experiments: unit of diversion, target population (population impacted by the treatment, increase statistical power), size of experiment (statistical power), duration of experiment (traffic allocation, novelty effects, change aversion)
                   - Analyze results: clean data, sanity checks (use sanity checking metrics defined in step 1), single evaluation metric (t-test, p value, type I error, type 2 error), multiple evaluation metrics (Bonferoni correction, FWER, FDR)
Paper & Book
        - Athey and Luca, 2019, Economists (and Economics) in Tech Companies https://pubs.aeaweb.org/doi/pdfplus/10. ... p.33.1.209
                  - 很早读到的working paper,开阔了眼界,让我萌生了进入业界也挺好的想法
        - Conference papers
                  - KDD 2019, Diagnosing Sample Ratio Mismatch in Online Controlled Experiments: A Taxonomy and Rules of Thumb for Practitioners https://exp-platform.com/Documen ... VermeerDmitriev.pdf
                  - KDD 2017, A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online Controlled Experiments https://www.kdd.org/kdd2017/pape ... ls-in-online-contro. 1point 3acres
                  - HBR 2017, The Surprising Power of Online Experiments: Getting the most out of A/B and other controlled tests https://exp-platform.com/hbr-the ... online-experiments/
        - Book
                  - Trustworthy Online Controlled Experiments : A Practical Guide to A/B Testing https://experimentguide.com/.google  и
                   - 有2017ABTestingTutorial https://exp-platform.com/2017abtestingtutorial/
                   - 应用性比较好
Blog and website. 1point 3acres
        - Airbnb data science blog https://medium.com/airbnb-engineering/data/home. 1point 3 acres
        - Towardsdatascience https://towardsdatascience.com
        - Data Science Weekly https://www.datascienceweekly.org/
        - Medium https://medium.com.
        - Optimizely https://www.optimizely.com. check 1point3acres for more.
..

Product Sense / (Take Home) Data Challenge
Books
        - Crack the PM interview
                  - Important Chapter:  estimation,product和case 最重要;其次是behavior
                  - 经典书,必读
        - A Collection of Data Science Take-Home Challenges https://datamasked.com. Waral dи,
                  - 大概有40道产品题的答案.google  и
                  - Solution to the book "A Collection of Data Science Take-Home Challenges"  https://github.com/JifuZhao/DS-Take-Home. From 1point 3acres bbs
        - Case in points 🔗www.amazon.com
                  - 评论:内容比较多,花费时间长. 1point3acres
        - Lean Analytics
                  - 评论:产品题的入门书籍,了解不同business model和他们对应的metrics和frameworks
        - Decode and Conquer: Answers to Product Management Interviews 🔗www.amazon.com.
Course
        - Lynda Raynier’s Youtube Channel https://www.youtube.com/channel/UCXUyg1 ... hi0zNeD-5w
        - 一亩三分地 小k讲产品
Topic
        - Leadership and how to influence others
        - A hard challenge faced and How to solve it
        - A true failure and how to turn it around
        - A proud success made with team together
        - Summary
                - Do as much as analysis as you can,but only showcase the most valuable findings - in a framed way
                - 如何frame solution? 我的看法是:describe图表-->总结出insights-->给出recommendation。describution,insight, recommendation是一个完整的逻辑闭环,它能帮助批卷子的人很快地明白了发现了什么,总结出了什么,并且依据你的总结准备建议出什么。
答题思路. 1point3acres.com
        - 1. Ask clarifying questions (what does the product do?, who is the product for? company mission, etc.). From 1point 3acres bbs
        - 2. Confirm with the interviewer what the goal of the product is (e.g. increasing conversion, revenue, engagement, retention, etc.)
        - 3. Layout the structure of your analysis (e.g. use products lifecycle like awareness, engagement, retention and monetization stages)
        - 4. Dive in each section of your analysis (e.g. for each stage, identify the behaviors that can be quantified with a metric)
        - 5. Summarize your analysis (restate what you talked about, and then prioritize key metrics from step 4 and state why)
Blog
        - 了解公司产品和基本思路
        - Airbnb, Uber, LinkedIn, Netflix, Lyft, Pinterest, Stitch Fix, Quora, Yelp

Python
Books
        - Learn Python 3 the Hard Way 🔗www.amazon.com
                  - Exercise answers: https://github.com/wzpan/Learn-Python-The-Hard-Way
        - 数据结构和算法 Problem Solving with Algorithms and Data Structures using Python https://runestone.academy/runest ... pythonds/index.html
Course
        - Udemy Python for Data Science and machine learning bootcamp: https://www.udemy.com/course/pyt ... e-learning-bootcamp
                  - 非常系统地教了pandas和seaborn
        - Intro to Computer Science https://www.udacity.com/course/intro-to ... ence–cs101
                  - 非常浅显易懂的入门课程,有大量的上手编程训练,最后的项目也非常有趣。
        - Udemy Programming Foundations with Pytho https://www.udacity.com/course/p ... dations-with-python–ud036. Χ
                  - 涉及到class的构建和使用,调用函数. ----
        - Udacity Intro to Data Analysis https://www.udacity.com/course/intro-to ... ysis–ud170
                  - 讲了如何使用Numpy & Pandas,非常好学,好用
        - Datacamp course: pandas,matplotlib,seaborn
        - Stanford CS 41: The Python Programming Language https://stanfordpython.com/#/. 1point3acres.com
                  - 评论:很基础,入门级别

Practice: Kaggle
                  - 资源
                           - Python: http://www.kaggle.com/learn/python. 1point 3acres
                           - Pandas: https://www.kaggle.com/learn/pandas
                           - Data Visualization: https://www.kaggle.com/learn/data-visualization
                           - Intro to machine Learning: https://www.kaggle.com/learn/intro-to-machine-learning
                           - Intermediate Machine Learning: https://www.kaggle.com/learn/intermedia ... e-learning
                           - Kaggle competitions  https://www.kaggle.com/competitions. .и
                  - 评论:ROI可能不高,太花时间,适合想做的很好的. 1point 3 acres

Behavior questions (BQ) / Past experience / Culture fit  -- 这部分总结比较少,更多内容见后面的帖子汇总
Method/Structure.--
       - STAR: Situation, Task, Action, Result
       - Amazon leadership principles interview questions
Key points
       - 根据自己的经历,整理成几个故事(或分支),各有侧重
       - 要让面试官感兴趣,突出自己的能力
. 1point 3acres
. 1point 3acres

Machine Learning
Course
       - Sebastian, Intro to Machine Learning https://www.udacity.com/course/i ... utm_medium=referrer
       - Machine Learning: Regression at Coursera https://www.coursera.org/learn/ml-regre ... me/welcome
       - Andrew Ng,  Machine Learning at Coursera https://www.coursera.org/learn/machine- ... me/welcome
                - 评论:对于找工作不一定特别有用,比较理论,长期应该学. Waral dи,
       - Youtube, Sentdex, Practical Machine Learning Tutorial with Python 🔗www.youtube.com
                - 评论:非常花时间
       - Datacamp: xgboost.google  и
Interview question summary.1point3acres
       - Machine Learning & Mathematics https://rpubs.com/JDAHAN/172473
Key concept
       - Decision tree and random forest. 1point 3acres

帖子汇总

DS/DA 整体
       - 一亩三分地
                - 数据科学学习清单+求职攻略 https://www.1point3acres.com/bbs/portal ... st&catid=6
                - 无偿分享下2个月内找到DS工作的经验和复习资料 https://www.1point3acres.com/bbs/thread ... oint3acres
                        - 评论:自己也总结和分享了很多的Cheat Sheet
                - 发一波DS面试准备经验总结回报地里 https://www.1point3acres.com/bbs ... science-483072.html. Waral dи,
                        - 评论:
                         - 非常详细,链接做的很好
                         - 讲了比较多的关于behavior,product & case question以及take home challenge的个人总结. 1point3acres.com
                         - 偏向DA analytics track. ----
                - 商科转DS的硅谷找工作记录 https://www.1point3acres.com/bbs/thread-469131-1-1.html
                        - 评论:有个人经验总结,比较口语化
                - DS面试准备材料总结(附加product答题思路和SQL题库) https://www.1point3acres.com/bbs/thread ... 1-1.htmlDA  DS面
                        - 评论:偏向DA analytics track
       - 其他网站
                - How to land a Data Scientist job at your dream company — My journey to Airbnb https://towardsdatascience.com/h ... airbnb-f6a1e99892e8
                        - 评论
                                - 英语写的很清楚,让人读了很受鼓励
                                - 有一些其他帖子里没有提到的材料,尤其是AB Testing. Waral dи,
                - PhD转行之路 http://www.juyang.co/phd%E8%BD%AC%E8%A1 ... B%E8%B7%AF
                        - 评论.google  и
                                - 有明确的复习准备时间线
                                - 提到的课程比较多
                - 一路披荆斩棘,我是如何成功拿到四大Data Scientist offer的?
                - 疫情之下数据分析求职发展的四点总结 .
                - Moving from Academia to Industry: 10 Tips from Wayfair Data Science PhDs https://tech.wayfair.com/data-sc ... -data-science-phds/. Waral dи,
                - 被裁的两个月内,我是怎么拿到4个数据科学的offer并把收入翻倍的

分类知识
       - 面经
                - 一亩三分地数科面经 https://www.1point3acres.com/bbs/forum-259-1.html
                - 120 data science questions
                        - Link:  https://www.quora.com/q/learndatascience1/Answers-1
                        - Answer: https://github.com/kojino/120-Data-Scie ... -Questions
                - Reddit Data Science Wiki: https://www.reddit.com/r/datasci ... graduate_degrees.3F
       - 统计
                - DS 面试 统计类问题 学习资料总结 https://www.1point3acres.com/bbs/thread-610533-1-1.html
                        - 评论:关于统计目前看到最好的帖子
       - Product Sence/Data Challenge
                - 回报地里,总结自己如何cracking the Data Challenge https://www.1point3acres.com/bbs/thread-326201-1-1.html
                        - 评论: 很详细,非常有用,7个步骤分析框架很清晰
       - Python data manipulation
                - 一些python data manipulation的资源的总结: https://www.1point3acres.com/bbs/thread-461232-1-1.html
       - SQL
                - 整理了leetcode上面所有的SQL题, PDF版本, 分享给大家,求大米呀 (2019年1月)https://www.1point3acres.com/bbs/thread-474445-1-1.html. 1point 3acres
       - BQ
              - DS常见的behavioral questions https://www.1point3acres.com/bbs/thread-469834-1-1.html
                       - 相关帖子 Behavioral Interview Questions https://biginterview.com/blog/behaviora ... -questions
              - Behavior Interview https://sugarac.gitbooks.io/high ... rs/content/bq1.html
              - 关于Behavior Question的面试技巧最全总结 https://posts.careerengine.us/p/5b9ac78 ... 5e899609fd
. ----
结果 Result
目前还在复习和准备面试试水;后期等找到工作后,再分享面经和心得体会。
整理不易,求加米( ′▽` )
不太清楚地题帖子怎么排版,有高人指导的话,后续会更新改进
补充内容 (2021-3-5 16:12):
补充资料链接:https://www.dropbox.com/sh/38h0k ... e-LL8a1mt3ioEa?dl=0
内容:
1)  Books for Product Sense, Python, Becomeing a better programming
2)SQL Leetcode Question, Cheatsheet
此生无悔入华夏,家住加利福利亚

图片
头像
SOD楼主
论坛元老
论坛元老
SOD 的博客
帖子互动: 1369
帖子: 26069
注册时间: 2022年 7月 23日 22:53

Re: 金融博士转数据-2年学习材料汇总

帖子 SOD楼主 »

课程分享:Python for Data Science and Machine Learning Bootcamp【求大米】     |只看干货


taburiss 2021-5-30 00:13:30 | 只看该作者

本帖最后由 taburiss 于 2021-5-30 12:21 编辑

看了K姐,Warald等大神的分享,受益匪浅。为了回报地里的战友门,特意找了K姐推荐的入门课分享给大家:
Udemy: Python for Data Science and Machine Learning Bootcamp
从头看下来花了一些时间,不过确实是讲得很清楚且全面的入门课程,适合小白上手。-baidu 1point3acres
下面是课程涵盖的内容
          1. Course Introduction
          2. Environment Set-Up. 1point3acres.com
          3. Jupyter Overview. check 1point3acres for more.
          4. Python Crash Course
          5. Python for Data Analysis - NumPy
          6. Python for Data Analysis - Pandas
          7. Python for Data Analysis - Pandas Exercises
          8. Python for Data Visualization - Matplotlib
          9. Python for Data Visualization - Seaborn
          10. Python for Data Visualization - Pandas Built-in Data Visualization
          11. Python for Data Visualization - Plotly and Cufflinks-baidu 1point3acres
          12. Python for Data Visualization - Geographical Plotting.
          13. Data Capstone Project
          14. Introduction to Machine Learning
          15. Linear Regression
          16. Cross Validation and Bias-Variance Trade-Off
          17. Logistic Regression
          18. K Nearest Neighbors
          19. Decision Trees and Random Forests
          20. Support Vector Machines. ----
          21. K Means Clustering
          22. Principal Component Analysis
          23. Recommender Systems
          24. Natural Language Processing-baidu 1point3acres
          25. Big Data and Spark with Python
          26. Neural Nets and Deep Learning


以下内容需要积分高于 50 您已经可以浏览
“drive.google.com/file/d/1EgjKdQNtq1BKHlmrCra4oajVlvI_ucZq/view”

解压密码:haohaoxuexitiantianxiangshang

祝大家学习愉快,offer多多,顺便求大家加米啦,先行谢过.--
此生无悔入华夏,家住加利福利亚

图片
头像
SOD楼主
论坛元老
论坛元老
SOD 的博客
帖子互动: 1369
帖子: 26069
注册时间: 2022年 7月 23日 22:53

Re: 金融博士转数据-2年学习材料汇总

帖子 SOD楼主 »

短期快速上岸大厂DS intern的经验和准备资料清单分享     |只看干货

面试经验

数据科学

机器学习

microsoft

找实习




kirash 2022-2-3 22:10:25 | 只看该作者

首先大致说下楼主的背景,本科统计,master是DS硕,本科期间有两段国内互联网大厂数分数科实习,找实习前没有刷过leetcode。今年秋季入学,十月底开始找实习,一月底上岸Microsoft data scientist intern。

因为第一学期学业任务非常重,真正开始全面准备DS面试是在十二月初寒假,在其间系统的过了一遍ML,DL,stat,product知识,在准备的期间找到了很多有用的资料,也总结了一些短期系统复习的经验,在这里分享给大家。

DS面试(这里主要是指偏engineering的,非analytics)主要分为以下几个部分:Machine learning(包含ML case),statistics concept,coding(包括SQL和算法), A/B testing(causal inference),Deep learning/NLP/CV/推荐系统等advanced topics(与简历project相关问题)。重要性排序大致是:ML>stat>Coding>AB test = DL/NLP> other topics. 不过在面试前需要仔细阅读岗位要求,琢磨岗位需要的skillset,有些会侧重experimentation,有些会侧重DL,NLP等。下面我就各个部分分别总结一下复习资料推荐。
.
Machine learning. ----

我当时的策略是按专题一个一个过,总结笔记。比较重要常考的专题有:线性回归(考察基本功,gradient descent,regularization是常考内容),logistic regression(loss function是什么),SVM(模型推导),K-means(描述算法,不同clustering的区别和use case),ensemble learning(bagging和boosting的区别,decision tree的split criterion、算法实现等),除去各种模型之外,model evaluation,data cleaning, model selection等也是常考内容。
参考资料:我当时是以Andrew Ng的 ML 公开课的notes为主要资料,链接贴在这里
同时以林轩田老师的机器学习课件为辅助补充资料(林老师在ensemble learning,decision tree部分讲得很深入),再加上我上学期学校学的ML课件,三个资料总结在一起基本覆盖了所有的ML常考知识点。.google  и
在面试之前,我会查面经,总结该公司常考的ML问题,过一遍基本就差不多了。
ML Case.google  и

ML case 通常是和ml知识点穿插考察,一般是给一个在industry中实际的问题(有可能是组里正在做或者曾经做过的项目),让你提供一个end-to-end的解决方案。重点在于考察:如何选metrics,如何搜集数据转化为可以建模的形式,如何选model(可以从business objective,计算速度,模型复杂度,是否需要实时计算等方面来选择model),如何选evaluation metric(包括imbalance data如何选metric),模型上线后的评估(AB test)等等。这里给大家推荐一个很好的资料:ML Systems Design Interview Guide,作者是一个ML engineer,把如何在面试中回答ML system design总计的很清楚。大家可以根据他的内容总结出合适自己的回答模版。
.1point3acres

Stats
因为本科是统计,基础知识点还是比较熟悉的,所以没有花太多时间在stats上,但我找到了一个总结很好的系统复习统计知识点的网站,Data Science for Beginners part 2. 博主把DS基本所有的统计常考知识点都总结了,我觉得写的很好,新手友好浅显易懂。 除此之外,建议大家把P-value,confidence interval,hypothesis testing这几个基本数学concept定义熟知,同时提前准备好non technical explanation(最好是讲故事举例子来解释)。关于stat concept的解释YouTube博主data science pro总结的很好,大家可以看看。

Coding
首先是SQL,因为之前实习用的比较多,没有花太多时间练习。对于像我一样SQL基础比较好的,可以做一下一个总结好的SQL练习题。这个练习题总共有6道,每道题难度都比较大,且包含了各种常考的知识点,如果能够比较轻松做完这套题,就不用花太多时间在SQL上了。我把练习题附在附件里大家自取。.--
关于算法题,只有少数公司的DS面试会考算法题, 对于只有不到一个月的时间准备的我来说,我只能随缘刷刷题了。主要从要面的公司的常考Leetcode题开始刷,在面试前大概刷了不到30题。我在Microsoft面试的时候被问到了一个比较简单的算法题,但我只来得及walk through思路,没有时间写完了。在面试的时候遇到不会的算法题不要慌,DS对于算法的要求不是很高,尽可能展示自己的逻辑能力和walk through你的解决思路,可以先从暴力方法入手,让面试官带着你一步步优化,最后不要忘记分析一下你的解决方法的时间复杂度。

Deep Learning.--
越来越多公司面试时喜欢问DL知识了,最基本的Neural network,back propagation,gradient vanishing,不同activation function直接的区别,避免overfitting的常用方法需要掌握。其他的advance model,例如CNN,LSTM之类的一般会跟你你之前做过的DL项目来问,一般不会主动问。我当时的复习资料是李宏毅的深度学习课件,由于文件太大不能放在链接,大家自行在网上搜索吧。.

A/B testing
首先需要复习一下统计的基本知识,two sample t-test,significance,statistical power,ANOVA之类的基本概念要弄清楚,这些是AB test的基础。AB test入门的话我是上了Udacity的AB testing网课,第一次听其实有很多地方会不理解,建议反复观看,加深理解。同时我还看了YouTube博主Data Science Pro的AB test系列视频,讲的简单易懂,对于在high level层面理解AB test很有帮助。大致需要知道的topic有:AB test的完整流程和design,sample size的计算,AA test, Mutiple A/B tests,各种Novelty,primacy effect和network effect。
. 1point 3acres

对于特别看重AB test和experimentation的公司,比如robinhood,推荐细读《trustworthy online controlled experiments》这本书,讲的比较深入,也针对各种AB test在实际应用中遇到的问题给出解决方案。一些AB test的advanced topic包括:Sample Ratio Mismatch,Variance reductio,评估Long-Term Treatment Effect等等,这些都在书中有提及。同时建议大家要对causal inference有所了解,如果懂causal inference可能在面试中有所加分。至少要知道用于解决selection bias的propensity score matching.

Other topics
其他常问的topics还包括NLP,CV,recommendation system,建议至少一个和这些advanced topic相关的project,面试的时候也有东西可以和面试官沟通。大家可以对这些topic有一个最基本的了解,然后对自己所做的项目深入了解即可。
DS的面试过程中考察的知识面非常广,各个方面都有可能深入考察,所以不仅要求广度也要求深度。楼主在准备的过程中也感觉很痛苦lol,不过好在结果是好的。希望大家也能在DS准备过程中少走弯路,专心沉淀总结提升,横扫各大厂的DS offer!新人发post,很认真的给大家总结面试经验,如果觉得有帮助的话,求加米求加米!
此生无悔入华夏,家住加利福利亚

图片
回复

回到 “统计与数据科学(Statistics & DataScience)”