机器学习或者数学大神有吗? 划线部分。 为什么是二次项?

17:46:33 UTC
这里需要说明的是,如果你投的是general engineer(比如F和G的标准流程,我个人的经历也是),那么基本上没有这一块的专项考察。之所以提出,是因为我在L家投的是DataMining Engineer, 加上有一些机器学习背景,因此onsite的6轮中,有3轮都是考察machinelearning和data mining的(我理解,对于这类职位,这一项可能会部分代替上面的design)。
个人不是机器学习高手,也是刚入门,因此对于这个博大精深的领域不敢造次,仅根据面试经历,给出一些应试的tips。
1.重视基础
与其说去搞明白某一个高深机器学习框架(因为即使你明白,面试官不一定是那个领域专家,你也不一定能表达明白),不如先认真学习概率和机器学习基础(在你和面试官间寻找共同语言)。比如分类和回归问题,大家都知道linearregression可以做回归,logisticregression可以做分类,why?如果用linear regression做分类可以吗?如果要解释清楚,不是能单从两个的值域有区别去说,应该从两个模型的优化目标,即errorfunction去看,这样你就会发现,如果用linear regression做分类,对于那些非常明显的分类正确的点,linearregression居然还试图以二次方去惩罚,这显然不是分类的初衷。将两个模型的errorfunction画成图,一个是U型,一个是指数递减,一切就一目了然了。我在L家面试中,发现如果考察机器学习,都是考察基本概念的理解,比如对SVM的kernel的看法,对于regularization的看法,对lasso和ridgepenalty的看法,PCA的讨论,generative和discrimativemodel的讨论,等等。我个人理解,机器学习有点像学哲学,对于书面上的那些公式,可能有九重天的理解,如果仅仅照搬教材写出公式,只是第一层。你能悟到第几层,能否从更高的角度去融会贯通,是面试官(特别是这个领域很牛的专家)特别想看到的。这就需要先扎实的学习基础,然后多思考总结(一般来说,面试现场灵光一现的情况比较少,还是需要提前积累总结)。
对于基础学习,推荐的资料有(以下资料我都认真学习过,包括作业和实战,非常实用):
:这是一门浅显易读,且颇具实战性的课程。Andrew老师的讲解非常仔细清晰,即使是零基础也很好理解,并且能快速上手做出自己的模型,非常推荐。
:这是Andrew老师在stanford早年的课程,算是上一门的高阶理论版,非常完备的数学推演,可以在网上下载到配套的讲义材料,不仅可以看到清晰的数学推演,还有概率和线性代数基础知识补遗,非常好的材料。
coursera 机器学习基石
:台大林老师的课程风趣幽默,用国语教学,浅显易懂,偏理论基础(实战相对较少),能够让你对机器学习基本概念的理解上一个台阶,悟出更多东西。 (最近林老师新开了该课程的进阶课,机器学习技法,准备继续跟随学习)
:这是Andrew老师在stanford教授该课程的wiki,非常清晰,通俗易懂的介绍了当今最火的deeplearning的基本思路。并有完成的配套实战训练。
2.从实战中领悟:
光看书本,会对理论知识的理解不够深入,另外一方面,也比较难打动面试官(让他认可你在这块的能力)。因此,如果手中有项目可以运用你学到的技能,或者从公开竞赛中获得名次,都是一个一箭双雕的好事。个人感觉,在竞赛/工作中,通过实打实的观察数据,调整模型,思考总结所获得的感悟,会比只看书本来的深刻的多。比如我在kaggle的竞赛中,遇到的问题里trainingsample少的可怜,还有噪音,我尝试在discriminative框架下加各种feature,稍微feature多一点,或者模型复杂一点,就overfitting了,但是feature太少又容易underfitting。后来通过观察数据,加入了适当的先验假设,转为用generative框架,效果非常明显。后来自己总结,discriminative框架比较适合trainingset比较适中的情况(不太少,在X的各分布位置均有适量的sample,不太多,大致满足当前模型需要)。当trainingsample特别少或者特别多的时候,都可以考虑generativemodel。特别少的情况,必须加入正确且强势的先验(通常是gaussian assumption),让珍贵的trainingsample能在正确的路上做出贡献,避免走偏;特别多的情况,不用费劲心思想feature,直接用bayes几乎就能得出靠谱的结论(各种统计维度的计数均达到低误差状态)。
: 感觉像是datascience的TopCoder,会有各种各样的大数据比赛(有些甚至有丰厚的奖金),你可以按照自己的想法去建模,最后系统会给你评价,你的模型在分类/回归中的误差以及在所有队伍中的名次。我是从林老师的课程里了解的该平台承办的比赛,然后抱着试试看,练练手的态度参加了一把,最后在PAKDD2014CUP里拿到了top 3%的好成绩。
3.将感悟记下来
每一次如果你悟出了点新东西,马上记下来,那么下一次你就能站在这个高度继续向上。我在学习机器学习的时候,写下了整整一本笔记本的笔记。即使一段时间不碰有些遗忘,只要再翻一遍笔记本,所有之前的思路感悟就全回来了。
4.面试前的人肉调查
面试中的机器学习环节通常是和工程业务结合很紧的,因此如果有可能,在面试前获得面试官的背景(比如名字,所在部门)等,然后自己做一点功课,搜索一下面试官的心路历程(比如从Linkedin上获得面试官从事过的项目,他发表过的techtalk视频,ppt,他关注的技术方向等)。然后,有针对性的深入了解相关方向,并且自己给自己来一次mockinterview,如果这个项目让我来做,我会怎么做。这样,让你和面试官在针对这个博大精深领域的talk不会变成牛头不对马嘴,互相怀疑解释。至少,大家的基线是一致的,你可以先给出基于你人肉调查,他们已经拥有的设计,然后基于该思路,给出你的改进想法。这样不仅能赢得面试官的亲切感,也容易在某些想法上打动面试官,让他超出预期,对你有很好的反馈。苹果/安卓/wp
积分 149, 距离下一级还需 111 积分
权限: 自定义头衔
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡下一级可获得
权限: 签名中使用图片
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 1 天连续签到: 1 天[LV.1]初来乍到
感觉机器学习/数据挖掘更多是和数学有关,但是看到一些大牛的背景都是计算机,比如陈天奇,很多大牛教授也基本都是计算机学院而不是数学学院的,所以如果想从事机器学习,是读个数学统计学位好还是计算机学位好呢
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
我的看法是math和computer的本科,统计的硕士,统计学习的博士,这样的教育资历更好一些
看你将来想做啥了,想往工业界发展,本科学啥无所谓,研究生去计院
如果想往金融圈发展,去学统计吧
另外楼上,啥是统计学习的博士?我读书少你别骗我
初级学术勋章
初级学术勋章
初级热心勋章
初级热心勋章
初级信用勋章
初级信用勋章
中级信用勋章
中级信用勋章
中级学术勋章
中级学术勋章
中级热心勋章
中级热心勋章
高级热心勋章
高级热心勋章
高级学术勋章
高级学术勋章
高级信用勋章
高级信用勋章
特级热心勋章
高级热心勋章
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
论坛法律顾问:王进律师热门推荐:
1 新智元编译1
作者:Wale Akinfaderin
译者:刘小芹
  ? 业界领袖回溯60年AI历史,全球对话人工智能未来挑战,权威发布2016世界人工智能名人堂及中国人工智能产业发展报告;? 国际大咖“视频”远程参会, Bengio 和李飞飞联袂寄语中国人工智能;? 探秘讯飞超脑及华为诺亚方舟实验室,最强CTO与7大研究院院长交锋;? 滴滴CTO与百度首席架构师坐镇智能驾驶论坛,新智元三大圆桌阵容史无前例;? 中国“大狗”与&X-Dog&震撼亮相,龙泉寺机器僧“贤二”卖萌。
  【新智元导读】本文的主要目的是提供资源,给出有关机器学习所需的数学上面的建议。数学初学者无需沮丧,因为初学机器学习,并不需要先学好大量的数学知识才能开始。正如这篇文章提到的,最基本的需要是数据分析,然后你可以在掌握更多技术和算法的过程中继续学习数学。
  过去几个月里,有不少人联系我,向我表达他们对数据科学、对利用机器学习技术探索统计规律性,开发数据驱动的产品的热情。但是,我发现他们中有些人实际上缺少为了获取有用结果的必要的数学直觉和框架。这是我写这篇文章的主要原因。
  最近,许多好用的机器和深度学习软件变得十分易得,例如 scikit-learn,Weka,Tensorflow,等等。机器学习理论是与统计学、概率论、计算机科学、算法等方面交叉的领域,它产生于从数据出发的学习迭代,试图找出用于开发智能应用的隐藏的洞见。尽管机器学习和深度学习有无限的可能性,对这些技术有一个全面的数学理解对理解算法的内部工作机制、获取好的结果是有必要的。
  为什么要关心数学?
  为什么机器学习中的数学很重要?这个问题的理由我想强调以下几点:
选择合适的算法,要考虑的包括算法准确性、训练时间、模型复杂度、参数的数量和特征数量。
选择参数设置和验证策略。
理解偏差与方差的权衡以确定欠拟合和过拟合。
预估正确的置信区间和不确定性。
  你需要多高的数学水平?
  试图了解一个例如机器学习这样的跨学科领域,主要的问题是必要的数学知识的量,以及理解这些技术需要的数学水平。这个问题的答案是多方面的,取决于个人水平和兴趣。对数学公式和机器学习的理论发展的研究一直在进行着,一些研究人员研究的是更先进的技术。以下我将说明我认为成为一名机器学习科学家/工程师需要的最低程度的数学,以及每个数学概念的重要性。
  1. 线性代数
  Skyler Speakman曾说:“线性代数式21世纪的数学”,我完全赞同该论述。在ML领域,线性代数无处不在。主成分分析(PCA)、奇异值分解(SVD)、特征分解、LU分解、QR分解、对称矩阵、正交化&标准正交化、矩阵运算、投射、特征值&特征向量、向量空间和规范等这些概念对理解机器学习的优化方法都是必须的。我认为线性代数很棒的一点是,互联网上的资源非常多。我总是说传统课堂要消亡,因为互联网上有如此大量的资源。我最喜欢的线性代数课程是MIT的Gilbert Strang教授的。
  2. 概率论与数理统计
  机器学习和数理统计并不是完全不同的领域。事实上,最近有人把机器学习定义为“在Mac上做数理统计”。ML需要的数理统计基础和概率论知识包括组合数学、概率规则&公理、贝叶斯定理、随机变量、方差和均值、条件和联合分别、标准分布(伯努利、二项、多项、统一和高斯)、矩母函数、最大似然估计(MLE)、先验和后验、最大后验估计(MAP)和采样方法。
  3. 多元微积分
  必要的概念包括微积分、偏导数、向量函数、方向梯度、Hessian、Jacobian、Laplacian和Lagragian分布。
  4. 算法和复杂性优化
  这对理解机器学习算法的计算效率和可扩展性以及数据集的开发稀疏性很重要。需要数据结构(二叉树、Hashing、Heap、Stack等等)的知识,以及动态编程、随机&次线性算法、图形、梯度/随机趋势、以及原对偶方法的知识。
  5. 其他
  这包括上述4个主要领域没有涉及的其他数学概念。包括实分析与复分析(集合和序列、拓扑结构、度量空间、单值和连续函数、极限)、信息理论(熵、信息增益)、函数空间和流形。
  下面是部分机器学习所需数学概念的一些MOOC和学习资料:
Khan Academy’s Linear Algebra, Probability & Statistics, Multivariable CalculusandOptimization.
Coding the Matrix: Linear Algebra through Computer Science Applications by Philip Klein, Brown University.
Linear Algebra C Foundations to Frontiers by Robert van de Geijn, University of Texas.
Applications of Linear Algebra, Part 1 and Part 2. A newer course by Tim Chartier, Davidson College.
Joseph Blitzstein C Harvard Stat 110 lectures
Larry Wasserman’s book C All of statistics: A Concise Course in Statistical Inference .
Boyd and Vandenberghe’s course on Convex optimisation from Stanford.
Linear Algebra C Foundations to Frontiers on edX.
Udacity’s Introduction to Statistics.
  最后,本文的主要目的是提供有关机器学习所需的重要数学概念的建议和有用的资源。但是,有些机器学习爱好者可能是数学初学者,会觉得这篇文章令人沮丧(这并不是我的目的)。对初学者来说,你并不需要先学好大量数学知识再开始做机器学习。正如这篇文章提到的,最基本的需要是数据分析,然后你可以在掌握更多技术和算法的过程中继续学习数学。
  豪华嘉宾阵容,共飨 AI 盛宴
  7 大院长齐聚新智元智库院长圆桌论坛
  2016世界人工智能大会技术论坛特设“新智元智库院长圆桌会议”,重量级研究院院长7剑下天山,带来最前沿的AI研究动态、剖析技术发展趋势。
  七位人工智能界“高手”现场过招,思想的激烈碰撞会给目前的人工智能发展带来哪些洞见?七位院长对行业的发展会有哪些前瞻揭秘?10月18日下午,2016 世界人工智能大会技术论坛,答案将逐层揭晓。
  新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。
  2016世界人工智能大会技术论坛议程
  扫描二维码购票:
  购票链接:/go/aiworld2016
  也可点击‘阅读原文’直接购票
  票务联系 132&
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
知名IT评论人,曾就职于多家知名IT企业,现是科幻星系创建人
未来在这里发声。
新媒体的实践者、研究者和批判者。
立足终端领域,静观科技变化。深入思考,简单陈述。
智能硬件领域第一自媒体。}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信