kaggle 入门应该重点学习哪几个模型

【打怪升级】这是一份为数据科学初学者准备的Kaggle竞赛指南那个银行有车主卡
1新智元推荐 智能观授权新智元转载 【新智元导读】 这份入门指南详细介绍了一些参加Kaggle竞赛必知的知识,以及如
【打怪升级】这是一份为数据科学初学者准备的Kaggle竞赛指南
来源:新智元
原标题:【打怪升级】这是一份为数据科学初学者准备的Kaggle竞赛指南
1新智元推荐
智能观授权新智元转载
【新智元导读】 这份入门指南详细介绍了一些参加Kaggle竞赛必知的知识,以及如何在Kaggle竞赛中打怪升级,争夺排位,“登上人生巅峰”!
我从哪里开始?
我会面对经验丰富的博士级研究团队么?
如果我没有获胜的机会,那么还值得竞争吗?
这就是数据科学?(如果在Kaggle做得不好,我在数据科学方面还有未来吗?)
我的未来将如何发展?
当你第一次接触Kaggle时,是否也有这些困惑?好,那你来对地方了!
这份入门指南详细介绍了一些参加Kaggle竞赛必知的知识,以及如何在Kaggle竞赛中打怪升级,争夺排位,“登上人生巅峰”!
对于数据科学初学者来说,Kaggle是一个很受欢迎的竞赛平台。毕竟,这里的一些竞赛中有超过1000000美元的奖金池和数以百计的行业高手。而这里的顶尖团队也拥有数十年的综合经验,曾处理过很多高大上的问题,如改善机场安全或分析卫星数据等。
虽然Kaggle如此有吸引力,但是当你首次参与时也要hold住自己,一定要理清以下内容。
Kaggle 和日常数据科学的差异
首先,我们需要知道的是: Kaggle比赛与日常使用的数据科学是有重要差异的。但是,如果你以正确的心态去了解它们,还是能获取很多宝贵经验的。
Kaggle比赛
本质上,比赛(获奖)必须符合以下3个标准:
1. 问题一定很难。比赛问题不可能一个下午就能解决。为了获得最好的投资收益,主办方会提交使他们的效益最大,同时也是最难解决的问题。
2. 解决方案必须是新的。为了赢得最新的比赛,你通常需要进行扩展研究、制定算法、训练高级模型等。
3. 必须与他人竞争。因为比赛的目标就是赢得冠军,所以你的解决办法必须与他人的竞争,而且争取获胜。
日常的数据科学
相比之下,日常数据科学不需要达到相同的标准。
1. 解决问题的方法越简单越好。事实上,数据科学家应该尝试事半功倍的方法:能够快速有效地解决有影响力的项目。
2. 解决方案必须成熟。大多数常见的任务(如探索性分析、数据清理、A/B测试、经典算法)已经有了证明框架。只需要重新设计架构即可。
3. 不需要与他们竞争成为第一。一个解决方案即使只是胜过之前的测试基准一点点,也可能是非常有价值的。
Kaggle竞赛鼓励你发挥出最优秀的表现,而日常中的数据科学提倡效率和最大化的商业影响。
那么,Kaggle是值得学习的吗?
尽管Kaggle和日常数据科学有很大的不同,但是对于初学者来说,Kaggle仍然是一个很好的学习工具。以下是Kaggle竞赛的3大优势:
1. 每场比赛都是各自独立的。你不需要再扩展自己上一个项目,并收集数据,这可以让你把心思放在其他技能上。
2. 实践就是实践。学习数据科学的最好方法是通过实践学习。你没有必须赢得每一场比赛的压力,同时可以遇到许多有趣的问题。
3. 相互讨论和优胜者访谈对你都有启发性。每一场比赛都有讨论区以及优胜者访谈。你可以深入了解更有经验的数据科学家的思维过程。
Kaggle优胜者访谈
如何开始Kaggle的工作
接下来是一个循序渐进的行动计划,让你在Kaggle上可以轻松提升自己,参与竞争。
步骤1:选择一种编程语言
首先,你需要选择一种编程语言并坚持使用它。在Kaggle和更广泛的数据科学社区论坛中,Python和R都很受欢迎。
如果这俩你都没有接触过,推荐Python,因为它是一种通用的编程语言,你可以端到端使用它。
步骤2:学习数据的基础知识
加载、导航和绘制数据(即探索性分析)的能力是数据科学的第一步,因为它告诉了你在整个模型训练过程中所做的各种决策。
如果你选择了Python语言,那么建议你使用专门为此而设计的Seaborn数据库。 它有许多绘制最常见和有用的图表的高级功能。
步骤3:训练你的第一个机器学习模型
在进入Kaggle之前,建议你在更容易、更易于管理的数据集上对模型进行训练。这可以让你熟悉机器学习库和空间布局。
关键是要养成良好的习惯,比如,将数据集分解为单独的训练集和测试集,交叉验证以避免过度使用,并使用合适的性能指标。
对于Python来说,最好的通用机器学习库是“scikit-Learn”。
步骤4:着手准备入门赛
现在我们已经作好技术准备,该来了解一下Kaggle了!
Kaggle最常见的比赛类型包括以下4种:
特色赛:通常是由公司、组织,甚至是政府赞助的。他们有最大的奖金池。
研究赛:面向研究,几乎没有奖金。他们也有非传统的提交过程。
招聘赛:是由想招聘数据科学家的公司赞助的,比较少见。
(责任编辑:admin)
------分隔线----------------------------
啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊初页:...
消费代际每十年一次更迭,如今,90后甚至95后已经在构建属于自...
摘要:战略业务价值凸显,神州数码2017中报业绩胜预期。 媒体...
人工智能无疑是当下最热门的投资方向之一,但由于AI主要集中...
编者按:本文来自网易科技,翻译:网易见外智能编译机器人,...
作者:李少加 来源:少加点班(ID:lishaojia2015) 编辑:Verna 任...
关于司机网 | 客服中心 | 法律声明 | 联系我们 |欢迎光临中国图书网&请
关注中图网
关注中图网
微信公众号
进入中图网
手机触屏版
机器学习及实践-从零开始通往Kaggle竞赛之路
出版社:出版时间:
本类榜单:
中 图 价:&31.9
(6.5折)定价:&49.0
免运费政策
北京满49元包快递
全国满69元包快递(港澳台除外)
本类五星书
曲面魔术师:ICEM Surf软件学习指南
Adobe Photoshop CS6中文版经典教程-(彩色版)-(附光盘)
MATLAB智能算法超级学习手册
用AngularJS开发下一代Web应用
高效能程序员的修炼
深入浅出数据分析
ASP动态网页程序设计
游戏编程50讲
计算机网络(第5版)
&58.2&89.5
特级教师教育思想录
网络安全实用技术
大话数据结构
计算机网络操作技能
买过本商品的人还买了&44.9&69.0&62.4&79.0
中图价:&31.9
微信公众号
本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具,如Scikitlearn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。
全书共分4章。第1章简介篇,介绍机器学习概念与Python编程知识;第2章基础篇,讲述如何使用Scikitlearn作为基础机器学习工具;第3章进阶篇,涉及怎样借助高级技术或者模型进一步提升既有机器学习系统的性能;第4章竞赛篇,以Kaggle平台为对象,帮助读者一步步使用本书介绍过的模型和技巧,完成三项具有代表性的竞赛任务。
该书帮助对机器学习、数据挖掘感兴趣的读者整合时下流行的基于Python语言的程序库。如Scikit-learn,Pandas, NLTK,Gensim, XGBoost,TensorFlow等,并且针对现实中遇到的数据,甚至是Kaggle竞赛中的分析任务,快速搭建有效的机器学习系统。  同时,作者尽力减少读者为了理解本书,而对编程技能、数学背景的过分依赖,进而降低机器学习模型的实践门槛,让更多的兴趣爱好者体会到使用经典模型以及新的高效方法解决实际问题的乐趣。
●第1章简介篇11.1机器学习综述11.1.1任务31.1.2经验51.1.3性能51.2Python编程库81.2.1为什么使用Python81.2.2Python机器学习的优势91.2.3NumPy
SciPy101.2.4Matplotlib111.2.5Scikitlearn111.2.6Pandas111.2.7Anaconda121.3Python环境配置12●第1章简介篇1
1.1机器学习综述1
1.1.1任务3
1.1.2经验5
1.1.3性能5
1.2Python编程库8
1.2.1为什么使用Python8
1.2.2Python机器学习的优势9
1.2.3NumPy & SciPy10
1.2.4Matplotlib11
1.2.5Scikitlearn11
1.2.6Pandas11
1.2.7Anaconda12
1.3Python环境配置12
1.3.1Windows系统环境12
1.3.2Mac OS 系统环境17
1.4Python编程基础18
1.4.1Python基本语法19
1.4.2Python 数据类型20
1.4.3Python 数据运算22
1.4.4Python 流程控制26
1.4.5Python 函数(模块)设计28
1.4.6Python 编程库(包)的导入29
1.4.7Python 基础综合实践30
1.5章末小结33〖1〗Python机器学习及实践〖1〗目录●第2章基础篇34
2.1监督学习经典模型34
2.1.1分类学习35
2.1.2回归预测64
2.2无监督学习经典模型81
2.2.1数据聚类81
2.2.2特征降维91
2.3章末小结97
●第3章进阶篇98
3.1模型实用技巧98
3.1.1特征提升99
3.1.2模型正则化111
3.1.3模型检验121
3.1.4超参数搜索122
3.2流行库/模型实践129
3.2.1自然语言处理包(NLTK)131
3.2.2词向量(Word2Vec)技术133
3.2.3XGBoost模型138
3.2.4Tensorflow框架140
3.3章末小结152
●第4章实战篇153
4.1Kaggle平台简介153
4.2Titanic罹难乘客预测157
4.3IMDB影评得分估计165
4.4MNIST手写体数字图片识别174
4.5章末小结180
●参考文献182信息
《Python机器学习及实践》很契合实际,从零开始介绍简单的Python语法以及如何用Python语言来写机器学习的模型。每一个章节环环相扣,配合代码样例,非常适合希望了解机器学习领域的初学者,甚至没有编程基础的学生。希望看到这本新书能推动普及机器学习。 今日头条实验室科学家,前百度美国深度学习实验室少帅科学家 李磊
这是一本面向机器学习实践的具有很强实用性的好书,适合于想使用机器学习方法求解实际问题的博士生、硕士生、高年级本科生,以及在企业工作的工程技术人员阅读,是一本快速掌握机器学习方法求解实际问题的入门读物,相信读者将从本书中获益匪浅。清华大学计算机系教授 马少平
尽管目前市场上关于机器学习的书籍很多,但很少具有能够将开发语言及机器学习理论紧密结合,利用开源技术,采用类似&实训&方式的实践教学书籍。该书的作者把自己学习的经验充分融入到全书,深入浅出,是一本适合在校学生以及工程技术人员在机器学习方面快速入门的指导书。 北京邮电大学软件学院教授,教研中心主任 吴国仕
不同于多数专业性的书籍,该书拥有更低的阅读门槛。即便不是计算机科学技术专业出身的读者,也可以跟随本书借助基本的Python编程,快速上手最新并且最有效的机器学习模型。香港科技大学计算机与工程系讲座教授,系主任,IEEE、AAAI Fellow, 国际人工智能协会(IJCAI,AAAI)常务理事,中国人工智能协会副理事,ACM KDD China (ACM数据挖掘委员会 中国分会)主席 杨强
该书的作者从初学者的视角,一步步带领读者从零基础快速成长为一位能够独立进行数据分析并且参与机器学习竞赛的兴趣爱好者。全书深入浅出,特别是对有意了解机器学习,又不想被复杂的数学理论困扰的读者,会从此书中获益。 苏州大学计算机科学与技术学院副院长、人类语言技术研究所所长、特聘教授、国家杰出青年科学基金获得者 张民
如果说机器学习会主导信息产业的下一波浪潮,那么在这波浪潮来临之前,我们是否有必要对其一窥究竟。我很高兴有这样一本零基础实战的好书服务广大读者,为普及这一潮流尽绵薄之力。就像过去几十年间我们不懈普及计算机与互联网一样,人工智能,特别是机器学习的核心思想也应该走出象牙塔,拥抱普罗大众,尽可能让更多的兴趣爱好者参与到实践当中。清华大学语音和语言技术中心主任、教授 郑方
这是一本讲解利用Python进行机器学习实战的入门级好书。该书引领刚入门的读者,从零开始学习数据分析并掌握机器学习竞赛技能,适合于从事机器学习研究和应用的在校生和科研工作者。 微软研究院首席研究员,自然语言处理资深专家 周明信息
范淼 :清华大学计算机系人工智能研究所博士,研究方向涉及机器学习与自然语言处理技术。2015年3月受国家留学基金委公派至美国纽约大学计算机系联合培养。攻读博士期间,于所在研究领域内多个重要国际会议与期刊上发表论文近20篇。先后在Hulu、MSRA(微软亚洲研究院)、百度自然语言处理部、Bosch(博世)北美硅谷研究院等多个公司的研发部门实习,并承担机器学习与自然语言处理相关的研究任务。李超: 工学博士,清华大学副研究员,信息技术研究院Web 与软件技术研究中心副主任。中国计算机学会信息存储技术专委会委员、中国计算机学会高级会员、全国文献影像技术标准化技术委员会(SAC/TC86/SC6)委员、IEEE 会员。研究领域包括海量数据存储、组织与管理、分析,及其在数字图书馆/档案馆/教育/医疗/金融等领域的应用。主持及参与多项国家973、863、科技支撑、自然基金等纵向项目及横向合作项目。已发表学术论文50 余篇、获得授权发明专利10 余项。
商品评论(0条)
暂无评论……
书友推荐&燕下都瓦当文化考论&7.4&15.0&旧制度与大革命&11.3&29.8&村落&17.6&32.0&找死专卖店&5.9&19.5&不安的初啼&11.2&35.0&冒牌的拜佐尔.威灵&9.0&28.0&世界和其他地方&12.7&26.0&中国史纲要&39.0&60.0
&25.8&59.9
梅子涵&8.3&16.0[英]柴纳?米耶维
著,胡绍晏 译&14.8&38.0孔丹&26.1&58.0段启明&3.3&8.0贝蒂?米兰&10.1&26.0凌晨光&15.8&68.0
海淀公安分局备案编号:由于文章的私密性,请打开微信扫一扫关注后即可看此篇文章
& 教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤
教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤
选自Kaggle
机器之心编译
参与:黄小天
上个月,Kaggle 联合创始人兼
Ben Hamner&在 Quora 上回答了有关 Kaggle、机器学习和人工的一系列问题。对于 Hamner 给出的《机器学习的八个步骤》的建议,Kaggle Team 重新整理并做了核心摘要。
现在学习机器学习和人工智能比以往任何时候都更好。近年来,这一领域飞速发展并硕果累累。专家们开源了各种高质量的软件工具和库,新的线上资源和博文也层出不穷。机器学习带动了产业内数十亿美元的收入,催生出了空前的资源和海量的就业机会。但这也意味着如何入门机器学习让人有点无所适从。下面是我的入门方法。如果你在本文中的某处卡住了,请搜索 Kaggle(也许某人以前也遇到了同样问题),并在 Kaggle 论坛上提出问题(如果以前没人提问过该问题),这是找到方向并解决问题的好方法。
1. 挑一个你感兴趣的问题
从一个你想要解决的问题而不是令人生畏的、不系统的主题列表(你可以从谷歌上搜索到很多的机器需诶心资源列表,这里我就不在提供)出发,你会很容易地专注、主动学习。解决问题会促使你更深入更投入,而不是仅仅被动地阅读一些有关机器学习的文章。
选择好的入门问题有几个标准:
问题涵盖了你个人很感兴趣的某一领域
数据随时可用且非常适宜解决问题(否则你的大部分时间将被耗掉)
你可在单台机器上舒服地使用数据(或者数据的一些相关子集)
没有发现问题?被担心!我们通过入门竞赛系列在 Kaggle 上提供了一些很好的机器学习问题。点击 Titanic 竞赛(/c/titanic)开始。
2. 为你的问题做一个快速、劣质和笨拙的端到端解决方案。
确实很容易在实现细节中或者错误机器学习算法的调试中陷入僵局,而你想要避免它。
在这里你的目标是尽快获得一些超级基本的内容,涵盖端到端的问题:读取数据,并将其处理为适合机器学习的形式,训练基本,创造结果并其性能。
3. 进行并改进你的初步方案
现在你有了一个功能基准,是时候创新了。试着改进初步方案的每一个组件,并衡量影响,看看在哪里花费时间有意义。很多时候获取更多数据或者改进数据和预处理步骤比优化机器学习模型本身有更高的回报率(ROI)。
这个步骤的一部分应该包括动手使用数据——检查各行和可视化分布,以更好地理解其结构和奇特性。
4. 写出并分享解决方案
获得解决方案反馈的最佳方式是写下来并分享。写的过程是梳理解决方案的新方式,并带来更好的理解。这同样会使其他人理解你在做的事情并提供反馈,帮助你学习。这也启动了你的机器学习代表项目集(portfolio),有助于你展示能力并取得工作。
Kaggle 数据集(/datasets)和 Kaggle 内核(/kernels)是你分享数据和解决方案、从其他人获得反馈并观察他人如何扩展你的问题的有效方式,并开始充实你的 Kaggle 文件。
5. 在一系列不同的问题上重复步骤 1-4
现在你已经解决了感兴趣的单一问题,然后在一系列不同的领域中多次执行这一操作。
你是从表格数据开始的吗?那就再解决一个涉及更少结构化文本的问题,以及另外一个处理图像的问题。
机器学习问题最初对你而言是结构化的吗?很多创新性和有价值的工作解决的正是如何从一开始把一个松散定义的业务或者研究目标转化为明确定义的机器学习问题。通过这种方式解决一个问题类型。
Kaggle 竞赛(/competitions)和 Kaggle 数据集为明确定义的机器学习问题和适用于机器学习的原始数据资源提供了一个很好的起点。
6. 认真地参与一场 Kaggle 竞赛(如果你还没这样做)
对于一个数千人正致力解决的同一问题给出最佳答案是一个巨大的学习机会:它促使你对同一问题不断迭代,并使你发现什么可以有效解决问题。
个体竞赛的论坛有着关于其他人如何使用你的方法处理和调试问题的丰富资源,内核提供了关于用简单方法开始解决问题的数据的探索性见解,并且博文(/category/winners-interviews/)在最后展示最佳成果。
Kaggle 竞赛也提供了与其他人组队的独特机会。社区人群有着不同的背景和技术,每个人皆可有教和学两种角色。你永远不会不知道,也许你未来的同事也在 Kaggle 社区中。
7. 申请机器学习专业工作
这使你把大部分时间花在机器学习上,并真正提升你的水平。决定你要追求的职位类型并打造与此相关个人代表项目集是一个强有力的起点。如果你还没有准备好面试机器学习职位,那就在目前的职位上接受新项目,寻求咨询机会;并且参与公民黑客马拉松,把握与数据相关的社区服务机会也是获得立足的额外途径。专业工作需要强大的编程能力,并借其极大地提升工作表现——通过重点项目带来的提升将产生很多下游收益。
专业机器学习工作的宝贵机会包括:
机器学习在生产系统中的应用
聚焦机器学习研究,推动最新进展
利用机器学习提升产品和业务决策的探索性分析
8. 教其他人机器学习
教学可以帮你巩固对机器学习核心概念的理解。教他人的方式有很多种,选择最适合自己的一种:
写研究论文(https://papers.nips.cc/book/advances-in-neural-information-processing-systems-29-2016)
写博文(/)和教程(/category/tutorials/)
在 Kaggle、Quora 和其他网站上回答问题
个人指导和辅导
分享代码实例(在 Kaggle 内核和 GitHub 上)
写书(http://www.deeplearningbook.org)
原文链接://the-best-sources-to-study-machine-learning-and-ai-with-ben-hamner-kaggle-cto/
?------------------------------------------------
加入机器之心(全职记者/实习生):
投稿或寻求报道:
广告&商务合作:
姓名电话立即查询&要想创业成功,这八个创业条件就必不可缺了。是哪八个创业成功必要条件呢?我们一起来看看吧。一、创造多种营销手段。这并不意味着非要把75%的预算资金都投入到复印纸张、购买幻灯机、开设网站等宣传上,但这的确需要仔细考虑扩大销售的方法,只有选择合适的营销手段,才能保证公司的正常运转。坐下拿起笔,将每次与顾客洽谈的每个细节都一条条记下来,包括固定包装、宣传小册子等其他介绍产品的方法。”美国联邦营销公司总裁、...&一个完整的员工职业生涯管理流程无疑离不开及时的监督、反馈和评估。企业就需要对其管理效果展开评估,一方面审视中间存在的问题并及时予以更正,从而确保职业生涯管理目标的实现,另一方面则是总结和积累经验,为下一轮的职业生涯管理工作的开展提供科学的依据。确定志向志向是事业成功的基本前提,没有志向,事业的成功也就无从谈起。俗话说:“志不立,天下无可成之事。”立志是人生的起跑点,反映着一个人的理想、胸怀、情趣和...&点击上方蓝字「开源文摘」一键关注内容提要简要介绍下机器学习(MachineLearning)的基本概念。主要介绍机器学习算法的应用,监督学习和无监督学习(supervised-unsupervisedlearning)的应用场景,训练和测试数据的用法,学习效果评估方式。最后,我们介绍scikit-learn及其安装方法。机器学习基础机器学习是设计和研究能够根据过去的经验来为未来做决策的软件,它是通...&本文转载自九行《新周刊》旗下的新锐旅游平台没有去越南之前,你或许曾想象这个国家又穷又乱,而那里的人,或许都留着洗剪吹造型(如越南火爆男子组合HKT)。在音乐剧《西贡小姐》中,金是被美国情人抛弃的可怜舞女。然而,有些人在真正到了越南以后会感叹,这和我想象的不太一样。从17世纪50年代成为法国殖民地开始,西贡透露出一份法式浪漫情调。人们喝着咖啡、吃着法棍是生活日常,你可以见到法式风情的市容和带了些许懒...&
版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐平台。《教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤》的版权归原作者「机器之心」所有,文章言论观点不代表慢钱头条的观点, 慢钱头条不承担任何法律责任。如需删除可联系QQ:
文章来源:
关注机器之心微信公众号
机器之心微信公众号:almosthuman2014
手机扫描上方二维码即可关注机器之心微信公众号
机器之心最新文章
精品公众号随机推荐
违规或不良信息
广告、钓鱼诈骗
内容不完整
金牌理财师将尽快与您联系
来电号码为:****社会化媒体
了解更多>>
桂ICP备 号
桂公网安备 36号
阅读下一篇
自媒体运营攻略
行业经验交流
Hi,在你登录以后,就可以永久免费的收藏任何您感兴趣的内容,关注感兴趣的作者!
请输入正确的邮箱
已有帐号请点击
帐号创建成功!
我们刚刚给你发送了一封验证邮件
请在48小时内查收邮件,并按照提示验证邮箱
感谢你对微口网的信任与支持
如果你没有收到邮件,请留意垃圾箱 或 重新发送
你输入的邮箱还未注册
还没有帐号请点击
你输入的邮箱还未注册
又想起来了?
邮件发送成功!
我们刚刚给你发送了一封邮件
请在5分钟内查收邮件,并按照提示重置密码
感谢你对微口网的信任与支持
如果你没有收到邮件,请留意垃圾箱 或 重新发送
对不起,你的帐号尚未验证
如果你没有收到邮件,请留意垃圾箱 或
意见与建议
请留下您的联系方式
* 留下您正确的联系方式,以便工作人员尽快与你取得联系
新!变现功能上线
现在,只要登录微口网账号,点击“我要变现”,就能领取任务,轻松推广商品,坐收丰厚佣金,只要一分钟操作,就能获取50%超高提成!
合适的商品更容易推广,你可以根据公众号定位,选择调性最适合推广的商品;如果没有公众号,你也可以选择自己喜爱或者符合自己品味的商品。
优秀的产品文案能让我们赚更多钱,你可以直接使用我们平台提供的文案素材;如果你不想用,那么你可以自己随心撰写合适的产品文案。
关于购买链接
你可以将购买链接粘贴在“阅读原文”处;或者分享购买链接/二维码至社交平台或社交群内。只要有用户通过此链接购买了商品即可获得丰厚提成!
转藏至我的藏点Kaggle竞赛入门教程之Kaggle简介(新手向) - CSDN博客
Kaggle竞赛入门教程之Kaggle简介(新手向)
Kaggle号称是全球最大的数据科学家汇聚的平台,高手云集,同时对萌新也很友好。Kaggle网址:/。目前为止(2016.12)网站有这么几个版块:
1、竞赛competitions
2、数据datasets
3、代码kernels
4、论坛forums
5、工作机会jobs
从版块的历史沿革来看,kaggel已经不满足与竞赛题目发布-方案征集的定位,正逐步发展成数据科学家学习、交流的综合平台。本篇重点介绍“竞赛”、“数据”、“代码”这几个版块,便于快速开启一个kaggel竞赛题目。
一、“竞赛”版块
“竞赛”版块是发布竞赛题目和参加竞赛的入口。参加kaggle的竞赛流程基本是:选一个题目&&下载数据&&训练模型&&提交结果&&查看排名&&优化模型(迭代)&&最终提交&&比赛结束。
Kaggle竞赛分类
从参赛者的角度看,竞赛种类有:推荐比赛Featured、人才征募Recruitment、研究型Research、游乐场Playground、入门比赛Getting Started、课业比赛In Class。
推荐比赛Featured是瞄准商业问题带有奖金的公开竞赛。如果有幸赢得比赛,不但可以获得奖金,模型也可能会被竞赛赞助商应用到商业实践中呢。
人才征募Recruitment的竞赛是赞助企业寻求数据科学家、算法设计人才的渠道。只允许个人参赛,不接受团队报名。
研究型Research竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金,也有一部分以会议邀请、发表论文的形式奖励。
游乐场Playground里的题目以有趣为主,比如猫狗照片分类的问题。现在这个分类下的题目不算多,但是热度很高。
入门比赛Getting Started给萌新们一个试水的机会,没有奖金,但有非常多的前辈经验可供学习。很久以前Kaggle这个栏目名称是101的时候,比赛题目还很多,但是现在只保留了4个最经典的入门竞赛:手写数字识别、沉船事故幸存估计、脸部识别、Julia语言入门。
课业比赛In Class是学校教授机器学习的老师留作业的地方,这里的竞赛有些会向public开放参赛,也有些仅仅是学校内部教学使用。
除此以外,还有大师邀请赛Master、前沿探索型Kaggle Prospect等非公开的竞赛,这里不做介绍了。
Kaggle竞赛的排名机制
了解Kaggle的排名机制也会对取得好成绩有所帮助。在比赛结束之前,参赛者每天最多可以提交5次测试集的预测结果。每一次提交结果都会获得最新的临时排名成绩,直至比赛结束获得最终排名。在比赛过程中,Kaggle将参赛者每次提交的结果取出25%-33%,并依照准确率进行临时排名。在比赛结束时,参赛者可以指定几个已经提交的结果,Kaggle从中去除之前用于临时排名的部分,用剩余数据的准确率综合得到最终排名。所以,比赛过程中用于最终排名的那部分数据,参赛者是始终得不到关于准确率的反馈的。这样一定程度避免参赛模型的过拟合,保证评选出兼顾准确率和泛化能力的模型。
二、数据Datasets版块
每一个竞赛题目都有一个数据入口,描述数据相关的信息,与主页上的Datasets选择一个数据其实指向同一个地方。在这里可以下载到提交结果的示范、测试集、训练集。Kaggle的数据以CSV格式最常见,提交的结果也要求是CSV格式。&
三、代码Kernels
这是Kaggle最棒的功能!在这里可以看到其他参赛者自愿公开的模型代码,是学习和交流的最佳所在!当然这个版块取名为kernels,意味支持线上调试和运行你的代码,目前支持Python、R,当然也支持像numpy、pandas流行的数据分析库。对那些暂时缺少硬件资源的参赛者,相当于Kaggle提供了一个“云计算”平台不是吗?我在kernels里简单写了一个脚本查看kaggle提供的平台硬件信息:(是说内存有110+G多么?)
总之,可以作为一个备选的计算资源,毕竟一个竞赛的训练集都至少有几十M呢。
“竞赛”、“数据”、“代码”这三个版块的基本情况介绍完毕,后两个版块都是围绕“竞赛”设置的,每个版块都有内嵌的链接跳转到另外的版块,又都发展出独立的功能。快开始一个Kaggle比赛吧!
本篇译作主要参考Kaggle官方网站的wiki(/wiki/Home)
本文已收录于以下专栏:
相关文章推荐
《Python 机器学习及实践–从零开始通往kaggle竞赛之路》很基础
主要介绍了Scikit-learn,顺带介绍了pandas、numpy、matplotlib、scipy。
本书代码基于p...
Precision-Recall曲线,这个东西应该是来源于信息检索中对相关性的评价吧,precision就是你检索出来的结果中,相关的比率;recall就是你检索出来的结果中,相关的结果占数据库中所有...
第1章 简介篇
1.1机器学习综述
机器学习系统具备如下特点:
&许多机器学习系统所解决的都是无法直接使用固定规则或者流程代码完成的问题,通常这类问题对人类而言却很简单。比如,计算机和手机中的计...
kaggle上有个简单的机器学习教程,用的是Python,这篇文章尝试把其中的主要脉络梳理一下,如果你想要学习,还是推荐到网站上过一遍。数据的导入和导出kaggle的数据集大都是以csv格式的文件存储...
这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data Science)有兴趣的同学们更好的了解这个项目,最好能亲身参与进来,体会一下学校所学的东西和想要解决一个实际的问题所需...
v如何美白?皮肤美白?美白的方法?美白秘方康本有新招!如何美白 皮肤美白 美白的方法 美白秘方康本展现MM魅力!!如何美白 皮肤美白 美白的方法 美白秘方康本让你如沐春风!!如何美白 皮肤美白 美白的...
100道numpy练习
@author:wepon
@blog:http://blog.csdn.net/u/article/details/
今天在deepl...
Kaggle 首战拿银总结 | 入门指导 (长文、干货)
大数据竞赛平台——Kaggle 入门篇
这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。...
他的最新文章
讲师:宋宝华
讲师:何宇健
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信