adaboost算法中训练adaboost弱分类器器应当使用什么算法

点击联系发帖人 时间：2016-12-11 03:43

adaboost分类器算法

&&国之画&&&& &&
版权所有京ICP备号-2
迷上了代码！【图文】大数据经典算法AdaBoost 讲解_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
评价文档：
大数据经典算法AdaBoost 讲解
上传于||文档简介
&&大数据十大经典算法讲解PPT
大小：344.00KB
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢浅谈训练样本对Adaboost算法的影响
0引言AdaBoost算法是Freund和Schapire根据在线分配算法提出的[1],其基本过程是对正负样本赋予一定的权重,通过一定的方式(如Harr特征[2])产生样本特征数据,从而形成关于正负样本的概率分布,形成弱分类器,而后专注于分类错误的样本的处理,通过迭代,形成带有不同投票权重的若干弱分类器,组合在一起从而组成强分类器。从而实现分类的目的。本文参考MIT-CBCL人脸数据库[3],建立了一个数量为1500,正负样本比例为1:2的测试人脸数据库,本文的创新之处在于针对训练样本数量、比例和需要的Harr特征进行了测试实验,得出了若干结论。1训练样本数量对检测结果的影响训练样本的数量太多,导致训练时间增长,而训练样本太少,Adaboost算法处在一种‘欠学习’的状态,会导致检测结果不佳。因此对于样本的训练数量一定有一个比较合理的数值。本节训练样本的具体参数如表1所示。表1不同的训练样本信息(针对数量)训练样本A1A2A3A...&
(本文共2页)
权威出处：
本文采用的行人检测方法是基于AdaBoost分类器和HOG特征的算法,此算法包括分割和识别两部分。首先,分割行人图像,得到行人的候选区域;然后,选取行人样本库,并提取样本库的HOG特征,进行AdaBoost分类器训练;最后,调用训练后的分类器,对候选行人区域进行识别检测。1、Ad aBoost算法简介与研究行人检测技术不仅在智能交通系统和视频监控系统中有广泛的应用,而且在虚拟现实、机器人应用等方面有着非常重要的研究价值[1]。1995年Freund与Schapire[2]提出了AdaBoost(Adaptive Boosting)算法,它是在Boosting算法的基础上通过调整权重得到的自适应算法。AdaBoost算法是一种迭代算法,其基本思想是对同一个训练集训练出不同的弱分类器,然后通过加权的方法将这些弱分类器集成,构成一个更强的最终分类器,也就是强分类器。相关理论和实验已经证明,AdaBoost算法有如下优点[3]:充分利用...&
(本文共2页)
权威出处：
0引言人脸检测[1-4]是计算机视觉与模式识别领域非常活跃的研究课题,在身份验证、人机界面、可视通信、虚拟现实、公安档案管理等很多方面都有着广泛的应用。近年来国内外进行了很多研究并取得一定成效,其中Hyeon Bae等[5]使用特征脸空间和神经网络进行人脸检测,克服了光照对人脸检测的影响。S.Phimoltares等[6]针对有偏转的图像使用边缘检测和NVM的方法寻找人脸的五官位置。Hsiuao-Ying Chenet等[7]提出了Hybrid-boost方法对多姿态人脸检测具有很好的鲁棒性。Tat-SengChua等[8]使用人脸梯度模型完成人脸跟踪。段其昌等[9]将水平集方法引入到粒子滤波框架下,提出了一种对外界干扰有较强鲁棒性的人脸轮廓跟踪算法。何光宏等[10]利用人类肤色特征在输入图像中检测包含人脸的似人脸区作为候选人脸,再光电工程2012年1月http://www.114用同样的方法对候选人脸区域进...&
(本文共6页)
权威出处：
0引言随着模拟战场演示系统需求的日益加大,利用计算机视觉进行目标的检测与跟踪[1],可广泛适用于各类车辆目标的提取。演示操作人员可准确、快速的获得每幅图像中车辆的精确位置,并进行相关操作,从而提高演示效果。在模拟战场演示系统中,往往需要把场景中的目标车辆从背景中分离出来,一般传统的提取方法分为两类,一种是帧间差法[2],通过区别运动的区域与静止的背景区域,从而得到检测结果;另一种是以空间同性为准则,对图像进行运动估计,合并相似区域从而得到检测目标[3]。以上方法计算量大,实时性差,对于目标静止或运动缓慢会产生较大的误差。随着人脸检测技术的不断进步,基于Adaboost(Adaptive Boosting)算法的人脸检测系统正趋于成熟并且得到普遍应用。本文将人脸检测领域中的Adaboost算法应用到车辆检测领域中,提高了车辆检测的效率和准确率,可以实时监控对战平台中的目标车辆运行状况,及时做出下一步判断。实验表明,本系统具有较高的...&
(本文共3页)
权威出处：
人脸检测是指给定一幅图像,然后判断其中是否存在人脸,如果有人脸存在,则返回其位置坐标和大小[1-6]。在Viola[4]提出基于Boosting的快速人脸检测系统后,许多学者对基于Boosting的算法提出了改进。目前,另一种得到广泛应用的学习算法是AdaBoost。该算法的基本思想是:只要找到比随机猜测略好的弱学习算法,就可以通过一定的方式构造出任意精度的强学习算法。Ada-Boost算法能够集成多个弱分类器而成为一个强分类器。文献[2]指出,AdaBoost算法集成有限数量的弱分类器个不利于AdaBoost算法的分类精度进一步改善。文献[3]指出AdaBoost算法在理论上是可以集成无穷多个弱分类器。文献[4]提出可用支持向量机的方法实现无穷维AdaBoost算法,即需要建立一个新的支持向量机核函数,使此核函数集成无穷多个AdaBoost算法弱分类器,并用于电路故障检测。本文在该算法的基础上,将其方法用于人脸检测,在很大程度...&
(本文共5页)
权威出处：
近年来人工智能技术发展日益成熟,人脸检测问题是其中的一个研究热点[5],在几十年的研究过程中,许多研究者提出了有效的检测方法。1995年Freund和Schipare[1,2]提出的AdaBoost算法是第一个实时的人脸检测算法,与以前的方法相比,AdaBoost算法在速度上取得了非常大的成功。在此基础上Viola和Jones[3,4]又提出了积分图像和级联器的概念,结合AdaBoost算法取得了一个里程碑式的成功。国内外众多学者对AdaBoost算法进行了深入的研究和分析,提出了诸如类别不平衡、退化、过拟合等极具代表性的问题,针对这些算法缺点研究者提出了许多改进算法,这里阐述了AdaBoost及在其基础之上的改进算法的研究情况,并对各种方法作了简要的分析。1 AdaBoost算法1995年Freund和Schipare提出了AdaBoost[1]算法,AdaBoost算法其实可以看成Hedge(β)算法的拓展或具体应用版本,也...&
(本文共5页)
权威出处：
扩展阅读：
CNKI手机学问
有学问，才够权威！
出版：《中国学术期刊（光盘版）》电子杂志社有限公司
地址：北京清华大学 84-48信箱大众知识服务
互联网出版许可证新出网证(京)字008号
京ICP证040431号
服务咨询：400-810--9993
订购咨询：400-819-9993
传真：010-求助，如何确定adaboost算法的弱分类器？请大侠帮忙解答
冰清玉洁Zs
同求。我只知道弱分类器个数怎么算：一个特征对应一个弱分类器。
为您推荐：
扫描下载二维码苹果/安卓/wp
积分 53, 距离下一级还需 32 积分
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡下一级可获得
权限: 自定义头衔
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
开心签到天数: 29 天连续签到: 1 天[LV.4]偶尔看看III
本帖最后由 yutho 于
23:11 编辑
各种分类算法比较
最近在学习分类算法，顺便整理了各种分类算法的优缺点。
1决策树（Decision Trees）的优缺点决策树的优点：一、& && && &&&决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。二、& && && &&&对于决策树，数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。三、& && && &&&能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。四、& && && &&&决策树是一个白盒模型。如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。五、& && && &&&易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。六、& && && & 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。七、& && && &&&可以对有许多属性的数据集构造决策树。八、& && && &&&决策树可很好地扩展到大型数据库中，同时它的大小独立于数据库的大小。
决策树的缺点：一、& && && &&&对于那些各类别样本数量不一致的数据，在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。二、& && && &&&决策树处理缺失数据时的困难。三、& && && &&&过度拟合问题的出现。四、& && && &&&忽略数据集中属性之间的相关性。
2 人工神经网络的优缺点人工神经网络的优点：分类的准确度高,并行分布处理能力强,分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，具备联想记忆的功能等。人工神经网络的缺点：神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值；不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。
3 遗传算法的优缺点遗传算法的优点：一、& && && &&&与问题领域无关切快速随机的搜索能力。二、& && && &&&搜索从群体出发，具有潜在的并行性，可以进行多个个体的同时比较，鲁棒性好。三、& && && &&&搜索使用评价函数启发，过程简单。四、& && && &&&使用概率机制进行迭代，具有随机性。五、& && && &&&具有可扩展性，容易与其他算法结合。
遗传算法的缺点：一、& && && &&&遗传算法的编程实现比较复杂,首先需要对问题进行编码,找到最优解之后还需要对问题进行解码,二、& && && &&&另外三个算子的实现也有许多参数,如交叉率和变异率,并且这些参数的选择严重影响解的品质,而目前这些参数的选择大部分是依靠经验.没有能够及时利用网络的反馈信息,故算法的搜索速度比较慢，要得要较精确的解需要较多的训练时间。三、& && && &&&算法对初始种群的选择有一定的依赖性，能够结合一些启发算法进行改进。
4 KNN算法(K-Nearest Neighbour) 的优缺点KNN算法的优点：一、& && && & 简单、有效。二、& && && & 重新训练的代价较低（类别体系的变化和训练集的变化，在Web环境和电子商务应用中是很常见的）。三、& && && & 计算时间和空间线性于训练集的规模（在一些场合不算太大）。四、& && && &&&由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。五、& && && &&&该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。
KNN算法缺点：一、& && && &&&KNN算法是懒散学习方法（lazy learning,基本上不学习），一些积极学习的算法要快很多。二、& && && &&&类别评分不是规格化的（不像概率评分）。三、& && && &&&输出的可解释性不强，例如决策树的可解释性较强。四、& && && &&&该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。五、& && && &&&计算量较大。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。
5 支持向量机（SVM）的优缺点SVM的优点：一、& && && &&&可以解决小样本情况下的机器学习问题。二、& && && &&&可以提高泛化性能。三、& && && &&&可以解决高维问题。四、& && && &&&可以解决非线性问题。五、& && && &&&可以避免神经网络结构选择和局部极小点问题。
SVM的缺点：一、& && && &&&对缺失数据敏感。二、& && && &&&对非线性问题没有通用解决方案，必须谨慎选择Kernelfunction来处理。
6 朴素贝叶斯的优缺点优点：一、& && && &&&朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。二、& && && &&&NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。
缺点：一、& && && &&&理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的（可以考虑用聚类算法先将相关性较大的属性聚类），这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。二、& && && &&&需要知道先验概率。三、& && && &&&分类决策存在错误率
7 Adaboosting方法的优点一、& && && &&&adaboost是一种有很高精度的分类器。二、& && && &&&可以使用各种方法构建子分类器，Adaboost算法提供的是框架。三、& && && &&&当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单。四、& && && &&&简单，不用做特征筛选。五、& && && &&&不用担心overfitting。
8 Rocchio的优点Rocchio算法的突出优点是容易实现，计算（训练和分类）特别简单，它通常用来实现衡量分类系统性能的基准系统，而实用的分类系统很少采用这种算法解决具体的分类问题。
9各种分类算法比较根据这篇论文所得出的结论,Calibrated boosted trees的性能最好，随机森林第二，uncalibrated bagged trees第三,calibratedSVMs第四， uncalibrated neural nets第五。& & 性能较差的是朴素贝叶斯，决策树。& & 有些算法在特定的数据集下表现较好。
[1] 罗森林, 马俊, 潘丽敏.数据挖掘理论与技术[M].电子工业出版社.[2] 杨晓帆,陈廷槐.人工神经网络固有的优点和缺点[J].计算机科学.1994(vol.21).23-26[3] Steve.遗传算法的优缺点.[4] 杨建武.文本自动分类技术.www.icst./course/mining/12-13spring/TextMining04-%E5%88%86%E7%B1%BB.pdf[5] 白云球工作室. SVM(支持向量机)综述.[6] 张夏天. 统计学习理论和SVM的不足（1）.[7] RichCaruana，AlexandruNiculescu-Mizil.An Empirical Comparison of Supervised LearningAlgorithms.2006
载入中......
总评分:&经验 + 36&
论坛币 + 36&
学术水平 + 6&
热心指数 + 6&
信用等级 + 5&
对于超高维的分类来说，我个人倾向于KNN, SVM的计算代价太大，寻找到的最近邻其实就是概率最大的，可以近似等于概率100%。
浏览过的帖子
浏览过的版块
无限扩大经管职场人脉圈！每天抽选10位免费名额，现在就扫& 论坛VIP& 贵宾会员& 可免费加入
加入我们,立即就学扫码下载「就学」app& Join us!& JoinLearn&
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
京ICP证090565号
京公网安备号
论坛法律顾问：王进律师}

常信村百科网