决策树:程序设计中的条件分支結构就是if-then结构最早的决策树就是利用这类结构分割数据的一种分类学习方法。
猜谁是冠军假设有32支球队
“谁是世界杯冠军”的信息量應该比5比特少。香农指出它的准确信息量应该是:
信息和消除不确定性是相联系的,信息熵越大,不确定性越大
定义:当得知一个特征條件后,减少的信息熵的大小
特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为
信息增益比 最大的准则
回归树: 平方误差 最小
分类树: 基尼系数(划分更加仔细) 最小的准则 在sklearn中可以选择划分的默认原则
?criterion:默认是’gini’系数,也可以選择信息增益的熵’entropy’
泰坦尼克号乘客生存分类模型
在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态在泰坦尼克号的数據帧不包含从剧组信息,但它确实包含了乘客的一半的实际年龄关于泰坦尼克号旅客的数据的主要来源是百科全书Titanica。这里使用的数据集昰由各种研究人员开始的其中包括许多研究人员创建的旅客名单,由Michael
我们提取的数据集中的特征是票的类别存活,乘坐班年龄,登陸home.dest,房间票,船和性别乘坐班是指乘客班(1,23),是社会经济阶层的代表
其中age数据存在缺失。
2、选择有影响的特征处理缺失徝
3、进行特征工程,pd转换字典特征抽取
决策树对泰坦尼克号进行预测生死
# 处理数据,找出特征值和目标值
# 分割数据集到训练集合测试集
# 進行处理(特征工程)特征-》类别-》one_hot编码
把样本转化为字典默认一行转化为一个字典
决策树的结构、本地保存
集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型各自独立地学习和作出预测。这些预测最后结合成单预测因此优於任何一个单分类的做出预测。
同理在机器学习中,多个决策树的分类器结合在一起就组成了一个随机森林,并且其输出的类别是由個别树输出的类别的众数而定
例如, 如果你训练了5个树, 其中有4个树的结果是True,
1个数的结果是False, 那么最终结果会是True.
随机森林建立多个决策树的过程
(N个样本,M个特征)单个树的建立过程:
1.随机在N个样本中选择一个样本重复N次,样本有可能重复
2.随机在M个特征中选出m个特征,m取值
建立10棵决策树样本,特征大多不一样 随机有放回的抽样 bootstrap抽样
根据下列算法而建造每棵树:
?用N来表示训练用例(样本)的个数M表示特征数目。
?输入特征数目m用于确定决策树上一个节点的决策结果;其中m应远小于M。
?从N个训练用例(样本)中以有放回抽样的方式取样N次,形成一个训练集(即bootstrap取样)并用未抽到的用例(样本)作预测,评估其误差
?为什么要随机抽样训练集?
如果不进行随机抽样每棵树的训练集都一样,那么最终训练出的树分类结果也是完全一样的
?为什么要有放回地抽样?
如果不是有放回的抽样那么每棵樹的训练样本都是不同的,都是没有交集的这样每棵树都是“有偏的”,都是绝对“片面的”(当然这样说可能不对)也就是说每棵樹训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树(弱分类器)的投票表决。
随机森林进行预测 (超参数调优)
# 随机森林进行预测 (超参数调优
# 网格搜索与交叉验证
?在当前所有算法中具有极好的准确率
?能够有效地运行在大数据集上
?能够处理具有高維特征的输入样本,而且不需要降维
?能够评估各个特征在分类问题上的重要性
?对于缺省值问题也能够获得很好得结果
}