2024年4月3日发(作者:)
R语言之Random Forest随机森林
什么是随机森林?
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,
而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森
林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一
棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随
机森林的主要思想--集成思想的体现。
随机森林算法的实质是基于决策树的分类器集成算法,其中每一棵树都依赖于一个随
机向量,随机森林的所有向量都是独立同分布的。随机森林就是对数据集的列变量和行观
测进行随机化,生成多个分类数,最终将分类树结果进行汇总。
随机森林相比于神经网络,降低了运算量的同时也提高了预测精度,而且该算法对多
元共线性不敏感以及对缺失数据和非平衡数据比较稳健,可以很好地适应多达几千个解释
变量数据集。
随机森林的组成
随机森林是由多个CART分类决策树构成,在构建决策树过程中,不进行任何剪枝动
作,通过随机挑选观测(行)和变量(列)形成每一棵树。对于分类模型,随机森林将根
据投票法为待分类样本进行分类;对于预测模型,随机森林将使用单棵树的简单平均值来
预测样本的Y值。
随机森林的估计过程
1)指定m值,即随机产生m个变量用于节点上的二叉树,二叉树变量的选择仍然满
足节点不纯度最小原则;
2)应用Bootstrap自助法在原数据集中有放回地随机抽取k个样本集,组成k棵决
策树,而对于未被抽取的样本用于单棵决策树的预测;
3)根据k个决策树组成的随机森林对待分类样本进行分类或预测,分类的原则是投票
法,预测的原则是简单平均。
随机森林的两个重要参数: 1.树节点预选的变量个数:单棵决策树决策树的情况。 2.
随机森林中树的个数:随机森林的总体规模。
随机森林模型评价因素
1)每棵树生长越茂盛,组成森林的分类性能越好;
2)每棵树之间的相关性越差,或树之间是独立的,则森林的分类性能越好。
减小特征选择个数m,树的相关性和分类能力也会相应的降低;增大m,两者也会随
之增大。所以关键问题是如何选择最优的m(或者是范围),这也是随机森林唯一的一个
参数。
对于分类问题(将某个样本划分到某一类),也就是离散变量问题,CART使用Gini
值作为评判标准。定义为Gini=1-∑(P(i)*P(i)),P(i)为当前节点上数据集中第i类样本的比例。
发布者:admin,转转请注明出处:http://www.yc00.com/news/1712076317a2001267.html
评论列表(0条)