r语言之randomforest随机森林

r语言之randomforest随机森林


2024年4月3日发(作者:)

R语言之Random Forest随机森林

什么是随机森林?

随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,

而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森

林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一

棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴切的,其实这也是随

机森林的主要思想--集成思想的体现。

随机森林算法的实质是基于决策树的分类器集成算法,其中每一棵树都依赖于一个随

机向量,随机森林的所有向量都是独立同分布的。随机森林就是对数据集的列变量和行观

测进行随机化,生成多个分类数,最终将分类树结果进行汇总。

随机森林相比于神经网络,降低了运算量的同时也提高了预测精度,而且该算法对多

元共线性不敏感以及对缺失数据和非平衡数据比较稳健,可以很好地适应多达几千个解释

变量数据集。

随机森林的组成

随机森林是由多个CART分类决策树构成,在构建决策树过程中,不进行任何剪枝动

作,通过随机挑选观测(行)和变量(列)形成每一棵树。对于分类模型,随机森林将根

据投票法为待分类样本进行分类;对于预测模型,随机森林将使用单棵树的简单平均值来

预测样本的Y值。

随机森林的估计过程

1)指定m值,即随机产生m个变量用于节点上的二叉树,二叉树变量的选择仍然满

足节点不纯度最小原则;

2)应用Bootstrap自助法在原数据集中有放回地随机抽取k个样本集,组成k棵决

策树,而对于未被抽取的样本用于单棵决策树的预测;

3)根据k个决策树组成的随机森林对待分类样本进行分类或预测,分类的原则是投票

法,预测的原则是简单平均。

随机森林的两个重要参数: 1.树节点预选的变量个数:单棵决策树决策树的情况。 2.

随机森林中树的个数:随机森林的总体规模。

随机森林模型评价因素

1)每棵树生长越茂盛,组成森林的分类性能越好;

2)每棵树之间的相关性越差,或树之间是独立的,则森林的分类性能越好。

减小特征选择个数m,树的相关性和分类能力也会相应的降低;增大m,两者也会随

之增大。所以关键问题是如何选择最优的m(或者是范围),这也是随机森林唯一的一个

参数。

对于分类问题(将某个样本划分到某一类),也就是离散变量问题,CART使用Gini

值作为评判标准。定义为Gini=1-∑(P(i)*P(i)),P(i)为当前节点上数据集中第i类样本的比例。


发布者:admin,转转请注明出处:http://www.yc00.com/news/1712076317a2001267.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信