r语言之randomforest随机森林|江阴雨辰互联

2024年4月3日发(作者：)

R语言之Random Forest随机森林

什么是随机森林？

随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，

而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。随机森

林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一

棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随

机森林的主要思想--集成思想的体现。

随机森林算法的实质是基于决策树的分类器集成算法，其中每一棵树都依赖于一个随

机向量，随机森林的所有向量都是独立同分布的。随机森林就是对数据集的列变量和行观

测进行随机化，生成多个分类数，最终将分类树结果进行汇总。

随机森林相比于神经网络，降低了运算量的同时也提高了预测精度，而且该算法对多

元共线性不敏感以及对缺失数据和非平衡数据比较稳健，可以很好地适应多达几千个解释

变量数据集。

随机森林的组成

随机森林是由多个CART分类决策树构成，在构建决策树过程中，不进行任何剪枝动

作，通过随机挑选观测（行）和变量（列）形成每一棵树。对于分类模型，随机森林将根

据投票法为待分类样本进行分类；对于预测模型，随机森林将使用单棵树的简单平均值来

预测样本的Y值。

随机森林的估计过程

1）指定m值，即随机产生m个变量用于节点上的二叉树，二叉树变量的选择仍然满

足节点不纯度最小原则；

2）应用Bootstrap自助法在原数据集中有放回地随机抽取k个样本集，组成k棵决

策树，而对于未被抽取的样本用于单棵决策树的预测；

3）根据k个决策树组成的随机森林对待分类样本进行分类或预测，分类的原则是投票

法，预测的原则是简单平均。

随机森林的两个重要参数： 1.树节点预选的变量个数：单棵决策树决策树的情况。 2.

随机森林中树的个数：随机森林的总体规模。

随机森林模型评价因素

1）每棵树生长越茂盛，组成森林的分类性能越好；

2）每棵树之间的相关性越差，或树之间是独立的，则森林的分类性能越好。

减小特征选择个数m，树的相关性和分类能力也会相应的降低；增大m，两者也会随

之增大。所以关键问题是如何选择最优的m（或者是范围），这也是随机森林唯一的一个

参数。

对于分类问题（将某个样本划分到某一类），也就是离散变量问题，CART使用Gini

值作为评判标准。定义为Gini=1-∑(P(i)*P(i)),P(i)为当前节点上数据集中第i类样本的比例。

发布者：admin，转转请注明出处：http://www.yc00.com/news/1712076317a2001267.html

【多图超详细】从零开始安装配置Cuckoo sandbox并提交样本进行分析 (1)

1. 功能介绍 **沙盒(Sanbox)**是一种将未知、不可信的软件隔离执行的安全机制。恶意软件分析沙盒一般用来将不可信软件放在隔离环境中自动地动态执行，然后提取其运行过程中的进程行为、网络行为、文件行为等动态行为

admin

3月前

110

r语言之randomforest随机森林

发表回复

评论列表（0条）

联系我们

400-800-8888

r语言之randomforest随机森林

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888