生存分析随机森林实验与代码

admin•2025-03-23 03:03:31•网站建设•阅读40

生存分析随机森林实验与代码

2024年4月3日发(作者：)

随机森林模型在生存分析中的应用

【摘要】目的：本文探讨随机森林方法用于高维度、强相关、小样本的生

存资料分析时，可以起到变量筛选的作用。方法：以乳腺癌数据集构建乳腺癌转

移风险评估模型为实例进行实证分析，使用随机森林模型进行变量选择，然后拟

合cox回归模型。结果：随机森林模型通过对变量的选择，有效的解决数据维

度高且强相关的情况，得到了较高的AUC值。

一、数据说明

该乳腺癌数据集来自于NCBI，有77个观测值以及22286个基因变量。通过

筛选选取454个基因变量。将数据随机分为训练集合测试集，其中2/3为训练集，

1/3为测试集。绘制K-M曲线图：

二、随机森林模型

随机森林由许多的决策树组成，因为这些决策树的形成采用了随机的方法，

因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随

机森林时，其实就是让每一颗决策树进行分类，最后取所有决策树中分类结果最

多的那类为最终的结果。因此随机森林是一个包含多个决策树的分类器，并且其

输出的类别是由个别树输出的类别的众数而定。

使用randomForestSRC包得到的随机森林模型具有以下性质：

Numberofdeaths:27

Numberoftrees:800

Minimumterminalnodesize:3

inalnodes:14.4275

ablestriedateachsplit:3

ables:452

Analysis:RSF

Family:surv

Splittingrule:logrank

Errorrate:19.87%

发现直接使用随机森林得到的模型，预测误差很大，达到了19.8%,

进一步考虑使用随机森林模型进行变量选择，结果如下：

Samplesize:52

Numberofdeaths:19

Numberoftrees:500

Minimumterminalnodesize:2

inalnodes:11.554

ablestriedateachsplit:3

ables:9

Analysis:RSF

Family:surv

Splittingrule:logrank*random*

Numberofrandomsplitpoints:10

Errorrate:11.4%

>$topvars

[1]"213821_s_at""219778_at"

at"

[6]"211603_s_at""213055_at""219336_s_at""37892_at"

"204690_at""220788_s_at""202202_s_

一共选取了

个变量，同时误差只有

11.4%

接下来，使用这些变量做

cox

回归，剔除模型中不显著（>0.01）的变量，最终

参与模型建立的变量共有4个。模型结果如下：

exp(coef)exp(-coef)lower.95upper.95

`218150_at`

`200914_x_at`

`220788_s_at`

`201398_s_at`

`201719_s_at`

`202945_at`

`203261_at`

`203757_s_at`

`205068_s_at`

1.6541

0.9915

0.2649

1.7457

2.4708

0.4118

3.1502

0.7861

0.1073

0.6046

1.0086

3.7750

0.5729

0.4047

2.4284

0.3174

1.2720

9.3180

0.11086

0.34094

0.05944

0.33109

0.93808

0.03990

0.33641

0.61656

0.02223

24.6800

2.8833

1.1805

9.2038

6.5081

4.2499

29.4983

1.0024

0.5181

最后选取六个变量拟合生存模型，绘制生存曲线如下：

下面绘制ROC曲线，分别在训练集和测试集上绘制ROC曲线，结果如下：

训练集：

测试集：

由于测试集上的样本过少，所以得到的

AUC

值波动大，考虑使用

bootstrap

多次计算训练集上的

AUC

值并求平均来测试模型的效果：

AUCat1year

：

0.8039456

AUCat3year

：

0.6956907

AUCat5year

：

0.7024846

由此可以看到，随机森林通过删除贡献较低的变量，完成变量选择的工作，在测

试集上具有较高的

AUC

值，但是比

lasso-cox

模型得到的

AUC

略低。

附录：

load("~/R/")

library(survival)

(10)

i<-sample(1:77,52)

train<-dat[i,]

test<-dat[-i,]

library(randomForestSRC)

<-rfsrc(Surv(time,status)~.,data=train,

ntree=800,mtry=3,

nodesize=3,splitrule="logrank")

<-(object=,vdv,

method="",nrep=50)

$topvars

index<-numeric($modelsize)

for(iin1:$modelsize){

index[i]<-which(names(dat)==$topvars[i])

}

data<-dat[,c(1,2,index)]

i<-sample(1:77,52)

train<-data[i,]

test<-data[-i,]

<-coxph(Surv(time,status)~.,data=train)

train_data<-train[,c(1,2,which(summary()$coefficients[,5]<=0.1)+2)]

tset_data<-test[,c(1,2,which(summary()$coefficients[,5]<=0.1)+2)]

1<-coxph(Surv(time,status)~.,data=train_data)

summary(1)

names(coef(1))

plot(survfit(1),xlab="Time",ylab="Proportion",main="Cox

Model",=TRUE,col=c("black","red","red"),ylim=c(0.6,1))

index0<-numeric(length(coef(1)))

coefficients<-coef(1)

name<-gsub("`","",names(coefficients))

for(jin1:length(index0)){

index0[j]<-which(names(dat)==name[j])

}

library(survivalROC)

riskscore<-(dat[i,index0])%*%(coefficients)

y1<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,

=1,span=0.25*(nrow(train))^(-0.20))

y3<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,

=3,span=0.25*(nrow(train))^(-0.20))

y5<-survivalROC(Stime=train$time,status=train$status,marker=riskscore,

=5,span=0.25*(nrow(train))^(-0.20))

a<-matrix(data=c("y1","y3","y5",y1$AUC,y3$AUC,y5$AUC),nrow=3,ncol=2);a

plot(y1$FP,y1$TP,type="l",xlab="FalsePositiveRate",ylab="TruePositive

Rate",main="Time-dependentROCcurve",col="green")

lines(y3$FP,y3$TP,col="red",lty=2)

lines(y5$FP,y5$TP,col="blue",lty=3)

legend("bottomright",bty="n",legend=c("AUCat1year:0.9271","AUCat3

years:0.8621","AUCat5

years:0.8263"),col=c("green","red","blue"),lty=c(1,2,3),cex=0.9)

abline(0,1)

riskscore<-(dat[-i,index0])%*%(coefficients)

y1<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,=

1,span=0.25*(nrow(train))^(-0.20))

y3<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,=

3,span=0.25*(nrow(train))^(-0.20))

y5<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,=

5,span=0.25*(nrow(train))^(-0.20))

a<-matrix(data=c("y1","y3","y5",y1$AUC,y3$AUC,y5$AUC),nrow=3,ncol=2);a

plot(y1$FP,y1$TP,type="l",xlab="FalsePositiveRate",ylab="TruePositive

Rate",main="Time-dependentROCcurve",col="green")

lines(y3$FP,y3$TP,col="red",lty=2)

lines(y5$FP,y5$TP,col="blue",lty=3)

legend("bottomright",bty="n",legend=c("AUCat1year:0.8761","AUCat3

years:0.7611","AUCat5

years:0.7611"),col=c("green","red","blue"),lty=c(1,2,3),cex=0.9)

abline(0,1)

a<-matrix(0,30,3)

for(cin1:30){

i<-sample(1:77,52)

train<-data[i,]

test<-data[-i,]

<-coxph(Surv(time,status)~.,data=train)

train_data<-train[,c(1,2,which(summary()$coefficients[,5]<=0.1)+2)]

tset_data<-test[,c(1,2,which(summary()$coefficients[,5]<=0.1)+2)]

1<-coxph(Surv(time,status)~.,data=train_data)

names(coef(1))

index0<-numeric(length(coef(1)))

coefficients<-coef(1)

name<-gsub("`","",names(coefficients))

for(jin1:length(index0)){

index0[j]<-which(names(dat)==name[j])

}

riskscore<-(dat[-i,index0])%*%(coefficients)

y1<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,=

1,span=0.25*(nrow(train))^(-0.20))

y3<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,=

3,span=0.25*(nrow(train))^(-0.20))

y5<-survivalROC(Stime=test$time,status=test$status,marker=riskscore,=

5,span=0.25*(nrow(train))^(-0.20))

a[c,]<-c(y1$AUC,y3$AUC,y5$AUC)

}

发布者：admin，转转请注明出处：http://www.yc00.com/web/1712095789a2004426.html

模型森林变量进行决策树

admin

网站建设
我如何在笔记本运行GPT-4级别的模型
Meta的新模型Llama 3.3 70B是一个真正的GPT-4级别的大型语言模型，它可以在我的笔记本电脑上运行。仅仅在20个月前，我还在为能在同一台机器上运行感觉达到GPT-3级别的模型而感
admin
1月前
60
网站建设
高效使用chatGPT等大模型方法
参考文档：chatGPT官方文档和其余国内大模型输出结果高效使用chatGPT视频：学完这个视频，简历加一条：熟练掌握ChatGPT解决复杂问题&am
admin
1月前
100
网站建设
【ChatGPT大模型开发调用】如何获得 OpenAl API Key?
如何获取 OpenAI API Key 获取 OpenAI API Key 主要有以下三种途径： OpenAI 官方平台 (推荐): 开发者用户可以直接在 OpenAI 官方网站 (platform.openai)
admin
1月前
40
网站建设
智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐
智胜未来：国内大模型Agent应用案例精选，以及主流Agent框架开源项目推荐 Agent是以大模型为核心的智能体，通过与用户对话的形式，来完成各种任务
admin
1月前
50
网站建设
小白windows系统从零开始本地部署大模型全记录
转自生信技能树大家好，最近两年大语言模型风靡全球，最近，不少开源大模型，将模型部署到自己的电脑上，用个性化的数据微调想必是不少人
admin
1月前
30
网站建设
ai大模型之争-浏览器插件-豆包
概述： 1，豆包浏览器插件的下载，安装 2，整个网页总结，网页翻译；网页中选择文字&#xff1a
admin
1月前
30
网站建设
【AI模型对比】AI新宠Kimi与ChatGPT的全面对比：技术、性能、应用全揭秘
文章目录 Moss前沿AI技术背景Kimi人工智能的技术积淀ChatGPT的技术优势详细对比列表模型研发Kimi大模型的研发历程ChatGPT的发展演进参数规模与架构Kimi大模型的参数规模解析ChatGPT的参数体系模型表现与局限性
admin
1月前
40
网站建设
windows下用户变量和系统变量
系统变量： 对所有的用户起作用。用户变量： 对当前用户起作用。有的时候我们会看到在用户变量和系统变量中都存在某一个环境变量，比如path，那么pa
admin
28天前
10
网站建设
笔记本电脑本地部署ollama大模型（显存不足调用CUDA Unified Memory方法）
软硬件：win11,NVIDIA GeForce RTX 3050 显存4g 一.ollama模型最低要求 1. Llama 3.1 (8B) 模型 GPU: 至少需要 1 张具有 16 GB 显存的 GPU&a
admin
27天前
20
网站建设
豆包，大模型的磁力三重奏
如今，很多媒体与AI从业者都在追问一个问题：大模型，究竟堵在哪了？ 经历了2023年的百模大战，AI产业迎来了从“是否有大模型”到
admin
26天前
40
网站建设
重构大模型磁力，要在豆包身上找答案
如今，很多媒体与AI从业者都在追问一个问题：大模型，究竟堵在哪了？ 经历了2023年的百模大战，AI产业迎来了从“是否有大模型”
admin
26天前
00
网站建设
2025 年 AI 十大展望：软件市场扩大 10 倍、系统比模型更重要、OpenAI 先发优势消退...
尽管有 Scaling Law 放缓这样的疑虑，但整体而言，多数业内人士对 AI 过去一年的诸多进展感到兴奋，对新的一年 AI 的发展更是充满期待，尽管
admin
26天前
50
网站建设
51c大模型~合集99
我自己的原文哦~ https:blog.51ctowhaosoft12973297 #GLM-Zero-Preview 考研数学得126分、还能编写小游戏，智谱首个推理模型来了&#xff0c
admin
26天前
20
网站建设
GitHub 热门开源项目：超10万星标，《GPT-4 和 ChatGPT 实战指南》——大模型应用开发的入门宝典
今天，不讲其他大模型内容，只做分享当下大模型这么火，还有人很多人想加入进来，但是不知道怎么去学习，那么今天我就给大家分享一本适
admin
26天前
30
网站建设
发现一个开源的Chatgpt-web应用，前端使用vue编写，后端也是nodejs代码编写的，还可以配合fastchat本地部署chatglm3大模型，可以调用成功
0，演示本地启动视频，还可以配合fastcht部署chatglm3大模型演示视频： https:www.bilibilivideoBV1WC4y1k7j5?vd
admin
26天前
30
网站建设
Github大模型优质资源分类整理与进一步梳理
大模型学习与课程资料 1.LLM从入门到精通的开源课程地址 GitHub - mlabonnellm-course: Course to get into Large Language Models (LLMs) with roa
admin
26天前
40
网站建设
如何使用ChatGPT等大模型翻译视频？2024最新翻译技巧分享
随着全球化的浪潮，跨语言沟通的需求日益增长。视频，作为一种生动直观的表达方式，也越来越需要跨越语言的障碍，触达更广泛的受众。因此，
admin
26天前
40
网站建设
腾讯元宝接入 DeepSeek R1 模型，支持深度思考 + 联网搜索，好用不卡机！
腾讯元宝接入 DeepSeek R1 模型，支持深度思考联网搜索，好用不卡机！ 前言腾讯元宝AI产品于2025年2月13日在应用商店发布更新，
admin
18天前
20
网站建设
腾讯终于出手了，发布的AI 视频生成模型！完全免费开源，生成质量高！HunyuanVideo AI文生视频大模型
腾讯发布超强AI视频生成模型！完全免费开源，生成质量极高！HunyuanVideo模型， 一、下载链接 1、邀请你一起来体验腾讯元宝的应用【AI视频】
admin
18天前
30
网站建设
推荐系统之LFM--潜在因子模型
推荐系统之LFM 原网址：http:wwwblogshxsylp4882768.html 这里我想给大家介绍另外一种推荐系统，这种算法叫做潜在因子（Latent
admin
17天前
10

发表回复

评论列表（0条）

暂无评论

生存分析随机森林实验与代码

发表回复

评论列表（0条）

联系我们

400-800-8888

生存分析 随机森林实验与代码

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888

生存分析随机森林实验与代码