

本节我们将举具体案例,与大家深入交流临床研究中的预测模型构建思路。我们将以Journal of Clinical Oncology杂志(IF=26.3)中的一篇文章为例,为大家深入解读临床研究中的预测模型的构建和行文思路。
Journal of Clinical Oncology杂志主要刊登肿瘤治疗方面的临床研究,是国际医学肿瘤临床研究领域顶级代表性期刊、美国癌症协会(ASCO)的官方杂志。(话题岔开,这个杂志很适合临床研究的科研人员日常阅读与学习,强烈推荐!)
该文由中科院分子影像重点实验室田捷研究员团队和广东省人民医院放射科合作,采用新兴的影像组学(Radiomics)方法在结直肠癌淋巴结转移预测研究方面取得了重要进展。临床预后预测类文章均可参照此文。

结直肠癌的术前淋巴结转移状态影响着临床决策,决定了手术的清扫范围,影响早期直肠癌局切治疗的选择,以及新辅助放化疗后cCR患者后续治疗的选择等等,但是目前常规的影像学检查判断术前淋巴结状态的准确性亟待提高。同时,近年来影像组学已成为影像学领域最受关注的研究热点和前沿方向之一。因而,本研究则是在抓住了关键问题(如何在术前进行较准确的淋巴结转移判断是当前结直肠癌临床中遇到的挑战性问题),同时应用了前沿方法,开发并验证了影像组学联合CT和临床危险因素列线图(nomogram)模型,用于预测结直肠癌(CRC)术前淋巴结转移的风险。利用研发的预测模型可以辅助临床医生进行结直肠癌的术前决策,具有重要的临床价值和应用前景。这也是田教授团队成功发表JCO的关键所在。接下来我们深入分析该文。
①结直肠癌(Colorectal cancer)是人类最常见的消化道恶性肿瘤之一,其发病率和死亡率分别居所有癌症的第三位和第四位。
②结直肠癌深入盆腔,解剖关系复杂,手术不易彻底,术后复发率高。特别是如果结直肠癌患者合并淋巴结转移,将更难以治疗,必须在手术时对所有受侵犯的淋巴结进行彻底清扫,否则很有可能出现术后复发及转移。但是术前传统CT影像学难以判断淋巴结是否转移,也很难通过穿刺活检获得淋巴结转移信息;而术中对所有淋巴结盲目清扫又会带来很多不必要的副作用(如淋巴水肿等)。
关键缺乏能准确判断cRC术前淋巴结转移情况的工具,影像组学伴随图像分析技术的进步能够解决这一关键问题!
在这儿我们先岔开给大家简单讲一下影像组学这一未来非常有潜能的方向。影像组学(Radiomics)是利用数据挖掘等信息技术,从影像、病理、基因等海量数据中挖掘提取并量化肿瘤海量特征,解析影像与基因和临床信息(分型、疗效和预后等)关联的新方法。

❖影像组学的优势:
·无创
·容易获得
·反映肿瘤整体性质
·可用于动态随访
❖影像组学在肺癌及头颈部肿瘤中的应用:


通过影像组学预测肺癌及头颈部肿瘤的预后。
二、方法部分❖ 总体思路


1 患者资料

人群资料收集时我们需要思考的问题
✦结直肠癌患者:入选/排除标准
✦一般人口学信息
✦影像学资料——纹理特征提取
✦淋巴结转移状态(YES/NO)
针对这一挑战性的问题,田捷研究员团队和广东省人民医院放射科刘再毅教授、梁长虹教授团队合作,回顾分析了广东省人民医院2007-2011年间500余例进行结直肠癌手术的患者资料,利用新兴的影像组学方法,将影像特征、临床病理特征(血清标记物和临床指标)相结合,构建并验证了基于影像组学标签的结直肠癌淋巴结转移术前预测模型,用于对淋巴结转移的概率进行定量预测。
2图像获取方法
两名影像科医师在增强cT门脉相进行勾画
RO:肿瘤最大径层面的肿瘤外轮廓
ICC:观察者内( reader1);
观察者间( reader1 and reader2)
常规CT判断LN+标准
淋巴结增大>1cm和/或>=3个成簇淋巴结
3特征提取方法
提取软件:in-house software
算法分析: Matlab2010
单个图像提取150种特征
统计软件:R
4统计分析

✦问题1:影像学信息特征选择 (变量筛选)
单个图像提取150种纹理特征
✦问题2:如何建模?评价模型预测效果?
Logistics模型
✦问题3:建立 NOMOGRAM,如何判断模型是否可靠?
模型验证
✦问题4:建立的模型是否具有临床应用价值?
三、结果部分结果分为三个部分:基本特征、模型建立以及校正曲线&决策曲线
1基本特征

原始集(primary cohort)与验证集(validation cohort)的基线特征无明显差异。
二者中LN(+)与LN(-)患者大部分特征有差异,尤其是Radiomics score中位数。
CT诊断LNM的准确率为0.63。
PS:一般而言,如果是做预测类模型,分为Primary cohort和validation cohort,validation cohort也可分internal validation(内部验证)和external validation(外部验证)。有时候有的研究只有内部验证,或只有外部验证,也是可以的。更为严谨的研究是需要用外部数据进行验证。
还有就是,原则上我们希望Primary cohort和validation cohort在baseline方面尽量两组差异较小。对于差异较大的变量,我们需要格外注意,其是否对结果产生严重的影响。
2模型建立
特征选择(Feature Selection and Radiomics Signature Building)


利用 LASSO逻辑回归模型,从提取出的150个特征中筛选出24个具有预测作用的特征,这些特征的回归系数均非零。
PS:LASSO方法学部分和R软件程序我们将在单独开展一期推文。如果大家感兴趣,我们将临床研究这一系列推文形成视频后推出。
通过R语言安装"glmnet" 包计算LASSO,得到下列公式,最后计算出Rad score。
建立回归模型建立多元Logistic回归模型(Multivariable logistic regression),建立两个模型(PS:某些大文章会通过纳入不同的变量,建立2-3个Model)。最终进入 model1的参数包括: Radionics signature、CEA水平、CT诊断的LN状态;mode12还包括活检组织的组织学分级。

Nomogram预测淋巴结转移风险(PS:Nomogram简言之就是Logistic回归或者Cox比例风险模型的可视化操作,具体的软件应用也需要另外一篇推文详细阐述Nomogram的原理和R包的应用)

上图可通过三个相对简单的变量(Radiomics signature, CEA level, CT-reported LN status)则可预测结直肠癌淋巴结转移的风险。
3校正曲线&决策曲线

矫正曲线

决策曲线

下一章节我们来与大家详细解读结果部分,讨论部分,以及对我们写这类文章的参考套路。
征 稿 启 事「医学方」现正式向粉丝们公开征稿!内容须原创首发,与科研相关,一经采用,会奉上丰厚稿酬(300-2000元),详情请戳。
“医学方”始终致力于服务“医学人”,将最前沿、最有价值的临床、科研原创文章推送给各位临床医师、科研人员。

医学方已推出“实验室那些事儿”“SCI写作技巧”“文献精读与解析”“医学英语轻松学”“国自然基金申请”“临床数据挖掘”、“基因数据挖掘”、“R语言教程”、“医学统计学”、“微创动物实验培训”等多个专题课程,如需了解课程详细推文,可关注“医学方”公众号,点击“精品专题”进入
腾讯课堂:https://medfun.ke.qq.com
网易云课堂:http://study.163.com/u/ykt1467466791112
客服电话:15821255568
客服微信:yixuefang1234

温馨提示:医学方还设有专门的讨论群哦~各位明星导师都在群中,可以解答各位的遇到的问题,如有兴趣,可以加客服微信后加入群聊...