引用本文:
【打印本页】   【下载PDF全文】   查看/发表评论  【EndNote】   【RefMan】   【BibTex】
←前一篇|后一篇→ 过刊浏览    高级检索
本文已被:浏览 483次   下载 186 本文二维码信息
码上扫一扫!
分享到: 微信 更多
基于SHAP与机器学习构建川崎病 患儿发生冠脉损害可解释性预测 模型的初步研究
孙景巍 董楠 祁冬 李加晨1
蚌埠市第一人民医院儿内科
摘要:
目的 探讨构建川崎病(KD)患儿发生冠状动脉损害(CAL)风险的机器学习预测模型,并利用沙普利加性解释 (SHAP)方法分析影响 CAL 风险的关键因素。 方法 回顾性选取 2020 年 6 月至 2024 年 9 月蚌埠市第一人民医院收治并确诊为 KD急性期的100例患儿为研究对象,其中发生CAL 25例。按照7∶3随机分为训练集70例和验证集30例。采用最小绝对收缩和 选择算子(LASSO)回归筛选KD患儿发生CAL的重要特征变量,并分别应用随机森林、支持向量机、决策树、轻量级梯度提升机和 K最近邻5种机器学习算法构建机器学习模型。采用ROC曲线、校准曲线及临床决策曲线评价各机器学习模型的效能。最后,应 用 SHAP 方法对最优机器学习模型进行可解释性分析。 结果 在训练集中,经 LASSO 降维筛选显示,N 末端脑利钠肽前体(NTproBNP)、C 反应蛋白(CRP)、白细胞介素-6(IL-6)、血小板计数(PLT)、甘油三酯(TG)、白细胞计数、血沉、降钙素原和红细胞压 积是 KD 患儿发生 CAL 的重要特征变量。ROC 曲线分析显示,在训练集中随机森林、轻量级梯度提升机、决策树、支持向量机和 K 最近邻预测 KD 患儿发生 CAL 的 AUC 分别为 0.905、0.816、0.753、0.743 和 0.691,以随机森林 AUC 最高,其诊断特异度、准确度、 召回率及 F1 值分别为 0.884、0.867、0.921 和 0.836。校准曲线分析显示,随机森林模型在 5 种机器学习模型中预测准确度最佳; 临床决策曲线分析显示,与其他机器学习模型比较,随机森林模型表现出更大的临床净获益率。SHAP 图显示,对 KD 患儿发生 CAL影响最重要的前5位特征因素依次为NT-proBNP、CRP、IL-6、PLT和TG。 结论 基于SHAP可解释性的机器学习模型能够 有效预测KD患儿发生CAL的风险,尤以随机森林模型在预测效能最佳。
关键词:  
DOI:10.12056/j.issn.1006-2785.2025.47.7.2024-2237
分类号:
基金项目:安徽省卫生健康科研重点项目(AHWJ2022a040);蚌埠市科技创新指导类项目(20220105、20230108);蚌埠医学院科技 项目(2022byzd154)
Abstract:
Key words: