目的 探讨基于血清细胞因子预测肺癌免疫治疗反应性可解释机器学习模型性能。
方法 选取2022年1月至2025年12月我院收治的接受免疫治疗肺癌患者84例。将免疫治疗有反应者58例分为观察组,无反应者26例分为对照组。收集比较两组临床资料,采用最小绝对收缩与选择算子回归(least absolute shrinkage and selection operator, LASSO)筛选核心预测特征,分别构建逻辑回归(logistic regression, LR)、随机森林(random forest, RF)、支持向量机(support vector machine, SVM)、极端梯度提升(extreme gradient boosting, XGBoost)4种机器学习模型,通过受试者工作特征曲线下面积(area under the curve, AUC)判断模型鉴别性能;采用沙普利加性解释(shapley additive explanations, SHAP)对最优模型进行临床可解释性分析。
结果 观察组较对照组年龄[(59.33±9.12岁)比(57.82±7.93)岁,P=0.445],吸烟占比(34.48%比61.54%,P=0.021)及ECOG评分(0分:67.24%比38.46%;1分:32.76%比61.54%,P=0.013)。观察组基线血清白细胞介素(interleukin, IL)-6[(46.78±10.32) pg/ml比(56.47±11.23 )pg/ml,P=0.001]、IL-10[(5.20±1.64) pg/ml比(6.48±1.56) pg/ml,P=0.001]、肿瘤坏死因子-α[(tumor necrosis factor-α,TNF-α)(12.33±3.00) pg/ml比(14.22±3.34 )pg/ml, P=0.017]、IL-1β[(11.28±3.21) pg/ml比(14.75±2.89)pg/ml,P<0.001]及癌胚抗原(carcinoembryonic antigen, CEA)[(20.53±6.36) ng/ml比(25.98±7.15)ng/ml,P=0.002]、鳞状上皮细胞癌抗原(squamous cell carcinoma antigen, SCC)[1.65±0.42) ng/ml比(1.89±0.51) ng/ml,P=0.042]、细胞角蛋白19片段(cytokeratin 19 fragment, CYFRA21-1)[(7.33±2.15) ng/ml比(8.56±2.34)ng/ml,P=0.027]低于对照组;两组IL-8差异无统计学意义[(7.67±2.10) pg/ml比(8.48±2.37)pg/ml,P=0.141],经LASSO筛选纳入IL-1β、IL-8、IL-6、TNF-α及ECOG评分5个预测因子。构建的4种机器学习模型中,XGBoost模型性能最优,AUC达0.956,准确率91.2%,召回率89.0%,精确率90.5%,F1分数0.896。SHAP分析显示特征贡献度排序依次为IL-1β、IL-8、IL-6、TNF-α、ECOG评分。
结论 基于血清细胞因子构建的XGBoost机器学习模型可预测肺癌患者免疫治疗反应性,SHAP方法明确了关键特征贡献,具有临床意义。