论著
侯坤, 王振飞
目的 构建一种基于机器学习的预测模型,用于预测肿瘤患者在发生肿瘤治疗相关血小板减少后,使用重组人血小板生成素注射液(recombinant human thrombopoietin,Rh-TPO)一段时间后血小板的具体数值和血小板数值的提升情况。方法 选择呼和浩特市某三甲肿瘤专科医院进行抗肿瘤药物治疗后发生血小板减少并进行重组人血小板生成素升血小板治疗的800例住院患者的相关资料,建立原始数据集,随后按照6∶2∶2的比例随机化分为训练集、测试集和验证集。利用主成分分析法(principalcomponentanalysis,PCA)降低训练集的变量维度,保留主要特征变量。构建7个预测模型,包括线性回归(linear regression,LR)、随机森林回归(random forest regression,RF)、极端梯度增强(extreme gradient boosting,XGBoost)、决策树回归(decision tree regressor,DT)、贝叶斯回归(Bayesian ridge regression,BR)、K最邻近节点算法(K-nearest neighbor regressor,KNN)、梯度提升决策树(gradient boosting regressor,GB)。模型性能评估指标包括相关系数评分(r2 score)、均方误差(mean squared error,MSE)、平均绝对误差(mean absolute error,MAE),确定最佳模型,并采用沙普利加性解释(SHAP)方法对最佳模型中的特征重要性进行解释。结果 采用PCA法将训练集的14个特征变量降维获得8个主成分,分别为使用Rh-TPO前血小板数值、Rh-TPO使用疗程、化疗前PLT数值、化疗后第几日复查、基线血红蛋白数值、年龄、身高、民族。7个机器学习模型中,随机森林回归模型最终的性能表现最佳,在训练集、测试集和验证集上的r2值分别为0.89,0.69和0.51。SHAP结果对最优模型进行解释,显示使用Rh-TPO前血小板数值、Rh-TPO使用疗程、化疗前PLT数值分别排在8个特征中的前3位。结论 本研究结果证实,最优模型为RF模型,其在预测Rh-TPO治疗肿瘤患者CTIT的效果方面具有良好的表现,为临床医生的相关治疗决策提供了一定的预测参考。但考虑到其回顾性数据性质及纳入研究的数据数量有限等因素,后续将增加符合研究的数据以增加机器反复学习的频率和对数据的处理量,进一步优化模型的性能和参数,从而提高预测结果的准确度。