论文范文:基于 XGboost 算法的缺血性脑卒中复发预测模 型构建

来源: 未知 作者:paper 发布时间: 2022-07-09 10:43
论文地区:中国 论文语言:中文 论文类型:工商管理
目的:了解缺血性脑卒中(Ischemic Stroke,IS)患者首发卒中后 12 个月内的复发情况; 明确缺血性脑卒中复发的重要影响因素;基于极端梯度上升(eXtreme Gradient Boosting,XGboost)算法构建缺血性脑
目的:了解缺血性脑卒中(Ischemic Stroke,IS)患者首发卒中后 12 个月内的复发情况;
明确缺血性脑卒中复发的重要影响因素;基于极端梯度上升(eXtreme Gradient
Boosting,XGboost)算法构建缺血性脑卒中复发预测模型,为临床识别缺血性脑卒中复
发高危患者提供预测工具。
方法:本研究在文献研究回顾 IS 复发风险因素的基础上,回顾性收集 2017 年 6 月
1 日至 2019 年 6 月 30 日于遵义医科大学第五附属(珠海)医院神经内科住院治疗的
首发 IS 患者复发风险因素相关数据,并对符合纳入标准的 524 例首发 IS 患者进行为
期 12 个月的追踪随访,了解患者卒中后 3 个月内、6 个月内和 12 个月内的复发情况;
使用 SPSS21.0 进行单因素和多因素分析,探讨 IS 患者 3 个月内、6 个月内和 12 个月
内复发的影响因素;使用 XGboost 算法进行 IS 复发预测模型的构建。
结果:1.纳入的 524 例首发 IS 患者中,11 例(2.1%)在卒中后 3 个月内出现复发事件,
卒中后 6 个月内累积复发 33 例(6.3%),卒中后 12 个月内累积复发 59 例(11.3%)。
2.单因素分析结果显示:首发 IS 患者卒中后 3 个月内复发与入院收缩压、纤维蛋白
原水平相关(P<0.05);卒中后 6 个月内复发与吸烟、颈动脉粥样硬化、入院舒张压、
尿酸、载脂蛋白 A1、糖化血红蛋白有关(P<0.05);卒中后 12 个月内复发与吸烟、
饮酒、高血压、颈动脉粥样硬化、入院微机血糖、糖化血红蛋白有关(P<0.05); 多
因素分析结果显示:首发 IS 卒中后 3 个月内复发的独立影响因素是入院收缩压水平
(OR=1.036,95%CI=1.002~1.072,P=0.038),吸烟是卒中后 6 个月内复发(OR=2.45
3,95%CI=1.015~5.931,P=0.046)和 12 个月内复发(OR=2.960, 95%CI=1.328~6.595,
P=0.008)的独立影响因素。糖化血红蛋白(OR=1.435,95%CI=1.071~1.924, P=0.016)
是卒中后 12 个月内复发的独立影响因素。SMOTE 算法处理后数据的 Logistic 回归模
型结果显示年龄(60~74 岁:OR=2.552,95%CI=1.364~4.775,P=0.003;≥75 岁:O
R=2.134,95%CI=1.073~4.245,P=0.031),住院时间(OR=1.792,95%CI=1.129~2.8
47,P=0.013),吸烟(OR=3.319,95%CI=1.809~6.090,P<0.001),饮酒(OR=1.982,
2
遵义医科大学硕士学位论文 郑雯丽
95%CI=1.118~3.513,P=0.019),高血压(OR=2.442,95%CI=1.404~4.246,P=0.002),
糖化血红蛋白(OR=1.330,95%CI=1.072~1.651,P=0.009),颈动脉粥样硬化(OR=
5.648,95%CI=1.623~19.659,P=0.007)是 IS 首次发病后 12 个月内复发的独立影响
因素。XGboost 模型中影响因素重要性排序前七位的变量依次为中性粒细胞百分位
数、纤维蛋白原、同型半胱氨酸、总胆固醇、尿酸、入院微机血糖以及糖化血红蛋白。
3.基于 XGboost 算法构建的 IS 复发预测模型预测效能优于传统 Logistic 回归模型,
XGboost 模型预测 IS 复发的准确率、精确率、敏感度、特异度、AUC 值分别为 0.97、
0.91、1.0、0.95、0.97,对 IS 复发高危人群具有较强的辨别能力。
结论:1. 首发 IS 患者发病后 12 个月内复发率为 11.3%,处于既往研究报道结果范
围内。
2.IS 复发影响因素分布在时间维度上存在共性和差异,入院收缩压水平高是 IS 卒中
后 3 个月内复发的高危人群,吸烟者在 IS 卒中 6 个月和 12 个月内易复发,高糖化血
红蛋白是卒中后 12 个月内复发高危人群。XGboost 模型较 Logistic 回归模型,更能
识别易忽略的重要影响因素,中性粒细胞百分数、纤维蛋白原、同型半胱氨酸、总胆
固醇、尿酸、入院微机血糖和糖化血红蛋白对 IS 复发有重要影响,临床护理过程中
需重点关注该部分指标情况,实施相应干预措施。
3.基于 XGboost 算法构建的 IS 复发预测模型对 IS 复发高危人群识别能力强,且预测
效果优于传统 Logistic 回归模型,未来可进一步考虑前瞻性纳入大样本临床病例验证
模型效果且逐步优化模型,进而开发系统投入临床实践应用,为临床工作识别 IS 复
发高危人群提供实践指导。
关键词:缺血性脑卒中;复发;预测模型;XGboost 算法;二级预防
 
Construction of prediction model of ischemic stroke recurrence
based on XGboost algorithm
Abstract
Objective: To investigate the recurrence of patients with ischemic stroke within 12
months after the first stroke;to identify important influencing factors of recurrence and to
construct a prediction model based on the XGboost algorithm for predicting recurrence
after ischemic stroke,in order to provide a predictive tool for identifying patients at high
risk of recurrence after ischemic stroke in clinical work.
Methods: Based on literature review of risk factors for recurrence after ischemic stroke,
from June 1, 2017 to June 30, 2019,524 patients with first-ever ischenic stroke hospitalized
in the Neurology Department were enrolled and followed up 12 months in The fifth of
Affiliated Hospital of Zunyi Medical University,Zhu Hai,and data about risk factors of
recurrence was retrospectively collected in this study,in order to investigate the recurrence
of patients within 3 months, 6 months and 12 months after stroke,respectively; SPSS21.0
was used for univariate and multivariate analysis to explore factors affecting the recurrence
within 3 months, 6 months and 12 months after the first ischemic
stroke,respectively;XGboost algorithm was used to construct a classification model for
predicting recurrence after ischemic stroke.
Results: 1.Among the 524 patients with first-ever ischemic stroke included, 11 cases
(2.1%)had recurrences within 3 months after stroke, 33 cases(6.3%)had recurrences within
6 months after stroke, and 59 cases(11.3%) had recurrences within 12 months after stroke.
2.The results of univariate analysis showed that the recurrence within 3 months after stroke
of patients with first-ever ischemic stroke was related to hospitalized systolic blood
pressure and fibrinogen (P<0.05); the recurrence within 6 months after stroke was related
to smoking, carotid atherosclerosis, and hospitalized diastolic blood pressure, Uric
acid,apolipoprotein A1, glycosylated hemoglobin(P<0.05);the recurrence within 12 months
4
遵义医科大学硕士学位论文 郑雯丽
after stroke of patients was related to smoking,drinking,hypertension,carotid
atherosclerosis,admission to the hospital microcomputer blood sugar,glycosylated
hemoglobin(P<0.05); multivariate analysis showed that the independent influencing factor
for the recurrence within 3 months after the first ischemic stroke was the level of
admission systolic blood pressure (OR=1.036, 95%CI=1.002~1.072,P=0.038), and
smoking was an independent factor for the recurrence within 6 months(OR=2.453,
95%CI=1.015~5.931, P=0.046) and the recurrence within 12 months stroke(OR=2.960,
95%CI=1.328~6.595, P=0.008).Glycated hemoglobin(OR=1.435, 95%CI=1.071~1.924,
P=0.016) is an independent factor of recurrence within 12 months after stroke. The logistic
regression model of the data processed by the SMOTE algorithm showed that age(60~74
years old:OR=2.552, 95%CI=1.364~4.775, P=0.003; ≥75 years old:OR=2.134, 95%CI=
1.073~4.245, P=0.031),hospital stays(OR=1.792, 95%CI=1.129~2.847, P=0.013),smoking
(OR=3.319, 95%CI=1.809~6.090, P<0.001),drinking(OR=1.982, 95%CI=1.118~3.513,P=
0.019),hypertension(OR=2.442, 95%CI=1.404~4.246, P=0.002),glycosylated hemoglobin
(OR=1.330, 95%CI=1.072~1.651,P=0.009)and carotid artery atherosclerosis (OR=5.648,
95%CI=1.623~19.659,P=0.007) are independent risk factors for recurrence within 12
months after the onset of ischemic stroke.In the XGboost model,the top seven variables of
the importance of influencing factors are neutrophil percentile,fibrinogen, homocysteine,
total cholesterol, uric acid, hospitalized microcomputer blood glucose, and glycosylated
hemoglobin.
3.Prediction model based on the XGboost algorithm exceeds the traditional Logistic
regression model in predicting recurrence after first ischemic stroke. The accuracy,
precision,sensitivity,specificity and AUC value of the XGboost model for predicting
recurrence within 12 months after first ischemic stroke are 0.97, 0.91, 1.0, 0.95, 0.
97,respectively.XGboost model has a strong ability to discriminate patients wtih high
-risk recurrence after ischemic stroke.
Conclusion: 1. The recurrence rate within 12 months after the onset of ischemic stroke
was 11.3%, which was within the range of previous research reports.
5
遵义医科大学硕士学位论文 郑雯丽
2. There are similarities and differences in the distribution of ischemic stroke recurrence
factors in the time dimension. Patients with high admission systolic blood pressure are at
high risk of recurrence within 3 months after ischemic stroke. Smokers are at high risk of
recurrence within 12 months after ischemic stroke. High glycosylated hemoglobin is at
high risk of recurrence within 12 months after stroke.Compared with Logistic regression
model, XGboost model can identify important influencing factors that are easy to be
ignored. The percentage of neutrophils, fibrinogen, homocysteine, total cholesterol, uric
acid, hospitalized microcomputer blood glucose and glycosylated hemoglobin have an
important impact on the recurrence of ischemic stroke. In the process of clinical nursing, it
is necessary to focus these indicators and implement corresponding intervention measures.
3. The model based on the XGboost algorithm for predicting recurrence after first ischemic
stroke has a strong ability to identify patients with high-risk recurrence , and XGboost
model is better than the traditional Logistic regression model. In the future, we can further
consider the prospective inclusion of a large sample of clinical cases to verify the effect of
the model and gradually optimize the model, and then develop the system for clinical
practice applications,so as to provide practical guidance for identifying patients with high
risk of recurrence after ischemic stroke in clinical work.
Key Words: Ischemic stroke; Recurrence; Prediction model; XGboost algorithm;
Secondary prevention
6
遵义医科大学硕士学位论文 郑雯丽
前 言
脑卒中是全球范围内继心血管疾病后的第二大死因[1]。我国每年大约有 240 万新
发卒中患者,死亡人数约 110 万,卒中后幸存者约 1100 万[2],其中约 70%为缺血性
脑卒中(ischemic stroke,IS)。缺血性脑卒中,又称脑梗死(cerebral infarction,CI),是
指各种原因引起脑部血液循环障碍,缺血、缺氧所致的局限性脑组织缺血性坏死或软
化[3]。约 75%的 IS 患者在发病后遗留不同程度的功能障碍[4],给家庭和社会带来了沉
重的负担,且发病后 1 年内 IS 易复发,研究显示 IS 患者在首发卒中后 3、6、12 月
时的复发率分别为 10.9%、13.4%、14.7%[5]。急性缺血性脑卒中发病后第一年内,每
18 个人中就有 1 人发生卒中复发[6]。IS 复发带来的危害远远大于首次卒中[6],复发性
卒中引起的神经功能损害比首发更严重,更难治,死亡率更高,是导致死亡、再次住
院和长期残疾的主要原因之一[7]。复发后的累计死亡率较首发性卒中增长了一倍以
上,死亡风险增加了约 17 倍[8]。降低 IS 复发率是改善卒中预后的关键,卒中二级预
防可降低约 13%~67%的 IS 复发事件风险[9],IS 复发风险预测是临床有效开展二级预
防的关键[10],是减少患者致死致残率最有效的手段。
IS 复发风险预测需要考虑两个主要问题:第一是 IS 复发风险预测因素的筛选。
预测因素的筛选是预测模型构建的重要步骤,预测模型的效果取决于预测因素的准确
性和敏感性。针对 IS 复发危险因素的研究众多,但研究结果受地域、医疗政策、社
会经济等影响,研究结果存在差异,在预测 IS 复发风险因素的筛选上难以把握。IS
复发风险预测以临床因素预测为主,常见的有国际上通用的 Essen 卒中风险评分
(Essen stroke risk score,ESRS) 、卒中预测工具(stroke prognostic instrument,SPI-I 和
SPI-II) [11, 12],国外量表在国内预测 IS 患者 1 年复发风险的验证结果显示 ROC 曲线下
面积 AUC 值均为 0.59[13],模型覆盖危险因素不全面,预测作用有限,难以满足临床
需求。近年来学者开始逐步将生物标志物、影像标记物、中医辨证体征应用于 IS 复
发风险预测,提高了预测效果,但研究多为小样本研究,难以在临床中推广应用[14-16]。
第二是 IS 复发风险预测模型的建立方法。目前预测模型的构建方法以 Cox 比例风险
回归分析[10]和 Logistic 回归分析[14]等传统统计学方法最为常见,然而传统统计学方法
对数据类型要求高,面对复发的临床数据,对数据挖掘作用有限,近年随着计算机技
7
遵义医科大学硕士学位论文 郑雯丽
术的发展与智慧医疗的推进,机器学习(Machine Learning, ML)逐渐开始应用于疾病风
险预测,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、
算法复杂度理论等多门学科;通过计算机学习数据中的内在规律性信息,获得新的经
验和知识以提高计算机的智能性,实现计算机的人工化决策[17, 18]。机器学习算法在处
理大数据方面具有高效性及准确性等特点,预测效果优于传统统计学方法[19]。研究也
表明基于人工神经网络[20]、支持向量机(Support Vector Machine ,SVM)算法[21]、
XGboost 算法[22]等机器学习方法构建的疾病风险预测模型效果优于以 Logistic 回归模
型和 Cox 比例风险回归模型为代表的传统统计学方法。XGboost 模型作为机器学习算
法之一,具有计算速度快,泛化能力强等优点,自 2016 年首次提出后便备受机器学
习等领域关注。许源等[22]对 6070 例 IS 患者临床诊疗数据进行回顾性分析,基于
Logistic 回归和 XGBoost 方法构建 IS 患者出院 90 天复发再入院预测模型,对比两者
ROC 曲线下面积,结果显示 XGBoost 模型和 Logistic 回归模型的 ROC 曲线下面积分
别为 0.792 和 0.739。XGBoost 模型的敏感度(89.30%)和约登指数(0.444)均优于
Logistic 回归模型(77.3%、0.405),XGboost 模型可依据变量对模型的影响重要性程
度进行排序,对 IS 复发再入院预测和预防有重要指导意义。基于 XGboost 算法,借
助计算机编程技术对临床医疗数据进行数据挖掘使临床构建出具有普适性的 IS 复发
风险预测模型成为可能。但是目前尚未检索到 XGboost 算法在 IS 卒中后 12 个月内复
发预测中的应用。
因此,在人工智能和智慧医疗时代背景下,基于我国 IS 患者卒中后 12 个月内高
复发且复发危害大的现状,为了早期识别 IS 复发高危患者,针对 IS 复发危险因素早
期开展个性化干预措施,降低 IS 复发率。本研究采用文献研究法回顾 IS 复发风险因
素,基于 XGboost 模型,通过回顾性分析首发 IS 患者的复发风险因素数据,构建 IS
卒中后 12 个月内复发预测模型,并验证其效果,研究目的在于了解 IS 患者卒中后 3
个月、6 个月和 12 个月内复发的情况;明确 IS 复发的重要影响因素并且基于 XGboost
算法构建 IS 复发预测模型,为临床 IS 复发预测提供有效工具。
8
遵义医科大学硕士学位论文 郑雯丽
1 研究对象与方法
1.1 研究对象
1.1.1 研究对象来源
选择 2017 年 6 月 1 日至 2019 年 6 月 30 日期间于遵义医科大学第五附属(珠海)
医院(简称遵医五院)神经内科住院的首发 IS 患者为研究对象。本研究经研究者所
在医院伦理委员会的批准后进行,伦理审查批件编号[2020]2020ZH0067。
1.1.2 研究对象纳入排除标准
1.1.2.1 纳入标准
①年龄≥18 岁;②患者出院时诊断为 IS;诊断标准依据中国脑血管疾病分类 2015
版[23]的各类脑血管病诊断标准。
1.1.2.2 排除标准
①院内死亡或转院患者;②既往有脑卒中史患者;③出院诊断为短暂性脑缺血发
作、脑栓塞、脑分水岭梗死、有其他明确病因型 IS。④无法判定终点事件(是否复
发)的患者。
1.2 研究方法
1.2.1 文献研究法
通过检索国内外 IS 复发风险因素相关文献,提取 IS 复发风险因素。
1.2.1.1 文献检索
(1)检索词:
中文检索词:“缺血性脑卒中”、“缺血性卒中”、“缺血性中风”、“脑梗死”、“复发”、
“再发”、“再次”、“二次”、“二级预防”、“危险因素”、“影响因素”、“预测因素”。
英文检索词:“ischemic stroke”、“brain infarction”、“recurrence”、“relapse”、“again”、
“risk factors”、“contributing factors”、“predisposing factors”、“predictor”、“cause”。
(2)检索库:
中文数据库:中国生物医学文献数据库(CBM)、中国学术期刊全文数据库
(CNKI)、万方科技期刊全文数据库、中国科技期刊数据库(VIP)。
英文数据库:Cochrance Library、PubMed、ScienceDirect、Ovidsp、EBSCO。
9
遵义医科大学硕士学位论文 郑雯丽
(3)检索式:
中文检索式:(二级预防 OR 复发 OR 再发 OR 二次 OR 再次) AND (脑梗死
OR 缺血性脑卒中 OR 缺血性卒中 OR 缺血性中风) AND (预测因素 OR 危险因素
OR 影响因素)
英文检索式:(recurrence OR relapse) AND ("ischaemic stroke" OR "Ischemic stroke")
AND ("risk factors" OR "contributing factors" OR "predisposing factors" OR predictor OR
cause)
(4)检索时限:2009 年 6 月 12 日-2019 年 6 月 12 日
1.2.1.2 文献筛选
(1)文献纳入排除标准
纳入标准:①研究设计:不限。②纳入对象研究:研究对象年龄在 18 岁及以上;
符合 1995 年全国第四届脑血管病学术会议制订的 IS 诊断标准的患者。③结局指标:
复发危险因素、复发影响因素、复发预测模型等。
排除标准:①会议摘要/个案报道/研究计划等;②研究对象出院诊断为短暂性脑
缺血发作、脑栓塞、脑分水岭梗死、有其他明确病因型 IS。
(2)文献筛选过程
由 2 名研究者独立阅读文献标题及摘要,严格按照文献纳入及排除标准,对文献
进行筛选,如存在歧义则咨询第 3 名研究者,经讨论达成共识,筛选后最终纳入文献
412 篇。
图 1 文献筛选流程图
10
遵义医科大学硕士学位论文 郑雯丽
1.2.1.3 文献提取结果
由 2 名研究人员独立阅读文献摘要,提取 IS 复发相关的风险因素,对摘要中未
提及风险因素的文献,阅读全文后进行提取,录入 Excel 表。独立资料表提取后,逐
项进行比对,有异议处通过阅读原文及讨论达成共识。复发风险因素提取结果见表 2。
1.2.2 频次分析法
整合上述 IS 复发风险因素提取表内容,通过 python 的 jieba 库(用于文本分析的
分词库)完成风险因素词频分析,提取复发风险因素总数 78 个(表 3)。综合复发风
险因素频次分析结果,研究最终纳入的复发风险因素共计 33 项(表 4),作为后期数
据收集内容。
1.2.3 数据提取
1.2.3.1 研究工具:医院 HIS 系统
本研究医院 HIS 系统数据具有完整性、可及性、规范性等特点,为研究提供了充
足数据。通过医院 HIS 系统回顾性提取 2017 年 6 月 1 日至 2019 年 6 月 30 日首发 IS
患者的临床各项数据。
1.2.3.2 研究数据提取内容
①人口学特征:性别、年龄、文化程度;
②既往史:高血压、糖尿病、TIA/卒中史、房颤、心脏病、消化性溃疡史;
③个人史:吸烟(既往至发病期间情况)、饮酒(既往至发病期间情况);
④入院时各项指标:入院收缩压、入院舒张压、入院微机血糖;
⑤生化指标:尿酸、甘油三脂、总胆固醇、高密度脂蛋白、低密度脂蛋白、同型
半胱氨酸、C 反应蛋白、血清白蛋白、载脂蛋白 A1、载脂蛋白 B、血小板计数、白
细胞计数、中性粒细胞百分数、纤维蛋白原、糖化血红蛋白;
⑥影像学指标:颈动脉粥样硬化斑块;
⑦住院情况:近期感染(肺炎、尿路感染)、住院天数、自理能力(ADL 评分)。
1.2.3.3 数据提取过程
根据数据提取表内容,在医院计算机中心技术人员的帮助下,进行后台数据提取,
对提取后的数据,进行人工校对和补录,数据校对和补录过程由两名研究者分别独立
完成,双人核对确保数据表的一致性,若不一致,追溯至医院 HIS 系统病历资料,重
11
遵义医科大学硕士学位论文 郑雯丽
新核对修改直至无误后,再行录入,以确保数据的完整性和准确性。
1.2.3.4 研究终点事件
IS 卒中后 3 个月内、6 个月内和 12 个月内的复发事件。
1.2.4 复发的诊断标准与判定过程
1.2.4.1 诊断标准[24]
(1)原有神经缺失症状和体征好转或消失后,再次出现新的神经功能缺失症状;
(2)经头颅 CT 和/或 MRI 检查证实有新发的缺血性病灶;
(3)排除进展性卒中或病情恶化所致。
1.2.4.2 判定过程
追溯患者首发卒中后 12 个月内 HIS 系统的数据,依据 IS 患者再次入院或门诊随
访的颅脑 CT 或 MRI 结果及临床症状综合判定 IS 患者卒中后 3 个月内、6 个月内、
12 个月内的复发事件,记录患者复发时间,判定过程由神经内科医生协助完成。
1.3 统计分析与预测工具
1.3.1 数据提取与统计分析
本研究采用 Microsoft Office Excel 2007 制定格式化的数据提取表,对数据进行
提取录入;采用 SPSS21.0 统计软件进行数据处理分析。呈正态分布的计量资料以均
数±标准差表示,组间比较采用 t 检验;呈偏态分布的计量资料以中位数 M[Q25,
Q75]表示,不同时满足正态分布且方差齐的计量资料组间比较采用 Mann-Whitney U
检验。计数资料以百分比(%)表示,组间比较采用卡方检验或 Fisher 确切概率法。
1.3.2 预测工具及算法
1.3.2.1 预测工具
本研究采用 Python3.7 版本作为数据分析及建模工具,Python 是一种用于软件集
成和开发的计算机编程语言[32]。该软件可通过程序代码调用多个程序包,完成文本数
据分析、模型建立、图片可视化等处理。本研究借助 Python 采用 XGboost 算法进行
预测模型构建。
1.3.2.2 XGboost 算法
XGboost 算法[25]是极端梯度上升(eXtreme Gradient Boosting)的简称,是一种基于
决策树的集成机器学习算法,使用梯度上升框架,适用于分类和回归问题,其原理是
12
遵义医科大学硕士学位论文 郑雯丽
通过弱分类器的迭代计算实现准确的分类效果,通过选择决策树、K 最近邻算法、支
持向量机模型或 Logistic 回归模型等基础模型,对确定的多个基础模型进行线性组合,
以此提升优化算法。XGboost 算法具有支持并行计算,运行效率高,算法拓展性强,
模型泛化能力强,预测能力强等优点,在数据挖掘和机器学习领域应用广泛。
1.3.3 预测模型的评价指标
1.3.3.1 混淆矩阵
混淆矩阵可以直观反映模型预测情况与实际情况的差距,如表 1 所示,真阳性
(True Positive,TP)指预测和实际均为阳性病例的数量;假阴性(False Negative,
FN)指实际为阳性、预测为阴性病例的数量,假阳性(False Positive,FP)指实际为
阴性、预测为阳性病例的数量,真阴性(True Negative,TN)指实际和预测均为阴性
病例的数量。
表 1 二分类模型的混淆矩阵
预测情况
实际情况
阴性-0 阳性-1
阴性-0 TN FP
阳性-1 FN TP
根据混淆矩阵,可以计算出准确率(Accuracy)、精确率(Precision)、敏感度
(Sensitivity)、特异度(Sepcificity)、约登指数(Youden index)等模型评价指标。
(1)准确率(Accuracy):预测正确的病例个数占所有病例个数的比例,该值越大代
表模型分类效果越好。
(1)
(2)精确率(Precision):正确预测的阳性病例数在预测为阳性病例数中的比例。精
确率越大,模型对真阳性病例预测越精确。
(2)
(3)敏感度(Sensitivity):又称为召回率(Recall),即真阳性率,指预测正确的阳
性病例数在真正阳性病例数中的比例。
13
遵义医科大学硕士学位论文 郑雯丽
(3)
(4)特异度(Sepcificity):即真阴性率,指预测正确的阴性病例数在真正阴性病例
数中的比例。
(4)
(5)约登指数(Youden index):约登指数=敏感度+特异度﹣1。表示发现阳性病例与
阴性病例的总能力。指数越大说明模型的效果越好。
1.3.3.2 受试者工作特征曲线下面积(Receiver Operating Characteristic Area,AUC)
ROC 曲线是实现评估预测模型好坏的可视化方法,ROC 曲线的 x 轴和 y 轴分别
为 1-特异度和敏感度,曲线下的面积值即 AUC 值,其值越大,则模型的预测效果越
佳。AUC 介于 0~1 之间,当 AUC 值介于 0.5~0.7 时表示预测模型的准确度较低,介
于 0.7~0.9 之间时表示模型具有一定准确度,大于 0.9 时则表示模型具有较好的准确
度。
1.4 数据预处理
研究数据预处理包括:变量赋值和缺失值处理、非平衡数据的处理。
1.4.1 变量赋值
对变量进行赋值,将数据中所有的非数值型分类变量转换成数值型分类变量,如
是、否,复发、未复发等转换成 0、1 等数值。依据 WHO 年龄划分标准对年龄进行
分组赋值,中青年(18-59 岁)=0、年轻老年人(60-74 岁)=1、老年人(75 岁及以上)=2;
对文化程度分组进行赋值,文盲=0;小学=1;初中=2;中专/高中=3;大专及以上=4;
住院天数以 7 天为分界,小于 7 天=0;大于等于 7 天=1;自理能力依据 ADL 评分量
表得分情况划分为重度依赖(0-40 分)、中度依赖(41-59 分)、轻度依赖(60-95
分)、完全自理(100 分),分别赋值为 0、1、2、3。
1.4.2 缺失值处理
本研究为回顾性研究,按照排除纳入标准筛选提取数据,最终纳入 IS 患者数据
634 例,数据存在不同程度的缺失。对存在缺失值较多的病例予以剔除,依据变量类
型,对分类变量采用众数替换,数值型变量采用中位数或均值替换,以首发卒中后
14
遵义医科大学硕士学位论文 郑雯丽
12 个月是否复发为节点,分为复发组和未复发组,分别对复发组和未复发组缺失值
进行填补。
1.4.3 非平衡数据的处理
复发组和未复发组数据存在不平衡现象,容易导致模型预测结果的偏移,为避免
这 一 现 象 , 本 研 究 采 取 合 成 少 数 类 过 采 样 ( Synthetic Minority Over-Sampling
Technique,SMOTE)算法均衡数据集。本研究采用 SMOTE 函数人工模拟生成新的
少数类样本,使复发病例增长为原始数据的 4 倍,236 例。
1.5 相关变量筛选
以复发和未复发作为因变量,采用单因素分析对自变量和因变量的关系进行初步
探讨,对自变量进行初步筛选,将单因素分析中 P<0.2 变量纳入多因素 Logistic 回归
模型和 XGboost 模型。本研究单因素分析对分类变量采用 Pearson 卡方检验或 Fisher
确切概率法;对连续变量采用 Mann-Whitney U 检验。
1.6 基于 XGboost 算法的 IS 复发预测模型构建
以缺失值填补后的数据训练集为基础,纳入筛选后的相关变量,基于 XGboost
算法构建 IS 复发预测模型。通过调用 python 3.7 中 sklearn 程序包的 train_test_split
函数按 7:3 比例对数据进行随机分组,分为训练集和测试集,用于模型训练及验证。
根据模型预测结果,绘制 ROC 曲线,计算曲线下面积值(AUC)。同时计算模型的敏
感度、特异度以及约登指数等指标,验证模型预测效果。
15
遵义医科大学硕士学位论文 郑雯丽
1.7 技术路线
图 2 技术路线图
2 结果
2.1 IS 复发风险因素文献提取结果
对符合纳入标准的文献进行阅读,提取复发风险因素,部分 IS 复发风险因素提
取信息如表 2 所示。
16
遵义医科大学硕士学位论文 郑雯丽
表 2 缺血性脑卒中复发风险因素提取表
年份 标题 风险因素 结论
睡眠总时长是缺血性脑梗死复 睡眠状况对脑梗死复发 高血压、血脂和睡眠时
2019 发的独立危险因素;睡眠时间越
的影响 长
短,脑梗死复发的风险越大。
高同型半胱氨酸血症和 Hhcy 是再发脑梗死的独立危险
2019 再发脑梗死危险性关系 高同型半胱氨酸血症 因素,为完善急性脑梗死二级预
的研究 防提供了重要指导。
年龄越大、文化程度越低、颅内
年龄、文化程度、抗血 外动脉狭窄、肥胖和超重、糖尿
脑梗死复发的影响因素 小板聚集药、饮酒、糖 病、不规律或未用抗血小板聚集 2019
分析 尿病、体质指数、颅内 药的脑梗死患者复发风险大,积
外动脉狭窄 极控制可以改变的因素,重视二
级预防可改善患者预后
Impact of risk factors for
卒中患者的高血压、糖尿病、房 recurrence after the first
高血压、糖尿病、房颤、 颤、冠心病与卒中复发有统计学 2019 ischemic stroke in adults:
冠心病 上的相关性,应采取二级预防和 A systematic review and
治疗,控制卒中复发。 meta-analysis
脑梗死的复发受年龄、TG、
 ICAS、ECAS、颅内外动脉狭窄
甘油三酯(TG)、年龄 、
程度等多种因素影响,其中 TG 复发性脑梗死危险因素 颅内动脉狭窄(ICAS)、
2019 是其独立危险因素。通过控制相
及与动脉狭窄的相关性 颅外动脉狭窄(ECAS)、
关危险因素,积极预防颅内外动 颅内外动脉狭窄程度
脉粥样硬化,将有利于降低脑梗
死的复发风险。
17
遵义医科大学硕士学位论文 郑雯丽
2.2 复发风险因素的频次分析结果及筛选后最终纳入情况
如表 3 所示:复发风险因素的频次分析显示累计频率至 80%之前的危险因素为糖
尿病、高血压、年龄、吸烟、高脂血症、颈动脉粥样硬化、TIA/卒中史、房颤、性别、
颈动脉狭窄、血小板、高同型半胱氨酸、心脏病、冠心病、低密度脂蛋白、饮酒在内
的 16 项。医院 HIS 系统数据的可及性的基础上,综合复发风险因素频次分析结果,
研究最终纳入的复发风险因素共计 33 项(表 4)作为后期数据提取内容,包括:性
别、年龄、文化程度、近期感染、住院天数、吸烟、饮酒、消化性溃疡史、TIA/卒中
史、糖尿病、高血压、房颤、心脏病、入院收缩压、入院舒张压、入院微机血糖、自
理能力、尿酸、甘油三脂、总胆固醇、高密度脂蛋白、低密度脂蛋白、同型半胱氨酸、
C 反应蛋白、血清白蛋白、载脂蛋白 A1、载脂蛋白 B、血小板计数、白细胞计数、
中性粒细胞百分数、纤维蛋白原、糖化血红蛋白、颈动脉粥样硬化。
表 3 缺血性脑卒中复发风险因素频次分析
风险因素 频次 累计频次 累计频率(%)
糖尿病 353 353 14.43
高血压 348 701 28.65
年龄 190 891 36.41
吸烟 151 1042 42.58
高脂血症 148 1190 48.63
颈动脉粥样硬化斑块 139 1329 54.31
TIA/卒中史 102 1431 58.48%
房颤 86 1517 61.99
性别 72 1589 64.94
颈动脉狭窄 72 1661 67.88
血小板 68 1729 70.66
高同型半胱氨酸 66 1795 73.36
心脏病 63 1858 75.93
冠心病 50 1908 77.97
低密度脂蛋白 49 1957 79.98
饮酒 47 2004 81.90
备注:表 3 仅展示累计频率至 80%的复发风险因素
18
遵义医科大学硕士学位论文 郑雯丽
表 4 筛选后复发风险因素及其对复发的影响
风险因素 对 IS 复发的影响
性别 女性在卒中发病后 3 年内的复发率为男性的 1.03 倍[26]
年龄 年龄每增长 1 岁,复发风险几率增加 4.1%[27]
文化程度 受教育少于 7 年者卒中 5 年复发率为 7 年以上者的 2 倍[28]
近期感染 伴有肺炎、尿路感染者 IS 复发风险增加[5]
住院天数 住院天数是出院后 90 天内 IS 患者复发再入院的独立影响因素[22]
吸烟 卒中复发风险在持续吸烟者中约为不吸烟者中的 2 倍且每日吸烟量与卒
中复发风险成正比[29]
饮酒 有饮酒史的卒中患者 5 年复发风险是无饮酒史患者的 2 倍多[28],饮酒与
卒中复发存在 U 型关系,待进一步研究[30, 31]
消化性溃疡史 IS 合并消化性溃疡的患者卒中后 90 天神经功能预后不佳,更易出现复发
事件[32]
TIA/卒中史 存在卒中既往史的 IS 复发风险增加[33]
糖尿病 合并糖尿病者 IS 复发风险约为非糖尿病者的 1.44 倍[34]
入院微机血糖 血糖水平增高与 IS 复发风险增高相关[35]
高血压 伴有高血压者 IS 复发风险是非高血压者的 1.67 倍[36]
入院收缩压 入院收缩压与收缩压分级与 IS 卒中 1 年内复发风险相关[37]
入院舒张压 入院舒张压(OR=1.054,95%CI:1.036~1.072,P<0.001)是 IS 复发的危
险因素[38]
房颤 合并房颤者 3 个月的 IS 复发风险约为非房颤者的 2.02 倍[33]
心脏病 合并冠心病者 3 个月的复发风险是非冠心病者的 1.37 倍[33]
自理能力 生活自理能力的下降是非心源性 IS 患者 1 年内复发的独立影响因素[39]
尿酸 伴有高尿酸血症的 IS 患者复发率显著高于不伴有高尿酸血症者[40]
甘油三脂 甘油三脂增高与较高的卒中复发风险相关[41]
总胆固醇 高总胆固醇与卒中预后不良相关,低总胆固醇与卒中 36 个月内复发风险
呈负显著相关,不同水平总胆固醇对 IS 复发的影响有待进一步研究[42]
高密度脂蛋白 高密度脂蛋白降低是 IS 复发的独立危险因素[43]
19
遵义医科大学硕士学位论文 郑雯丽
续表 4
风险因素 对 IS 复发的影响
低密度脂蛋白 低密度脂蛋白增高是 IS 复发的独立危险因素[43]
同型半胱氨酸 Hcy >15.5 μmol/L 者卒中复发风险比 Hcy≤9.65μmol/L 者增长了 1.76 倍[44]
C 反应蛋白 入院时血清 C 反应蛋白水平有助于预测 IS 复发风险,C 反应蛋白水平与
IS 复发风险呈显著正相关[45]
血清白蛋白 血清白蛋白水平每升高 1g/L,IS 复发风险降低 14.6%[46]
载脂蛋白 A1 载脂蛋白 A1 降低与 IS 复发风险增加相关[47]
载脂蛋白 B 载脂蛋白 B 增高与 IS 复发风险增加相关[47]
血小板计数 血小板计数升高与大动脉粥样硬化性 IS 早期复发相关[48]
颈动脉粥样硬化 伴有颈动脉粥样硬化斑块的 IS 患者复发率高于不伴有颈动脉粥样硬化斑
块者,且易损斑块组的复发率最高[49]
糖化血红蛋白 HbA1c 水平在 6.1%~7.2%者卒中后 3 个月、1 年内复发风险为 HbA1c 水
平<5.5%者的 2.83 倍和 3.30 倍;HbA1c 水平≥7.2%者 3 个月、1 年内的复
发风险分别为 HbA1c 水平<5.5%者的 3.71 倍和 3.35 倍[50]
纤维蛋白原 IS 复发风险随纤维蛋白原的增高呈递增趋势[51]
白细胞计数 白细胞计数(OR=0.756、95%CI:0.630~0.907、P<0.01)是 IS 复发的独立
危险因素[52]
中性粒细胞百分数 中性粒细胞百分数是 IS 复发再入院的独立影响因素[22]
2.3 缺失值的替换
2.3.1 删除法
对超过 50%变量存在缺失值的病例予以剔除,最终剩余病例数 524 例。以卒中后
12 个月是否复发为节点,分为复发组和未复发组,其中复发组 59 例,未复发组 465
例。
2.3.2 众数替换
分类变量采用众数替换,分别对复发组和未复发组缺失值进行填补,存在缺失值
的分类变量包括吸烟、饮酒、颈动脉粥样硬化斑块 3 个变量,具体替换情况如表 5
所示。
20
遵义医科大学硕士学位论文 郑雯丽
2.3.3 中位数或均值替换
数值型变量采用中位数或均值替换,对数值型变量进行正态分布检验,在α=0.05
的水平,Z-Scores 在±1.96 范围内,可认为变量服从正态分布。正态检验结果显示在
α=0.05 的水平,服从正态分布的变量包括复发组的高密度脂蛋白胆固醇、低密度脂
蛋白胆固醇、载脂蛋白 A1、载脂蛋白 B、血小板水平、中性粒细胞百分数 6 个变量,
未复发组血清白蛋白、载脂蛋白 B、嗜中性粒细胞百分数 3 个变量,其余变量均不服
从正态分布。对符合正态分布的数值变量采用均值替换,不符合则采用中位数替换。
变量缺失值替换情况如表 5 所示。
表 5 变量缺失值替换情况
复发组(n=59) 未复发组(n=465)
变量名称 缺失 百分比 替换 缺失 百分比 替换
替换值 替换值 计数 (%) 方式 计数 (%) 方式
吸烟 2 0.04 众数 0 2 0.04 众数 0
饮酒 1 0.02 众数 1 3 0.06 众数 0
颈动脉粥样硬化斑块 13 2.48 众数 1 88 16.79 众数 1
入院微机血糖 0 0.00 - - 5 0.95 中位数 6.90
尿酸 0 0.00 - - 9 1.72 中位数 324.00
甘油三脂 2 0.38 中位数 1.47 6 11.45 中位数 1.23
总胆固醇 2 0.38 中位数 4.53 5 0.95 中位数 4.54
高密度脂蛋白胆固醇 2 0.38 平均值 1.16 4 0.76 中位数 1.18
低密度脂蛋白胆固醇 2 0.38 平均值 3.07 4 0.76 中位数 3.02
同型半胱氨酸 3 0.57 中位数 9.60 6 11.45 中位数 8.70
C 反应蛋白 2 0.38 中位数 1.40 25 4.77 中位数 1.72
血清白蛋白 0 0.00 - - 3 0.57 平均值 40.70
载脂蛋白 A1 3 0.57 平均值 1.07 5 0.95 中位数 1.09
载脂蛋白 B 3 0.57 平均值 1.02 5 0.95 平均值 0.99
血小板水平 4 0.76 平均值 228.00 55 10.50 中位数 216.00
21
遵义医科大学硕士学位论文 郑雯丽
续表 5
复发组(n=59) 未复发组(n=465)
变量名称 缺失 百分比 替换 缺失 百分比 替换
替换值 替换值 计数 (%) 方式 计数 (%) 方式
白细胞水平 4 0.76 中位数 6.80 49 9.35 中位数 6.70
中性粒细胞百分数 4 0.76 平均值 62.10 53 10.11 平均值 63.70
纤维蛋白原 5 0.95 中位数 3.12 28 5.34 中位数 2.96
糖化血红蛋白 4 0.76 中位数 6.10 31 5.92 中位数 5.90
2.4 IS 患者基本资料分析
自 2017 年 6 月 1 日至 2019 年 6 月 30 日,本研究共纳入首发 IS 患者共 524 例,
患者的基本资料具体情况见表 6。
2.4.1 IS 患者的人口学特征情况
在 524 例首发 IS 患者中,男性为 306 例(58.40%),女性为 266 例(57.20%);患者
的平均年龄为(67.26±12.48)岁,年龄具体分层主要分布在 60-74 岁(44.08%)及 75 岁及
以上(30.35%);患者的文化程度主要以小学(44.08%)及初中(30.35%)为主。
2.4.2 IS 患者的既往史情况
纳入的 IS 患者大部分存在高血压病(70.61%);21.56%为糖尿病者;4.01%的 IS
患者存在房颤史;12.40%的患者存在心脏病史;11.26%的患者存在消化性溃疡史。
复发组中有消化性溃疡史 8 例(13.56%);糖尿病者 17 例(28.81%);高血压者 49 例
(83.05%);心脏病者 8 例(13.56%)。
2.4.3 IS 患者的个人史情况
纳入的患者中,有 22.52%的患者吸烟,18.13%患者饮酒;复发患者中吸烟者有
25 例(42.37%);饮酒者有 21 例(35.59%)。
2.4.4 IS 患者入院时各项指标情况
纳 入 患 者 的 入 院 平 均 收 缩 压 为 151.19±23.89mmHg ; 入 院 平 均 舒 张 压 为
86.79±14.14 mmHg;入院微机血糖的中位值为 6.90(6.00-8.60)mmol/L。复发组的入院
平均收缩压为 154.68±22.09 mmHg;入院平均舒张压为 87.59±11.85mmHg;入院微机
22
遵义医科大学硕士学位论文 郑雯丽
血糖的中位值为 7.30(5.90-8.50)mmol/L。
2.4.5 IS 患者的生化指标情况
纳 入 患 者 的 尿 酸 平 均 值 为 (347.03±101.91)umol/L ; 甘 油 三 脂 中 位 值 为
1.23(0.92-1.83)mmol/L;总胆固醇平均值为(4.66±1.05)mmol/L;高密度脂蛋白平均值
为(1.23±0.37)mmol/L;低密度脂蛋白平均值为(3.04±0.89) mmol/L;C 反应蛋白中位值
为 1.72(0.78-4.83) mg/L;血清白蛋白平均值为(40.60±3.89) g/L;载脂蛋白 A1 平均值
为 (1.09±0.17) g/L ; 载 脂 蛋 白 B 为 (0.99±0.24) g/L ; 血 小 板 计 数 平 均 为
(224.90±0.24)*10^9/L;白细胞计数平均为(7.01±2.29)*10^9/L;中性粒细胞百分数平
均为(63.86±10.28)%;纤维蛋白原平均值为(3.14±0.72) g/L;糖化血红蛋白中位值为
5.90(5.70-6.40)%。
2.4.6 IS 患者颈动脉粥样硬化斑块情况
87.21%的 IS 患者存在颈动脉粥样硬化斑块;复发组中颈动脉粥样硬化者占比
96.61%。
2.4.7 IS 患者的住院情况
16.41%的患者存在肺炎、尿路感染等近期感染;57.25%的患者住院天数满 7 天
及以上;患者自理能力大部分为轻度依赖(51.53%)和完全自理(36.07%)。在复发患者
中,自理能力重度依赖 2 例(3.39%),中度依赖 2 例(3.39%),轻度依赖 34 例(57.63%),
完全自理 21 例(35.59%);住院时间≥7 天者 40 例(67.8%);存在近期感染者 10 例
(16.95%)。
表 6 IS 患者基本资料分析
变量 类别/单位 总数(n=524) 复发(n=59) 未复发(n=465)
性别(例/%) 男 306(58.40) 40(67.80) 266(57.20)
年龄(例/%) 18-59 岁 134(25.57) 10(16.95) 124(26.66)
60-74 岁 231(44.08) 32(54.24) 199(42.80)
75 岁~ 159(30.35) 17(28.81) 142(30.54)
文化程度(例/%) 文盲 88(16.79) 9(15.25) 79(16.99)
小学 241(44.08) 34(57.63) 207(44.52)
初中 129(30.35) 10(16.95) 119(25.59)
中专/高中 43(16.79) 3(5.08) 40(8.60)
大专及以上 23(4.39) 3(5.08) 20(4.30)
23
遵义医科大学硕士学位论文 郑雯丽
续表 6
变量 类别/单位 总数(n=524) 复发(n=59) 未复发(n=465)
自理能力(例/%) 重度依赖 28(5.34) 2(3.39) 26(5.59)
中度依赖 37(7.06) 2(3.39) 35(7.53)
轻度依赖 270(51.53) 34(57.63) 236(50.75)
完全自理 189(36.07) 21(35.59) 168(36.13)
吸烟(例/%) 是 118(22.52) 25(42.37) 93(20.00)
饮酒(例/%) 是 95(18.13) 21(35.59) 74(15.91)
住院时间(例/%) >=7 天 300(57.25) 40(67.80) 260(55.91)
近期感染(例/%) 是 86(16.41) 10(16.95) 76(16.34)
消化性溃疡(例/%) 是 59(11.26) 8(13.56) 51(10.97)
糖尿病(例/%) 是 113(21.56) 17(28.81) 96(20.65)
高血压(例/%) 否 154(29.39) 10(16.95) 144(30.97)
1 级 38(7.25) 4(6.78) 34(7.31)
2 级 59(11.26) 8(13.56) 51(10.97)
3 级 273(52.10) 37(62.71) 236(50.75)
心脏病(例/%) 是 65(12.40) 8(13.56) 57(12.26)
房颤(例/%) 是 21(4.01) 3(5.08) 18(3.87)
颈动脉粥样硬化(例/%) 是 457(87.21) 57(96.61) 400(86.02)
入院收缩压 mmHg 151.19±23.89 154.68±22.09 150.75±24.09
入院舒张压 mmHg 86.79±14.14 87.59±11.85 86.69±14.42
入院微机血糖 mmol/L 6.90(6.00-8.60) 7.30(6.20-9.20) 6.90(5.90-8.50)
尿酸 umol/L 347.03±101.91 362.15±94.30 345.11±102.77
甘油三脂 mmol/L 1.23(0.92-1.83) 1.37(0.97-2.03) 1.22(0.91-1.83)
总胆固醇 mmol/L 4.66±1.05 4.70±1.00 4.65±1.06
高密度脂蛋白 mmol/L 1.23±0.37 1.17±0.31 1.24±0.38
低密度脂蛋白 mmol/L 3.04±0.89 3.10±0.84 3.04±0.90
同型半胱氨酸 mmol/L 8.90(7.40-11.30) 9.60(8.00-11.20) 8.70(7.25-11.30)
C 反应蛋白 mg/L 1.72(0.78-4.83) 1.40(0.82-3.61) 1.72(0.78-4.99)
血清白蛋白 g/L 40.60±3.89 39.92±3.72 40.69±3.91
载脂蛋白 A1 g/L 1.09±0.17 1.07±0.14 1.10±0.18
载脂蛋白 B g/L 0.99±0.24 1.01±0.25 0.99±0.24
血小板计数 10^9/L 224.90±0.24 230.46±68.81 224.20±61.88
白细胞计数 10^9/L 7.01±2.29 7.00±1.94 7.01±2.33
中性粒细胞百分数 % 63.86±10.28 62.24±9.36 64.07±10.38 纤维蛋白原 g/L 3.14±0.72 3.25±0.63 3.13±0.73
糖化血红蛋白 % 5.90(5.70-6.40) 6.10(5.80-6.90) 5.90(5.70-6.40)
2.4.8 IS 患者的复发情况
本研究 524 例首发 IS 患者中, 11 例(2.1%)在卒中后 3 个月内出现复发事件,卒
中后 6 个月内累积复发 33 例(6.3%),卒中后 12 个月内累积复发 59 例(11.3%)。
24
遵义医科大学硕士学位论文 郑雯丽
2.5 IS 复发影响因素分析
2.5.1 单因素分析
2.5.1.1 卡方检验
采用 Pearson 卡方检验对分类变量进行单因素分析,单元格的最小期望频数介于
1 与 5 之间的通过合并行增大理论频数。3 个月、6 个月、12 个月的分类变量单因素
分析结果表 7-9 所示。
卡方检验结果显示:以卒中后 3 个月内是否复发划分组别,分类变量的 P 值均大
于 0.05,差异不具有统计学意义。以卒中后 6 个月内是否复发划分组别,分类变量吸
烟、颈动脉粥样硬化的 P 值小于 0.05,差异存在统计学意义。与未复发组相比,复发
组吸烟者多(P=0.005)、伴颈动脉粥样硬化者多(P=0.045)。以卒中后 12 个月内是否
复发划分组别,分类变量吸烟、饮酒、高血压、颈动脉粥样硬化的 P 值小于 0.05,差
异存在统计学意义。与未复发组相比,复发组吸烟者占比较大(P<0.001)、饮酒者较
多(P<0.001)、患者多伴有高血压(P=0.033)、存在颈动脉粥样硬化斑块者较多
(P=0.020)。
25
遵义医科大学硕士学位论文 郑雯丽
表 7 卒中后 3 个月内复发影响因素分析
分类变量 复发例数 百分比 未复发例数 百分比
P 值 (n=524) (n=11) (%) (n=513) (%)
男性 8 2.61 298 97.39 0.506
年龄 0.631
18-59 岁 4 2.99 130 97.01
60 岁~ 7 1.83 383 98.17
文化程度 0.315
小学及以下 9 2.74 320 97.26
初中及以上 2 1.03 193 98.97
自理能力 0.352
需要依赖 9 2.69 326 97.31
完全自理 2 1.06 187 98.94
吸烟 4 3.39 114 96.61 0.456
饮酒 2 2.11 93 97.89 1.000
住院时间>=7 天 9 3.00 291 97.70 0.175
存在近期感染 0 0.00 86 100.00 0.283
存在消化性溃疡 2 3.39 57 97.61 0.801
存在糖尿病 3 2.65 110 97.35 0.925
存在高血压 9 2.43 361 97.57 0.624
存在心脏病 1 1.54 64 98.46 1.000
存在房颤 0 0.00 21 100.00 0.635
存在颈动脉粥样硬化 11 2.41 446 97.59 1.000
26
遵义医科大学硕士学位论文 郑雯丽
表 8 卒中后 6 个月复发影响因素分析
分类变量 复发例数 百分比 未复发例数 百分比
P 值 (n=524) (n=33) (%) (n=491) (%)
男性 21 6.86 285 93.14 0.330
年龄 0.420
18-59 岁 6 4.48 128 95.52
60-74 岁 18 7.80 213 92.20
75 岁~ 9 5.66 150 94.34
文化程度 0.437
文盲 7 7.95 81 92.05
小学 16 6.64 225 93.36
初中 6 4.65 123 95.35
中专及以上 4 6.06 62 93.94
自理能力 0.476
需要依赖 23 6.87 312 93.13
完全自理 10 5.29 179 94.71
吸烟 14 11.86 104 88.14 0.005*
饮酒 10 10.53 85 89.47 0.061
住院时间>=7 天 24 8.00 276 92.00 0.063
存在近期感染 5 5.81 81 94.19 0.840
存在消化性溃疡 5 8.47 54 91.53 0.655
存在糖尿病 11 9.73 102 90.37 0.089
存在高血压 26 7.03 344 92.87 0.287
存在心脏病 4 6.15 61 93.85 1.000
存在房颤 1 4.76 20 95.24 1.000
存在颈动脉粥样硬化 33 7.22 424 92.78 0.045*
注:*代表 P<0.05,具有统计学差异。
27
遵义医科大学硕士学位论文 郑雯丽
表 9 卒中后 12 个月内复发影响因素分析
分类变量 复发例数 百分比 未复发例数 百分比
P 值 (n=524) (n=59) (%) (n=465) (%)
男性 40 13.07 266 96.93 0.120
年龄 0.160
18-59 岁 10 7.46 124 92.54
60-74 岁 32 13.85 199 86.15
75 岁~ 17 10.69 142 89.31
文化程度 0.280
文盲 9 10.23 79 89.77
小学 34 14.11 207 95.89
初中 10 7.75 119 92.25
中专及以上 6 9.09 60 90.91
自理能力 0.961
需要依赖 38 11.34 297 88.66
完全自理 21 11.11 168 88.89
吸烟 25 21.19 93 78.81 0.000*
饮酒 21 22.11 74 77.89 0.000*
住院时间>=7 天 40 13.33 260 8.67 0.094
存在近期感染 10 11.63 76 88.37 0.906
存在消化性溃疡 8 13.56 51 86.44 0.589
存在糖尿病 17 15.04 96 84.96 0.151
存在高血压 49 13.24 321 86.76 0.033*
存在心脏病 8 12.31 57 87.69 0.663
存在房颤 3 14.29 18 85.71 0.589
存在颈动脉粥样硬化 57 12.47 400 87.53 0.020*
注:*代表 P<0.05,具有统计学差异。
28
遵义医科大学硕士学位论文 郑雯丽
2.5.1.2 非参数检验
由于样本不服从正态分布且方差齐,所以对连续变量采用 Mann-Whitney U 和
Wilcoxon W检验两种非参数检验方法。12个月的连续变量单因素分析结果表10所示。
非参数检验结果显示:以卒中后 3 个月内是否复发划分组别,复发组与未复发组
在入院收缩压、纤维蛋白原的差异具有统计学意义,P 值小于 0.05;与未复发组相比,
复发组的入院收缩压较高(P=0.008),纤维蛋白原较高(P=0.039)。卒中后 6 个月内
复发组与未复发组在入院舒张压、尿酸、载脂蛋白 A1、糖化血红蛋白的差异具有统
计学意义,P 值小于 0.05;与未复发组相比,复发组的入院舒张压较高(P=0.023),
尿酸较高(P=0.040),载脂蛋白 A1 较低(P=0.044),糖化血红蛋白较高(P=0.036)。卒中
后 12 个月内复发组与未复发组在入院微机血糖、糖化血红蛋白的差异具有统计学意
义,P 值小于 0.05;与未复发组比较,复发组的入院微机血糖较高(P=0.049),糖化
血红蛋白较高(P=0.005)。
表 10 连续变量单因素分析
中位数
连续变量 复发时间 Z P 值
未复发组 复发组
入院收缩压 3 个月 148.000 173.000 -2.650 0.008*
6 个月 145.000 157.000 -1.605 0.108
12 个月 148.000 151.000 -1.209 0.227
入院舒张压 3 个月 86.000 93.000 -1.656 0.098
6 个月 86.000 92.000 -2.274 0.023*
12 个月 86.000 88.000 -0.759 0.448
入院微机血糖 3 个月 6.900 6.800 -0.055 0.956
6 个月 6.900 7.000 -0.952 0.341
12 个月 6.900 7.300 -1.966 0.049*
尿酸 3 个月 335.000 393.000 -1.273 0.203
6 个月 331.000 393.000 -2.053 0.040*
12 个月 332.000 364.000 -1.529 0.126
注:*代表 P<0.05,具有统计学差异。
29
遵义医科大学硕士学位论文 郑雯丽
续表 10
中位数
连续变量 复发时间 Z P 值
未复发组 复发组
甘油三酯 3 个月 1.230 1.470 -0.910 0.363
6 个月 1.220 1.470 -1.831 0.067
12 个月 1.220 1.370 -1.453 0.146
总胆固醇 3 个月 4.610 4.530 -1.122 0.262
6 个月 4.610 4.530 -0.524 0.600
12 个月 4.590 4.530 -0.240 0.810
高密度脂蛋白 3 个月 1.190 1.070 -0.937 0.349
6 个月 1.190 1.070 -1.674 0.094
12 个月 1.190 1.120 -1.087 0.277
低密度脂蛋白 3 个月 3.020 3.010 -0.543 0.587
6 个月 3.020 3.070 -0.398 0.691
12 个月 3.020 3.070 -0.748 0.454
同型半胱氨酸 3 个月 8.900 9.100 -0.024 0.981
6 个月 8.800 9.600 -1.316 0.188
12 个月 8.700 9.600 -1.899 0.058
C 反应蛋白 3 个月 1.720 1.220 -1.006 0.314
6 个月 1.720 1.300 -0.781 0.435
12 个月 1.720 1.400 -0.565 0.572
血清白蛋白 3 个月 40.600 40.400 -0.870 0.384
6 个月 40.600 40.200 -1.428 0.153
12 个月 40.600 40.300 -1.186 0.236
血小板 3 个月 216.000 220.000 -0.507 0.612
6 个月 216.000 228.000 -0.868 0.385
12 个月 216.000 228.000 -0.702 0.483
30
遵义医科大学硕士学位论文 郑雯丽
续表 10
中位数
连续变量 复发时间 Z P 值
未复发组 复发组
载脂蛋白 A1 3 个月 1.090 1.020 -1.459 0.145
6 个月 1.090 1.040 -2.010 0.044*
12 个月 1.090 1.080 -0.858 0.391
载脂蛋白 B 3 个月 0.990 0.970 -0.547 0.584
6 个月 0.990 0.980 -0.199 0.842
12 个月 0.980 1.010 -0.462 0.644
白细胞 3 个月 6.700 7.000 -1.195 0.232
6 个月 6.700 6.800 -0.321 0.748
12 个月 6.700 6.800 -0.359 0.719
中性粒细胞百分数 3 个月 63.700 63.400 -0.380 0.704
6 个月 63.700 62.300 -0.847 0.397
12 个月 63.700 62.100 -1.556 0.120
纤维蛋白原 3 个月 3.010 3.390 -2.065 0.039*
6 个月 2.990 3.230 -1.774 0.076
12 个月 2.960 3.120 -1.426 0.154
糖化血红蛋白 3 个月 5.900 6.100 -1.667 0.096
6 个月 5.900 6.100 -2.099 0.036*
12 个月 5.900 6.100 -2.792 0.005*
注:*代表 P<0.05,具有统计学差异。
2.5.2 相关变量筛选及赋值
2.5.2.1 变量筛选
通过单因素分析对变量进行初筛,初步探讨自变量与因变量的关系,纳入对单因
素分析中对复发有统计学意义的自变量,由于混杂因素的存在,为了避免重要影响因
素的遗漏,参考 Kang 等[53]提出的方案,本研究将 IS 卒中后 3 个月、6 个月和 12 个
31
遵义医科大学硕士学位论文 郑雯丽
月内复发影响因素的单因素分析中 P<0.2 的候选变量纳入多因素分析,具体纳入情况
见表 11。
表 11 变量筛选情况
复发时间 纳入多因素分析的变量
3 个月 住院时间、入院收缩压、入院舒张压、载脂蛋白 A1、纤维蛋白原、糖
化血红蛋白
6 个月 吸烟、饮酒、住院时间、糖尿病、颈动脉粥样硬化、高密度脂蛋白、同
型半胱氨酸、血清白蛋白、载脂蛋白 A1、纤维蛋白原、糖化血红蛋白
12 个月 性别、年龄、住院时间、吸烟、饮酒、糖尿病、高血压、入院微机血糖、
尿酸、甘油三脂、同型半胱氨酸、中性粒细胞百分数、纤维蛋白原、糖
化血红蛋白、颈动脉粥样硬化
2.5.2.2 变量赋值
对纳入模型的相关变量进行赋值,相关变量赋值情况见表 12。
表 12 相关变量赋值表
变量 英文缩写 类型 单位 赋值/正常范围
性别 gender 无序二分类 - 男=0;女=1
年龄 age 有序分类 岁 18-59;60-74;75~
住院时间 time 有序二分类 天 <7 天;>=7 天
吸烟 smoke 无序二分类 - 否=0;是=1
饮酒 drink 无序二分类 - 否=0;是=1
糖尿病 Diab 无序二分类 - 否=0;是=1
高血压 Hype 无序二分类 - 否=0;是=1
入院微机血糖 BG 连续型 mmol/L 3.9-6.1
入院收缩压 SBP 连续型 mmHg 90-140
入院舒张压 DBP 连续型 mmHg 60-90
中性粒细胞百分数 Neu 有序二分类 % ≤75%;>75%
尿酸 UA 连续型 umol/L 155-357
甘油三脂 TG 连续型 mmol/L 0.40-1.80
载脂蛋白 A1 APOA1 连续型 g/L 1.20-1.60
高密度脂蛋白 HDL 连续型 mmol/L >1.04
血清白蛋白 ALB 连续型 g/L 40.0-55.0
同型半胱氨酸 Hcy 连续型 mmol/L <10.0
纤维蛋白原 FIB 连续型 g/L 2.38-5.00
32
遵义医科大学硕士学位论文 郑雯丽
续表 12
变量 英文缩写 类型 单位 赋值/正常范围
糖化血红蛋白 HbA1c 连续型 % 4.60-6.00
颈动脉粥样硬化 HSO 无序二分类 - 否=0;是=1
12 个月内是否复发 TwelveRec 无序二分类 - 否=0;是=1
2.5.3 多因素分析
2.5.3.1 变量线性关系与多重线性关系检验
本研究采用二分类 Logistic 回归模型进行多因素分析,该模型使用需满足连续自
变量与因变量 logit 转换值之间存在线性关系;研究自变量之间不存在多重线性关系。
本研究采用 Box-Tidwell 方法检验线性关系。经检验研究纳入变量不存在多重线性关
系。例:本研究 12 个月内复发共有 23 项变量纳入模型分析,包括 9 个分类自变量、
6 个连续自变量、6 个交互作用项和截距项(constant),经 Bonferroni 法校正后的显
著性水平α=0.00227(0.05÷22),本研究的交互作用项 P 值均大于 0.00227,因此本
研究所有连续自变量与因变量相关变量赋值 logit 转换值之间满足线性关系。多重线
性检验显示:本研究的变量容忍度(Tolerance)均大于 0.1,方差膨胀因子(VIF)均
小于 10,不存在多重线性关系,可以使用二分类 Logistic 回归模型进行多因素分析。
2.5.3.2 IS 复发影响因素的 Logistic 回归分析结果
通过二分类 Logistic 回归模型分别对 IS 后 3 个月、6 个月、12 个月的影响因素
进行多因素分析,具有统计学意义(P<0.5)的变量如表 13 所示,首发 IS 后 3 个月
内复发的独立影响因素是入院收缩压(OR=1.036,95%CI=1.002~1.072,P=0.038),影 响
卒 中 后 6 个 月 和 12 个 月 内 复 发 的 共 同 因 素 为 吸 烟 。 糖 化 血 红 白
(OR=1.435,95%CI=1.071~1.924,P=0.016)是卒中后 12 个月内复发的独立影响因素。
表 13 IS 复发影响因素的 Logistic 回归分析
复发时间 变量 B S.E. Wald P 值 OR 95%CI
3 个月 入院收缩压 0.036 0.017 4.313 0.038 1.036 1.002~1.072
6 个月 吸烟 0.897 0.450 3.968 0.046 2.453 1.015~5.931
12 个月 吸烟 1.085 0.409 7.048 0.008 2.960 1.328~6.595
糖化血红蛋白 0.361 0.150 5.843 0.016 1.435 1.071~1.924
2.6 首发 IS 后 12 个月复发预测模型的构建
33
遵义医科大学硕士学位论文 郑雯丽
2.6.1 SMOTE 算法处理非平衡数据结果
为了避免模型的预测结果向未复发偏移,研究通过 SMOTE 算法过采样对复发
组数据进行扩充,增长为原来的 4 倍,即复发病例由原来的 59 例增长为 236 例,扩
充后研究病例总数为 701 例,按照 7:3 划分训练集和测试集,其中训练集共 490 例,其中
165 例为复发病例,测试集共 211 例,其中 71 例为复发病例。SMOTE 算法处理后数据
具体特征见表 14。
表 14 SMOTE 算法处理后数据基本特征
变量 总体(n=701 例) 训练集(n=490 例) 测试集(n=211 例) P 值
年龄/例(%) 0.369
18~59 岁 164(23.40) 112(22.86) 52(24.64)
60~74 岁 327(46.65) 237(48.37) 90(42.65)
75 岁~ 210(29.95) 141(28.77) 69(32.71)
男性/例(%) 426(60.77) 302(61.63) 124(58.77) 0.476
住院时间≥7 天/例(%) 420(59.91) 299(61.02) 121(57.35) 0.363
吸烟/例(%) 193(27.53) 128(26.12) 65(30.81) 0.203
饮酒/例(%) 158(22.54) 117(23.88) 41(19.43) 0.010*
糖尿病/例(%) 164(23.40) 132(26.94) 32(15.17) 0.010*
高血压/例(%) 517(73.75) 360(73.47) 157(74.41) 0.796
入院微机血糖(mmol/L) 7.10(6.10~8.90) 7.15(6.10~9.20) 6.80(6.10~8.30) 0.001*
尿酸(umol/L) 350.85±100.07 350.4±100.15 351.88±100.11 0.033*
总胆固醇(mmol/L) 1.60±1.12 1.64±2.77 1.49±1.02 0.099
同型半胱氨酸(mmol/L) 10.36±6.74 10.61±7.57 9.80±4.18 0.680
中性粒细胞百分数/例(%) 0.000*
<50% 63(8.99) 50(10.20) 13(6.16)
50%~70% 477(68.05) 334(80.20) 143(67.78)
>70% 161(22.96) 106(19.60) 55(26.06)
纤维蛋白原(g/L) 3.09(2.73~3.54) 3.12(2.73~3.50) 3.06(2.70~3.55) 0.018*
糖化血红蛋白(%) 5.90(5.70~6.60) 6.00(5.70~6.80) 5.90(5.60~6.30) 0.000*
颈动脉粥样硬化/例(%) 628(89.59) 442(90.20) 186(88.15) 0.414
12 个月内卒中复发/例(%) 236(33.67) 165(33.67) 71(33.65) 0.995
注:*代表 P<0.05,具有统计学差异。
2.6.2 Logistic 复发预测模型的构建
基于 490 例训练集数据,纳入筛选后的 15 项变量,采用二分类 Logistic 回归分
析建立模型。模型结果如表 15 所示:年龄、住院时间、吸烟、饮酒、高血压病、中
性粒细胞百分数、糖化血红蛋白、颈动脉粥样硬化与 IS 卒中后 12 个月内的复发独立
34
遵义医科大学硕士学位论文 郑雯丽
相关(P<0.05)。
表 15 Logistic 回归模型结果
变量 B S.E. Wald P值 OR 95%CI
性别 0.441 0.270 2.658 0.103 1.554 0.915~2.639
年龄
18~59岁 - - 8.601 0.014* - -
60~74岁 0.937 0.320 8.594 0.003* 2.552 1.364~4.775
75岁~ 0.758 0.351 4.669 0.031* 2.134 1.073~4.245
住院时间 0.584 0.236 6.113 0.013* 1.792 1.129~2.847
吸烟 1.200 0.310 15.011 0.000* 3.319 1.809~6.090
饮酒 0.684 0.292 5.487 0.019* 1.982 1.118~3.513
糖尿病 -0.040 0.334 0.014 0.906 0.961 0.499~1.851
高血压 0.893 0.282 9.999 0.002* 2.442 1.404~4.246
入院微机血糖 -0.045 0.046 0.947 0.330 0.956 0.874~1.046
尿酸 0.002 0.001 3.351 0.067 1.002 1.000~1.004
总胆固醇 -0.040 0.098 0.171 0.680 0.960 0.793~1.163
同型半胱氨酸 -0.031 0.021 2.195 0.138 0.970 0.931~1.010
中性粒细胞百分数
<50% - - 6.045 0.049* - -
50%~70% -0.117 0.347 0.114 0.736 0.889 0.451~1.756
>70% -0.799 0.412 3.757 0.053 0.450 0.201~1.009
纤维蛋白原 0.149 0.163 0.833 0.361 1.161 0.843~1.599
糖化血红蛋白 0.285 0.110 6.732 0.009* 1.330 1.072~1.651
颈动脉粥样硬化 1.731 0.636 7.404 0.007* 5.648 1.623~19.659
截距 -6.906 1.126 37.638 0.000 - -
注:*代表 P<0.05,具有统计学差异。
设 IS 卒中后 12 个月内复发概率为 P,那么 logit(P)=-6.906+0.441*性别+0.937*
年龄(60~74 岁)+0.758*年龄(≥75 岁)+0.584*住院时间+1.200*吸烟+0.684*饮酒-0.040*
糖尿病+0.893*高血压-0.045*入院微机血糖+0.002*尿酸-0.040*总胆固醇-0.031*同型
半胱氨酸-0.117*中性粒细胞百分数(50%~70%)-0.799*中性粒细胞百分数(>70%)
+0.149*纤维蛋白原+0.285*糖化血红蛋白+1.731*颈动脉粥样硬化,根据公式计算每个
病例复发的预测概率,对比实际情况,绘制 ROC 曲线图(图 3)。
35
遵义医科大学硕士学位论文 郑雯丽
图 3 训练集 Logistic 模型的 ROC 曲线图
计算出 AUC=0.765,95%CI=0.723~0.807,P<0.001,基于训练集建立的 Logistic
复发预测模型具有一定的区分能力。
2.6.3 XGboost 复发预测模型的构建
通过训练集数据构建的 XGboost 模型参数设定为:booster:’ gbtree’,objective:’
binary:logistic’,gamma:0.1,eta:0.1,max_depth:6,min_child_weight:3,subsample: 0.7,
colsample_bytree:0.7,lambda: 2,silent:1,seed:1000,nthread:4。XGboost 模型中 IS
复发影响因素的重要性排序如图 4 所示。
图 4 XGboost 模型影响因素的重要性排序
36
遵义医科大学硕士学位论文 郑雯丽
如图 4 所示,XGboost 模型中对复发影响重要性最大的影响因素是中性粒细胞百
分数,其次为纤维蛋白原,其他依次排序为同型半胱氨酸、总胆固醇、尿酸、入院微
机血糖、糖化血红蛋白、年龄、吸烟、住院时间、饮酒、高血压、颈动脉粥样硬化、
糖尿病。
2.7 XGboost 复发预测模型与 Logistic 复发预测模型的内部验证
将 211 例测试集数据分别代入基于训练集建立的 XGboost 复发预测模型与
Logistic 复发预测模型中,计算每个病例复发的预测 P 值,对比真实复发情况,绘制
ROC 曲线(见图 5-6),比较两种模型的 AUC 值、准确率、精确率、敏感度、特异度
和约登指数。
2.7.1 XGboost 模型与 Logistic 复发预测模型测试集的 ROC 曲线对比
图5 XGboost模型测试集ROC曲线图 图6 Logistic模型的测试集ROC曲线图
计算 XGboost 模型测试集 ROC 曲线下面积 AUC=0.967,95%CI=0.951~0.983,模
型区分能力较好。
计算 Logistic 模型测试集 ROC 曲线下面积 AUC=0.694,95%CI=0.620~0.766,模
型区分能力较低。
2.7.2 XGboost 模型与 Logistic 模型的预测结果对比
基于测试集数据得到两种模型的预测结果,如表 16 所示。
37
遵义医科大学硕士学位论文 郑雯丽
表 16 基于测试集的模型预测结果
模型 XGboost Logistic
AUC 值 0.97 0.69
准确率 0.97 0.67
精确率 0.91 0.51
敏感度 1.00 0.51
特异度 0.95 0.75
约登指数 0.95 0.26
截断值 0.50 0.36
TP 70 36
FN 0 35
FP 7 35
TN 134 105
模型测试集数据为 211 例,其中 71 例于 IS 卒中后 12 个月内发生复发事件,实
际累积复发率约为 33.6%。如表 16 所示:XGboost 模型预测结果显示 77 例患者在 IS
卒中后 12 个月内出现复发,预测累积复发率约为 36.5%,Logistic 模型预测结果显示
71 例患者在 IS 卒中后 12 个月内出现复发,预测累积复发率约为 33.6%。而 XGboost
模型在测试集中验证结果的准确率=0.97,精确率=0.91,敏感度=1,特异度为 0.95,
约登指数=0.95;Logistic 模型在测试集中验证结果的准确率=0.67,精确率=0.51,敏
感度=0.51,特异度=0.75,约登指数=0.26。
3 讨论
3.1 IS 的复发情况
目前国内外对 IS 复发情况的报道不一,国外报道首发 IS 卒中后 1~2 年内的复发
率为 5.4%~11.5%[6, 54],5 年的复发率为 11.3%~14.4%[55, 56]。韩国的队列研究表明急性
缺血性脑卒中患者卒中后 30 天、90 天、1 年的累积复发率分别为 2.7%、3.9%、5.7%[6]。
国内研究数据显示首发 IS 卒中后 12 个月累积复发率为 10.9%~17.7%[5, 27, 57-59] ,6 个
月累积复发率为 13.4%~14.1%[5, 60],3 个月累积复发率 3.5%~10.9%[5, 33, 61, 62]。本研究
38
遵义医科大学硕士学位论文 郑雯丽
IS 患者卒中后 3 个月累积复发率 2.1%,6 个月累积复发率为 6.3%,12 个月累积复发
率为 11.3%。本研究 IS 患者 12 个月累积复发率处于既往研究报道结果范围内,研究
纳入的对象数据符合真实世界的分布规律,基于该数据构建的卒中后 12 个月内复发
预测模型亦具备可靠性。针对IS 患者复发问题,可早期开展复发风险评估,发现复
发高危人群,针对复发危险因素制定个性化干预措施,追踪随访高风险人群,落实卒
中二级预防,从而降低 IS 的复发率,改善患者预后。
3.2 IS 复发的影响因素
3.2.1 复发影响因素在时间维度上的差异
本研究结果显示入院收缩压水平是首发 IS 后 3 个月内复发的独立影响因素。复
发组的入院收缩压水平显著高于未复发组,差异具有统计学意义,与单燕莉研究报道
结果一致[63]。血压水平增高导致血流动力学发生改变,血管内皮细胞受损,脂质沉积,
加剧动脉粥样硬化斑块的形成,导致卒中复发危险性的增加。入院收缩压水平高可作
为 IS 卒中后早期 3 个月内复发的预警信号。吸烟是首发 IS 后 6 个月内和 12 个月内
复发共同的独立影响因素。吸烟会导致纤维蛋白原增多,血液粘滞度增加,加速脑血
栓的形成,导致复发事件的出现,在既往的研究中亦有报道[29],戒烟是预防和延缓
IS 复发的有效措施。本研究结果中较未吸烟者,存在吸烟行为的 IS 患者卒中后 6 个
月内的复发风险增加了 2.45 倍,12 个月内复发风险增长了 2.96 倍。既往研究报道[64]
糖化血红蛋白的水平与 IS 患者的神经功能缺失程度呈正相关,糖化血红蛋白水平越
高,患者病情越严重,预后越差。本研究结果显示糖化血红蛋白是卒中后 12 个月内
复发的独立影响因素,随着糖化血红蛋白水平的增高,IS 复发风险增高。
复发影响因素在时间维度上存在差异和共性,研究关注 IS 复发影响因素的同时,
可考虑从时间维度上进行探讨,挖掘不同时间节点各影响因素对复发的作用,可依据
影响因素在时间维度上的分布特征,抓住 IS 患者卒中后不同时间点的管理重点,依
据时间轴制定干预计划,如在管理众多复发影响因素过程中,卒中后前期 3 个月可以
重点关注血压水平的控制,6 个月内重点关注戒烟,12 个月内的重点关注戒烟情况和
糖化血红蛋白水平的控制。
3.2.2 复发影响因素在 XGboost 模型中的重要性排序
XGboost 模型在筛选变量的同时可依据各变量对模型的影响的重要程度进行排
39
遵义医科大学硕士学位论文 郑雯丽
序,本研究纳入的 15 个变量中,对预测模型贡献排名前七位的依次为中性粒细胞百
分数、纤维蛋白原、同型半胱氨酸、总胆固醇、尿酸、入院微机血糖和糖化血红蛋白。
3.2.2.1 中性粒细胞百分数与 IS 复发
中性粒细胞百分数在本研究单因素分析结果和 Logistic 回归模型中均不具有统计
学差异,而在 XGboost 模型却作为重要的影响因素,关于中性粒细胞百分数与 IS 复
发相关性的研究少见报道,仅许源等[22]研究报道显示中性粒细胞百分数与 IS 卒中后
90 天内复发再入院独立相关。可见 XGboost 模型较 Logistic 回归模型更能识别临床
中易被忽略的影响因素。中性粒细胞百分数与 IS 复发之间关系仍有待进一步的探讨。
3.2.2.2 纤维蛋白原与 IS 复发
纤维蛋白原在本研究 IS 卒中后 12 个月内复发单因素分析结果和 Logistic 回归模
型中均不具统计学意义,但在 XGboost 模型中影响因素重要性排序为第 2 位,既往研
究[51]亦报道纤维蛋白原是 IS 复发的独立危险因素,IS 复发风险随纤维蛋白原的增高
呈递增趋势。一项 Meta 分析[65]结果亦显示与纤维蛋白原正常者比较,高水平纤维蛋
白原患者的 IS 复发风险增长了 26%。纤维蛋白原是凝血过程的参与物,能够促进血
小板聚集黏附,导致血液粘稠度增加,容易形成血栓,从而使 IS 复发风险增加[66]。
临床工作中可依据纤维蛋白原水平情况,对 IS 患者的预后和复发风险予以判断,并
且针对高水平纤维蛋白原患者尽早采取干预措施,降低纤维蛋白原水平,从而改善 IS
的预后。
3.2.2.3 同型半胱氨酸与 IS 复发
同型半胱氨酸在本研究 IS 卒中 12 个月内复发单因素分析结果和 Logistic 回归模
型中均不具统计学意义,但在 XGboost 模型中影响因素重要性排序为第 3 位,既往多
项研究[67-70]表明高同型半胱氨酸血症(Hcy)是 IS 复发的独立危险因素。同型半胱氨
酸通过促进氧自由基的生成,损伤血管内皮,纤维蛋白原堆积,抑制内皮细胞修复,
促进血栓形成。同型半胱氨酸与血管动脉粥样硬化形成相关[71]。Shi, Z.等[44]对 2800
例卒中患者平均随访 18 个月,Hcy >15.5 μmol/L 者卒中复发风险比 Hcy≤9.65μmol/L
者增长了 1.76 倍。同型半胱氨酸是 IS 卒中后 12 个月内复发重要的预测因子。高同
型半胱氨酸与叶酸和维生素 B6 缺乏相关,应定期监测同型半胱氨酸水平,及时补充
叶酸和维生素 B6,有效控制同型半胱氨酸水平于 10μmol/L 以下,从而降低 IS 复发
40
遵义医科大学硕士学位论文 郑雯丽
风险[72]。
3.2.2.4 总胆固醇与 IS 复发
总胆固醇在 Logistic 回归模中不具有统计学差异,而 XGboost 模型仍将总胆固醇
作为重要影响因素,既往研究[73]亦报道高胆固醇与 IS 复发独立相关,高胆固醇水平
会加剧颈动脉粥样硬化,导致血栓形成,进一步引发卒中。另有研究[42]表明低总胆固
醇(TC<4.07mmol/L)是动脉粥样硬化血栓性梗死患者不良预后的独立危险因素,与
卒中 36 个月内复发风险呈负显著相关,不同水平总胆固醇对 IS 复发的影响有待进一
步研究。
因此,对于总胆固醇异常的 IS 患者应定期复查血脂情况,护理人员应指导患者
改变不良生活习惯,调整饮食结构,控制总胆固醇水平<5.20 mmol/L[74]。在使用降脂
药过程中要根据总胆固醇水平予以调整,不可一味追求低水平总胆固醇,以免导致 IS
不良预后。
3.2.2.5 尿酸与 IS 复发
长期高水平的血清尿酸可能与 IS 复发密切相关。彭玲梅等[75]随访 1070 例首发 IS
患者 2 年内 IS 复发情况,发现尿酸水平是 IS 复发的独立危险因素。研究显示[76]高尿
酸血症与颅内动脉狭窄发生显著相关,存在高尿酸血症的 IS 患者复发率显著高于非
高尿酸血症者。尿酸来源于外界食物摄入和内源性产物,长期高尿酸饮食会导致高尿
酸血症,长期高尿酸水平,会导致血管内皮损伤,促使动脉粥样硬化,导致卒中发生,
临床护士应指导患者有效调整饮食结构,控制尿酸水平,减少 IS 复发。尿酸在本研
究的 Logistic 回归模型中不存在统计学差异,而在 XGboost 模型中为 IS 复发重要的
影响因素,可见 XGboost 模型在识别变量重要特征上的优势。
3.2.2.6 血糖与 IS 复发
研究卒中后 12 个月内复发单因素分析结果中入院微机血糖在复发组与未复发组
之间的差异具有统计学意义,不同于研究 Logistic 回归模型的结果,入院微机血糖在
XGboost 模型中亦为影响因素重要性排序前七位的重要变量。高血糖会导致脑部缺血
组织的无氧糖代谢增加,导致乳酸堆积和细胞内酸中毒,从而进一步加剧缺血损伤[77]。
学者 Pan, Y.等[78]研究中将 5135 例 TIA 或轻度 IS 患者分为糖尿病组、空腹血糖受损
组和正常血糖组 3 组,探讨不同血糖水平与 90 天内卒中复发事件的关系,结果显示
41
遵义医科大学硕士学位论文 郑雯丽
空腹血糖受损组和糖尿病组 3 个月内复发风险分别是正常血糖组的 1.57 倍和 2.38 倍,
空腹血糖受损与糖尿病与 IS 复发风险增加有关,且空腹血糖和卒中复发风险之间存
在“J 形”关联,最低为 4.9 mmol/L。IS 患者的预后与血糖水平控制相关,既往研究
[73]表明糖尿病患者血糖控制达标者 IS 复发的风险与未合并糖尿病患者相近。指南[79]
推荐卒中患者应定期监测血糖情况,指导患者进行自我监测,降糖方案应依据患者的
临床特征,制定个性化干预方案,同时也要警惕低血糖带来的危害。
3.2.2.7 糖化血红蛋白与 IS 复发
糖化血红蛋白在 XGboost 模型中影响因素重要性排序为第 7 位,在研究 Logistic
回归模型中亦具有统计学意义,HbA1c 与 IS 复发独立相关,HbA1c 每增长 1%,IS
发病 1 年内复发风险增加 1.33 倍。高 HbA1c 会导致氧合血红蛋白的解离速度降低,
造成组织缺氧;糖化反应生成的 HbA1c 不断在血管壁堆积,会导致基质增生,管腔
狭窄以及血栓形成[80]。既往研究表明 HbA1c 与卒中发生[81]、复发[82]以及预后不良[83]
相关。王丹凤研究发现非致残性缺血性脑血管的复发与 HbA1c(>6.0%)独立相关
(OR:3.170,95%CI:1.45~8.620)。Wu, S.等[50]研究探讨 HbA1c 水平与 IS 复发的关系,
结果显示 HbA1c 水平在 6.1%~7.2%范围的 IS 患者卒中后 3 个月、1 年内的复发风险
分别为 HbA1c 水平<5.5%者的 2.83 倍和 3.30 倍。HbA1c 水平≥7.2%者 3 个月、1 年
内的复发风险分别为 HbA1c 水平<5.5%者的 3.71 倍和 3.35 倍。HbA1c 水平可以作为
IS 复发的独立预测因子,IS 患者出院随访期间应做好 HbA1c 水平的监测,了解血糖
的控制水平,研究发现[84]HbA1c 水平与卒中预后存在“U”型关系,建议将 HbA1c
水平控制在 6.0%~7.0%,一味追求 HbA1c 的降低可能会导致预后不良。临床护士可
针对 HbA1c 控制不佳的患者,从饮食、运动、用药等方面予以针对性指导,告知其
危害性,加强患者重视,提高患者的依从性。
综上,相较于传统 Logistic 回归模型,XGboost 模型对变量特征识别更精准、更
敏感,一定程度上保障了模型的预测效果,同时 XGboost 模型对 IS 复发相关影响因
素的重要性识别,有助于临床护士依据各影响因素对 IS 复发的重要性制定相应的个
性化护理措施,实施干预计划,减少复发事件的出现。
3.3 XGboost 模型相较于量表和传统 Logistic 回归模型对 IS 复发的预测
价值更高
42
遵义医科大学硕士学位论文 郑雯丽
目前针对 IS 复发预测,国内专家[12]推荐临床采用 ESRS 或 SPI-II 量表评估,但
国内验证 ESRS 与 SPI-II 预测 IS 患者 1 年复发风险的 AUC 值均为 0.59[13],预测作用
有限,可能与量表纳入的评估条目仅涵盖部分血管危险因素,缺乏临床生化影像等指
标有关。近年人工智能发展和机器学习热潮的掀起,为 IS 复发预测提供了新的途径。
许源等[22]基于 XGboost 算法构建了 IS 患者 90 天再入院风险预测模型,结果显示
XGboost 模型预测的 AUC 值为[0.792(95%CI:0.717~0.762)]、敏感度(89.30%)和约登
指数(0.444)均大于传统 Logistic 回归模型[0.739(95%CI:0.764~0.818) 、77.3%、
0.405) ],XGboost 模型对 IS 复发再入院预测和预防具有重要的临床指导意义。谷鸿
秋等[85]基于 CNSRⅡ数据分别采用 Logistic 回归和 XGBoost 算法构建 IS 患者院内复
发风险预测模型,结果显示两者预测 IS 院内复发风险的 AUC 值没有显著差异,但
XGBoost 模型的校准度略低,可能与该研究变量纳入有限,限制了 XGBoost 算法的
优势。本研究对 IS 复发风险因素相关文献进行了系统查阅,全面收集 IS 复发风险因
素,在医院病案系统信息完整的基础上,对相关数据进行采集,最大程度上保证不遗
漏重要的复发风险因素。基于回顾性数据,本研究分别建立了 IS 发病后 12 个月内复
发风险预测 Logistic 回归模型和 XGboost 模型,研究结果中 Logistic 模型预测的复发
率虽更贴近实际复发率,但 Logistic 模型对 IS 复发预测的精确率和敏感度仅为 0.51,
而 XGboost 模型预测的精准率和敏感度均大于 Logistic 模型,相较而言,XGboost 模
型模型更能精准地识别到 IS 复发的高危患者。考虑到传统的 Logistic 回归模型对数
据利用度有限,而 XGboost 算法能够深入挖掘数据获得预测值与实际数据误差最小化
的模型,本研究 XGboost 模型预测 IS 复发的准确率、精确率、敏感度、特异度、AUC
值均大于传统 Logistic 回归模型,可见 XGboost 模型对 IS 复发的预测价值更高。
适用于临床的预测模型,不仅需要模型的预测效果好,同时需要模型数据收集成
本低、开发难度低及使用便利。一个好的预测模型需要具备临床普适性和推广性,现
在随着智慧医疗的发展,医院病案系统中储备了大量患者临床诊疗数据,机器学习可
以充分利用挖掘数据规律,实现患者风险精准分层,优化患者管理,改善临床预后,
大程度地减少了人力和物力的消耗。本研究在遴选变量过程中将临床数据的可及性考
虑在内,纳入的变量均为 IS 患者入院后的临床常规检测项目,保证了模型数据的易
获取性。数据量越大,纳入具有代表性的数据越多,机器学习的效果越好,本研究样
43
遵义医科大学硕士学位论文 郑雯丽
本量为524例,后续可进一步纳入更多临床病例数据对XGboost模型进行优化和验证,
验证后的模型可嵌入医院诊疗及随访系统,应用于临床实践中,方便医护人员依据患
者复发风险分层情况,管理随访 IS 患者,提供个体化干预措施,降低复发风险,改
善患者临床预后。
3.4 小结
本阶段通过回顾性研究收集首发 IS 患者临床既往诊疗资料,追踪卒中后 12 个月
内的复发情况,IS 患者发病后 12 个月内复发率处于既往研究报道结果范围内,有必
要对 IS 患者开展复发风险评估;研究单因素影响分析在时间维度上存在差异和共性;
IS 复发受多种因素影响,XGboost 模型较 Logistic 回归模型更能识别易忽略的重要影
响因素,XGboost 模型中对 IS 复发影响重要性排序前七位的因素中性粒细胞百分数、
纤维蛋白原、同型半胱氨酸、总胆固醇、尿酸、入院微机血糖和糖化血红蛋白,临床
护理过程中需重点关注 IS 患者该部分指标情况,予以相应的干预处理;基于 XGboost
算法构建的 IS 复发预测模型效果优于传统 Logistic 回归模型,进一步展望 XGboost
模型在临床的应用价值,下一步可开展临床验证,开发系统与医生工作站或互联网+
护理平台结合,实现对 IS 患者复发风险精准分层管理,为患者提供出院后线上线下
一体化管理。
4 结论、创新点、不足与展望
4.1 结论
(1)首发 IS 患者发病后 12 个月内复发率为 11.3%,处于既往研究报道结果范
围内。
(2)IS 复发影响因素分布在时间维度上存在共性和差异,入院收缩压水平高是
IS 卒中后 3 个月内复发的高危人群,吸烟者在 IS 卒中 6 个月和 12 个月内易复发,高
糖化血红蛋白是卒中后 12 个月内复发高危人群。XGboost 模型较 Logistic 回归模型,
更能识别易忽略的重要影响因素,中性粒细胞百分数、纤维蛋白原、同型半胱氨酸、
总胆固醇、尿酸、入院微机血糖和糖化血红蛋白对 IS 复发有重要影响,临床护理过
程中需重点关注该部分指标情况,实施相应干预措施。
(3)基于 XGboost 算法构建的 IS 复发预测模型对 IS 复发高危人群识别能力强,
44
遵义医科大学硕士学位论文 郑雯丽
且预测效果优于传统 Logistic 回归模型,未来可进一步考虑前瞻性纳入大样本临床病
例验证模型效果且逐步优化模型,进而开发系统投入临床实践应用,为临床工作识别
IS 复发高危人群提供实践指导。
4.2 创新点
(1)研究从时间维度上探讨了卒中后 3 个月、6 个月和 12 个月内复发影响因素
的差异和共性,为临床护士针对患者不同时间点的干预措施和管理方案制定提供理论
指导。
(2)国内外仅见基于 XGboost 算法的 IS 患者出院后 90 天内复发再入院的预测
模型和 IS 院内复发的预测模型,基于 XGboost 算法的 IS 卒中后 12 个月内复发的预
测模型尚未见报道,IS 患者卒中后 12 个月内复发风险较高,本研究通过文献回顾、
频次分析结合影响因素分析筛选模型变量,基于 XGboost 算法构建了 IS 卒中后 12
个月内复发的预测模型,研究结果可为 IS 复发预测提供新的工具,亦为临床护士对
IS 患者实现出院后精准化管理奠定了基础。
4.3 与护理专业的关联性
(1)随着人工智能技术的发展和大数据时代的到来,护理信息学作为信息技术
学与护理学的交叉学科已逐步兴起和发展,多学科交叉是现代科学技术发展的趋势,
学科交叉有助于提供新的思考方式和研究方法,能够有效解决临床难题。本研究跨学
科通过机器学习方法构建 XGboost 预测模型,后期优化验证后可嵌入临床护理工作系
统,辅助临床护士展开 IS 患者的出院随访管理。
(2)本研究为基础性研究,为后期的干预性研究奠定了基础,下一步研究可依
据预测模型判定结果对 IS 患者进行精准化管理,针对 IS 患者存在的高危因素,予以
相应的针对性措施干预,制定 IS 患者出院后管理模式。
4.4 不足与展望
本研究通过回顾性研究,收集 IS 患者临床诊疗信息,追踪患者 12 个月内复发情
况及影响因素分析,通过 XGboost 算法构建 IS 复发预测模型,与传统 Logistic 模型
进行比较,研究结果具有一定临床价值和指导意义,但研究仍存在不足之处:
(1)由于本研究属于回顾性研究,受医院病案系统、数据收集人员和时间的限
45
遵义医科大学硕士学位论文 郑雯丽
制,研究对象均来自同一家三级综合医院,数据不能完全代表国内所有的 IS 患者。
研究结果最多仅代表珠海西部地区医院,是否适用于其他地区仍待进一步探究,后续
研究可以考虑纳入不同地区的多家医院进行数据收集,扩充样本量,进一步优化
XGboost 模型。
(2)IS 复发的风险因素众多,本研究对 IS 复发风险因素的选择来源于文献回顾、
经验判断以及专家咨询,但是考虑到医院病案系统的可及性,未纳入生活作息习惯、
服药依从性、中医症候等指标,过程可能会导致某些重要的影响的遗漏,后期研究建
议通过前瞻性与回顾性结合的方式开展数据收集。
(3)研究构建的预测模型未在人群中进行前瞻性验证,后续可以在临床开展大
规模的前瞻性验证,通过模型识别 IS 复发高危人群,进行前瞻性随访验证模型预测
效果,不断优化模型,进而开发系统,嵌入临床诊疗,指导临床实践。
(4)研究构建的预测模型主要针对 IS 发病后 12 个月内的复发风险,IS 患者 5
年内的复发风险较高,研究模型是否适用于评估 IS 的不同时间段的复发风险仍有待
进一步探讨。
学术论文网提供数万篇的免费毕业论文、硕士论文、博士论文、sci论文发表的范文供您参考,并提供经济、管理、医学、法律、文学、教育、理工论文、mba作业、英语作业的论文辅导写作、发表等服务,团队实力雄厚,多达人,帮您解决一切论文烦恼。