引言
随着大数据的快速发展和研究学者们对医疗界的愈发关注,如何利用人工智能帮助住院病人提前预警,从而提高生存率并降低医院负担变得愈发受人关注。
脓毒症(Sepsis)是一种由细菌等致病微生物入侵人体引起的全身炎症反应综合征,具有极高的发病率和死亡率。过去10年内,脓毒症在ICU住院病人中占比超过20%,且每年以超过8%的死亡率急剧增加,脓毒症的相关研究也因此在医疗领域颇受关注。如何及时对脓毒症进行预测变得更为迫在眉睫。
一、数据来源及说明
本文使用MIMIC-IIIv1.4数据集,一个免费公开的大型医疗数据库,几乎涵盖病人住院期间所需的所有治疗或诊断记录。整合了位于马萨诸塞州波士顿的BethIsraelDeaconess医疗中心收治的2001年至2012年之间4万多名不明身份患者的全面的临床数据,并根据数据使用协议使国际研究人员可以广泛访问这些数据(每小时约1个数据点)。该数据库包含26张表,以下将对数据集做详细介绍。
1、字典信息辅助表
字典信息数据,共包含5个数据表。当查取患者的特定代码所对应的病症或是指标时,即需要在字典表。字典表让表的结构更为简单清晰了。
字典表简介
2、患者人口学信息及院内周转信息
患者个人信息及主要住院信息,共包含6个数据表。在做实验时用到的更多为这6张表。
患者信息表简介
·PATIENTS:记录患者的个人信息。可以与ADMISSONS表联合起来使用,用于简略分析入院患者的特点,此外,ADMISSONS表还可以对PATIENTS做一个病人个人信息的补充。
·ADMISSIONS:主要记录患者的住院情况。当研究在特定时间窗口内入院的患者时,入院时间就显得尤其重要。在研究患者住院结局,如脓毒症死亡率时,死亡时间亦会用到。
·ICUSTAYS:通常被用来计算患者在ICU内待的时长。
3、病人医院门诊治疗的相关信息表
医疗记录相关表简介
·CPTEVENTS:记录了患者使用到了哪些需要付费的医疗服务,由此方便计算费用。
·DIAGNOSES_ICD:记录了患者的ICD-9诊断编码,研究特定疾病时会使用到该表。一个患者可能会患有多个ICD-9编码对应的病症,一般认为第一个是患者的主病。
·LABEVENTS:患者的化验结果记录表,比如血压、尿量等。包含有关基于实验室的测量的信息,需要注意的是测量时间是液体采集时间,而不是临床工作人员可以使用这些值的时间。
·PRESCRIPTIONS:包含与药物相关的订单条目,在研究患者的药物使用时,该表有大用途。
4、病人在ICU里的治疗相关信息表
病人治疗信息记录表
·CHARTEVENTS:包含患者的所有图标记录信息,显示患者的常规生命体征和与其护理相关的其他任何信息,如:呼吸机设置、实验室测量值、精神状态等。
·DATETIMEEVENTS:包含有关ICU中患者的所有日期测量值。需要注意的是,为了保护病人隐私,所有的日期都做了隐私处理,但日期之间的差值还依旧有意义。
·NOTEEVENTS:需要文本记录的事件。一般指医嘱。
二、框架概述
本文主要是针对脓毒症预测中出现的器官衰竭的影响和病人身体指标的变化提出的模型。将病人的历史诊断数据分多个通道输入模型,并在各通道的模型中完成对各自指标变化的权重计算以及器官衰竭的信息学习,最后预测该病人在未来2/6小时后是否会患脓毒症,模型框架如下图所示。
模型框架
多器官状态融合模型。由于脓毒症的发病表现在器官衰竭上,那么器官衰竭的程度就必然在一定程度上反映了患脓毒症的风险。在这里本文只考虑了常见的4种器官衰竭:呼吸系统、凝血系统、肝系统以及肾系统衰竭。
以GRU为基准模型,将不同的器官衰竭数据分通道输入到模型中,形成了multichannelgru的形式,有助于模型更针对性的对器官衰竭进行学习,这样在充分的学习了器官衰竭的信息后有助于对最终脓毒症的预测。
差分时序权重学习。由于特征的动态变化同样反映了病人的身体状况。因此在各个通道的模型中设计了差分时序权重学习模块,使用注意力机制根据特征的变化赋予相应的权重,即在学习每个器官衰竭的同时也学习了病人的身体指标的变化情况。
脓毒症预测。在脓毒症预测时,主要是将各通道的输出进行整合,然后再预测。多通道输出的整合方式有多种,模型中使用的是较为简单的将各个通道的隐藏层进行拼接的形式。这种方式简单快捷,操作性强。
三、实验
1、实验环境配置
本文所需要的实验配置需求几乎都为软件需求。实验软件:PyCharm安装包:Python3.8,Pytorch-gpu1.7
2、实验数据预处理
本文使用的数据集为公开数据集MIMIC-IIIv1.4。在正式实验前,会先对数据进行预处理以满足模型的输入需求和逻辑需求。数据预处理的大致流程如下图所示。
数据预处理流程
(1)打标
原始的MIMIC-III数据集是没有脓毒症标签的,因此需要根据sepsis3.0标准给数据集打标。要判定某患者患脓毒症,需满足两个条件:该患者已发生感染,同时该患者患有器官衰竭(器官衰竭分数大于等于2)。
选择培养物和使用抗生素中较早的时间点作为感染的时间点。
以口服或注射抗生素及体液培养物(血液,尿液,脑脊液,腹膜等)的采样为准。如果取得了培养物,则需要在72小时内施用抗生素,而如果先使用抗生素,则需要在24小时内施用培养物。可参照下图。
发生感染时间判断
SOFA≥2出现多器官衰竭。下表展示了器官衰竭的判定标准。事实上,下表展示的就是根据器官损害程度对患者进行预后判断的一个评分系统(SOFA评分),最终的SOFA评分是所有6个器官的评分之和。根据下表给各器官衰竭打分,若出现了多器官衰竭(SOFA≥2),再结合是否感染的判断,即可给该病人打标签。
序贯器官衰竭评分(SOFA)
多器官衰竭时间和感染时间靠后者为脓毒症发生时间。在确定了病人患了脓毒症后,需要具体明确该病人发生脓毒症的时刻。由于已经确定了感染所出现的时刻,而出现多器官衰竭也可以是在某一段时间内。因此,将时间窗口规定为发生感染前24小时和后12小时内,如下图所示,比较感染时间和出现多器官衰竭时间,两者中靠后的一个时间点记作该病人发生脓毒症的时间。
发生脓毒症时刻判断
根据条件得到脓毒症的发生及具体时间。需要注意的是,由于最终目的是需要预测未来2或6小时病人是否患病,因此,需要将得到的标签相应的往前移2或6小时。
具体方法为:在确定了脓毒症发生时间后,脓毒症发生前2小时或6小时以内的数据标记为正样本(label为1),脓毒症一直未发生或发生前超过2小时或6小时的数据标记为负样本(label为0)。
(2)数据聚合
为了得到一些指标的统计信息,例如在2小时内或6小时内该指标的平均值、最大值以及最小值。本文将打标后的数据按照2小时或6小时进行了聚合,聚合后将原始的某一个指标替换为了该指标测量次数、该指标在该段时间内的最大值、该指标在该段时间内的最小值、该指标在这段时间内的均值、该指标在这段时间内的方差。
(3)常规处理
这里包括数据下采样、缺失值填补、离散数据处理以及数据归一化。按照2小时和6小时聚合后原始的数据集正负样本比例分别为1:24和1:32,都是极度的样本不平衡。采取正负样本1:2的比例对经过以上三步处理后的数据集下采样。
以2小时聚合为例,MIMIC-IIIv1.4数据集的数据缺失情况如下图所示。缺失率最高的前20个特征,最少的缺失率也超过了70%。
数据缺失率
本文采用的缺失值填补方式有两种,一是利用knn插值法,二是利用均值填补。实验效果表明knn插值法不如均值填补,因此本文最终采纳了均值填补方式。
数据集中唯一的一个离散变量只有性别列,对该列进行哑变量处理。最后利用scaler对数据集归一化。
经过上述四部分的数据预处理,本文最终使用到的数据集大致统计信息如下表所示。
数据集统计信息
3、实验结果
以两小时聚合的数据集为例,整体的模型实验结果如下表所示。
完整实验结果
实验中所涉及到的参数仅包含学习率lr和训练轮数epoch,均在上表中显示出。
以下将从三个方面对该实验结果进行分析。
(1)基准模型实验结果分析
利用MIMIC-III数据集预测脓毒症是目前关注度比较高的研究方向,大多研究采用的都是机器学习模型,本文设置的基准模型只涵盖了以下两种方法,一方面是因为这两种方法在进行脓毒症预测时利用的比较多,另一方面是因为这两种算法在大多机器学习算法中,算是表现比较稳定且优异的算法。
·XGBoost(JeromeFriedman,2000)
·LightGBM(GuolinKe,2017)
·GRU(JunyoungChung,2014)
将以上的两个机器学习算法作为与GRU进行对比的基准模型,是为了证明在本文研究的问题中,循环神经网络模型(GRU)提出的必要性。
其实验结果如下表所示。
gru与基准模型实验结果
从上表可以看出,传统机器学习的效果比较稳定,auc(ROC曲线下方的面积大小)值稳定在0.75左右。而与传统机器学习相比,神经网络由于考虑了时间序列的相互关系,对数据的学习能够更加充分,能够实现更好的模型效果,auc和f1值均有提升,尤其f1值提升了约20个百分点。证明了本文使用gru作为基准模型的正确性。
另外,为了验证本文所提出的基于注意力机制的差分时序的有效性,这里也提出了一个变形模型作为补充的基准模型。
delta_gru:是为了与attention_gru(含有注意力机制的差分时序模型)形成对比,证实引入注意力机制实现差分时序模块的必要性。delta表示将特征变化幅度作为新的特征拼接到原有数据集中。
最终的实验结果如下面两表所示。
不同实现方式的差分时序实验结果
上表展示的是在gru的基础上利用delta或注意力机制分别实现差分时序的方式来融入病人的身体指标的变化幅度信息。实验数据表明,利用引入注意力机制的差分时序,比单纯扩充原有数据集特征更有效果。
由于注意力机制的权重计算,对原始特征的动态变化幅度有了一个相应的重要性选择,因此,证明本文利用注意力机制实现差分时序的设计是有效的。
在多器官状态融合下差分时序实验结果
上表展示的是在多器官状态融合模型的基础上利用delta或注意力机制的差分时序的实验结果对比。实验结果表明,与单独使用gru类似,利用引入注意力机制的差分时序模型学习病人身体各项指标变化比直接扩充特征更有效。
(2)消融实验结果
前面的基准模型是为了证明模型或模块的必要,而消融实验是为了证明模型中各模块的有效性。在这里,本文主要分析多器官状态融合和差分时序模块(由注意力机制实现)两部分各自的有效性。实验结果如下面两表所示。
多器官状态融合消融实验结果
上表展示了本文第一个模块多器官状态融合的重要性。在原始的gru模型中,加入多器官状态融合的设计后,模型的效果提升了16个百分点,其他的评估指标也都有至少6个百分点的提升。
如此大的提升对模型本身来说是非常难得和惊喜的,说明本文多器官状态融合的设计让模型更全面且充分的学习了数据,从而大幅度提高了模型效果。
差分时序下多器官状态融合消融实验结果
上表是为了证明不管原模型如何变化,多器官状态融合模块的提出均是有效的。从上表可以看出,在差分时序的基础上,再加入多器官状态融合设计,模型的效果明显提升。
其中,auc值提升了14个百分点,f1值也提升了7个百分点,其他指标也都提升了至少6个百分点。多器官状态融合模块由于它对数据的特殊处理帮助模型更有效地预测。
差分时序消融实验结果
上表展示了在gru模型中,差分时序模块的重要性。差分时序的设计帮助模型对病人本身身体指标的不正常大幅度变化分予更多的注意,给予提前预警,从而帮助模型有效预测,并使得模型的auc值在原有基础上提升了7个百分点,充分证明了差分时序在实验中应用的正确性。
以上所有的消融实验表明了本文设计的差分时序和多器官状态融合的模块有效性和高效性,充分说明了本文所提出的模型的可靠性。
(3)模型鲁棒性结果
模型鲁棒性可以理解为模型的稳定性。本文通过更换数据集,来确认本文提出的模型的效果是否依然高效且有效。
所有实验结果都是基于2小时聚合下MIMIC-IIIv1.4数据集得到的,如下表所示,通过前文的分析以及表中的结果可以明显看出,本文所提出的模型的有效性。
2小时聚合数据集实验结果
将模型的数据集更换为给予6小时聚合的MIMIC-IIIv1.4数据集,再进行实验,实验结果如下表所示。
6小时聚合数据集实验结果
从上面量表可以看到,不论是基于2小时聚合,还是基于6小时聚合,本文所提出的模型都是有效的。
总结
随着研究学者们对医疗领域的关注越来越多,如何有效且及时的预测病人的身体状况,是当前领域最基本也最迫切的问题。本文研究的问题是医疗领域的脓毒症预测,对其进行提前2小时或提前6小时的预测,便于临床上的及时治疗。
限于现有研究中对脓毒症的预测效果有限,auc值多集中在0.8-0.9之间,有的甚至低于0.8,而高于0.9的可谓是非常少。此外,利用MIMIC-IIIv1.4数据集进行预测的研究在模型设计上多为繁琐,多引入高斯分布、贝叶斯机制等复杂难懂的知识。
因此为了更简单且有效的预测脓毒症,本文提出了基于差分时序多器官状态融合的脓毒症预测方法,由于当今脓毒症的患病率和死亡率依旧居高不下,以及人工智能在临床治疗上的愈发广泛,本文提出的模型在对脓毒症的及时预测上有很大的应用前景。
免责声明:文章内容如涉及作品内容、版权图片或其它问题,请在30日内与本号作者联系,如反映情况属实我们将第一时间删除责任文章。文章只提供参考并不构成任何投资及应用建议。
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除