这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息,http://medinform.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
自杀在美国和世界各地都是一个重要的公共卫生问题。利用现有的数据集,研究机器学习方法来识别和预测故意自残和自杀的工作已经有了重大进展。随着最近计算技术的进步,深度学习在医疗保健领域的应用正获得发展势头。gydF4y2Ba
这项研究旨在利用深度神经网络(DNNs)在临床记录中的信息(1)提高对接受故意自残治疗的患者的识别能力(2)预测未来的自残事件。gydF4y2Ba
我们从电子健康记录(EHRs)中提取了835名故意自残的国际疾病分类(ICD)代码患者的临床文本记录,以及1670名从未有任何故意自残ICD代码的匹配对照。数据分为训练测试集和拒绝测试集。我们使用训练集测试了一些与故意自残代码相关的临床记录算法,包括几个传统的基于单词袋的模型和2个DNN模型:卷积神经网络(CNN)和长短期记忆模型。我们还评估了dnn对第一次故意自残事件前1至6个月有临床记录的患者的预测性能。最后,我们评估了使用Word2vec (W2V)预训练模型对性能的影响。gydF4y2Ba
在表型任务中,即在事件发生的同时检测临床记录中有意自残,CNN的接受者工作特征曲线(receiver operating characteristic curve, AUC)下面积为0.999,F1得分为0.985。在预测任务中,CNN的AUC为0.882,F1分数为0.769,表现最好。虽然W2V的预训练缩短了DNN的训练时间,但并没有提高性能。gydF4y2Ba
在第一项任务上的出色表现,即基于临床记录的表型,表明这种模型可以有效地用于监测电子病历中的临床文本中的故意自残。尽管在预测任务上表现平平,但仅在临床文本上使用DNN模型的结果与文献中使用结构化EHR数据中的风险因素的其他报告相比具有竞争力。gydF4y2Ba
自杀是美国人死亡的主要原因之一。平均每天有100多人死于自杀,每年造成的医疗和工作损失合计约800亿美元[gydF4y2Ba
目前确立的自杀风险评估指南包括由合格医疗保健提供者进行的临床访谈和问卷调查[gydF4y2Ba
使用深度卷积网络进行临床文本分类对于具有特定临床体征和症状的患者在EHR中识别特定表型非常有用[gydF4y2Ba
深度学习方法已被用于使用公开数据集解决与自杀有关的主题。例如,Shing等人[gydF4y2Ba
我们使用R版本3.6.1 (R基础统计计算)[gydF4y2Ba
这项研究由南卡罗来纳医科大学(MUSC)人体研究机构审查委员会(IRB)批准,协议号为Pro00087416。临床记录从Epic (Epic Systems Corporation) EHR系统中提取[gydF4y2Ba
在本研究的第一部分中,我们试图自动检测基于临床文本的并发故意自残ICD代码分配。这些音符包括各种不同的音符类型;然而,大多数包括进展记录、护理计划记录、急诊科(ED)提供者记录、病史和身体记录(H&P)以及咨询记录。的表格中提供了音符类型及其相对频率的完整列表gydF4y2Ba
在研究的这一部分,我们试图预测未来发生的故意自残事件基于以前的临床记录在电子病历。从每个患者的指数事件(即记录在案的第一次报告的故意自残事件)前180天至30天的预测窗口收集临床文本。在这段时间内没有临床记录的患者被排除在外。临床记录从第一次约会的时间窗口到第一次约会后90天或故意自残事件发生前30天(以先到者为准)。也就是说,最大可能的预测窗口包括时间间隔长达90天的临床记录。对照组使用相同的时间窗口;然而,研究期间记录的最近一次访问被用作索引访问,而不是故意的自残事件。为了减少这部分研究中的噪音和过多的注释,我们将注释限制为以下注释类型:进展记录、ED提供者记录、H&P记录、咨询记录和出院摘要。单个笔记被截断为1500字,并将文本连接到10,000字,以捕获更广泛的临床文本集。对于研究的预测部分,患者被分为训练和交叉验证集(2012-2017年),其中480例故意自残病例和645例对照组,以及拒绝测试集(2018-2019年),其中106例故意自残病例和106例对照组。gydF4y2Ba
手工审查了来自测试集(2018-2019年)的200条记录样本,以提供金标准标签,以便与ICD代码标签(基于CDC的NHSR)进行比较。每条记录都反映了EHR中患者同期就诊的临床记录。我们从研究组中随机选择了100人(故意自残icd)和100个对照组。此样本的并发注释中的连接字符串被导入到REDCap(研究电子数据捕获)[gydF4y2Ba
我们使用训练数据测试了几种机器学习算法,包括使用词嵌入(WEs)的基于深度学习的分类器和传统的基于词袋(BOW)的模型。我们对这两种类型的文本执行了必要的预处理。我们使用了量子R包[gydF4y2Ba
在运行机器学习算法之前,我们检查了与故意自残事件同时发生的临床记录和故意自残事件之前超过30天的记录中词频的差异,与对照人群的临床记录进行了比较。我们进行了卡方分析,以评估在文本语料库中过度代表的关键词[gydF4y2Ba
对于BOW模型,使用词频作为特征,并使用词频-文档频率逆进行归一化[gydF4y2Ba
我们使用Keras [gydF4y2Ba
我们研究了2种不同的深度神经网络(DNN)架构:一个CNN架构类似于之前发表的模型[gydF4y2Ba
两种模型都有每个单词200维的WE。输入层的维度大小略超过令牌输入序列的最大长度,并发音符为8352个令牌,预测音符为11000个令牌。CNN体系结构包括输入层;包含一个掉落率为0.2的WE层;一个卷积层,有多个过滤器大小(3,4,5)并行,每个层有200个节点,ReLU激活,一个步幅,全局最大池化;一个合并张量,然后是一个完全连接的200节点隐藏层,ReLU激活,下降率为0.2;输出层只有一个带有sigmoid激活函数的二进制节点。LSTM体系结构包括输入层;掉落率为0.1的WE层;64节点的LSTM层; both global average pooling and global max-pooling layers with a merge tensor of the 2; a fully connected 100-node hidden layer with ReLU activation and a drop rate of 0.1; and a single sigmoid binary output node.
DNN模型使用自适应矩估计梯度下降算法[gydF4y2Ba
为了自动检测基于临床文本的并发故意自残ICD代码分配,我们使用训练和交叉验证数据集(2012-2017年的索引访问)来确定表现最佳的模型和超参数。然后,我们使用表现最好的2个模型(dnn)在完整训练集上进行训练,并在拒绝测试集上进行测试(2018年至2019年进行索引访问),其中包括200个手动审查的案例。模型使用故意自残ICD代码作为积极标签进行训练。然而,我们使用故意自残ICD代码作为积极标签和手动审查(金标准)标签来测试输出。gydF4y2Ba
两个表现最好的模型,即dnn,被用于预测未来的故意自残事件,基于以前的临床记录。在拒绝测试集中,我们使用了一个平衡集,其中故意自残案例和对照组各有106例。DNN模型在2012年至2017年期间第一次故意自残访问之前的笔记上进行了训练,然后在2018年至2019年期间第一次故意自残访问之前的笔记上进行了测试。与之前的任务不同,之前的任务具有几乎没有变化的接近天花板的性能结果,即使在使用相同的训练和测试集时,dnn在预测任务上的性能在相同模型的不同运行之间也有所不同。这是由于TensorFlow中权重的随机初始化和训练期间epoch之间的随机洗牌。为了更精确地评估不同DNN架构的性能,我们运行每个模型50次,并检查了不同指标的平均值,并使用了StudentgydF4y2Ba
所有实验的性能指标,包括受试者工作特征(ROC)曲线下的面积(AUC),在R中使用插入符号[计算gydF4y2Ba
在人工审查期间,评分者之间的信度显示科恩kappa为0.96。以人工复查的标签为金标准,并发就诊的故意自残ICD代码的准确性为0.92,精度为0.84,召回率为1.0。因此,根据人工审查,在100例被指定为故意自残ICD代码的病例中,有16例没有表现出故意自残的病史。然而,16个中只有2个gydF4y2Ba
分析结果表明,关键词在与故意自残事件同时发生的临床记录中以及在故意自残事件发生前的临床记录中均有过高的代表性(gydF4y2Ba
将每组中排名前10位的单词与对照组进行比较,并对每组进行卡方统计。gydF4y2Ba
与ISH并发gydF4y2Baa、bgydF4y2Ba | 前伊什gydF4y2BacgydF4y2Ba | ||
关键字gydF4y2Ba | 卡方检验(gydF4y2Ba |
关键字gydF4y2Ba | 卡方检验(gydF4y2Ba |
自杀gydF4y2Ba | 1.3 e + 5gydF4y2Ba | 障碍gydF4y2Ba | 1.2 e + 4gydF4y2Ba |
尝试gydF4y2Ba | 8.2 e + 4gydF4y2Ba | 如果gydF4y2BadgydF4y2Ba | 8.5 e + 3gydF4y2Ba |
过量gydF4y2Ba | 6.7 e + 4gydF4y2Ba | 自杀gydF4y2Ba | 6.0 e + 3gydF4y2Ba |
如果gydF4y2Ba | 6.5 e + 4gydF4y2Ba | 情绪gydF4y2Ba | 5.8 e + 3gydF4y2Ba |
障碍gydF4y2Ba | 5.2 e + 4gydF4y2Ba | 使用gydF4y2Ba | 4.7 e + 3gydF4y2Ba |
自杀gydF4y2Ba | 5.2 e + 4gydF4y2Ba | 酒精gydF4y2Ba | 4.6 e + 3gydF4y2Ba |
精神病学gydF4y2Ba | 4.0 e + 4gydF4y2Ba | 这么多gydF4y2BaegydF4y2Ba | 4.5 e + 3gydF4y2Ba |
眼内压gydF4y2BafgydF4y2Ba | 3.6 e + 4gydF4y2Ba | 安全gydF4y2Ba | 4.2 e + 3gydF4y2Ba |
面试gydF4y2Ba | 3.5 e + 4gydF4y2Ba | 面试gydF4y2Ba | 3.9 e + 3gydF4y2Ba |
情绪gydF4y2Ba | 2.9 e + 4gydF4y2Ba | 可卡因gydF4y2Ba | 3.9 e + 3gydF4y2Ba |
一个gydF4y2Ba关键词来自ISH事件并发就诊的临床记录。gydF4y2Ba
bgydF4y2Ba有意自残。gydF4y2Ba
cgydF4y2Ba关键词来自首次ISH事件前就诊的临床记录。gydF4y2Ba
dgydF4y2BaSi:自杀意念。gydF4y2Ba
egydF4y2Ba精神病学研究所。gydF4y2Ba
fgydF4y2Baqhs:每次就寝时间(源自拉丁语quaque hora somni)。gydF4y2Ba
W2V模型成功地聚类了似乎具有相似语义上下文的单词。gydF4y2Ba
来自Word2vec模型的相关单词样本的可视化使用t分布随机邻居嵌入简化为二维。V1 =变量1;2 V2 =变量。gydF4y2Ba
与单词attempt和ideation语义相似的单词及其在Word2vec分析中识别的200维向量空间中的余弦相似度。gydF4y2Ba
术语gydF4y2Ba | 因为simgydF4y2Ba一个gydF4y2Ba | |
|
|
|
|
尝试gydF4y2Ba | 1.000gydF4y2Ba |
|
自杀gydF4y2Ba | 0.730gydF4y2Ba |
|
过量gydF4y2Ba | 0.696gydF4y2Ba |
|
osteoarthrithisgydF4y2Ba | 0.679gydF4y2Ba |
|
手势gydF4y2Ba | 0.643gydF4y2Ba |
|
sucicidegydF4y2Ba | 0.625gydF4y2Ba |
|
benzodiaspinesgydF4y2Ba | 0.619gydF4y2Ba |
|
有意的gydF4y2Ba | 0.617gydF4y2Ba |
|
因为simgydF4y2Ba一个gydF4y2Ba | |
|
意念gydF4y2Ba | 1.000gydF4y2Ba |
|
自杀gydF4y2Ba | 0.872gydF4y2Ba |
|
杀气腾腾的gydF4y2Ba | 0.837gydF4y2Ba |
|
意念gydF4y2Ba | 0.736gydF4y2Ba |
|
意图gydF4y2Ba | 0.681gydF4y2Ba |
|
ideaitongydF4y2Ba | 0.651gydF4y2Ba |
|
如果gydF4y2BabgydF4y2Ba | 0.648gydF4y2Ba |
|
sucidialgydF4y2Ba | 0.619gydF4y2Ba |
一个gydF4y2Bacossim:余弦相似度。gydF4y2Ba
bgydF4y2BaSi:自杀意念。gydF4y2Ba
在BOW模型中,RF的AUC最好(0.961),MLP的F1分数最好(0.862)。在这些结果的基础上,我们在接下来的研究中使用了2个深度学习模型。gydF4y2Ba
2012年至2017年数据集上的训练和交叉验证指标。gydF4y2Ba
模型gydF4y2Ba | AUCgydF4y2Ba一个gydF4y2Ba(95%可信区间gydF4y2BabgydF4y2Ba)gydF4y2Ba | 准确度(95%置信区间)gydF4y2Ba | 精度gydF4y2Ba | 回忆gydF4y2Ba | F1的分数gydF4y2Ba |
注gydF4y2BacgydF4y2Ba | 0.908 (0.882 - -0.934)gydF4y2Ba | 0.870 (0.839 - -0.898)gydF4y2Ba | 0.734gydF4y2Ba | 0.865gydF4y2Ba | 0.794gydF4y2Ba |
DTgydF4y2BadgydF4y2Ba | 0.870 (0.839 - -0.901)gydF4y2Ba | 0.865 (0.833 - -0.893)gydF4y2Ba | 0.715gydF4y2Ba | 0.885gydF4y2Ba | 0.791gydF4y2Ba |
射频gydF4y2BaegydF4y2Ba | 0.961 (0.944 - -0.978)gydF4y2Ba | 0.896 (0.867 - -0.921)gydF4y2Ba | 0.794gydF4y2Ba | 0.865gydF4y2Ba | 0.828gydF4y2Ba |
支持向量机gydF4y2BafgydF4y2Ba | 0.947 (0.925 - -0.969)gydF4y2Ba | 0.900 (0.872 - -0.924)gydF4y2Ba | 0.859gydF4y2Ba | 0.782gydF4y2Ba | 0.819gydF4y2Ba |
中长期规划gydF4y2BaggydF4y2Ba | 0.957 (0.938 - -0.976)gydF4y2Ba | 0.917 (0.890 - -0.939)gydF4y2Ba | 0.828gydF4y2Ba | 0.897gydF4y2Ba | 0.862gydF4y2Ba |
CNNrgydF4y2BahgydF4y2Ba | 0.984 (0.972 - -0.995)gydF4y2Ba | 0.946 (0.924 - -0.964)gydF4y2Ba | 0.938gydF4y2Ba | 0.872gydF4y2Ba | 0.904gydF4y2Ba |
CNNwgydF4y2Ba我gydF4y2Ba | 0.988 (0.977 - -0.999)gydF4y2Ba | 0.959 (0.939 - -0.974)gydF4y2Ba | 0.947gydF4y2Ba | 0.910gydF4y2Ba | 0.928gydF4y2Ba |
LSTMrgydF4y2BajgydF4y2Ba | 0.982 (0.972 - -0.992)gydF4y2Ba | 0.943 (0.920 - -0.961)gydF4y2Ba | 0.919gydF4y2Ba | 0.878gydF4y2Ba | 0.898gydF4y2Ba |
LSTMwgydF4y2BakgydF4y2Ba | 0.975 (0.960 - -0.990)gydF4y2Ba | 0.937 (0.913 - -0.956)gydF4y2Ba | 0.918gydF4y2Ba | 0.859gydF4y2Ba | 0.887gydF4y2Ba |
一个gydF4y2BaAUC:接收机工作特性曲线下的面积。gydF4y2Ba
bgydF4y2BaCI: AUC的95%置信区间。gydF4y2Ba
cgydF4y2BaNB: naïve贝叶斯。gydF4y2Ba
dgydF4y2BaDT:决策树。gydF4y2Ba
egydF4y2BaRF:随机森林。gydF4y2Ba
fgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
ggydF4y2BaMLP:多层感知器。gydF4y2Ba
hgydF4y2Ba带有随机初始化词嵌入的卷积神经网络。gydF4y2Ba
我gydF4y2Ba卷积神经网络与Word2vec词嵌入。gydF4y2Ba
jgydF4y2BaLSTMr:随机初始化词嵌入的长短期记忆。gydF4y2Ba
kgydF4y2BaLSTMw:使用Word2vec词嵌入的长短期记忆。gydF4y2Ba
在2012年至2017年的完整数据集上训练模型,然后在拒绝(2018-2019)测试集上进行测试,在检测并发故意自残ICD标签方面,产生了比上述交叉验证更好的性能(gydF4y2Ba
使用国际疾病分类标签和金标准标签对2012年至2017年数据集进行训练和对2018年至2019年坚持测试集进行测试的指标。gydF4y2Ba
模型gydF4y2Ba | AUCgydF4y2Ba一个gydF4y2Ba(95%可信区间gydF4y2BabgydF4y2Ba)gydF4y2Ba | 准确度(95%置信区间)gydF4y2Ba | 精度gydF4y2Ba | 回忆gydF4y2Ba | F1的分数gydF4y2Ba | ||||||
|
|||||||||||
|
CNNrgydF4y2BadgydF4y2Ba | 0.999 (0.998 - -1.000)gydF4y2Ba | 0.985 (0.957 - -0.997)gydF4y2Ba | 0.980gydF4y2Ba | 0.990gydF4y2Ba | 0.985gydF4y2Ba | |||||
|
CNNwgydF4y2BaegydF4y2Ba | 0.998 (0.996 - -1.000)gydF4y2Ba | 0.970 (0.936 - -0.989)gydF4y2Ba | 0.980gydF4y2Ba | 0.960gydF4y2Ba | 0.970gydF4y2Ba | |||||
|
LSTMrgydF4y2BafgydF4y2Ba | 0.997 (0.991 - -1.000)gydF4y2Ba | 0.980 (0.950 - -0.995)gydF4y2Ba | 0.990gydF4y2BadgydF4y2Ba | 0.970gydF4y2Ba | 0.980gydF4y2Ba | |||||
|
LSTMwgydF4y2BaggydF4y2Ba | 0.997 (0.994 - -1.000)gydF4y2Ba | 0.960 (0.923 - -0.983)gydF4y2Ba | 0.989gydF4y2Ba | 0.930gydF4y2Ba | 0.959gydF4y2Ba | |||||
|
|||||||||||
|
CNNrgydF4y2BacgydF4y2Ba | 0.981 (0.966 - -0.997)gydF4y2Ba | 0.915 (0.867 - -0.950)gydF4y2Ba | 0.832gydF4y2Ba | 1.000gydF4y2Ba | 0.908gydF4y2Ba | |||||
|
CNNwgydF4y2BaegydF4y2Ba | 0.981 (0.965 - -0.997)gydF4y2Ba | 0.920 (0.873 - -0.954)gydF4y2Ba | 0.847gydF4y2Ba | 0.988gydF4y2Ba | 0.912gydF4y2Ba | |||||
|
LSTMrgydF4y2BafgydF4y2Ba | 0.968 (0.946 - -0.989)gydF4y2Ba | 0.910 (0.861 - -0.946)gydF4y2Ba | 0.837gydF4y2Ba | 0.976gydF4y2Ba | 0.901gydF4y2Ba | |||||
|
LSTMwgydF4y2BaggydF4y2Ba | 0.967 (0.945 - -0.989)gydF4y2Ba | 0.920 (0.873 - -0.954)gydF4y2Ba | 0.862gydF4y2Ba | 0.964gydF4y2Ba | 0.910gydF4y2Ba |
一个gydF4y2BaAUC:接收机工作特性曲线下的面积。gydF4y2Ba
bgydF4y2BaCI: AUC的95%置信区间。gydF4y2Ba
cgydF4y2Ba国际疾病分类。gydF4y2Ba
dgydF4y2Ba带有随机初始化词嵌入的卷积神经网络。gydF4y2Ba
egydF4y2Ba卷积神经网络与Word2vec词嵌入。gydF4y2Ba
fgydF4y2BaLSTMr:随机初始化词嵌入的长短期记忆。gydF4y2Ba
ggydF4y2BaLSTMw:使用Word2vec词嵌入的长短期记忆。gydF4y2Ba
使用(1)国际疾病分类标签和(2)金标准标签在2012至2017年数据集上进行训练和在坚持测试集(2018-2019)上进行测试的受试者工作特征曲线下的面积。AUC:受试者工作特性曲线下面积;国际疾病分类;CNNr:随机初始化词嵌入卷积神经网络;CNNw:基于Word2vec词嵌入的卷积神经网络;LSTMr:随机初始化词嵌入的长短期记忆;LSTMw:采用Word2vec词嵌入的长短期记忆。gydF4y2Ba
基于以往临床记录预测未来故意自残事件的结果显示在gydF4y2Ba
模型的指标是根据2012年至2017年期间患者首次故意自残就诊前的笔记进行训练的,并对2018年至2019年期间患者首次故意自残就诊前的笔记进行测试。gydF4y2Ba
模型gydF4y2Ba | AUCgydF4y2Ba一个gydF4y2Ba(95%可信区间gydF4y2BabgydF4y2Ba)gydF4y2Ba | 准确度(95%置信区间)gydF4y2Ba | 精度gydF4y2Ba | 回忆gydF4y2Ba | F1的分数gydF4y2Ba |
CNNrgydF4y2BacgydF4y2Ba | 0.882 (0.871 - -0.891)gydF4y2Ba | 0.792 (0.774 - -0.807)gydF4y2Ba | 0.863gydF4y2Ba | 0.694gydF4y2Ba | 0.769gydF4y2Ba |
CNNwgydF4y2BadgydF4y2Ba | 0.869 (0.858 - -0.879)gydF4y2Ba | 0.782 (0.766 - -0.792)gydF4y2Ba | 0.860gydF4y2Ba | 0.673gydF4y2Ba | 0.755gydF4y2Ba |
LSTMrgydF4y2BaegydF4y2Ba | 0.850 (0.827 - -0.877)gydF4y2Ba | 0.758 (0.729 - -0.788)gydF4y2Ba | 0.830gydF4y2Ba | 0.656gydF4y2Ba | 0.729gydF4y2Ba |
LSTMwgydF4y2BafgydF4y2Ba | 0.846 (0.819 - -0.871)gydF4y2Ba | 0.750 (0.717 - -0.778)gydF4y2Ba | 0.822gydF4y2Ba | 0.644gydF4y2Ba | 0.720gydF4y2Ba |
一个gydF4y2BaAUC:接收机工作特性曲线下的面积。gydF4y2Ba
bgydF4y2BaCI: AUC的95%置信区间。gydF4y2Ba
bgydF4y2Ba带有随机初始化词嵌入的卷积神经网络。gydF4y2Ba
dgydF4y2Ba卷积神经网络与Word2vec词嵌入。gydF4y2Ba
egydF4y2BaLSTMr:随机初始化词嵌入的长短期记忆。gydF4y2Ba
fgydF4y2BaLSTMw:使用Word2vec词嵌入的长短期记忆。gydF4y2Ba
接受者工作特征曲线下的平均面积和95% CI,模型是根据2012年至2017年期间患者首次故意自残就诊前的笔记进行训练,并对2018年至2019年期间患者首次故意自残就诊前的笔记进行测试。表现上的差异都是显著的(gydF4y2Ba
词频分析确定了与故意自残就诊相关的临床记录中过度代表的关键词。如在gydF4y2Ba
W2V对我们临床记录的完整数据集进行预训练,成功地将相关单词聚在一起。它还演示了上面确定的一些重要单词的单词相似性。例如,单词gydF4y2Ba
在使用2012年至2017年的数据集进行训练和测试时,深度学习模型在识别故意自残方面优于BOW模型。考虑到这一结果,我们在2012年至2017年的完整数据集上训练深度学习模型,然后使用2018年至2019年的数据集作为坚持测试集。这种数据的时间划分旨在复制真实世界的场景,在这个场景中,模型可以在历史数据上进行训练,以识别新记录中的故意自残。结果表明,我们可以准确地检测出与故意自残ICD代码同步的临床记录中的故意自残事件。更具体地说,我们表明,即使尚未提供或分配ICD代码,在与给定故意自残就诊相关的汇总临床文本上训练的模型也可用于识别并发的故意自残事件。换句话说,临床文献本身在准确识别故意自残表型方面是有用的。gydF4y2Ba
虽然关于NLP和机器学习方法在故意自残表型上的表现的文献有限,但我们的DNN分类器对带有故意自残ICD代码的并发笔记的精度高达99%,对金标准故意自残事件的精度高达86%,与以前的报道相比,特别是考虑到模型是用ICD代码作为标签进行训练的。使用混合机器学习和基于规则的NLP方法,Fernandes等[gydF4y2Ba
尽管基于cnn的模型在表型任务上似乎略优于基于lstm的模型,但由于所有dnn在该任务中的性能接近上限,且数据集相对较小,因此很难显示使用任何一种模型或使用W2V预训练的优势。gydF4y2Ba
尽管如此,使用这种方法训练的DNN模型可能对监视目的有用,并且可以很好地补充使用ICD代码的监视。使用故意自残ICD码作为积极标签来训练这种模型依赖于ICD码的可靠分配。幸运的是,我们机构对故意自残的ICD代码是准确的,正如人工复查图表所示,尽管假阳性率相对较高。最后,故意自残事件的准确表型为未来识别其他表型的方向铺平了道路,例如,那些有自杀意念的人与故意自残或非故意自残的人,可能有也可能没有准确的ICD代码。鉴于死亡率数据的可用性,这种精确或深入的表型是预测死亡风险的重要一步。gydF4y2Ba
结果还显示,在指数访问前1至6个月的临床记录汇总预测了未来的故意自残事件,AUC为0.882gydF4y2Ba
在比较两种DNN架构之间的性能时,我们注意到两种CNN模型与基于lstm的模型相比具有一致且统计上显著的性能优势(gydF4y2Ba
虽然W2V预训练聚集了相似的单词,但用W2V权重初始化WE层并没有给任何预测模型增加任何值。虽然CNNr (AUC=0.882)仅略好于CNNw (AUC=0.869),但差异具有统计学意义。然而,LSTMr和LSTMw之间没有差异。考虑到预训练的WE在识别拼写错误和单词相似性方面的优势,这些结果是出乎意料的,并强调了检查更新、更复杂的语言模型的必要性,例如谷歌(Alphabet Inc .)来自transformer的双向编码器表示[gydF4y2Ba
不管模型架构如何,这些结果都是有希望的。这种预测模型可能有助于将住院患者划分为风险类别,这可能有助于出院计划。在出院后使用技术(电话、电子邮件或短信)进行随访已被证明可以降低未来企图自杀的风险[gydF4y2Ba
为了在给定的访问期间识别有意自残的患者,我们用ICD代码训练模型。因此,它们只能执行ICD代码指定。如前所述,在手动标记过程中,有几名患者在主诉或诊断中有故意自残史,而不是自杀未遂或自残史。一个可能的解决方案是训练模型引入多个标签,包括当前和过去的故意自残,通过人工审查。然而,这将需要手动审查数百张图表,这超出了最初试点工作的范围。gydF4y2Ba
此外,虽然我们可以清楚地识别故意自残,但这仍然没有具体说明gydF4y2Ba
本研究的另一个局限性是我们的模型目前只涉及临床文献中的特征。其他临床信息可以添加到模型中,如相关的人口统计学、共病和风险因素(例如,抑郁症或药物使用的代码)。此外,就自杀预测而言,仅靠电子病历数据可能无法提供全貌。理想情况下,我们的数据应该与全州死因数据相关联,这应该会产生更好的预测能力。gydF4y2Ba
虽然深度学习模型更强大,但它们的可解释性不如一些BOW模型。例如,当使用射频模型时,可变重要性分析的结果可能会产生对重要单词的洞察。事实上,在心理健康应用中使用这两种类型的预测模型可能是有益的。这将充分利用深度学习模型的力量以及可解释模型的优势。未来的工作还应包括探索基于注意力的深度学习模型,并深入了解可解释性[gydF4y2Ba
最后,本文给出的结果是基于来自一个学术医疗中心的单个EHR系统的数据,因此很难在其他环境中对我们的模型的高水平性能进行概括。未来的工作应包括与其他机构合作,以确定这些模型在其他环境中的性能。gydF4y2Ba
大多数模型在同步临床记录(即表型任务)中检测故意自残事件时表现相对较好。这很可能是由于并发笔记中的强烈信号,并与ICD代码中故意自残的高保真度有关,至少在我们的机构中是这样。当应用于基于先前临床记录的患者图表中有意自残代码分配的未来发生预测时,AUC降至0.882,召回率和精度适中。尽管如此,我们的结果与文献中报道的其他模型的结果具有竞争力。提高这些算法的精度可以使精神卫生专业人员对未来有自杀企图风险的患者进行更好的随访和预防性护理。gydF4y2Ba
音符类型及其在数据集中的相对频率的完整列表。gydF4y2Ba
用于表型任务的卷积神经网络模型的训练历史图。学习曲线表明,使用Adam优化器,模型平滑地收敛到训练集和验证集上的最小损失值。gydF4y2Ba
所有模型的50次训练和测试运行的接收器工作特征曲线的图表,突出显示每个模型的接收器工作特征曲线下的平均面积。gydF4y2Ba
接收机工作特性曲线下面积gydF4y2Ba
bag-of-wordsgydF4y2Ba
疾病控制和预防中心gydF4y2Ba
卷积神经网络gydF4y2Ba
随机初始化词嵌入的CNNgydF4y2Ba
CNN的Word2vec词嵌入gydF4y2Ba
深度神经网络gydF4y2Ba
急诊科gydF4y2Ba
电子健康记录gydF4y2Ba
病史和体质gydF4y2Ba
《国际疾病分类》gydF4y2Ba
机构检讨委员会gydF4y2Ba
长短期记忆gydF4y2Ba
带有随机初始化词嵌入的LSTMgydF4y2Ba
LSTM与Word2vec词嵌入gydF4y2Ba
多层感知器gydF4y2Ba
南卡罗来纳医科大学gydF4y2Ba
国家卫生统计报告gydF4y2Ba
自然语言处理gydF4y2Ba
自杀性自伤gydF4y2Ba
研究数据仓库gydF4y2Ba
线性整流函数gydF4y2Ba
随机森林gydF4y2Ba
接收机工作特性gydF4y2Ba
支持向量机gydF4y2Ba
t分布随机邻居嵌入gydF4y2Ba
Word2vecgydF4y2Ba
字嵌入gydF4y2Ba
该项目部分得到了美国国立卫生研究院国家转化科学推进中心的支持,资助号为UL1 TR001450,美国国家药物滥用研究所(K23 DA045766 to JD)和美国国家精神卫生研究所(K23 MH118482 to BB)。内容仅为作者的责任,并不一定代表美国国立卫生研究院的官方观点。gydF4y2Ba
JD是行为激活技术有限责任公司的共同所有人,该公司开发基于技术的抑郁症治疗方法。gydF4y2Ba