医学互联网研究杂志-利用人工智能对韩国COVID-19严重程度的预测和特征重要性分析:模型开发和验证gydF4y2Ba

原始论文gydF4y2Ba

Heewon涌gydF4y2Ba^1gydF4y2Ba^*gydF4y2Ba,硕士gydF4y2Ba ；gydF4y2Ba
胡恩KogydF4y2Ba^1gydF4y2Ba^*gydF4y2Ba,硕士gydF4y2Ba ；gydF4y2Ba
吴成康gydF4y2Ba^2gydF4y2Ba^*gydF4y2Ba，医学博士，博士gydF4y2Ba ；gydF4y2Ba
金景元gydF4y2Ba^3.gydF4y2Ba，医学博士，博士gydF4y2Ba ；gydF4y2Ba
Hooseok李gydF4y2Ba^1gydF4y2Ba,硕士gydF4y2Ba ；gydF4y2Ba
Chul公园gydF4y2Ba^4gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
Hyun-Ok歌gydF4y2Ba^5gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
Tae-Young崔gydF4y2Ba^6gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
徐宰浩gydF4y2Ba^7gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
Jinseok李gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba韩国富川天主教大学人工智能系gydF4y2Ba

^2gydF4y2Ba韩国济州济州汉拿综合医院济州地区创伤中心创伤外科gydF4y2Ba

^3.gydF4y2Ba韩国首尔蔚山大学医学院峨山医学中心放射学和放射学研究所gydF4y2Ba

^4gydF4y2Ba韩国益山圆光大学医学院内科gydF4y2Ba

^5gydF4y2Ba韩国益山圆光大学医学院感染生物学教研室gydF4y2Ba

^6gydF4y2Ba大韩民国益山圆光大学医学院病理学系gydF4y2Ba

^7gydF4y2Ba韩国益山圆光大学医学院生物化学系gydF4y2Ba

这些作者的贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

李金硕博士gydF4y2Ba

人工智能系gydF4y2Ba

韩国天主教大学gydF4y2Ba

43 Jibong-rogydF4y2Ba

Bucheon 14662gydF4y2Ba

大韩民国gydF4y2Ba

电话:82 22164 5523gydF4y2Ba

电子邮件:gydF4y2Bagonasago@catholic.ac.krgydF4y2Ba

背景:gydF4y2Ba全球COVID-19死亡人数继续激增。特别是，如果患者的病情严重到需要有创通气，则更有可能导致死亡而不是恢复。gydF4y2Ba

摘要目的:gydF4y2Ba本研究的目的是分析与患者COVID-19严重程度相关的因素，并开发人工智能(AI)模型，以便在早期预测COVID-19的严重程度。gydF4y2Ba

方法:gydF4y2Ba我们以截至2020年4月的全国所有国立和地方医院的5601名新冠肺炎患者的数据为基础，开发了预测严重程度的人工智能模型。将新冠肺炎临床严重程度分为低、高两类。低度组患者无活动限制，使用鼻尖或面罩供氧，无创通气。重度组患者的情况对应于有创通气、多器官功能衰竭并需要体外膜氧合和死亡。对于人工智能模型的输入，我们使用了医疗记录中的37个变量，包括患者的基本信息、身体指标、初步检查结果、临床发现、合并症和早期一般血液检查结果。使用AdaBoost、随机森林和极限梯度增强(XGBoost)进行特征重要性分析;利用5层深度神经网络(DNN)构建预测患者COVID-19严重程度的人工智能模型，该模型包含20个最重要的特征，这些特征是根据综合数据集中37个特征的排名特征重要性分析选出的。选择过程采用敏感性、特异性、准确度、平衡准确度和曲线下面积(AUC)进行。gydF4y2Ba

结果:gydF4y2Ba我们发现年龄是预测疾病严重程度的最重要因素，其次是淋巴细胞水平、血小板计数和呼吸短促或呼吸困难。我们提出的包含20个最重要特征的5层深度神经网络具有高灵敏度(90.2%)、特异性(90.4%)、准确性(90.4%)、平衡准确性(90.3%)和AUC(0.96)。gydF4y2Ba

结论:gydF4y2Ba我们提出的人工智能模型能够准确地预测COVID-19的严重程度。我们还制作了一个web应用程序，以便任何人都可以访问该模型。我们相信，与公众分享人工智能模型将有助于验证和改进其性能。gydF4y2Ba

[J] .中国医学信息学报，2013;23(4):779 - 779gydF4y2Ba

doi: 10.2196/27060gydF4y2Ba

关键字gydF4y2Ba

新型冠状病毒肺炎gydF4y2Ba；gydF4y2Ba 人工智能gydF4y2Ba；gydF4y2Ba 血液样本gydF4y2Ba；gydF4y2Ba 死亡率的预测gydF4y2Ba

COVID-19大流行对全球卫生保健系统产生了重大影响。自2020年初以来，COVID-19在全球迅速蔓延，病例超过1亿例，死亡人数超过200万人[gydF4y2Ba1gydF4y2Ba]。在新冠肺炎大流行形势下，患者管理中最重要的问题是对死亡风险高的患者进行分类，并提供量身定制的治疗，从而降低医疗成本和死亡率。gydF4y2Ba

已经提出了几个模型来使用人工智能(AI)技术预测COVID-19患者的严重程度或死亡率。它们中的大多数是基于有限的信息或变量开发的，例如医学图像[gydF4y2Ba2gydF4y2Ba-gydF4y2Ba7gydF4y2Ba]、血液及/或尿液资料[gydF4y2Ba8gydF4y2Ba，gydF4y2Ba9gydF4y2Ba]、临床特征[gydF4y2Ba10gydF4y2Ba-gydF4y2Ba12gydF4y2Ba]、个人层面流行病学数据集[gydF4y2Ba13gydF4y2Ba]和住院期间的电子健康记录(即人口统计、化验结果、病史和生命体征)[gydF4y2Ba14gydF4y2Ba]。然而，它们中的大多数是基于有限数据源的相对较小的样本开发的，这使得它们的泛化存在问题。更具体地说，用于某些模型训练的患者数量为375 [gydF4y2Ba15gydF4y2Ba]， 443 [gydF4y2Ba16gydF4y2Ba]， 548 [gydF4y2Ba17gydF4y2Ba]和663 [gydF4y2Ba18gydF4y2Ba]。gydF4y2Ba

为了克服泛化问题，我们以100多家医院的5601名患者为对象，从韩国政府获得的全国确认患者数据为基础，开发了人工智能预测模型。在这个模型中，我们使用了由37个因素组成的综合数据集，包括人口基本信息、生命体征、体检结果、临床症状和严重程度、合并症、一般血液检查结果。据我们所知，这是韩国首次尝试以全国队列和综合数据为基础，开发预测新冠肺炎严重程度的人工智能模型。gydF4y2Ba

数据集gydF4y2Ba

该研究得到了韩国疾病预防控制机构(KDCA)的批准。知情同意被放弃。医管局一直在管理从100多家医院获得的国内新冠肺炎确诊患者的综合资料。KDCA在特定的研究期间向少数选定的研究人员公开这些数据。因此，在KDCA的批准下，我们在2020年9月15日至10月5日期间调查了这些数据。gydF4y2Ba

表1gydF4y2Ba描述了KDCA数据集。患者基本信息包括患者的身份、年龄、性别、转归、隔离期、妊娠状态、妊娠周等。身体指数包括身体质量指数。入院时的初步检查结果包括收缩压和舒张压、平均心率和体温。临床表现包括发热、咳嗽、咳痰、喉咙痛、鼻漏、肌痛、不适、呼吸困难、头痛、意识不清、恶心和腹泻。目前或以前的合并症包括糖尿病、高血压、心力衰竭、慢性心脏病、慢性阻塞性肺病、慢性肾病、癌症、慢性肝病、风湿病或自身免疫性疾病、痴呆。临床严重程度分为低、高两类。低危组患者无活动限制，使用鼻尖或面罩供氧，无创通气。重度组患者的情况为有创通气、需要体外膜氧合的多器官衰竭和死亡。一般的血液检查结果包括血红蛋白、红细胞压积、淋巴细胞、血小板和白细胞的水平。gydF4y2Ba

在5628例COVID-19患者记录中，有27例患者记录缺少临床严重程度信息，因此我们将其排除在我们的研究之外。因此，我们使用5601例患者数据记录来开发临床严重程度的AI预测模型。对于每个患者数据记录，我们使用37个变量作为模型输入;这些变量总结在gydF4y2Ba表1gydF4y2Ba没有ID、结果、隔离期和临床严重程度。我们使用临床严重程度作为模型输出，它是由低严重程度和高严重程度组成的二元分量。gydF4y2Ba

表2gydF4y2Ba临床特征分为重度组(271/5601,4.8%)和轻度组(5330/5601,95.2%)。值得注意的是，在严重程度高的组中，271例患者中有241例死亡(88.9%)，而在严重程度低的组中没有患者死亡。gydF4y2Ba

表1。COVID-19患者资料描述。gydF4y2Ba

项目类别及数据gydF4y2Ba			类型gydF4y2Ba		描述gydF4y2Ba
患者基本信息gydF4y2Ba
	IDgydF4y2Ba	数量gydF4y2Ba		匿名gydF4y2Ba
	年龄(年)gydF4y2Ba	9个类别gydF4y2Ba		0 - 9(0), 10 - 19(1),页(2)- 39(3),40至49(4),50-59(5),60 - 69(6),70 - 79(7),≥80 (8)gydF4y2Ba
	性别gydF4y2Ba	两类gydF4y2Ba		男性(0)，女性(1)gydF4y2Ba
	结果gydF4y2Ba	两类gydF4y2Ba		存活(0)，死亡(1)gydF4y2Ba
	检疫期gydF4y2Ba	连续gydF4y2Ba		天数(死亡后确认为0天)gydF4y2Ba
	怀孕gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	怀孕一周gydF4y2Ba	数量gydF4y2Ba		周数(未怀孕为0周)gydF4y2Ba
体质指标:BMI (kg/m)gydF4y2Ba^2gydF4y2Ba）gydF4y2Ba			5类gydF4y2Ba		< 18.5(0), 18.5 - -22.9(1), 23.0 - -24.9(2), 25.0 - -29.9(3),≥30 (4)gydF4y2Ba
初步检查结果gydF4y2Ba
	收缩压gydF4y2Ba	5类gydF4y2Ba		< 120(0) 120 - 129(1), 130 - 139(2), 140 - 159(3),(4)≥160gydF4y2Ba
	舒张压gydF4y2Ba	4个类别gydF4y2Ba		<80(0)、80-89(1)、90-99(2)、≥100 (3)gydF4y2Ba
	心率gydF4y2Ba	数量gydF4y2Ba		心率gydF4y2Ba
	温度gydF4y2Ba	数量gydF4y2Ba		温度gydF4y2Ba
临床研究结果gydF4y2Ba
	发热gydF4y2Ba	两类gydF4y2Ba		否(0)，高于37.5°C时为(1)gydF4y2Ba
	咳嗽gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	痰生产gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	喉咙痛gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	流鼻水或鼻漏gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	肌肉疼痛或肌痛gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	疲劳或不适gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	呼吸短促或呼吸困难gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	头疼gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	意识改变或意识混乱gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	呕吐或恶心gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	腹泻gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
当前或既往共病gydF4y2Ba
	糖尿病gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	高血压gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	心脏衰竭gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	慢性心脏病gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	哮喘gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	慢性阻塞性肺疾病gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	慢性肾病gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	癌症gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	慢性肝病gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	风湿病或自身免疫性疾病gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
	痴呆gydF4y2Ba	两类gydF4y2Ba		否(0)，是(1)gydF4y2Ba
临床严重程度gydF4y2Ba			两类gydF4y2Ba		严重程度低，包括无活动限制，需要使用鼻尖或面罩供氧，以及无创通气(0);严重程度高，包括有创通气、多器官衰竭、体外膜氧合和死亡(1)gydF4y2Ba
一般血液检查结果gydF4y2Ba
	血红蛋白gydF4y2Ba	数量gydF4y2Ba		g / dLgydF4y2Ba
	血细胞比容gydF4y2Ba	数量gydF4y2Ba		％gydF4y2Ba
	淋巴细胞gydF4y2Ba	数量gydF4y2Ba		％gydF4y2Ba
	血小板gydF4y2Ba	数量gydF4y2Ba		10gydF4y2Ba^9gydF4y2Ba/ LgydF4y2Ba
	白细胞gydF4y2Ba	数量gydF4y2Ba		10gydF4y2Ba^9gydF4y2Ba/ LgydF4y2Ba

表2。低危组和高危组临床特征统计总结(N=5601)。gydF4y2Ba

参与者的数据gydF4y2Ba				低严重性组(n=5330)gydF4y2Ba		重度组(n=271)gydF4y2Ba	PgydF4y2Ba价值gydF4y2Ba
患者基本信息gydF4y2Ba
	年龄范畴gydF4y2Ba^{一个gydF4y2Ba}，均值(SD)gydF4y2Ba			4.26 (1.92)gydF4y2Ba		7.05 (1.08)gydF4y2Ba	<措施gydF4y2Ba
	性别，n (%)gydF4y2Ba						<措施gydF4y2Ba
		男性gydF4y2Ba	2166 (40.6)gydF4y2Ba		144 (53.1)gydF4y2Ba
		女gydF4y2Ba	3164 (59.4)gydF4y2Ba		127 (46.9)gydF4y2Ba
	妊娠状况(是)，n (%)gydF4y2Ba			19日(0.4)gydF4y2Ba		0 (0)gydF4y2Ba	.33gydF4y2Ba
	妊娠周，平均(SD)gydF4y2Ba			16.50 (10.01)gydF4y2Ba		N/AgydF4y2Ba^bgydF4y2Ba	N/AgydF4y2Ba
身体指数:BMI类别gydF4y2Ba^cgydF4y2Ba，均值(SD)gydF4y2Ba				1.79 (1.02)gydF4y2Ba		1.84 (1.13)gydF4y2Ba	54gydF4y2Ba
初步检查结果，平均值(SD)gydF4y2Ba
	收缩压类别gydF4y2Ba^dgydF4y2Ba			1.75 (1.31)gydF4y2Ba		1.98 (1.46)gydF4y2Ba	.008gydF4y2Ba
	舒张压类别gydF4y2Ba^egydF4y2Ba			1.00 (0.97)gydF4y2Ba		0.90 (1.00)gydF4y2Ba	厚gydF4y2Ba
	心率(每分钟跳动数)gydF4y2Ba			85.66 (14.79)gydF4y2Ba		89.05 (19.64)gydF4y2Ba	<措施gydF4y2Ba
	温度(°C)gydF4y2Ba			36.94 (0.54)gydF4y2Ba		37.11 (0.80)gydF4y2Ba	<措施gydF4y2Ba
临床表现(低危组n=5326)， n (%)gydF4y2Ba
	发热gydF4y2Ba			1197 (22.5)gydF4y2Ba		105 (38.7)gydF4y2Ba	<措施gydF4y2Ba
	咳嗽gydF4y2Ba			2239 (42.0)gydF4y2Ba		92 (33.9)gydF4y2Ba	.008gydF4y2Ba
	痰生产gydF4y2Ba			1532 (28.8)gydF4y2Ba		79 (29.2)gydF4y2Ba	.89gydF4y2Ba
	喉咙痛gydF4y2Ba			858 (16.1)gydF4y2Ba		14 (5.2)gydF4y2Ba	<措施gydF4y2Ba
	流鼻水或鼻漏gydF4y2Ba			609 (11.4)gydF4y2Ba		8 (3.0)gydF4y2Ba	<措施gydF4y2Ba
	肌肉疼痛或肌痛gydF4y2Ba			894 (16.8)gydF4y2Ba		26日(9.6)gydF4y2Ba	.002gydF4y2Ba
	疲劳或不适gydF4y2Ba			215 (4.0)gydF4y2Ba		18 (6.6)gydF4y2Ba	.04点gydF4y2Ba
	呼吸短促或呼吸困难gydF4y2Ba			531 (10.0)gydF4y2Ba		134 (49.4)gydF4y2Ba	<措施gydF4y2Ba
	头疼gydF4y2Ba			946 (17.8)gydF4y2Ba		17 (6.3)gydF4y2Ba	<措施gydF4y2Ba
	意识改变或意识混乱gydF4y2Ba			9 (0.2)gydF4y2Ba		26日(9.6)gydF4y2Ba	<措施gydF4y2Ba
	呕吐或恶心gydF4y2Ba			226 (4.2)gydF4y2Ba		18 (6.6)gydF4y2Ba	06gydF4y2Ba
	腹泻gydF4y2Ba			496 (9.3)gydF4y2Ba		20 (7.4)gydF4y2Ba	陈霞gydF4y2Ba
当前或既往合并症，n (%)gydF4y2Ba
	糖尿病gydF4y2Ba			582/5327 (10.9)gydF4y2Ba		106 (39.1)gydF4y2Ba	<措施gydF4y2Ba
	高血压gydF4y2Ba			1034/5327 (19.4)gydF4y2Ba		164 (60.5)gydF4y2Ba	<措施gydF4y2Ba
	心脏衰竭gydF4y2Ba			39/5327 (0.7)gydF4y2Ba		20 (7.4)gydF4y2Ba	<措施gydF4y2Ba
	慢性心脏病gydF4y2Ba			150/5311 (2.8)gydF4y2Ba		29 (10.7)gydF4y2Ba	<措施gydF4y2Ba
	哮喘gydF4y2Ba			115/5327 (2.2)gydF4y2Ba		13 (4.8)gydF4y2Ba	.005gydF4y2Ba
	慢性阻塞性肺疾病gydF4y2Ba			31/5327 (0.6)gydF4y2Ba		9 (3.3)gydF4y2Ba	<措施gydF4y2Ba
	慢性肾病gydF4y2Ba			37/5327 (0.7)gydF4y2Ba		18 (6.6)gydF4y2Ba	<措施gydF4y2Ba
	癌症gydF4y2Ba			123/5326 (2.3)gydF4y2Ba		22日(8.1)gydF4y2Ba	<措施gydF4y2Ba
	慢性肝病gydF4y2Ba			76/5004 (1.5)gydF4y2Ba		7 (2.6)gydF4y2Ba	。gydF4y2Ba
	风湿病或自身免疫性疾病gydF4y2Ba			35/4998 (0.7)gydF4y2Ba		3 (1.1)gydF4y2Ba	无误gydF4y2Ba
	痴呆gydF4y2Ba			148/5001 (3.0)gydF4y2Ba		76 (28.0)gydF4y2Ba	<措施gydF4y2Ba
一般血液检查结果，平均值(SD)gydF4y2Ba
	血红蛋白(g / dL)gydF4y2Ba			13.37 (1.69)gydF4y2Ba		11.89 (2.23)gydF4y2Ba	<措施gydF4y2Ba
	血细胞比容(%)gydF4y2Ba			39.51 (4.72)gydF4y2Ba		35.28 (6.56)gydF4y2Ba	<措施gydF4y2Ba
	淋巴细胞(%)gydF4y2Ba			30.08 (11.12)gydF4y2Ba		15.08 (10.69)gydF4y2Ba	<措施gydF4y2Ba
	血小板(10gydF4y2Ba^9gydF4y2Ba/ L)gydF4y2Ba			239.96 (81.57)gydF4y2Ba		188.51 (87.38)gydF4y2Ba	<措施gydF4y2Ba
	白细胞(10)gydF4y2Ba^9gydF4y2Ba/ L)gydF4y2Ba			6.00 (2.55)gydF4y2Ba		7.99 (5.10)gydF4y2Ba	<措施gydF4y2Ba

^{一个gydF4y2Ba}年龄分类如下:0-9岁(0)、10-19岁(1)、20-29岁(2)、30-39岁(3)、40-49岁(4)、50-59岁(5)、60-69岁(6)、70-79岁(7)、≥80岁(8)。gydF4y2Ba

^bgydF4y2Ba答:不适用;在重度组中没有怀孕的参与者。gydF4y2Ba

^cgydF4y2BaBMI分类如下(kg/m)gydF4y2Ba^2gydF4y2Ba): < 18.5(0), 18.5 - -22.9(1), 23.0 - -24.9(2), 25.0 - -29.9(3),≥30(4)。gydF4y2Ba

^dgydF4y2Ba收缩压分型(mm Hg): <120(0)、120-129(1)、130-139(2)、140-159(3)、≥160(4)。gydF4y2Ba

^egydF4y2Ba舒张压分型(mm Hg): <80(0)、80-89(1)、90-99(2)、≥100(3)。gydF4y2Ba

归算与标准化gydF4y2Ba

在数据集中，缺少一些特征(表1)gydF4y2Ba多媒体附录1gydF4y2Ba)。为了处理缺失数据，我们从训练数据集中计算每个特征的平均值，并用训练和测试数据集中的平均值替换缺失数据。然后我们对数据集进行标准化，这是机器学习算法的常见要求。标准化改变了每个特征的数据分布，平均值为零，标准差为1:gydF4y2Ba

在哪里gydF4y2Ba的意思是gydF4y2Ba（gydF4y2Ba火车gydF4y2Ba),gydF4y2BaSDgydF4y2Ba（gydF4y2Ba火车gydF4y2Ba)分别为训练数据集中每个特征的均值和标准差值。我们将标准化应用于训练和测试数据集。gydF4y2Ba

数据分割gydF4y2Ba

对于特征重要性分析和人工智能预测模型的开发，我们进行了5倍交叉验证和10次重复的网格搜索。为此，我们以分层的方式将5601条记录分为训练(4480/5601,80.0%)和测试(1121/5601,20.0%)数据集(gydF4y2Ba表3gydF4y2Ba)。我们使用4480条记录作为训练数据集(4260/4480,95.1%低严重程度和220/4480,4.9%高严重程度)，1121条记录作为测试数据集(1070/1121,95.5%低严重程度和51/1121,4.5%高严重程度)。测试数据集是孤立的，仅用于评估所提出模型的性能。gydF4y2Ba

将训练数据集(n=4480)随机洗牌，分层分成5等份，每组433条低严重程度记录和15条高严重程度记录。在5个折叠中，保留1个折叠作为验证数据集用于测试模型，其余4个折叠作为训练数据。我们重复这个过程10次，10次折叠中的每一次都只使用一次作为验证数据。在这里，由于低严重性记录的数量远远高于高严重性记录的数量，我们通过随机复制数据来对高严重性数据进行上采样，以通过平衡两组数据中的数据量来防止模型对低严重性数据的偏差。gydF4y2Ba

表3。训练和测试数据集的总结。gydF4y2Ba

数据集gydF4y2Ba	记录，n (%)gydF4y2Ba
	低幅度的组gydF4y2Ba	安全性组gydF4y2Ba
培训(n = 4480)gydF4y2Ba	4260 (95.1)gydF4y2Ba	220 (4.9)gydF4y2Ba
测试(n = 1121)gydF4y2Ba	1070 (95.5)gydF4y2Ba	51 (4.5)gydF4y2Ba
总(N = 5601)gydF4y2Ba	5330 (95.2)gydF4y2Ba	271 (4.8)gydF4y2Ba

特征选择gydF4y2Ba

为了选择影响临床严重程度的重要特征，我们首先使用AdaBoost进行特征重要性分析，研究了37个输入变量对严重程度的贡献[gydF4y2Ba19gydF4y2Ba，gydF4y2Ba20.gydF4y2Ba]，随机森林[gydF4y2Ba21gydF4y2Ba]和极限梯度增强(XGBoost) [gydF4y2Ba22gydF4y2Ba)算法。在分析了各分类器算法的特征重要值后，对其进行归一化和平均，计算组合特征重要值。gydF4y2Ba

通过重复5倍交叉验证10次，我们找到了最佳的超参数。对于AdaBoost，我们将超参数设置如下:树估计器的个数设置为50，学习率设置为0.4。对于随机森林，我们将树估计器的数量设置为100，最大深度设置为4，最大特征设置为5。对于XGBoost，我们将最大深度设置为2，学习率设置为0.2，树估计器的数量设置为100，正则化参数α的值设置为1.0，观测值的分数设置为0.9，列的分数设置为0.9。gydF4y2Ba

10次重复的5倍交叉验证为每个分类器(即AdaBoost, random forest和XGBoost)提供了50组特征重要性值。然后，我们对50组重要值进行平均，并将它们规范化，以便每个分类器的重要值在0到1的范围内。最后，我们将最终排序的特征重要性值的重要性值取平均值。此外，我们还根据交叉验证结果确定了纳入人工智能预测模型的最佳顶级特征数量。gydF4y2Ba

人工智能预测模型开发gydF4y2Ba

为了开发用于严重程度预测的最终AI模型，我们使用了深度神经网络(DNN)。在深度神经网络方法中，我们研究了多达5个隐藏层，每层深度(即节点)达到前一层深度(即节点)。对于输入层，我们首先根据其重要性对特征进行排序，并将输入层中使用的顶级特征的数量从1增加到37。对于作为隐藏层的完全连接(FC)层，我们通过以0.1个增量将丢失率从0更改为0.5来应用丢失率。最后一个FC层被送入s形层，s形层是一个输出层，提供患者严重程度的概率。我们使用Adam优化器和二元交叉熵成本函数训练模型，学习率为0.0001，批大小为64。我们使用R 4.0.2版本(the R Foundation)和TensorFlow版本1.13.1实现模型，用于DNN;Scikit-learn，版本0.22.1，用于机器学习算法;xgboost，版本0.6.4，用于xgboost算法。gydF4y2Ba

对于每组顶级特征，我们使用曲线下面积(AUC)和平衡精度指标找到了最佳交叉验证精度:gydF4y2Ba

考虑到交叉验证精度分析，我们最终使用前20个特征使用5层深度神经网络建模。5层DNN包括一个输入层，3个FC层作为隐藏层和一个输出层。输入层被馈送到一系列3个FC层，分别由20、16和8个节点组成。在前2个FC层中，我们使用了0.5的丢弃率。然后，将最后一层FC馈送到s形层中。gydF4y2Ba

绩效评估gydF4y2Ba

我们用孤立的测试数据集(n=1121)评估了我们提出的5层DNN模型的预测性能。为了比较DNN模型与其他外部人工智能模型的预测性能，我们分别训练了以下模型:逻辑回归、决策树、随机森林、支持向量机、XGBoost、AdaBoost、GradBoost和HistBoost。我们评估了这些人工智能模型作为单一模型和集成模型的预测性能。gydF4y2Ba

特征选择gydF4y2Ba

图1gydF4y2Ba显示了AdaBoost、random forest、XGBoost及其组合对特征重要性排序分析的结果。AdaBoost的结果表明血小板计数具有最高的重要性，其次是淋巴细胞水平、年龄和体重指数(gydF4y2Ba图1gydF4y2Ba(a).随机森林结果表明，年龄的重要性最高，其次是淋巴细胞水平、呼吸短促或呼吸困难和血小板计数(gydF4y2Ba图1gydF4y2Ba(b). XGBoost的结果表明血小板计数的重要性最高，其次是年龄、淋巴细胞水平和温度(gydF4y2Ba图1gydF4y2Ba(c)。将三个模型的值平均，年龄的重要性最高，其次是淋巴细胞水平、血小板计数和呼吸短促或呼吸困难(gydF4y2Ba图1gydF4y2Ba另一方面，癌症、疲劳或不适、慢性阻塞性肺病、痰产生、慢性心脏病、心力衰竭、哮喘、风湿病或自身免疫性疾病、妊娠和妊娠周很少影响预测模型。来自AdaBoost、随机森林和XGBoost的归一化特征重要性值，以及与这些平均值相结合的排名特征重要性值，总结于表S2gydF4y2Ba多媒体附录1gydF4y2Ba。gydF4y2Ba

我们以AUC和平衡精度(gydF4y2Ba图2gydF4y2Ba)。结果表明，当AdaBoost、random forest和XGBoost组合的前20个特征用于输入层时，AUC和平衡精度都达到了最大值。因此，我们将前20个特征纳入人工智能预测模型，该模型的灵敏度为88%，特异性为90%，准确率为90%，平衡准确率为89%，AUC为0.96 (gydF4y2Ba表4gydF4y2Ba)。gydF4y2Ba

图1所示。(a) AdaBoost、(b)随机森林、(c)极限梯度增强(XGBoost)和(d)特征重要性组合平均排名的归一化特征重要性分析结果。ACC:意识改变/混乱;BMI:身体质量指数;CCD:慢性心脏病;CKD:慢性肾脏疾病;CLD:慢性肝病;COPD:慢性阻塞性肺疾病;DBP:舒张压;DEMEN:痴呆; DIARR: diarrhea; DM: diabetes mellitus; FM: fatigue/malaise; HCT: hematocrit; HEADA: headache; HF: heart failure; HGB: hemoglobin; HR: heart rate; HTN: hypertension; LYMPHO: lymphocyte; MAM: muscle aches/myalgia; PLT: platelets; Preg: pregnancy; PregWk: pregnancy weeks; RDAD: rheumatism/autoimmune disease; RNR: runny nose/rhinorrhea; SBP: systolic blood pressure; SOB: shortness of breath/dyspnea; SPUTUM: sputum production; ST: sore throat; Temp: temperature; VN: vomiting/nausea; WBC: white blood cells.

表4。交叉验证的结果。gydF4y2Ba

模型gydF4y2Ba	交叉验证测量(n=448)，均值(SD)gydF4y2Ba
	灵敏度gydF4y2Ba	特异性gydF4y2Ba	精度gydF4y2Ba	平衡精度gydF4y2Ba	曲线下面积gydF4y2Ba
5层深度神经网络gydF4y2Ba	0.88 (0.06)gydF4y2Ba	0.90 (0.02)gydF4y2Ba	0.90 (0.02)gydF4y2Ba	0.89 (0.04)gydF4y2Ba	0.96 (0.01)gydF4y2Ba

人工智能预测模型的性能gydF4y2Ba

在孤立的测试数据集(n=1121)中，我们提出的5层深度神经网络的灵敏度为90.20%，特异性为90.37%，准确率为90.37%，平衡准确率为90.28%，AUC为0.96。gydF4y2Ba表5gydF4y2Ba展示了在测试数据集上的预测性能。首先，我们比较了应用合成少数过采样技术时的精度指标，我们发现平衡精度和AUC都略低。其次，我们比较了基于主成分分析(PCA)的特征约简在8个维度上的精度指标，我们发现平衡精度和AUC也略低。gydF4y2Ba表5gydF4y2Ba［gydF4y2Ba19gydF4y2Ba-gydF4y2Ba28gydF4y2Ba]也显示了各种AI模型的预测性能;可以看出，我们提出的5层DNN方法比其他外部AI模型(即逻辑回归、决策树、随机森林、支持向量机、XGBoost、AdaBoost、GradBoost和HistBoost)提供了更高的精度、平衡精度和AUC值。gydF4y2Ba

此外，我们研究了集成人工智能模型(即人工智能模型的组合)的预测性能;没有一个集成人工智能模型优于我们提出的5层DNN模型(gydF4y2Ba表6gydF4y2Ba)。gydF4y2Ba

表5所示。测试数据结果并与其他机器学习算法进行比较。gydF4y2Ba

模型gydF4y2Ba	TNgydF4y2Ba^{一个gydF4y2Ba}	《外交政策》gydF4y2Ba^bgydF4y2Ba	FNgydF4y2Ba^cgydF4y2Ba	TPgydF4y2Ba^dgydF4y2Ba	森gydF4y2Ba^egydF4y2Ba	SpegydF4y2Ba^fgydF4y2Ba	AccgydF4y2Ba^ggydF4y2Ba	英航gydF4y2Ba^hgydF4y2Ba	AUCgydF4y2Ba^我gydF4y2Ba
五款gydF4y2Ba^jgydF4y2Ba:复制gydF4y2Ba	967gydF4y2Ba	103gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.9037gydF4y2Ba	0.9037gydF4y2Ba	0.9028gydF4y2Ba	0.9617gydF4y2Ba
5层DNN: SMOTEgydF4y2Ba^kgydF4y2Ba［gydF4y2Ba23gydF4y2Ba］gydF4y2Ba	984gydF4y2Ba	86gydF4y2Ba	8gydF4y2Ba	43gydF4y2Ba	0.8431gydF4y2Ba	0.9196gydF4y2Ba	0.9161gydF4y2Ba	0.8814gydF4y2Ba	0.9555gydF4y2Ba
5层深度神经网络与PCAgydF4y2Ba^lgydF4y2Ba(8特性)gydF4y2Ba	922gydF4y2Ba	148gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8617gydF4y2Ba	0.8635gydF4y2Ba	0.8818gydF4y2Ba	0.9549gydF4y2Ba
线性回归[gydF4y2Ba24gydF4y2Ba］gydF4y2Ba	983gydF4y2Ba	87gydF4y2Ba	7gydF4y2Ba	44gydF4y2Ba	0.8627gydF4y2Ba	0.9187gydF4y2Ba	0.9161gydF4y2Ba	0.8907gydF4y2Ba	0.9563gydF4y2Ba
决策树[gydF4y2Ba25gydF4y2Ba］gydF4y2Ba	915gydF4y2Ba	155gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8551gydF4y2Ba	0.8573gydF4y2Ba	0.8786gydF4y2Ba	0.9252gydF4y2Ba
随机森林[gydF4y2Ba21gydF4y2Ba］gydF4y2Ba	955gydF4y2Ba	115gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8925gydF4y2Ba	0.8930gydF4y2Ba	0.8972gydF4y2Ba	0.9590gydF4y2Ba
支持向量机[gydF4y2Ba26gydF4y2Ba］gydF4y2Ba	955gydF4y2Ba	115gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8925gydF4y2Ba	0.8930gydF4y2Ba	0.8972gydF4y2Ba	0.9588gydF4y2Ba
XGBoostgydF4y2Ba^米gydF4y2Ba［gydF4y2Ba22gydF4y2Ba］gydF4y2Ba	945gydF4y2Ba	125gydF4y2Ba	6gydF4y2Ba	45gydF4y2Ba	0.8824gydF4y2Ba	0.8832gydF4y2Ba	0.8831gydF4y2Ba	0.8828gydF4y2Ba	0.9558gydF4y2Ba
演算法(gydF4y2Ba19gydF4y2Ba，gydF4y2Ba20.gydF4y2Ba］gydF4y2Ba	937gydF4y2Ba	133gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8757gydF4y2Ba	0.8769gydF4y2Ba	0.8888gydF4y2Ba	0.9586gydF4y2Ba
GradBoost [gydF4y2Ba27gydF4y2Ba］gydF4y2Ba	936gydF4y2Ba	134gydF4y2Ba	6gydF4y2Ba	45gydF4y2Ba	0.8824gydF4y2Ba	0.8748gydF4y2Ba	0.8751gydF4y2Ba	0.8786gydF4y2Ba	0.9525gydF4y2Ba
HistBoost [gydF4y2Ba28gydF4y2Ba］gydF4y2Ba	959gydF4y2Ba	111gydF4y2Ba	7gydF4y2Ba	44gydF4y2Ba	0.8627gydF4y2Ba	0.8963gydF4y2Ba	0.8947gydF4y2Ba	0.8795gydF4y2Ba	0.9535gydF4y2Ba

^{一个gydF4y2Ba}TN:真正的否定。gydF4y2Ba

^bgydF4y2BaFP:假阳性。gydF4y2Ba

^cgydF4y2BaFN:假阴性。gydF4y2Ba

^dgydF4y2BaTP:真正的积极。gydF4y2Ba

^egydF4y2Ba森:敏感性。gydF4y2Ba

^fgydF4y2BaSpe:特异性。gydF4y2Ba

^ggydF4y2BaAcc:准确性。gydF4y2Ba

^hgydF4y2BaBA:平衡精度。gydF4y2Ba

^我gydF4y2BaAUC:曲线下面积。gydF4y2Ba

^jgydF4y2BaDNN:深度神经网络。gydF4y2Ba

^kgydF4y2BaSMOTE:合成少数派过采样技术。gydF4y2Ba

^lgydF4y2Ba主成分分析。gydF4y2Ba

^米gydF4y2BaXGBoost:极端梯度增强。gydF4y2Ba

表6所示。测试结果与集成方法的比较。gydF4y2Ba

模型gydF4y2Ba	TNgydF4y2Ba^{一个gydF4y2Ba}	《外交政策》gydF4y2Ba^bgydF4y2Ba	FNgydF4y2Ba^cgydF4y2Ba	TPgydF4y2Ba^dgydF4y2Ba	森gydF4y2Ba^egydF4y2Ba	SpegydF4y2Ba^fgydF4y2Ba	AccgydF4y2Ba^ggydF4y2Ba	英航gydF4y2Ba^hgydF4y2Ba	AUCgydF4y2Ba^我gydF4y2Ba
5层深度神经网络(DNN)gydF4y2Ba (提出)gydF4y2Ba	967gydF4y2Ba	103gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.9037gydF4y2Ba	0.9037gydF4y2Ba	0.9028gydF4y2Ba	0.9617gydF4y2Ba
DNN +线性回归(LR)gydF4y2Ba	976gydF4y2Ba	94gydF4y2Ba	6gydF4y2Ba	45gydF4y2Ba	0.8824gydF4y2Ba	0.9121gydF4y2Ba	0.9108gydF4y2Ba	0.8973gydF4y2Ba	0.9589gydF4y2Ba
DNN +随机森林(RF)gydF4y2Ba	967gydF4y2Ba	103gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.9037gydF4y2Ba	0.9037gydF4y2Ba	0.9028gydF4y2Ba	0.9572gydF4y2Ba
DNN + AdaBoostgydF4y2Ba	965gydF4y2Ba	105gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.9019gydF4y2Ba	0.9019gydF4y2Ba	0.9019gydF4y2Ba	0.9607gydF4y2Ba
DNN +极限梯度增强(XGBoost)gydF4y2Ba	963gydF4y2Ba	107gydF4y2Ba	6gydF4y2Ba	45gydF4y2Ba	0.8824gydF4y2Ba	0.9000gydF4y2Ba	0.8992gydF4y2Ba	0.8912gydF4y2Ba	0.9490gydF4y2Ba
DNN +支持向量机(SVM)gydF4y2Ba	962gydF4y2Ba	108gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8991gydF4y2Ba	0.8992gydF4y2Ba	0.9005gydF4y2Ba	0.9563gydF4y2Ba
RF + AdaBoostgydF4y2Ba	954gydF4y2Ba	116gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8916gydF4y2Ba	0.8921gydF4y2Ba	0.8968gydF4y2Ba	0.9515gydF4y2Ba
DNN + RF + AdaBoostgydF4y2Ba	967gydF4y2Ba	103gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.9037gydF4y2Ba	0.9037gydF4y2Ba	0.9028gydF4y2Ba	0.9579gydF4y2Ba
DNN + rf + SVMgydF4y2Ba	962gydF4y2Ba	108gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8991gydF4y2Ba	0.8992gydF4y2Ba	0.9005gydF4y2Ba	0.9556gydF4y2Ba
DNN + rf + lrgydF4y2Ba	963gydF4y2Ba	107gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.9000gydF4y2Ba	0.9001gydF4y2Ba	0.9010gydF4y2Ba	0.9585gydF4y2Ba
DNN + RF + AdaBoost + XGBoostgydF4y2Ba	944gydF4y2Ba	126gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8822gydF4y2Ba	0.8831gydF4y2Ba	0.8921gydF4y2Ba	0.9571gydF4y2Ba
DNN + RF + AdaBoost + SVMgydF4y2Ba	959gydF4y2Ba	111gydF4y2Ba	5gydF4y2Ba	46gydF4y2Ba	0.9020gydF4y2Ba	0.8963gydF4y2Ba	0.8965gydF4y2Ba	0.8991gydF4y2Ba	0.9562gydF4y2Ba
DNN + RF + AdaBoost + XGBoost + SVMgydF4y2Ba	978gydF4y2Ba	92gydF4y2Ba	6gydF4y2Ba	45gydF4y2Ba	0.8824gydF4y2Ba	0.9140gydF4y2Ba	0.9126gydF4y2Ba	0.8982gydF4y2Ba	0.9572gydF4y2Ba

^{一个gydF4y2Ba}TN:真正的否定。gydF4y2Ba

^bgydF4y2BaFP:假阳性。gydF4y2Ba

^cgydF4y2BaFN:假阴性。gydF4y2Ba

^dgydF4y2BaTP:真正的积极。gydF4y2Ba

^egydF4y2Ba森:敏感性。gydF4y2Ba

^fgydF4y2BaSpe:特异性。gydF4y2Ba

^ggydF4y2BaAcc:准确性。gydF4y2Ba

^hgydF4y2BaBA:平衡精度。gydF4y2Ba

^我gydF4y2BaAUC:曲线下面积。gydF4y2Ba

主要研究结果gydF4y2Ba

我们提出的人工智能模型，即使用选择的前20个特征的5层DNN，能够在住院阶段预测COVID-19患者的严重程度，具有出色的预测性能:90.2%的灵敏度，90.4%的特异性和90.4%的准确性。这种模式有几个独特的特点。首先，它是根据从防疫厅获得的全国新冠肺炎确诊患者数据开发的。在韩国，所有确诊病例都必须向KDCA报告;因此，KDCA的数据非常准确，每天都会更新[gydF4y2Ba4gydF4y2Ba]。政府将包括20家三级医院在内的100多家综合医院指定为配备隔离室和负压室的专门感染控制医院。这些指定医院应向医管局报告有关新冠肺炎患者的重要临床信息，特别是住院患者或病情严重的患者。当我们在2020年9月被允许访问KDCA数据集时，有来自5601名患者的数据，其中包含全面的临床信息，我们可以使用这些数据来开发人工智能预测模型。这是拥有足够数据量的最大队列，可以开发可靠且可推广的人工智能预测模型。gydF4y2Ba

其次，我们的AI预测模型开发从综合数据集中37个特征的特征重要性分析开始。其中，为了开发准确的AI预测模型，根据特征重要性分析结果排序，选择了20个。交叉验证表明，与使用全部37个特征相比，使用选定的20个特征的AI预测模型显示出更高的准确性。此外，所选的20个特征(即年龄、淋巴细胞水平、血小板计数、呼吸短促或呼吸困难、体温、血红蛋白水平、白细胞计数、体重指数、红细胞压积水平、心率、收缩压、痴呆、高血压、意识改变或意识不清、糖尿病、性别、咳嗽、喉咙痛、慢性肝病、流鼻涕或鼻漏)可以很容易地从患者病史、基本体格检查和常规实验室检查中获得。因此，我们的人工智能预测模型可以很容易地融入日常临床实践。此外，我们观察到基于pca的特征选择也提供了与特征重要性分析一样好的性能。特别是，我们期待许多研究人员能够灵活地多样化预测COVID-19患者严重程度的模型，因为仅用8个特征就可以获得类似的准确性。gydF4y2Ba

在我们的特征选择过程中，我们结合了AdaBoost、随机森林和XGBoost机器学习算法来对重要特征进行排序。AdaBoost算法是作为弱学习器的增强算法和顺序增长决策树家族的一部分[gydF4y2Ba19gydF4y2Ba]。众所周知，它在低噪声数据集中很少过拟合[gydF4y2Ba20.gydF4y2Ba]。随机森林算法基于bagging方法，该方法基于一组弱学习器的聚合[gydF4y2Ba21gydF4y2Ba]。XGBoost是最近引入的一种优化梯度增强算法[gydF4y2Ba22gydF4y2Ba]。在低维或高度可分离的数据中，所有分类器通常都提供相当好的性能。然而，由于特征维度、数据可分离性、数据平衡性和特征相关性等因素的影响，它们可能会提供不同的性能。这就是我们将三个算法结果结合在一起的原因。gydF4y2Ba

我们将提出的AI预测模型命名为KOVIDnet，这是针对韩国COVID-19患者的深度学习算法。由于其在韩国的高准确性和通用性，我们期望KOVIDnet能够在入院时提供治疗优先指导，确定谁应该集中治疗。虽然大多数新冠肺炎患者表现为轻度和自限性疾病，但也有部分患者病情发展为重症和危重症，迅速发展为急性呼吸衰竭、败血症、感染性休克、多器官衰竭，最终死亡[gydF4y2Ba29gydF4y2Ba-gydF4y2Ba32gydF4y2Ba]。重症病例的死亡率约为轻症病例的20倍[gydF4y2Ba30.gydF4y2Ba，gydF4y2Ba33gydF4y2Ba]。这表明，早期识别有死亡风险的患者对于COVID-19患者的管理非常重要。gydF4y2Ba

局限性和未来工作gydF4y2Ba

在我们早期的研究中，我们将患者分为八个亚组。亚组1患者的活动没有限制。亚组2患者活动受限，但不需要供氧。亚组3患者需要用鼻尖吸氧。亚组4患者需面罩供氧。第五组患者需要无创通气。第6亚组患者需要有创通气。亚组7患者多器官功能衰竭或接受体外膜氧合。亚组8例死亡。对于多类分类，我们也采用与上述相同的步骤训练模型，但使用测试数据时的准确性并不令人满意(表S3)gydF4y2Ba多媒体附录1gydF4y2Ba)。这可能是因为每个子组的特征没有明显差异，也可能是因为训练数据值的数量不足。此外，数据极不平衡:失衡比为405(表S4)gydF4y2Ba多媒体附录1gydF4y2Ba)。在分析了8个子组多类分类问题的结果后，我们考虑了二元分类问题，其中低严重性组包括子组1至4，高严重性组包括子组5至8。基于我们目前的数据，二元分类问题不仅是训练预测模型最现实的方法，而且对传达临床重要意义也很有用。我们相信我们可以将我们的模型扩展到基于更广泛数据的多类分类问题。gydF4y2Ba

我们的研究还有其他局限性。首先，我们提出的AI预测模型使用一个孤立的测试数据集(n=1121)进行验证，该数据集是从整个数据集中分离出来的数据集。可能有必要使用外部数据集(如预期收集的数据)验证我们的AI模型。为了验证和更新KOVIDnet，我们制作了一个web应用程序[gydF4y2Ba34gydF4y2Ba这样任何人都可以访问模型。我们相信，与公众分享人工智能模型将有助于验证和改进其性能。其次，我们的数据不包括其他种族的患者，如高加索人或中东人。在不久的将来，我们计划将我们的AI模型应用于各种数据集，包括来自其他种族患者的数据。为了实现这一目标，我们将建立一个实时训练框架，该框架可以使用来自世界各地的前瞻性数据来训练我们的模型。我们相信我们可以改进KOVIDnet，在扩展数据的基础上实现更好的泛化。gydF4y2Ba

结论gydF4y2Ba

综上所述，我们基于全国范围内的大型数据集开发了包含20个选定特征的人工智能模型，并且能够准确预测COVID-19的严重程度。我们相信，我们的模型可以帮助医疗服务提供者在早期阶段有效治疗COVID-19患者，并最终减少死亡。gydF4y2Ba

致谢gydF4y2Ba

我们感谢在韩国参与COVID-19患者诊断和治疗的所有医护人员。我们也感谢韩国医协、国立医疗中心和各医院的健康信息管理人员为收集病历所做的努力。本研究由韩国国家研究基金会(NRF)的基础科学研究计划支持，由科学，信息通信技术和未来规划部资助(拨款202012B04和NRF- 2020r1a2c1014829)和韩国健康产业发展研究所(拨款HI18C1216)资助。gydF4y2Ba

作者的贡献gydF4y2Ba

HC和HK对超参数搜索和建模进行了机器学习和深度学习仿真。CP进行了数据验证，以便应用于COVID-19患者。KWK, H-OS, T-YC和JHS验证并确认了模拟，并帮助起草了手稿。HL开发并维护了web应用程序。JL和WSK构思了这项研究，参与了研究的设计和协调，并撰写了初稿。所有作者都阅读并批准了最终的手稿。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附录1gydF4y2Ba

补充表。gydF4y2Ba

DOCX文件，54 KBgydF4y2Ba

Honein MA, Christie A, Rose DA, Brooks JT, Meaney-Delman D, Cohn A, CDC新冠肺炎应对小组。应对SARS-CoV-2高水平社区传播和相关死亡的公共卫生战略指南摘要，2020年12月。MMWR Morb Mortal weekly Rep 2020年12月11日;69(49):1860-1867 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
朱军，沈斌，Abbasi A, Hoshmand-Kochi M，李宏，董天强。深度迁移学习人工智能在便携式胸片上准确划分COVID-19肺部疾病严重程度。PLoS One 2020;15(7):e0236621 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
单峰，高原，王军，石伟，石宁，韩敏，等。基于深度学习的COVID-19患者胸部CT图像异常肺量化及其在病情预测中的应用医学杂志2020年11月22日22:1-13gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
高辉，钟华，姜文生，金光华，申勇，姜士杰，等。使用带有单个胸部CT图像的简单2D深度学习框架进行COVID-19肺炎诊断:模型开发和验证。[J]医学互联网研究，2020年6月29日;22(6):e19569 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rajaraman S, Siegelman J, Alderson PO, Folio LS, Folio LR, Antani SK.基于迭代裁剪的深度学习系统在胸部x射线中检测COVID-19。IEEE Access 2020;8:115041-115050 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
截断起始网:使用胸部x射线筛查COVID-19疫情。物理科学与医学2020;43(3):915-925 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
刘建军，马蒂内利，马尔卡多，等。基于机器学习的新型冠状病毒胸片检测方法。计算机科学进展，2020;17 (6):2212-2221 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
姚华，张宁，张荣，段敏，谢涛，潘杰，等。基于血液和尿液测试的机器学习模型对2019冠状病毒病(COVID-19)患者的严重程度进行检测。生物医学工程学报，2020;8:683 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
刘建军，刘建军，李建军，等。基于机器学习的新型冠状病毒血常规检测方法研究。中华医学杂志，2020;44(8):135 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
梁伟，姚健，陈安，吕强，赞宁明，刘健，等。利用深度学习对COVID-19危重患者进行早期分类。中华医学会学报，2020;11(1):3543 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Izquierdo JL, Ancochea J, Savana COVID-19研究小组，Soriano JB。COVID-19患者重症监护病房入院的临床特征和预后因素:使用机器学习和自然语言处理的回顾性研究[J]互联网研究与发展，2020年10月28日;22(10):e21801 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
安超，林海，金东，张建辉，崔玉杰，金世文。机器学习预测COVID-19患者死亡率:一项全国性的韩国队列研究科学通报2020;10(1):18716 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李勇，刘军，马浩威，周安，兰华，刘强，等。基于AI方法的COVID-19患者个体病死率预测中华卫生杂志2020;8:587937 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Vaid A, Somani S, Russak AJ, De Freitas JK, Chaudhry FF, Paranjpe I，等。机器学习预测纽约市COVID-19患者队列中的死亡率和关键事件:模型开发和验证。医学互联网研究，2020年11月6日;22(11):e24018 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
闫磊，张宏，Goncalves J，肖勇，王敏，郭勇，等。COVID-19患者可解释的死亡率预测模型[j] .计算机工程学报，2014;22(5):383 - 388。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
尚伟，董军，任勇，田敏，李伟，胡军，等。临床参数在预测COVID-19严重程度中的价值。中华医学杂志，2010;32 (3):391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李欣，徐生，于敏，王凯，陶勇，周勇，等。武汉市成人COVID-19住院患者严重程度和死亡率的危险因素变态反应性临床杂志[J]; journal of clinical nursing; 2009; 31 (1): 391 - 391 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
中国武汉COVID-19患者疾病严重程度、未改善和死亡率的危险因素中华临床微生物学杂志;2009;26(6):767-772 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
刘建军，李建军。博弈论、在线预测与提升。参考:第九届计算学习理论年会论文集。:计算机协会;1996年出席:第九届计算学习理论年会;1996年6月28日至7月1日;Desenzano del Garda，意大利，第325-332页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Rätsch G, Onoda T, m ller KR. AdaBoost的软利润。马赫学习2001;42:287-320。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
布雷曼L.随机森林。Mach Learn 2001;45:5-32。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
陈涛，Guestrin C. XGBoost:一种可扩展的树木提升系统。参见:第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集。:计算机协会;2016年发表于:第22届ACM SIGKDD知识发现与数据挖掘国际会议;2016年8月13-17日;旧金山，加利福尼亚州第785-794页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Chawla NV, Bowyer KW, Hall LO, Kegelmeyer WP。SMOTE:合成少数派过采样技术。[J]人工智能研究，2002;01;16:31 -357。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Cox博士。二值序列的回归分析。[J]中国科学院学报(自然科学版);2018;20(2):215-232。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Kamiński B, Jakubczyk M, Szufel P. A决策树敏感性分析框架。[au:]生态学报，2018;26(1):135-159 [J]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
张建军，张建军。支持向量网络。Mach Learn 1995 Sep;20(3):273-297。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
natetkin A, Knoll A.梯度增强机，教程。前沿神经机器人2013;7:21。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
柯刚，孟强，Finley T，王涛，陈伟，马伟，等。LightGBM:一个高效的梯度增强决策树。见:第31届神经信息处理系统(NIPS)年会论文集。2017发表于:第31届神经信息处理系统(NIPS)年会上;2017年12月4日至9日;长滩，CA p. 3146-3154gydF4y2Bahttps://papers.nips.cc/paper/2017/file/6449f44a102fde848669bdd9eb6b76fa-Paper.pdfgydF4y2Ba
中国疾病预防控制中心新冠肺炎疫情应对流行病学工作组。中国2019年新型冠状病毒病(COVID-19)暴发的流行病学特征中华星辰冰雪学报2020年2月10日;41(2):145-151。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
陈宁，周敏，董旭，曲健，龚峰，韩勇，等。武汉市99例2019年新型冠状病毒肺炎流行病学与临床特征的描述性研究柳叶刀2020 Feb 15;395(10223):507-513 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
黄超，王勇，李旭，任磊，赵军，胡勇，等。武汉市新型冠状病毒感染患者临床特征分析柳叶刀2020 Feb 15;395(10223):497-506 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
吴志，McGoogan JM。中国2019冠状病毒病(COVID-19)暴发的特点及重要教训——中国疾病预防控制中心72例 314例报告总结中国医学杂志2020年4月7日;323(13):1239-1242。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
刘建军，刘建军，刘建军，等。伊朗南部2019年新型冠状病毒病(COVID-19)的流行病学和临床特征中国生物医学工程学报，2009;20(1):427 [j]gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
KOVIDnet。URL:gydF4y2Bahttp://kcovidnet.site/gydF4y2Ba[2021-04-02]访问gydF4y2Ba

‎gydF4y2Ba

人工智能:gydF4y2Ba人工智能gydF4y2Ba

AUC:gydF4y2Ba曲线下面积gydF4y2Ba

款:gydF4y2Ba深度神经网络gydF4y2Ba

舰队指挥官:gydF4y2Ba完全连接gydF4y2Ba

KDCA:gydF4y2Ba韩国疾病管理本部gydF4y2Ba

联盟:gydF4y2Ba韩国研究财团gydF4y2Ba

主成分分析:gydF4y2Ba主成分分析gydF4y2Ba

XGBoost:gydF4y2Ba极端梯度增强gydF4y2Ba

R库卡夫卡编辑;提交09.01.21;R Jaimies, C Jeong, J Lee, D Cha的同行评审;对作者的评论31.01.21;收到修改版本18.02.21;接受24.03.21;发表19.04.21gydF4y2Ba

©Chung Heewon, Ko Hoon, Kang Wu Seong, Kim Kyung Won, Lee Hooseok, Park Chul, Song - ok, Choi Tae-Young, Seo Jae Ho, Lee Jinseok。原载于医学互联网研究杂志(//www.mybigtv.com)， 2021年4月19日。gydF4y2Ba

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

基于人工智能的韩国新冠肺炎严重程度预测与特征重要性分析:模型开发与验证gydF4y2Ba

基于人工智能的韩国新冠肺炎严重程度预测与特征重要性分析:模型开发与验证gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

介绍gydF4y2Ba

方法gydF4y2Ba

数据集gydF4y2Ba

归算与标准化gydF4y2Ba

数据分割gydF4y2Ba

特征选择gydF4y2Ba

人工智能预测模型开发gydF4y2Ba

绩效评估gydF4y2Ba

结果gydF4y2Ba

特征选择gydF4y2Ba

人工智能预测模型的性能gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

局限性和未来工作gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

作者的贡献gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba