医学互联网研究杂志-使用100万患者队列数据的定向和加权疾病网络的流行病学特征:网络分析

原始论文

¹韩国城南市车医科大学生物医学信息系

²病理科，Medstar乔治敦大学医院，华盛顿州华盛顿特区，美国

^3.大韩民国城南市汽车大学医学院基础医学研究所

⁴韩国城南市车盆唐医疗中心眼科

⁵大韩民国首尔梨花女子大学卫生融合系

⁶韩国首尔，首尔国立大学医院医疗保健系统江南中心，医疗保健研究所内科

⁷韩国城南市车大学医学院微生物学系

⁸韩国首尔汉阳大学护理学院护理系

*这些作者贡献相同

通讯作者:

韩玄旭，医学博士，博士

生物医学信息系

CHA医药大学

Pangyo-ro 335

凭借,KS009

大韩民国

电话:82 31 881 7109

电子邮件:stepano7@gmail.com

背景:在过去的20年里，人们采用了各种方法来构建疾病网络。然而，由于人口统计学因素之间的差异，以及疾病-疾病关联之间的时间顺序和强度的差异，迄今为止，已建立的疾病网络还没有临床应用价值。

摘要目的:本研究旨在调查疾病之间关联的总体模式;网络属性，如聚类、程度和强度;疾病网络结构和人口因素之间的关系。

方法:我们使用了来自韩国的国民健康保险服务-国家样本队列(NHIS-NSC)数据，其中包括2002年至2013年间获得的5000万韩国患者中100万(约2%)的时间序列保险信息。在设定观察期和结局期后，我们仅选择520种常见的韩国疾病分类，即第六次修订代码，这是最常见的诊断，约占病例的80%，用于统计有效性。利用这些数据，我们构建了一个考虑人口因素和网络属性的定向和加权时间网络。

结果:我们的疾病网络包含294个节点和3085条边，相对风险值大于4，并且有一个经过调整的错误发现率P值<.001。有趣的是，我们的网络呈现出四个大型集群。网络拓扑分析表明，in-strength和out-strength之间的相关性比in-degree和out-degree之间的相关性更强。此外，每个疾病人群的平均年龄与out/in-strength图回归线上的位置有关。相反，聚类分析表明，我们的网络拥有四个不同性别、年龄和疾病类别的大聚类。

结论:我们构建了一个有方向性和加权的疾病网络，将人口因素可视化。我们提出的疾病网络模型有望成为早期临床研究人员在未来寻求探索疾病之间关系时使用的有价值的工具。

中国医学网络学报2020;22(4):e15196

doi: 10.2196/15196

关键字

队列研究；数据科学；纵向研究；统计数据解释；医学信息学

传统上，临床研究人员一直在探索影响单一疾病的许多风险因素[1-3.]，任何先前诊断的疾病都被认为是预测正在研究的疾病的重要临床指标[4，5］．在挖掘疾病关系的各种方法中，网络医学的概念可能更适合理解健康和疾病[6-8］．同样，疾病网络在十年前被引入，作为研究疾病之间复杂关系的有用方法[9-17］．

在疾病是由遗传缺陷引起的假设下，许多疾病网络是利用基因组数据构建的[9，11，14］．例如，Li等人根据疾病共享通路的基因构建了一个网络来调查疾病关系[14］．但是，根据《国际疾病统计分类第10版》(ICD-10)的疾病清单，交通事故导致的创伤性骨折等许多疾病与基因突变无关。因此，仅仅以基因组为基础的疾病网络在准确表示疾病之间关系的复杂发病机制方面不可避免地受到限制[18］．

因此，疾病网络后来使用共享的临床信息构建，如症状和共病[12，17］．Zhou等人根据症状的相似性建立了一个基于症状的人类疾病网络[17]，而Hidalgo等人和Barabási等人利用医疗保险数据库构建了一个共病网络[7，12］．由于这些努力的重点是证明在单一时间点发生或存在的共同疾病或症状之间的关系，这些网络没有考虑到对疾病表现的时间顺序的调查[19］．

最近，研究人员建议疾病网络在探索疾病之间的联系时应考虑时间方向性[13］．例如，Jensen等人根据丹麦国家患者登记处的疾病轨迹分析了暂时的疾病进展模式。在这项研究中，我们利用韩国国民健康保险服务-国家样本队列(NHIS-NSC)，根据疾病之间的相对风险(RR)，构建了一个定向和加权的疾病网络，可视化了人口因素的影响，如性别、年龄和疾病爆发规模，其中包括大约100万患者12年的流行病学时间序列数据。

最后，我们调查了疾病之间关联的总体模式;网络属性，如聚类、程度和强度;疾病网络结构与人口因素之间的关系。

疾病网络的构建与可视化

韩国是实行国民健康保险服务的代表性国家。2002年至2013年，国民健康保险院收集了国内5000万名患者中100万名(约2%)的时间保险信息。因此，每个患者的临床信息可以追踪12年。

为了检查在队列研究开始时患者已经患有疾病的危险因素，我们需要在主要研究期之前设置一个初始期作为病史期。对于大多数慢性疾病，推荐的随访间隔很少超过2年。因此，我们将观察期设置为2002 - 2003年，结果期设置为2004 - 2013年。

从2004年符合国民健康保险资格的1,016,580名患者的样本中，我们选择了885,125名在上述观察期间至少有一次医疗访问记录的患者。我们将这组患者定义为样本队列。在韩国，诊断编码在韩国疾病分类第六版(KCD-6)中，这是ICD-10的延伸。KCD-6和ICD-10的唯一区别是，在KCD-6中使用了U20-U99编码，包含了国医诊断代码。

为了简化研究，我们截断了KCD-6编码的第三位数字，实际上，将条件的子类别分组在一起。总的来说，在2002年至2013年期间使用的KCD-6包含2097个第三位数水平的独特诊断，其中1971个诊断包含在我们的数据中。

最终，我们只选择了520个常见的KCD-6编码，这些编码是最常见的诊断，涵盖了大约80%的统计有效性病例。

疾病间关系的临床证据支持

所有统计分析和可视化均使用R软件包“igraph”(版本3.4.4)和Cytoscape进行。为了计算RR，我们寻求得到P与原假设相对的值，该假设指出，在样本队列中，任何两种疾病都是相互独立发生的。假发现率(FDR)校正采用Bonferroni方法。

使用随机行走陷阱社区检测算法确定相关疾病的群集[20.，21］．该方法仅根据连通性(除非指定使用权重)使用沿边随机行走来检测聚类。疾病集群的人口统计分析是通过聚集在集群中至少有一种诊断的患者来进行的。

因此，每个集群的患者池不是排他性的，而是与其他集群有一定的重叠。在观察期开始时计算患者群的年龄分布。使用调整后的Fisher精确检验对KCD类别的聚类进行富集分析P值< . 05。

疾病网络的拓扑特征

在图论中，一个节点的度是与其他节点连接的总数。在有向网络中，节点的出度是与该节点作为源的连接数，而节点的入度是与该节点作为目标的连接数。因此，程度可以被认为是我们网络中疾病风险水平的衡量标准。

相反，一个节点的强度是实现与其他节点连接的rr的和。例如，节点的out-strength和in-strength我分别定义如下:

年代_出（我) =∑_jRR_ij（1）

年代_在（我) =∑_jRR_霁（2）

在哪里RR_ij这条边的权值是从节点开始的吗我到节点j,RR_霁这条边的权值是从节点开始的吗j到节点我．外强度是衡量疾病发病率的大小，而内强度是衡量一种疾病从其他疾病转移的趋势的大小。

大型聚类在计算聚类中的表征

从风险疾病D计算风险比₁D选项为正确答案₂(D₁→D₂)，我们需要首先确定有患D的风险的患者群体₂．我们认为病人有患D病的危险₂如果病人没有被诊断为D的记录₂在观察期间。如果患者被诊断患有至少一次D病，则被认为接触过D病₁在观察期间。D的RR₁→D₂用以下公式定义:

RR=(a / [a + b]) / (c / [c + d]) (3.）

a是暴露于D的患者数量₁D₂在结果期;b为接触D的患者数量₁D选项为正确答案₂在结果期;c为未接触D的患者数量₁D为正确答案₂在结果期;d是没有接触到任何d的患者数量₁D选项为正确答案₂在结果期(表1)．

由于如果列联表中的数字很小，单次误诊可能会导致RR值的很大误差，因此我们为每组建立了947例患者的最小规模。例如，在初始阶段患病率最高的诊断是“J20:急性支气管炎”，355045例患者在观察期内至少被诊断一次。

最低诊断为“R80:孤立性蛋白尿”，在观察期间诊断了947例患者。因此，高危组的人数从急性支气管炎的530080人(885,125 - 355,045人)到孤立蛋白尿的884,178人(885,125 - 947人)不等。

为了选择RR的截断值，我们选择了最接近顶部百分位数的整数(即，最接近x的整数，其中P[RR > x] = .01]，即4。因此，我们选择了RR大于4且fdr校正的疾病关系P的值。来构建我们最终的网络。

因此，患病率和高危人群规模足够大，可以准确地确定RR。由于本研究的对象不是自相互作用，因此总共520个节点的理论相互作用总数为269,880个。

表1。疾病风险比计算列联表。

2002-2003年危险疾病	结局疾病:2004-2013年
暴露	不暴露
暴露	价值^一个	价值^b
不暴露	价值^c	价值^d

^一个暴露于危险疾病的患者人数(D₁)和结局性疾病(D₂)．

^b暴露于D的患者数量₁解析:选D₂．

^c未接触D的患者数量₁但暴露在D₂．

^d未接触任何一种药物的患者数量D₁或维₂．

疾病网络的构建与可视化

最初，为了构建和可视化我们最终的疾病网络，我们选择了一个大于4的RR和一个fdr调整P值<.001。因此，我们能够获得一个具有4个簇、294个节点和3085条边(图1)．

为了更好的临床直观可视化，我们设计了一种可视化方案，使疾病节点的颜色反映受疾病影响的患者的年龄，爆发的大小反映患者的相对数量。节点的形状用矩形表示。节点宽度代表女性患者数量，高度代表男性患者数量。对于节点颜色，红色通道强度与30岁以下患者比例成正比，绿色通道强度与30 - 59岁患者比例成正比，蓝色通道强度与60岁及以上患者比例成正比。

同时，为了表示节点的方向性和权重，边用箭头表示，相对厚度用灰色表示。根据纳入患者在观察期间的病史，在结果期开始时计算每种疾病在不同性别和年龄组中的患者人数。

疾病间关系的临床证据支持

为了确定我们的疾病网络模型中推断出的疾病之间的相关性是否具有临床意义，我们调查了现有文献中关于已建立的疾病网络中最高RR值的前六种疾病-疾病关联。

大多数结果与先前已知的疾病之间的联系一致(表2)．双相情感障碍和精神分裂症之间存在大量的疾病学和生物学重叠[22，23］．此外，长期高血压是慢性肾脏疾病的重要原因和后果[24］．众所周知，贫血可发展为慢性肾脏疾病，并预示预后不良[25］．

有趣的是，尽管新生儿从未怀孕，但妊娠期糖尿病与新生儿黄疸之间的相关性也非常高。这一结果是可能的，因为尚未在全国登记的婴儿的诊断是在母亲的保险帐户下填写的[26-28］．我们的研究结果的另一个有趣的方面是，新生儿黄疸和尿布皮炎彼此之间有很强的相关性，这在以前的流行病学研究中没有观察到。

表2。最高相对风险值。

危险因素疾病	结果疾病	RR^一个	参考文献
双相情感障碍	精神分裂症	34.4	［22，23］
慢性肾病	高血压肾病	31.9	［24］
妊娠期糖尿病	新生儿黄疸	29.1	［26-28］
新生儿黄疸	尿布皮炎	28.1	N/A^b
慢性肾病	慢性疾病贫血	27.4	［25］
妊娠早期出血	新生儿黄疸	26.1	［27］

^一个相对风险。

^bN/A:不适用。

疾病网络的拓扑特征

我们研究了我们构建的网络的进出度分布。像许多其他网络一样，我们网络的进出度遵循长尾幂律分布[29) (图2)．但相对于程度而言，强弱强弱均不服从幂律分布(图3)．

表3显示具有最高外泄程度、外泄程度、外泄强度和外泄强度结果的前六种疾病。最严重的疾病包括已知会影响许多其他疾病的疾病，如慢性肾病和原发性高血压。

已知最严重的疾病与长期住院或免疫功能低下有关，这是由各种疾病引起的状态。高倾斜度和高倾斜度疾病有相当大的重叠，多发性神经病、老年性白内障和视网膜疾病都是高倾斜度和高倾斜度疾病。患有这些疾病的患者发生多种合并症的风险更大。

病变程度最高、强度最高的疾病包括帕金森病、慢性肾病、慢性贫血、骨质疏松伴病理性骨折。这表明，许多不同的疾病都有覆盖这些疾病的强烈趋势。随后，我们探讨了out-degree与in-degree、out-strength与in-strength结果之间的关系。

外在强度与内在强度之间的相关性(Pearson相关系数:0.72)强于外在程度与内在程度之间的相关性(Pearson相关系数:0.57)(图4)．这意味着疾病表现出由其他疾病发展而来的强烈趋势。为了更好的表征，我们根据患者的年龄构成，对强弱图中的疾病进行了颜色编码(图5)．这表明平均年龄与强弱图回归线上的定位相关。

表3。最严重/最严重的疾病和最严重/最强大的诊断。

kdc^一个代码与疾病		学位
顶级疾病
	G63:多神经病	43
	C61:前列腺恶性肿瘤	43
	H25:老年性白内障	43
	H36:视网膜疾病	42
	N18:慢性肾病	42
	I10:原发性高血压	39
最严重疾病
	G20:帕金森病	82
	M80:骨质疏松伴病理性骨折	64
	N18:慢性肾病	62
	D63:慢性疾病贫血	61
	A41:脓毒症	59
最强大的疾病
	G63:多神经病	1057
	H36:视网膜疾病	998
	M48: spondylopathies	992
	H25:老年性白内障	992
	M81:骨质疏松，无病理性骨折	981
	M17:膝关节关节病	979
最强势的疾病
	G20:帕金森病	1197
	N18:慢性肾病	1135
	D63:慢性疾病贫血	1123
	M80:骨质疏松伴病理性骨折	1120
	I12:高血压性肾病	1100
	H27:晶状体紊乱	1089

^一个韩国疾病分类。

大型聚类在计算聚类中的表征

确认是否目测到聚类图1是布局算法的伪产物，我们采用随机行走陷阱算法进行网络聚类[20.，21］．

共检测到19个簇，包括4个大小大于38的大簇和15个大小小于13的小簇。当我们使用这四个主要集群对网络进行颜色编码时，我们可以看到右上方和左上方的集群几乎完全相同，但最大的集群被检测到为两个大的子集群(图6)．

这证实了疾病关联将疾病分组为几个不同的集群，并且这是独立于预选力定向布局的发生。有趣的是，随机步行陷阱算法的模块化得分(0.53)是KCD类别得分(0.24)的两倍多。为了了解这四个主要的群集是否真的具有我们在可视化中注意到的特征，我们根据受影响患者的年龄分布和性别比例对群集进行了分析(图7)．

被诊断为第1组和第3组疾病的患者年龄相对较大(平均年龄分别为47.4 [SD 18.22]岁和48.19 [SD 18.66]岁)。第2类疾病以育龄妇女为主(男女比例为1:18.67;平均年龄:39.38 [SD 13.08]岁)。第4组患者年龄相对较轻，女性略多(男女比例为1:1.22;平均年龄:31.7岁(SD 21.56岁)。

我们分析了每个聚类的KCD类别，并进行了富集分析，以调查每个聚类中富集的疾病类型(P= . 05)。虽然每个群集都包含自己的疾病组(多媒体附件1)，富集分析显示，四个主要聚类均富集了不重叠的KCD类别集(多媒体附件2)．由于每个聚类都有不同的特征，我们根据其最突出的特征将主要聚类从1到4分别标记为“慢性衰弱”、“妇女疾病”、“血液肿瘤”和“传染病”聚类。

主要研究结果

在这项研究中，我们提出了一种利用医疗索赔数据建模具有方向性和边权的疾病网络的综合方法。我们只选择了最常见的诊断，以避免在罕见疾病中高估RR。φ - correlation也有助于避免高估罕见疾病之间的关联[12]，但对于研究常见疾病关联的整体模式而言，它在临床上不那么直观，也没有必要。年龄及性别等流行病学因素是导致疾病发展的重要诱因[30.-33];它们实际上是影响疾病流行和分类的最关键的临床因素。

本研究的另一个目的是将这些因素溶解在疾病网络中，并观察各种因素如何影响疾病网络的结构和动态。此外，这些因素也反映在疾病网络的可视化中。在我们的疾病网络模型中，我们提出了一种直观的可视化方法，最大限度地提高临床可用性。

节点表示患者爆发的大小，同时表示矩形中宽度(女性)和高度(男性)的相对比例。此外，每个节点分为红色为年轻患者，绿色为中年患者，蓝色为老年患者。相反，通过箭头和边缘的厚度，可以直观地掌握疾病之间的RR和方向。

因此，我们的疾病网络可视化方法可以直观地识别疾病之间的方向和RR，可以有效地了解疾病的年龄分布、性别比例和疾病爆发规模。疾病关系的方向性是研究设计按时间顺序纵向进行的结果。强RR值支持疾病在时间顺序上的关联，这是临床研究中疾病之间因果关系的前提条件[34］．正因为如此，我们的网络可以成为调查疾病之间因果关系的起点。在这里，我们检查了与高rr的疾病关系的文献。

限制

NHIS-NSC包括了47,851,928名患者中1,025,340名患者的比例分层抽样数据。这些患者采用比例分层抽样方法，按年龄、性别、资格状况和收入水平随机抽取[35］．总体而言，NHIS-NSC的数据具有代表性，但一些罕见疾病可能因难以获得统计学意义而失去代表性。由于这些局限性，本研究排除了样本量较小的疾病组，未在本研究中评估的罕见疾病有望在未来的研究中进行评估。

因此，我们已经证明，我们的网络可以提供线索来揭示疾病之间的因果关系。在我们的网络中，新生儿黄疸和尿布性皮炎呈现有统计学意义的相关性(RR=28.1，P<.001)，但在文献检索中，我们没有找到其他支持这种关联的证据。尽管如此，这并不意味着我们的网络得到了错误的结果。相反，它暗示了研究人员尚未发现的关联的可能性。从严格意义上讲，很难说这是一种因果关系，因为方向性只能被认为是疾病的自然进展、治疗的结果或做出诊断的过程。

结论

在我们的研究中，我们调查了网络拓扑，如程度和强度。进出度都像其他生物网络一样遵循幂律分布;然而，强度分布却没有。由于RR值并没有表明因果关系，我们不能仅通过观察超出程度和超出强度就说某种疾病是许多其他疾病的原因。尽管如此，对于高外伤性、高外伤性疾病(如多发性神经病、视网膜疾病、老年性白内障)的患者，仍值得特别注意，进行二级预防。同样，具有高程度和高强度发现的疾病，如帕金森病、病理性骨折骨质疏松症和慢性肾脏疾病，可以被视为许多不同疾病的常见共病。

我们发现，内在和外在优势之间的相关性比内在和外在程度之间的相关性更强。此外，与疾病相关的较强风险往往与年龄较大的受影响患者有关。年龄和强度之间的关联表明，先前发现的疾病连通性和死亡率之间的相关性可以用风险强度增加的现象来解释。

通过网络的聚类，我们发现了四种具有明显人口统计学特征的主要疾病集群。有趣的是，每个聚类都只富集KCD类别，并且具有不同的平均年龄和性别比例。使用我们的网络分析的聚类模式表明，KCD类别、年龄和性别对疾病关联有很强的影响，并强调了人口因素的重要性。由于患有群集内疾病的患者往往会在同一群集内获得其他疾病，我们可以通过配置专科诊所来满足相关疾病的群集或亚群集，如产科和妇科的情况，通过患者护理来最大限度地减少共病的发生。

在这方面，我们提出的疾病网络模型可能会成为早期临床研究人员在未来寻求进一步探索疾病关系的有价值的工具。

在未来的研究尝试中，我们将考虑网络考虑时间顺序的动态性，并评估可能影响整个网络结构的网络崩溃点。

致谢

这项工作得到了韩国科学、信息通信技术和未来规划部(NRF-2017R1E1A1A03070934)和科学和信息通信技术部(NRF-2019M3C7A1032262)资助的韩国国家研究基金的基础科学研究计划的支持。

作者的贡献

该项目由HWH公司构想;HWH, SVA, JHB和NSM设计了研究;KMK和JMP进行了研究;KMK和JMY分析了数据;CWL、CYB和HWH撰写了论文。

利益冲突

没有宣布。

‎

多媒体附件1

韩国疾病分类每个簇的疾病节点组成。这张柱状图显示了按疾病类别划分的每一类疾病的组成。

DOCX文件，238 KB

‎

多媒体附件2

富集分析显示，四个主要群体中的每一个都富集了不重叠的韩国疾病分类类别集。

DOCX文件，14kb

Mooe T, Björklund F, Graipe A, Huber D, Jakobsson S, Kajermo U，等。以护士为基础的年龄独立干预以限制急性冠脉综合征(钉状动脉综合征)危险因素试验后疾病的演变:一项随机对照试验方案JMIR Res Protoc 2014 Aug 15;3(3):e42 [免费全文] [CrossRef] [Medline］
彭松，沈峰，文安，王玲，范勇，刘霞，等。慢性肾脏疾病合并症生活方式危险因素的检测:基于web的调查数据的关联规则挖掘分析J Med Internet Res 2019 12月10日;21(12):e14204 [免费全文] [CrossRef] [Medline］
Tluway F, Urio F, Mmbando B, Sangeda RZ, Makubi A, Makani J.坦桑尼亚Muhimbili国立医院住院镰状细胞患者严重贫血的可能危险因素:一项横断面研究方案JMIR Res Protoc 2018 Feb 28;7(2):e46 [免费全文] [CrossRef] [Medline］
Linet M, Vajdic C, Morton L, de Roos AJ, Skibola C, Boffetta P，等。滤泡性淋巴瘤的病史、生活方式、家族史和职业危险因素:淋巴间期非霍奇金淋巴瘤亚型项目中华肿瘤学杂志2014 8月;2014(48):26-40 [免费全文] [CrossRef] [Medline］
Silverman DT, Schiffman M, Everhart J, Goldstein A, Lillemoe KD, Swanson GM，等。糖尿病、其他疾病和家族癌症史是胰腺癌的危险因素。中华肿瘤杂志1999 Aug;80(11):1830-1837 [免费全文] [CrossRef] [Medline］
Tillmann T, Gibson AR, Scott G, Harrison O, Dominiczak A, Hanlon P.系统医学2.0:将电子医疗记录与系统科学模型结合的潜在好处。J Med Internet Res 2015年3月23日;17(3):e64 [免费全文] [CrossRef] [Medline］
Barabási AL, Gulbahce N, Loscalzo J.网络医学:基于网络的人类疾病方法。Nat Rev Genet 2011 1月;12(1):56-68 [免费全文] [CrossRef] [Medline］
刘国强，刘国强。系统生物学与医学的未来。Wiley interdisc Rev Syst Biol Med 2011;3(6):619-627 [免费全文] [CrossRef] [Medline］
王晓明，王晓明，王晓明，王晓明。基于基因组和网络的复杂疾病和人类疾病网络分析。J Genet Genomics 2016 Jun 20;43(6):349-367。［CrossRef] [Medline］
Davis DA, Chawla NV.从多关系基因和表型网络探索和利用疾病相互作用。PLoS One 2011;6(7):e22670 [免费全文] [CrossRef] [Medline］
Goh K, Cusick ME, Valle D, Childs B, Vidal M, Barabási AL.人类疾病网络。美国国家科学研究院2007年5月22日;104(21):8685-8690 [免费全文] [CrossRef] [Medline］
加利福尼亚州伊达尔戈，布隆姆N, Barabási AL，克里斯塔基斯NA。研究人类表型的动态网络方法。公共科学图书馆计算生物学2009年4月;5(4):e1000353 [免费全文] [CrossRef] [Medline］
杨建平，杨建平，陈建平，等。时间疾病轨迹浓缩自覆盖620万患者的全人口登记数据。Nat Commun 2014年6月24日;5:4022 [免费全文] [CrossRef] [Medline］
李毅，阿加瓦尔。一种基于路径的人类疾病和疾病关系的观点。PLoS One 2009;4(2):e4346 [免费全文] [CrossRef] [Medline］
朴杰，李东，李志刚，Barabási AL.细胞网络对疾病共病的影响。Mol Syst Biol 2009;5:262 [免费全文] [CrossRef] [Medline］
张旭，张荣，蒋勇，孙鹏，唐刚，王旭，等。扩展的人类疾病网络结合蛋白质-蛋白质相互作用信息。Eur J Hum Genet 2011 july;19(7):783-788 [免费全文] [CrossRef] [Medline］
周旭，孟彻J, Barabási AL, Sharma A.人类症状-疾病网络。Nat Commun 2014年6月26日;5:4212。［CrossRef] [Medline］
Roberts NJ, Vogelstein JT, Parmigiani G, Kinzler KW, Vogelstein B, Velculescu VE。个人基因组测序的预测能力。科学翻译医学2012五月09;4(133):133ra58 [免费全文] [CrossRef] [Medline］
Gross F.系统生物学能告诉我们的疾病。中国生物医学工程学报，2011;33(4):477-496。［Medline］
彭志强，李志强。基于随机游走的大型网络社区计算。在:计算机和信息科学。柏林，海德堡:施普林格;2005年发表于:第二十届计算机与信息科学国际会议;10月26 - 28日期间;土耳其伊斯坦布尔，第284-293页。［CrossRef］
Rosvall M, Bergstrom CT。复杂网络上的随机行走地图揭示了社区结构。美国国家科学研究院2008年1月29日;105(4):1118-1123 [免费全文] [CrossRef] [Medline］
Laursen TM, Agerbo E, Pedersen CB。双相情感障碍，分裂情感性障碍和精神分裂症重叠:一个新的共病指数。中华临床精神病学杂志2009 10月;70(10):1432-1438。［CrossRef] [Medline］
Pearlson GD。精神分裂症和双相情感障碍的病因学、现象学和内在表型重叠。临床精神病学2015;11:251-281。［CrossRef] [Medline］
Gargiulo R, Suhail F, Lerma EV。高血压和慢性肾病。Dis Mon 2015年9月61(9):387-395。［CrossRef] [Medline］
贫血是慢性肾脏疾病的危险因素。肾内科杂志2007年11月(107):S4-S9 [免费全文] [CrossRef] [Medline］
Alam M, Raza SJ, Sherali AR, Akhtar SM。糖尿病母亲所生婴儿的新生儿并发症。中华外科杂志2006 3月16日(3):212-215。［Medline］
王喆，Kanguru L, Hussein J, Fitzmaurice A, Ritchie K.中低收入国家妊娠糖尿病相关不良结局发生率中华妇产科杂志2013年4月;121(1):14-19。［CrossRef] [Medline］
杨娟，张志刚，张志刚。糖尿病妊娠的胎儿和新生儿结局。妇产科杂志2006年9月;108(3 Pt 1):644-650。［CrossRef] [Medline］
细胞生物学中的无标度网络。中华细胞科学杂志2005 11月01日;21 (Pt 21):4947-4957 [免费全文] [CrossRef] [Medline］
柯恒，柯恒，张志强，等。儿童晚期和青少年疾病的流行病学研究——我。按年龄和性别划分的患病率。中华儿童精神病学杂志1993 9月34(6):851-867。［CrossRef] [Medline］
范瑞尔，李志强，李志强，等。年龄、性别和种族对载脂蛋白E基因型与阿尔茨海默病相关性的影响一个荟萃分析。APOE和阿尔茨海默病Meta分析联盟。《美国医学会杂志》1997;278(16):1349 - 1356。［Medline］
Meisinger C, Thorand B, Schneider A, Stieber J, Döring A, Löwel H.发生2型糖尿病危险因素的性别差异:MONICA Augsburg队列研究。2002年1月14日(1):82-89。［CrossRef] [Medline］
李志强，李志强。抑郁症的性别差异研究。关键的审查。中华精神病学杂志2000年12月;177:486-492。［CrossRef] [Medline］
方山，金俊，申华。定向疾病网络的因果关系模型。生物信息学2016年9月1日;32(17):i437-i444。［CrossRef] [Medline］
Lee J, Lee JS, Park S, Shin SA, Kim K.队列概况:国民健康保险服务-国家样本队列(NHIS-NSC)，韩国。国际流行病学杂志2017年4月1日;46(2):e15。［CrossRef] [Medline］

‎

罗斯福:错误发现率

诊断结果:《国际疾病统计分类》第十版

KCD-6:《韩国疾病分类》第六版

NHIS-NSC:国家健康保险服务-国家样本队列

RR:相对风险

G·艾森巴赫(G Eysenbach)编辑;提交28.06.19;G Kolostoumpis, A Mavragani同行评审;对作者14.08.19的评论;修订版本收到08.10.19;接受24.01.20;发表09.04.20

©Kyungmin Ko, Chae Won Lee, Sangmin Nam, Song Vogue Ahn, Jung Ho Bae, Chi Yong Ban, Jongman Yoo, Jungmin Park, Hyun Wook Han。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2020年4月9日。

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

使用100万患者队列数据的有向和加权疾病网络的流行病学特征:网络分析

使用100万患者队列数据的有向和加权疾病网络的流行病学特征:网络分析

原始论文

通讯作者:

摘要

关键字

简介

方法

疾病网络的构建与可视化

疾病间关系的临床证据支持

疾病网络的拓扑特征

大型聚类在计算聚类中的表征

结果

疾病网络的构建与可视化

疾病间关系的临床证据支持

疾病网络的拓扑特征

大型聚类在计算聚类中的表征

讨论

主要研究结果

限制

结论

致谢

作者的贡献

利益冲突

参考文献

缩写