医学互联网研究杂志-慢性疾病症状负担和功能的个体预后:基于患者报告结果(PRO)测量的通用方法

原始论文

尼尔斯·亨里克·英格瓦·霍隆德^1，²医学博士

¹西方慢性病，职业医学，大学研究诊所，奥胡斯大学，赫宁，丹麦

²丹麦奥胡斯奥胡斯大学医院临床流行病学科

通讯作者:

Niels Henrik Ingvar Hjollund，医学博士

WestChronic

职业医学，大学研究诊所

奥尔胡斯大学

Gl. Landevej 61

海宁,dk - 7400

丹麦

电话:45 25850902

电子邮件:niehjo@rm.dk

背景:向患者提供有关症状负担和功能的长期预后的信息是临床实践的一个组成部分，但主要依赖于临床医生的个人经验。基于重复测量的患者报告结果(PRO)数据的相关预后模型很少可用。

摘要目的:目的是描述一种隐含很少统计假设的个体症状负担和功能的长期预后的通用方法，以评估中风患者抑郁症状预后的实现，并提供该实现的基于web的原型供个人使用。

方法:用于描述PRO结果的个体预后的方法是基于选择与相关患者在同一时间(如诊断或治疗开始后)具有相同评分的特定亚队列患者，加上或减去一个单位的最小临床重要差异。然后使用该子队列的经验课程，随着时间的推移，提供预后的定量测量。1404名脑卒中患者的队列研究为模拟研究提供了数据，并为个人使用提供了原型。该队列的成员在3.5年的时间里每6个月回答一次问卷。抑郁症状由医院焦虑和抑郁量表(HADS)和SF-12 (MH4)健康调查中的一项评估。在一项模拟研究中对四种方法进行了比较，其中对队列中每个成员的预后进行了单独评估。

结果:模拟得分的平均标准偏差高出40%至70%。四种方法的平均误差接近于零，平均绝对误差在0.46 ~ 0.66 SD之间。一种从单项SF-12 MH4中估计缺失HADS评分的方法比仅限于具有真实HADS评分的问卷的方法表现略好，这表明使用较短问卷(例如，在临床实践中)收集的数据可以与较长的全量表版本一起使用，因为设计包括至少两个同时测量的全量表和替代测量。

结论:这是第一个描述和实现的非参数方法的个人proc为基础的预后。鉴于已纵向收集相关PRO数据，该方法可应用于其他患者组以及与症状负担和功能相关的任何结果。这一初步实施已被刻意简化，进一步的阐述以及该方法的可用性和临床有效性将在临床实践中仔细审查。该原型的实现可在www.prognosis.dk上获得。

中国医学杂志，2017;19(8):e278

doi: 10.2196 / jmir.8111

关键字

慢性疾病；队列研究；抑郁症；纵向研究；患者报告的结果测量；预后；功能恢复；重复测量；中风；调查及问卷；症状的评估

预后可定义为根据患者的临床情况预测、预测或估计未来的结果[1］．希波克拉底已经强调了个人预后的重要性[2当时有效的药物治疗很少，医生的主要作用是评估疾病，并根据从详细病例中收集的信息预测其可能的进展。预后评估仍然是临床实践中极其重要和完整的一部分，尽管在现代医学研究中，与治疗和病因学研究相比，预后研究受到的关注较少[1，3.］．例如，可以开发一个预后模型来预测脑出血后的短期结果。早期生存严重依赖于入院时的格拉斯哥昏迷量表评分[4］．已知可预测预后的其他因素包括出血的大小和是否存在脑室内出血[5］．脑出血患者预后的预测可用于急诊科的决策支持，以区分可能受益于重症监护的患者和预后差而无法受益于重症监护的患者[5］．然而，预后知识的另一个重要用途是通知中风患者及其亲属[5］．

基于患者报告结果的预后

在医学上，预后通常与特定二元事件的发生有关，如死亡、疾病复发、再入院或特定并发症[3.，6]，而预后研究的科学指南也侧重于二元事件的预测[7，8］．然而，许多结果具有连续性，且高度相关的结果(如症状负担和功能)不能仅从临床数据评估，而是通过应用患者报告的结果(PRO)措施来评估[9］．关于特定疾病和一般症状以及功能的预后信息通常对患者至关重要，有时需要这些信息才能做出重要决定，如退休或重返工作岗位，或是否搬到另一所房子或公寓。社会当局和养恤金委员会还需要关于症状的预后和功能的信息，以便作出对病人未来生活状况产生重大影响的决定。因此，关于这些结果的预后要求经常被提出，每个医生都熟悉回答这样的要求，正式或非正式。然而，这样的答案往往完全依赖于个别医生的个人临床经验、态度和信念，很少依赖于相关的可量化预后数据，更少依赖于生物统计模型[10］．考虑到对证据的要求，这有点令人惊讶。抑郁症在中风后很常见，大约三分之一的中风幸存者在中风后的任何时间都会受到影响，而在没有中风的成年人中，这一比例为5%至13%，累积发病率为55% [11］．因此，本次研究选择脑卒中后抑郁症状的预后。

方法论的缺陷

基于个体pro的预后缺乏有用的方法可能是由于两个原因:缺乏相关数据和构建预后模型的传统统计方法不充分。统计模型的目的就是将原始数据简化为几个参数(例如，估计的回归系数)。然而，随着时间的推移，这样的模型可能只能解释一小部分变化，有时根本无法解释。在后一种情况下，我们将这样的研究标记为“负面”，这意味着群体均值与时间的关联在统计上不显著。这种思维方式反映了我们对群体手段的关注，而不是变化。通常，我们把无法解释的变异称为“错误”——一种我们无法消除的噪音。然而，个体差异是生活各个方面的自然现象，我们应该描述它，而不是消除它。从患者的角度来看，仅仅了解群体手段是不够的。他或她更可能希望尽可能多地了解类似患者经历过的课程。此外，传统方法在方法上有一些局限性。 A statistical model implies a number of presumptions about distribution, which may not be fulfilled. In addition, model building is complicated, especially if there are more than two measurements per patient [6］．然而，鉴于相关的PRO数据已经系统地收集，存在另一种解决这些障碍的可能性。本文描述了一种利用队列经验的通用方法，隐含很少的统计假设，如果相关的PRO数据可用，很容易扩展到其他结果和患者组。

客观的

本文的目的是描述一种简单的、通用的、基于数据的个体动态预后的方法，该方法侧重于评估脑卒中患者抑郁症状预后的群体均值和变异，并为个人使用提供对原型的开放访问。

所使用的原则是针对特定的患者(称为“接受者”;即，要求预后的患者)选择在主要事件(例如，诊断，治疗开始)后的相同天数(称为“指数日”)内得分与患者在相关变量上的得分相匹配的患者亚队列(称为“供体”)。供体匹配的标准是受体患者在指标日的值加上或减去与最小临床重要差异(MCID)对应的值。MCID可以是基于锚点的，也可以是基于分布的[12］．为了保留通用方法，建议采用后一种方法，并将其计算为队列成员得分分布标准差的二分之一[12，13］．匹配标准适用于队列成员在指数日之前的最后一次测量。每个子队列成员(捐赠者)的后续轨迹同时显示，并通过汇总统计数据定量描述。

问卷类型

抑郁症状采用医院焦虑抑郁量表(HADS)测量[14］．该量表用于识别医院门诊患者的焦虑和抑郁状态;为避免潜在的躯体疾病混淆，该结构排除了躯体症状，如失眠和精力丧失[14］．HADS包括两个子量表:焦虑量表(HADS- a)和抑郁量表(HADS- d)。每个子量表包括7个项目，评分范围为4分(0-3)，得分越高表示症状越多。焦虑和抑郁的症状通过每个子量表(0-21)的总分来评估。本研究仅采用抑郁量表。采用Singer等人提出的截断值[15］．使用Bell等人提出的单个子量表方法，最多允许有两个缺失值[16］．使用了两种类型的问卷:完整的和简短的。完整问卷包括HADS [14]，多维疲劳量表(MFI-20) [17]，世界卫生组织-5幸福指数[18]，以及12项简表医疗结果研究(MOS SF-12) [19］．简要问卷中仅有MOS SF-12量表。

简单问卷中HADS-D评分的估计

简短问卷和缺少HADS-D分数的完整问卷的HADS-D分数是根据MOS SF-12 MH4项目估算的:“在过去4周内，你有多少时间感到沮丧和沮丧?”，答案分为“一直”、“大部分时间”、“一些时间”、“有一点时间”和“没有时间”。在一种方法中，HADS-D模型的回归估计为β₀+β₁* SF-12 MH4基于所有患者(常见回归)计算。在另一种方法中，通过至少三次HADS-D和MOS SF-12 MH4的同时测量，分别计算每个患者的回归估计(个体回归)。最后，在最后一种方法中，使用真实的HADS-D评分，在真实评分缺失的情况下，补充基于个体回归的评分。

模拟

使用内部模拟来比较四种方法:(1)真实的HADS-D评分，(2)基于普通回归的评分，(3)基于局部回归的评分，以及(4)联合方法，在可用时使用真实评分，否则插入基于局部回归的评分。每位患者被依次选择为接受者，指标日定义为第一次测量并获得真实的HADS-D评分的日期。将这一天作为模拟该患者预后的指标日。如前所述，在从捐赠者队列中删除实际接受者后选择捐赠者。对于每一个这样的模拟和每个时间类别，记录接受者和捐赠者的测量次数，以及接受者的实际得分和捐赠者得分的平均值之间的差异。供体和受体的个体差异也被记录下来。在前三种方法中，只纳入了具有有效HADS-D评分的问卷，而在最后一种联合方法中，允许来自同一患者的当前SF-12 MH4评分。如果供体患者的亚队列少于4人，则排除受体患者。出于可比性的原因，常见的基于回归和基于局部回归的模拟方法仅限于真正HADS-D方法中包含的患者和问卷。

评价

通过比较受体和供体之间以及模拟方法之间的平均值、标准差、个体内变异、平均误差和平均绝对误差(MAE)的值来评估四种方法的性能。MAE是时间序列分析中预测误差的量度[20.]，与均方误差不同，它按比例加权偏差。沃尔统计数据用于评估四种方法与供体人群之间的平均分差异。R版本3.2.5包[21]用于分析，原型运行在R-studio版本1.0.136的服务器版本[22］．

患者群体和数据收集

来源人群包括2008年10月1日至2011年12月31日期间丹麦中部地区任何医院收治的所有首次中风患者。患者是从丹麦中风登记中确定的，这是一项全国性的计划，旨在监测和提高护理质量。丹麦所有治疗急性中风患者的医院部门都必须参加。有关病人登记的登记册已被发现是有效的[23］．年龄小于80岁、中风后存活90天、中风前住在自己家里的患者被纳入并邀请参与研究。患者在登记簿中以其唯一的民事登记号码进行识别。中风时的性别和年龄信息从民事登记号码中获得。共病信息从丹麦中部地区患者登记处检索。在接触每位病人前，从民事登记系统收集有关地址及生命状况的资料[24］．关于原始队列的详细信息可在其他地方找到[25］．数据由WestChronic PRO系统收集，该系统允许使用基于网络和纸质问卷的自动数据收集。在以往的研究中，该系统的初步问卷回复率达93%，后续问卷回复率达98%至99% [10］．患者在中风后3个月回答了最初的问卷，随后每6个月重复一次问卷调查，直到至少3.5年过去。第一份问卷是纸质的，但患者被鼓励在网上回答随后的问卷。在指定时间内未接受调查的人在下一个预定日期被邮寄简短版本。HADS量表不包括在简短问卷中，除了研究的前4个月外，该问卷被用作初始问卷，并在向对最新问卷没有回应的患者发送问卷时使用。对于每一份问卷，都分配了一个时间变量，计算从中风日期到收到问卷数据的天数。为了进行分析和制表，使用在其他地方描述的方法，将时间分为八个最适合的时间类别之一(3、6、12、18、24、30、36和42个月)[26］．总共3856名患者符合纳入标准，3499名患者在中风3个月后邮寄了一份问卷(图1)．

模拟研究至少需要三份问卷，其中至少有两个有效的HADS-D评分。共有1751名患者在至少三个时间类别内回答，1404名患者至少有两个有效的HADS-D评分并被纳入模拟研究(图1)．在某些情况下，患者在一个时间类别中有多个问卷，模拟研究中省略了第二次测量。

这项研究得到了丹麦数据保护机构的批准。2007-41-0990)。

抑郁症状个体预后的原型

原型是基于与模拟中使用的相同的数据和方法。然而，在原型的实现中，时间是以天为单位测量的，而不是固定的时间类别;因此，所有的测量都是可用的。所使用和以图形方式显示的数据代表具体的个人，即使在理论上也不应是可识别的。在传输到原型服务器之前，所有数据都经过匿名化处理，识别号码替换为随机数。

给出了人口的特征表1．男性患者占63.60% (893/1404);性别之间的特征分布只有微小的差异。第一次测量的HADS-D平均评分为4.48 (SD 3.94)。有可能抑郁症状的208例(14.81%)(评分> ~ 10)，有明确抑郁症状的116例(8.26%)(评分> ~ 10)。1404例患者参与调查，共填写问卷7273份。每位患者问卷的中位数为5份(十分位数区间[IDR]为4-7份)。

共有7181份问卷可单独划分为其中一项预先设定的时间类别(表2)．在92例病例中，同一患者在同一时间段内收到了一份以上的问卷。第一个问卷被纳入模拟研究，而在原型研究中，时间被视为一个连续变量，所有问卷都是合格的。在所有问卷中，全长问卷占69.28%(4975/7181)，而简短问卷占30.72%(2206/7181)。

HADS-D评分在不同时间类别的人群分布总结在表3．随着时间的推移，平均分数只有轻微的变化。个体内标准差中位数为1.38(四分位范围[IQR] 0.71-2.12)。关于时间趋势的详细分析将在其他地方发表。

表1。纳入模拟研究和原型研究的脑卒中患者的特征(N=1404)。

变量		女(n = 511) n (%)	男性(n = 893) n (%)	P^一个
年龄(年)				06
	≤60	173 (33.9)	264 (29.6)
	61 - 70	164 (32.1)	341 (38.2)
	71 - 80	174 (34.1)	288 (32.3)
伴随疾病指数^b				酒精含量
	0	284 (55.6)	510 (57.1)
	1	74 (14.5)	155 (17.4)
	2	80 (15.7)	102 (11.4)
	3.	22日(4.3)	31 (3.5)
	> 3	20 (3.9)	29 (3.2)
	NA	31 (6.1)	66 (7.4)
中风类型				收
	脑内出血	42 (8.2)	71 (8.0)
	缺血性	425 (83.2)	729 (81.6)
	未指明的	37 (7.2)	80 (9.0)
	失踪	7 (1.4)	13 (1.5)
中风年份				.97点
	2008	39 (7.6)	75 (8.4)
	2009	158 (30.9)	273 (30.6)
	2010	171 (33.5)	299 (33.5)
	2011	143 (28.0)	246 (27.5)
医院类型
	大学医院	199 (38.9)	355 (39.8)	.77点
	地区医院	312 (61.1)	538 (60.2)
入组抑郁评分
	正常(< 7)	374 (73.2)	706 (79.1)	.04点
	可能的抑郁迹象(7-10)	89 (17.4)	119 (13.3)
	抑郁的明确迹象(>10)	48 (9.4)	68 (7.6)

^一个组间数据比较采用卡方检验。

^b查理森指数[27］．计算中不包括中风诊断。

表2。卒中患者卒中后的纳入和随访(N=1404)。

		中风后时间(月)								总计
		3.	6	12	18	24	30.	36	42
包含/随访,n
	上个月的类别	NA	1033	1307	1395	1344	1276	1032	586
	加上条目	1033	274	88	9	0	0	0	0	1404
	减去退出:死亡	0	0	0	3.	8	4	12	26	53
	减退出:研究终止	0	0	0	8	10	120	132	83	353
	减去退出:减员	0	0	0	49	50	120	302	231	752
	减去这一轮没有反应	0	114	225	229	244	222	4	0	1038
	收到问卷总数	1033	1193	1170	1115	1032	810	582	246	7181
问卷类型，n
	完整的长度	102	827	852	812	823	794	541	224	4975
	短暂的^一个	931	366	318	303	209	16	41	22	2206
数据采集方法，n (%)
	纸	1031 (99.9)	788 (66.1)	775 (66.2)	735 (65.9)	638 (61.8)	451 (55.7)	398 (68.4)	150 (61.0)	4967 (69.2)
	网络	1 (0.1)	405 (34.0)	395 (33.8)	379 (34.1)	394 (38.2)	359 (44.3)	184 (31.6)	96 (39.0)	2214 (30.8)

^一个根据MOS简表12项MH4估算HADS分数。

表3。医院焦虑与抑郁量表抑郁子量表(HADS-D)按卒中后时间进行评分。

	所有	中风后时间(月)
		3.	6	12	18	24	30.	36	42
n	4922	101	818	846	806	820	789	519	223
HADS-D评分，平均值(SD)	4.5 (3.9)	3.9 (3.6)	4.4 (3.9)	4.7 (3.9)	4.6 (3.8)	4.5 (3.8)	4.4 (3.8)	4.6 (4.2)	4.5 (3.9)
HADS-D评分，中位数(IDR^一个）	4(清廉)	3 (0 - 9)	3(清廉)	4(清廉)	4(清廉)	4(清廉)	3(清廉)	3(划分)	3 (1 - 10)

^一个IDR:十分位数间距。

模拟

在模拟研究中，有4922份问卷可用，对应于具有有效HADS-D评分的问卷数量，而来自同一患者的额外936份简短问卷，其中包括在联合方法中(表4)．在3个月时，当大多数问卷为简短类型时，联合方法有543份问卷，而其他三种方法有101份问卷(表4)．采用联合方法，5%的模拟基于少于364份供体问卷，而对于其他三种方法，可用的问卷更少(n=116, n=86和n=117) (表4)．除了3个月的平均值外，两种方法之间的平均得分仅有轻微差异，其中联合方法的平均得分为5.1，而其他方法的平均得分为3.9(差异1.20,95% CI 0.43-1.97) (表4)．

文中给出了四种方法的仿真结果表5．模拟分数的标准差均值比真实分数高出40% ~ 70%，其中基于真实HADS分数的方法差异最大(表5)．在所有方法中，模拟分数的变化在指数得分最低的五分位数中最大。所有方法的平均误差接近于零。正如预期的那样，与时间相关的平均误差接近于零。通用回归方法的mae始终最高，而联合回归方法的mae最低。与总体标准差(SD 3.94;表3)， 4种方法的mae分别为0.61、0.53、0.57和0.58 SD。

个体预后原型

在在线原型中，有问题的接受患者会被提示完成HADS问卷，并输入中风日期(多媒体附件1)．在中风后的同一时间，与HADS-D评分相匹配的捐赠者亚队列中每个成员的抑郁症状病程立即显示在屏幕上(图2)，以及随时间变化的平均数和变化的描述性统计。此外，显示预后建议措辞的句子(多媒体附件2)．

表4。模拟患者数和供体患者数^一个采用四种方法对1404例患者进行模拟队列研究。

			真正的HADS-D 分数	HADS-D估计从常见的回归^b	HADS-D估计从个人回归^b	结合^c
包括捐赠者问卷			完整的长度调查问卷	完整的长度调查问卷	完整的长度调查问卷	完整的长度调查问卷补充了简短的问卷调查
病人,n
	模拟		1395	1390	1396	1399
	不是模拟^d		9	14	8	5
捐赠者问卷，n
	总计		1105859年	1234058年	1151749年	1567493年
	独特的		4922	4922	4922	5858
每个模拟的捐赠者和问卷，n
	最低
		供体的病人	4	4	4	4
		调查问卷	11	11	11	15
	第五百分位
		供体的病人	29	23	29	63
		调查问卷	116	86	117	364
	第十百分位
		供体的病人	46	46	46	91
		调查问卷	186	169	174	516
	第25百分位
		供体的病人	127	127	133	154
		调查问卷	492	484	493	830
	中位数
		供体的病人	199	246	227	211
		调查问卷	801	919	916	1113
	最大
		供体的病人	423	579	423	488
		调查问卷	1646	2411	1646	2279
HADS-D评分，n;意思是(SD)
	整体		4922;4.5 (3.9)	4922;4.5 (2.9)	4922;4.5 (3.8)	5858;4.6 (3.9)
	3个月		101;3.9 (3.6)	101;3.9 (3.6)	101;3.9 (3.6)	543;5.1 (3.9)^e
	6个月		818;4.4 (3.9)	818;4.4 (3.9)	818;4.4 (3.9)	990;4.6 (3.9)
	12个月		846;4.7 (3.9)	846;4.6 (2.9)	846;4.6 (3.8)	960;4.6 (3.8)
	18个月		806;4.6 (3.8)	806;4.5 (2.7)	806;4.6 (3.7)	897;4.7 (3.9)
	24个月		820;4.5 (3.8)	820;4.5 (2.5)	820;4.5 (3.7)	888;4.6 (3.8)
	30个月		789;4.4 (3.8)	789;4.4 (2.4)	789;4.4 (3.6)	796;4.4 (3.8)
	36个月		519;4.6 (4.2)	519;4.7 (2.7)	519;4.6 (4.1)	551;4.6 (4.2)
	42个月		223;4.5 (3.9)	223;4.4 (2.4)	223;4.6 (3.7)	233;4.6 (3.9)

^一个评分与指标日评分±0.5 SD相匹配的患者的次队列。

^b基于SF-12 MH4项目的回归。

^c基于SF-12 MH4项目的真实HADS-D评分与缺失评分的个体回归估计。

^d匹配的子队列中少于4个捐赠者。

^eP= .003。

表5所示。通过四种模拟方法模拟1404例患者的抑郁症状轨迹的结果。

		真正的HADS-D 分数	HADS-D估计从常见的回归^一个	HADS-D估计从个人回归^一个	结合^b
得分标准差^c以接受者的五分之一^d初始值，模拟值/真实值的平均值(%差值)
	1日五分位数	1.7/0.5 (240)	2.0/0.5 (300)	1.5/0.5 (200)	1.7/0.5 (240)
	2日五分位数	2.0/0.7 (190)	2.1/0.7 (200)	1.8/0.7 (160)	2.0/0.8 (150)
	第三个五分位数	2.3/1.4 (60)	2.0/1.4 (40)	2.0/1.4 (40)	2.3/1.5 (50)
	4日五分位数	2.6/1.6 (60)	2.1/1.6 (30)	2.3/1.6 (40)	2.4/1.7 (40)
	5日。五分位数	2.9/1.7 (70)	2.6/1.7 (50)	2.4/1.7 (40)	2.8/1.7 (60)
	整体	2.4/1.4 (70)	2.1/1.4 (50)	2.0/1.4 (40)	2.3/1.4 (60)
平均误差模拟真值
	6个月	NA	NA	NA	0.01
	12个月	-0.02	0．00	-0.05	0.08
	18个月	0.02	-0.16	-0.08	0.13
	24个月	-0.02	-0.04	-0.05	0.07
	30个月	-0.01	-0.02	0.01	0.08
	36个月	-0.07	0.08	0.05	-0.08
	42个月	-0.03	0.01	0.08	0.05
	整体	-0.02	-0.03	-0.03	0.05
平均绝对误差
	6个月	NA	NA	NA	1.7
	12个月	1.9	2.5	1.9	1．8
	18个月	2.1	2.5	2.1	1．8
	24个月	2.0	2.5	2.0	1．8
	30个月	2.1	2.5	2.0	1．8
	36个月	2.4	2.8	2．3	2.0
	42个月	2.4	2.7	2．3	2.0
	整体	2.1	2.6	2.1	1．8

^一个基于SF-12 MH4项目的回归。

^b基于SF-12 MH4项目的真实HADS-D评分与缺失评分的个体回归估计。

^c在得分与指数日评分±0.5 SD相匹配的患者亚队列中。

^d模拟预后的队列成员。

图2。原型示例截图(摘自):中风后23周，HADS-D抑郁评分为10分的患者抑郁症状的个体预后。

本文描述了一种为基于pro的结果提供个体预后定量测量的通用方法。该方法是非参数的，直接基于原始队列数据和重复的PRO评估。

除了3个月的评分外，不同方法之间的平均模拟评分仅略有不同，其中联合方法的平均评分为5.1，而其他三种方法的平均评分为3.9。大多数研究发现，中风后的第一段时期抑郁症的患病率最高[11］．在前4个月的数据收集中，患者被要求在3个月后完成长版本的问卷调查，但由于担心低回复率，我们在2009年4月改变了方案，假设在这个早期点的患者更有可能完成简短版本的问卷调查。在3个月时，931人回答了简短的问卷，而102人回答了完整版的问卷。变更前的回复率为69.2%，变更后的回复率为81.3%。因此，101例在3个月时具有真正HADS-D评分的患者的较低评分可能是由选择偏倚解释的。联合方法的平均3个月得分，也利用了简短问卷的数据，更符合其他研究结果，这支持了该方法的有效性。

模拟得分的平均变化高于原始数据(接受者)，但在不同方法之间没有差异(表5)．然而，变异仅为总体标准变异的约56% (2.2 vs 3.9)，这表明该方法捕获了额外的信息。mae相当稳定地为2点，因此在所有队列成员中处于二分之一的标准差范围内。模拟分数中较高的变化有两个来源。首先，在每次模拟中，在选择捐赠者时允许有高达1 / 2的标准偏差。其次，唯一使用的输入是实际抑郁评分和中风后的时间。理论上，先进的统计模型将能够利用来自更多协变量的信息，并可能提高精度。然而，到目前为止，实际的HADS- d评分是未来HADS评分最重要的预测因子(数据未显示)，其他采用类似设计的纵向研究尚未确定不同时间趋势的重要因素(即评分与时间之间的相互作用)，整个模型仅解释了一小部分变化[26］．如果有接受者以前的分数，不仅可以选择实际分数相似的供体患者，而且可以选择以前轨迹相似的供体患者。然而，考虑到这种方法的实际目的，当要求预后时，通常不会提供历史评分。

优势与局限

该方法的内部有效性很高，评估为能够从原始队列中重现值。在外部有效性方面，该方法与基于模型的方法有一些局限性。严重抑郁症患者的数量较低，这可能是由于原始队列中这类患者的代表性不足。在病因学研究中，选择偏差可能是毁灭性的，完全遵守方案的患者可能与只回答少数问题或完全不回答的患者不同。然而，在基于数据的个体预后的设置中，选择和减员是动态的，而不是静态的现象，因为所有关于供体队列中未来结果的信息都以存活(从文字上和队列成员)为条件，直到要求预后的指标日期。因此，在此日期之前的减员只是捐赠者数量减少的问题，但考虑到前面提到的其他协变量的低预测值，它不太可能干扰下一次测量在捐赠者队列中的分布。然而，在下一个时间点从每个供体患者那里得到答案的概率很可能取决于患者的实际健康状况。因此，一个病人的健康状况非常好和非常差都可能降低回答的概率。这种健康状况未知，也无法观察到。这种结合简短问卷调查的方法可能是解决方案的一部分，但在随访的任何时候，严重抑郁症患者的代表性可能仍然不足。 In etiologic research, multiple imputations are often suggested as a solution [28］．然而，imputation引入了额外的变异，这在病因学研究中是一个小问题，在病因学研究中，模型可能只能解释变异的一小部分，但在目前的情况下，目的之一是描述变异本身。

基于数据的方法的一个主要优点是它的表面有效性(即，易于向临床医生和患者解释的直观和简单的原理)，因为预后是基于中风后在相似时间点报告了类似抑郁症状的实际中风患者的实际评分。这也是PatientsLikeMe等由患者发起的数据捕获工具的承载和吸引人的原则[29，30.］．然而，与基于自我选择的数据收集相比，根据协议系统地从定义良好的队列中收集的PRO数据可能不太容易产生偏差。

在有相关队列数据的情况下，该方法具有通用性，易于实现。然而，由于该方法是非参数的，其缺点是只能对亚组进行分层分析，并且只有在源资料中也出现协变量组合的患者才有可能进行预测。然而，由于只涉及到一个重要的预测变量(实际得分)，这是一个小问题，但总体上不能排除某一协变量在轨迹上的异质性。在原型中，可以选择地层并应用自动原位非参数测试性别、年龄组和共病地层之间的轨迹差异。如果有其他具有抑郁评分的患者队列，也将有可能测试这些供体患者的轨迹是否与实际供体患者的轨迹不同，如果没有，这些患者的轨迹可能被包括在内，并为严重抑郁症患者的预后提供一个合并的更大队列。

这里描述的方法适用于个人层面和描述性用途。在分析流行病学中，当寻找因果因素(病因或预测)时，需要参数或至少半参数方法。在重复数据的情况下，基于组的轨迹建模可以识别纵向数据中的潜在地层[31］．基于群体的轨迹模型的输出包括每个个体群体成员的估计概率[32］．如果存在相关协变量的数据，理论上也可以在个人层面上使用这种模型来预测未来的模式。将这种模型的性能与目前的无模型方法进行比较是高度相关的。

患者报告结果用于多种目的的并行使用

随着PRO在临床应用、研究和质量改进方面的应用越来越多，我们将需要在不久的将来解决对同一患者使用多个不同问卷的问题[10］．模拟研究的一个重要发现是，较短的问卷(如用于临床)不仅可能与较长的问卷(用于研究、质量改进以及用于个人预后)共存，而且甚至可能提供偏倚较小的纵向数据，因为设计是为个人回归做准备的，包括至少两个全量表和替代测量的同时测量。

获取原型

有关中风后抑郁症状的网上测试原型载于网站www.prognosis.dk [33］．

结论

中风患者群体的内部模拟在四种不同的方法中显示了几乎相似的结果，但是基于个体回归系数计算缺失分数的方法在效度方面表现最好。这是第一个描述和实现的非参数队列为个人预后的方法。进一步的阐述将被开发和评估，以及可用性和临床有效性[34这种方法在临床实践中的应用将受到严格的审查。

致谢

路易丝·佩普·拉森(Louise Pape Larsen)好心地提供了她为同一队列的博士论文收集的基于寄存器的协变量。中风组的患者反复回答了问卷，他们的努力和坚持得到了认可。R开发团队和R社区为创建和开发R所付出的时间和努力得到了认可。原始数据收集由健康基金会和TrygFonden资助。

利益冲突

没有宣布。

‎

多媒体附件1

登录页面http://prognosis.dk。

PNG文件，81KB

‎

多媒体附件2

中风23周后HADS-D评分为10的患者中风后抑郁症状的个体预后示例。

PDF档案(adobepdf档案)，202KB

moones KG, Royston P, Vergouwe Y, Grobbee DE, Altman DG。预后和预后研究:什么，为什么，如何?英国医学杂志2009年2月23日;338:b375。［Medline］
科斯的希波克拉底。互联网经典档案。预测之书网址:http://classics.mit.edu/Hippocrates/prognost.html[已访问2017-05-30][WebCite缓存］
britman LE, Davidoff F.预测个体患者的临床状态。安实习医学1996年9月1日;125(5):406-412。［Medline］
Lecky F, Woodford M, Edwards A, Bouamra O, Coats T.创伤评分系统和数据库。中华麻醉学杂志2014年8月2日。［CrossRef] [Medline］
艾瑞森MJ，阿尔格拉A，范德沃普HB，瑞克尔GJ。预测脑出血后短期预后模型的适用性和相关性。中华神经外科杂志2005年6月;76(6):839-844 [免费全文] [CrossRef] [Medline］
Altman DG, Vergouwe Y, Royston P, moones KG。预后和预后研究:验证预后模型。英国医学杂志2009年5月28日;338:b605。［Medline］
Collins GS, Reitsma JB, Altman DG, Moons KG。透明报告个人预后或诊断的多变量预测模型(TRIPOD): TRIPOD声明。中华肿瘤学杂志2015年1月20日;21 (2):251-259 [免费全文] [CrossRef] [Medline］
Peat G, Riley RD, Croft P, Morley KI, Kyzas PA, Moons KG, PROGRESS Group。提高预后研究的透明度:报告、数据共享、注册和方案的作用。PLoS Med 2014 7月;11(7):e1001671 [免费全文] [CrossRef] [Medline］
食品和药物管理局。行业患者报告的结果测量指南:用于医疗产品开发以支持标签声明。2009年12月http://www.fda.gov/downloads/Drugs/GuidanceComplianceRegulatoryInformation/Guidances/UCM193282.pdf[访问时间:2017-07-16][WebCite缓存］
Hjollund NH, Larsen LP, Biering K, Johnsen SP, riiskæ r E, Schougaard LM。在组和患者水平使用患者报告结果(PRO)测量:来自通用集成PRO系统的经验，WestChronic。Interact J Med Res 2014 Feb 11;3(1):e5 [免费全文] [CrossRef] [Medline］
Towfighi A, Ovbiagele B, El Husseini N, Hackett M, Jorge R, Kissela B，美国心脏协会中风委员会。中风后抑郁:来自美国心脏协会/美国中风协会的医疗保健专业人员的科学声明。2017年2月;48(2):e30-e43。［CrossRef] [Medline］
Copay AG, Subach BR, Glassman SD, Polly DW, Schuler TC。了解最小的临床重要差异:概念和方法的回顾。中国医学杂志2007;7(5):541-546。［CrossRef] [Medline］
Norman GR, Sloan JA, Wyrwich KW.健康相关生活质量变化的解释:半标准差的显著普遍性。医疗保健2003年5月;41(5):582-592。［CrossRef] [Medline］
史卢比。医院焦虑抑郁量表健康质量生命结果2003年8月1日;1:29 [免费全文] [CrossRef] [Medline］
Singer S, Kuhnt S, Götze H, Hauss J, Hinz A, Liebmann A，等。医院焦虑和抑郁量表在急性护理癌症患者的截止分数。中华肿瘤学杂志2009年3月24日;100(6):908-912 [免费全文] [CrossRef] [Medline］
陈晓明，陈晓明，陈晓明。医院焦虑抑郁量表(HADS)缺失项的处理:一项模拟研究。BMC Res Notes 2016 10月22日;9(1):479 [免费全文] [CrossRef] [Medline］
Smets EM, Garssen B, Bonke B, De Haes JC。多维疲劳量表(MFI)的心理测量质量的仪器，以评估疲劳。中华精神病学杂志，1995,4(3):315-325。［Medline］
Topp C， Østergaard SD, Søndergaard S, Bech P. WHO-5幸福指数:文献系统综述。《心理学报》2015;84(3):167-176 [免费全文] [CrossRef] [Medline］
Ware JE, Sherbourne CD. MOS 36项简短健康调查(SF-36)。一、概念框架和项目选择。医学护理1992年6月;30(6):473-483。［Medline］
海德曼R，阿萨纳索普洛斯G. OTexts。2014.预测:原则和实践https://www.otexts.org/fpp[访问时间:2017-07-16][WebCite缓存］
R.统计计算R项目网址:https://www.r-project.org/[已访问2017-05-30][WebCite缓存］
RStudio。为什么RStudio ?URL:https://www.rstudio.com/about/[已访问2017-05-30][WebCite缓存］
Ingeman A, Andersen G, Hundborg H, Johnsen S.中风患者的医疗并发症:中风登记和出院登记的数据有效性。临床流行病学2010 Aug 09;2:5-13 [免费全文] [Medline］
皮德森CB。丹麦民事登记制度。《公共卫生杂志》2011年7月;39(增刊7期):22-25。［CrossRef] [Medline］
Larsen LP, Johnsen SP, Andersen G, Hjollund NH。中风后三个月自评健康的决定因素《脑卒中脑血管杂志》2016年5月;25(5):1027-1034。［CrossRef] [Medline］
Biering K, Frydenberg M, Hjollund N.经皮冠状动脉介入治疗后的自我健康报告:来自一项随访3年、多项测量的队列研究的结果。临床流行病学2014;6:441-449 [免费全文] [CrossRef] [Medline］
孙达拉拉詹V，亨德森T，佩里C, Muggivan A，全H，加利WA。新的ICD-10版Charlson共病指数预测住院死亡率。临床流行病学杂志2004年12月;57(12):1288-1294。［CrossRef] [Medline］
Sterne J, White I, Carlin J, Spratt M, Royston P, Kenward M，等。流行病学和临床研究中缺失数据的多重归因:潜在和缺陷。英国医学杂志2009 6月29日;338:b2393 [免费全文] [Medline］
Frost J, Okun S, Vaughan T, Heywood J, Wicks P.患者报告的结果作为超标签处方的证据来源:来自PatientsLikeMe的数据分析。J Med Internet Res 2011年1月21日;13(1):e6 [免费全文] [CrossRef] [Medline］
Bove R, Secor E, Healy BC, Musallam A, Vaughan T, Glanz BI，等。多发性硬化症研究在线平台的评估:患者描述，严重程度量表的验证，以及BMI对病程影响的探索。PLoS One 2013;8(3):e59707 [免费全文] [CrossRef] [Medline］
基于群体的轨迹建模在临床研究中的应用。临床精神病学2010年4月27日;6:109-138。［CrossRef] [Medline］
Franklin J, contraction W, Pakes J, Sanfélix-Gimeno G, Matlin O, Brennan T，等。基于群体的轨迹模型:一种分类和预测长期药物依从性的新方法。医疗护理2013年9月51日(9):789-796。［CrossRef] [Medline］
基于患者报告结局(PRO)原型的个体预后:中风后抑郁症状。URL:http://prognosis.dk/[已访问2017-07-17][WebCite缓存］
我们所说的验证预后模型是什么意思?统计医学2000年2月29日;19(4):453-473。［Medline］

‎

有:医院焦虑抑郁量表

梅:平均绝对误差

MCID:最小的临床重要差异

金属氧化物半导体:医疗结果研究

正方观点:patient-reported结果

G·艾森巴赫(G Eysenbach)编辑;提交31.05.17;同行评审J Apolinário-Hagen, B Sapkota;对作者21.06.17的评论;修订本收到29.06.17;接受29.06.17;发表01.08.17

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

慢性疾病症状负担和功能的个体预后:基于患者报告结局(PRO)测量的通用方法