发表在16卷,第8号(2014): 8月

反馈偏差如何给无效的医疗方法带来好名声

反馈偏差如何给无效的医疗方法带来好名声

反馈偏差如何给无效的医疗方法带来好名声

原始论文

文化进化研究中心,斯德哥尔摩,瑞典

通讯作者:

Mícheál de Barra博士

文化进化研究中心

•瓦伦堡实验室

斯德哥尔摩,WC1E 7HT

瑞典

电话:46 7531327690

传真:46 7531327690

电子邮件:mdebarra@gmail.com


背景:没有直接效果(如顺势疗法)或造成伤害(如放血)的医学治疗在整个文化和历史中都很常见。这些治疗方法是如何传播和持续的?大多数医学治疗会产生一系列的结果:有些人会好转,而另一些人则会恶化。如果病情好转的人比病情恶化的人更倾向于告诉别人他们的经历,那么无效甚至有害的治疗可以保持良好的声誉。

摘要目的:本研究的目的是检验在线医疗产品评论中积极结果被过度代表的假设,检验这种声誉扭曲是否大到足以影响人们的决定,并探讨这种偏见对医疗文化演变的影响。

方法:我们将临床试验中减肥治疗和生育治疗的结果与亚马逊上1901篇评论报道的结果进行了比较。然后,在一系列实验中,我们在阅读不同的评论后评估人们对减肥饮食的选择。最后,使用一个数学模型来检验这种偏差是否会导致效果较差的治疗比更有效的治疗有更好的声誉。

结果:数据与结果更好的人更倾向于写评论的假设是一致的。经过6个月的饮食,93%(64/69)的在线评论者报告体重减轻了10公斤或更多,而只有27%(19/71)的临床试验参与者经历了这种水平的体重变化。在生育治疗综述中也发现了类似的阳性扭曲。在一系列的实验中,我们发现人们更倾向于开始一种有很多正面评价的饮食,而不是一种有代表饮食真正效果的评价的饮食。医学文化进化的数学模型表明,积极扭曲的大小严重依赖于结果分布的形状。

结论:网上评论高估了医学治疗的好处,可能是因为有负面结果的人不太愿意告诉别人他们的经历。这种偏见可以使无效的医疗保持良好的声誉。

医学互联网学报,2014;16(8):e193

doi: 10.2196 / jmir.3214

关键字



跨越文化和整个人类历史,人们一直在寻求通过医学治疗来减轻痛苦,缩短疾病,改变生物过程。许多医学治疗的一个有趣的特点是,它们不是直接有益的;有些甚至会造成严重的伤害。西方民间信仰也是如此,替代药物[12]、传统药物[3.4],以及历史上的“传统”医学,如放血[5]。这也可能适用于一些当代医学治疗方法[6-8]。治疗方法可能直接对患者有害,也可能因为替代了其他有效的治疗方法而造成伤害,或者导致更广泛的环境危害,例如从濒危物种中提取的药物[2-4]。

医学治疗在很大程度上具有文化特征:它们不是由每个人重新发明的,而是通过文化过程在人与人之间传播。不良医疗的普遍存在是文化进化的一种反常结果,因为文化在其他生活领域获得的信息通常是可靠和有益的。事实上,人类物种在生态方面取得的非凡成功,部分原因在于我们对适应性文化信息的依赖。9]。很明显,人类经常使用文化信息来解决复杂的问题,比如医学,这些问题需要延迟和/或随机反馈。文化信息的适应价值被认为是由许多机制产生的,例如学习启发式,人们选择性地模仿更成功的人,过滤,人们通过实验评估社会获得的特征的质量,以及自然选择,具有更有益的文化特征的人有更多的孩子,然后学习这些特征[10-12]。

一些传统药物确实对病人有直接的好处。例如,有效的天花疫苗接种就出奇地普遍。例如,西非的约巴治疗师携带天花痂,可用于诱导非致命性感染和由此产生的免疫[13]。17世纪的印度和中国采用了许多疫苗接种技术,爱德华·詹纳的疫苗接种长期以来一直是英国民间医学的一部分[14]。一些全球重要的医药产品起源于传统医学;青蒿素是一种重要的抗疟疾药物,是古代中国药物的一部分[15]。此外,医学——无论是对抗疗法、传统疗法还是古代疗法——不仅仅是为了改变疾病的进程。医学专家通常会看到许多患有类似疾病的人,因此他们可以帮助患者了解他们的疾病是什么(诊断)以及随着时间的推移它会如何发展(预后)。对于一个焦虑的病人和他或她的家人来说,这些都是重要的服务,它们可能在历史上和文化中都有一些复杂的实施。此外,通过识别和确认疾病,医学专家可以帮助病人获得社会支持,从而使关键的休息和休养成为可能。

同样清楚的是,病人接受了手术,服用了药物,接受了一连串的其他治疗,明确地期望他们会得到帮助。这些期望是不合理的:病程不受影响和/或患者直接受到治疗的伤害。无效的治疗方法很常见,而且仍然很常见,它们值得研究[5]。那么,为什么有害和无益的医疗方法会传播并持续存在呢?

我们提出以下解释。不管疗效如何,医学治疗通常会导致结果的分布,一些人改善,一些人恶化,而另一些人几乎没有变化。假设结果更积极的人比结果更差的人更倾向于告诉别人他们的治疗经历。这可能是因为人们对成功的回忆比失败的记忆更深刻,因为人们相信别人的成功故事,或者因为采取了无效的治疗方法而感到尴尬。不管原因是什么,这种偏见会系统性地扭曲其他寻求有效治疗的天真个体所能获得的信息——一种治疗的声誉将超过其实际效果。

这一假设是用多种方法来评估的。首先,我们比较了关于减肥饮食的临床数据和关于这些饮食的书籍评论中报道的减肥结果。评论来自亚马逊,这是一个很受欢迎的在线市场,消费者可以在这里发表对产品的评论。我们还对基于草药和维生素的未经证实的生育治疗进行了类似的比较。在这两种情况下,我们预测得到积极结果的人更倾向于发表评论。在一系列的实验研究中,我们测试了这些评价的偏倚是否足以影响对治疗的偏好。我们预测,人们更喜欢带有典型评论的减肥饮食(从亚马逊(Amazon)中抽样),而不是带有未扭曲评论的饮食(即,通过有目的的抽样和/或编辑评论获得的代表饮食真实效果的评论)。最后,我们使用数学模型来探讨这种声誉扭曲的一些含义。


研究1:减肥饮食

为了使亚马逊和临床数据直接比较,我们做了几个假设和简化。有兴趣进行替代分析或比较的读者可以从figshare数据存储库访问原始数据和分析语法[16]。

阿特金斯饮食法已经在几个临床试验中进行了测试,是亚马逊在线书店上最受欢迎的饮食书籍。我们下载了在2012年11月18日或之前写的1359条评论。我们从提供这些信息的每次饮食回顾中提取饮食持续时间和总体重变化。如果提到两个时间点的体重变化(例如,1周后体重减轻1公斤,1个月后体重减轻3公斤),则只记录较长的持续时间和相关的体重变化。如果评论描述了不止一个人的经历,则只记录了作者的信息。如果综述只讨论除作者之外的某个人的体重变化,则记录该人的体重变化。总共有587个评论包含了权重变化和发生变化的时间段。中位饮食持续时间为42天为了计算1、2、3、4、5、6、9和12个月的平均体重减轻,我们取最接近这些时间点的报告的平均值。我们排除了持续时间少于2周或超过15个月的饮食回顾。

阿特金斯饮食法的“真正”效果是通过三个临床试验来评估的[17-19参与者收到了阿特金斯饮食书。在其中两项试验中[1819],干预还需要与营养师会面,讨论饮食和参与者的进展。关于阿特金斯饮食组平均体重减轻的基本信息可以从已发表的手稿中提取出来,但为了评估结果的分布,需要个人水平的数据。只有Gardner等人[18愿意并且能够分享他们的原始数据。Gardner试验检查了311名绝经前超重和肥胖妇女的体重变化,其中77人被随机分配到阿特金斯饮食组。参与者收到了阿特金斯的书,并以六人为一组,每周见一次面,持续八周,与营养师讨论饮食和书。虽然亚马逊的评论者并不都是绝经前的女性,图1阿特金斯饮食法的平均效果在几个不同的人群中大致相似。此外,考虑到干预包括阅读书籍与营养师会面,临床试验的减肥水平可能超过一般人群。我们分别比较了2、6和12个月时的临床体重变化与1.5至2.5个月、5至7个月、9至15个月的Atkins综述。

图1所示。3个临床试验和亚马逊评论报告了阿特金斯饮食法的平均体重减轻。亚马逊的数据点是通过对最接近时间点1、2、3、4、5、6、9、12个月的评论进行平均来计算的。创建亚马逊数据点的平均评论数分别为129、60、60、23、22、19、26和29。
查看此图

研究2:生育治疗

2013年5月7日,从亚马逊网站下载了对FertilAid (n=206)、Fertilitea (n=198)和ferlityblend (n=80)的评论,从亚马逊网站下载了对Pregnancycare (n=68)的评论(总n= 552)。这些是亚马逊网站和Amazon.co.uk网站上最常见的草药/维生素妊娠药。从每一篇综述中提取以下信息,如果有的话:妊娠状态,使用治疗时试图怀孕的时间(TTC)和开始治疗前的时间(TTC),是否有妊娠史,女性的年龄,男性的年龄,是否有多囊卵巢综合征(PCOS),是否有妊娠史。如果作者明确指出妊娠不是治疗的预期结果,则排除评论。

没有强有力的证据表明这些治疗可以提高一般人群的生育能力。一项初步研究发现,妊娠护理与接受促排卵的低生育能力/不育妇女的高妊娠率有关[20.但亚马逊网站上的妊娠护理评论者都没有使用克罗米芬或其他促排卵治疗的报告。另一项低功率研究报告称,53名曾尝试怀孕6-36个月的使用者的怀孕率更高[21但是,由于缺乏更有力的后续研究,很难确定治疗组之间的这种差异是否具有临床意义。国家健康和护理卓越研究所(NICE)不推荐上述任何治疗方法,并指出“生育问题补充疗法的有效性尚未得到适当评估”[22]。鉴于缺乏严格的数据,我们假设这些治疗对生育能力的影响很小。

亚马逊网站上的怀孕率与一项对346名德国女性进行的怀孕风险前瞻性研究中的怀孕率进行了比较。23]。具体来说,妊娠率是从产生Kaplan-Meier生存曲线的数据中提取出来的图1关于那个研究。Kaplan-Meier曲线校正了由于参与者退出造成的偏差,被认为是对真实怀孕率的最佳估计。如果女性在获得积极结果(即怀孕)后更有可能写评论,那么亚马逊报告的受孕率应该高于前瞻性试验中的受孕率。应该注意到前瞻性研究和亚马逊数据之间的几个重要差异。首先,前瞻性研究报告持续TTC的周期数,而大多数审稿人报告时间TTC的周期数为天、周或月。月经周期长短变化很大[24但为了进行直接比较,我们假设一个周期相当于28天。其次,研究人员向前瞻性研究中的女性展示了如何使用温度/宫颈粘液监测来确保性交发生在月经周期中最肥沃的日子。第三,在排卵日没有发生性交的周期(3%)被排除在分析之外。第四,在前瞻性试验中,数据收集开始于妇女从口服避孕药转向“以生育为重点的性交”的那个月。相比之下,在153名亚马逊评论者中,他们报告了一段治疗前试图怀孕的时间,试图怀孕的时间中位数为1年。在这项前瞻性研究中,340名女性中只有8%的人在12个以生育为目的的性交周期内没有怀孕。23]。这表明低生育能力和不孕症在亚马逊评论者中比在前瞻性研究参与者中更为普遍。558位审稿人中有38位(6.9%)报告了PCOS,而83位(14.9%)报告了其他与生育相关的问题(如月经不规律);有生育问题的夫妇被排除在前瞻性研究之外。由于这项前瞻性研究涉及生育教育,排除了有生育问题的夫妇,并排除了没有发生生育期性交的周期,因此报告的受孕率可能高于一般人群的受孕率。因此,这项前瞻性研究与亚马逊评论之间的比较是对我们假设的保守检验。我们知道有一个因素可能会使结果偏向另一个方向:只有经临床医生确认的怀孕才被记录在前瞻性研究中,而所有报告的怀孕都包括在亚马逊的评论中。然而,现代数字家庭验孕棒通常被认为是可靠的。

研究三:扭曲的声誉如何影响治疗选择

在一系列在线实验中,从亚马逊(Amazon)的在线众包市场Mechanical Turk招募的参与者,被要求在两种饮食和一系列评论中做出选择。所有参与者居住在美国,61%为男性,平均年龄为33岁(SD 11)。饮食书是阿特金斯博士饮食新革命17天饮食法.所有评论都是从亚马逊上提取的。两组书籍/评论在不同的页面上显示,呈现的顺序是随机的。在一种情况下,阿特金斯评价通过(1)从200字或更少、平均3.5星(标准差0.99)的评价群体中抽取的评价是“不失真的”,这与纵向研究中对饮食的平均满意度和标准差相对应[25];(2)调整报告的体重变化,使其与临床试验中该时间点的平均损失相匹配(计算方法为图1)。17天饮食法从明确说明减肥效果和持续时间且字数不超过200字(平均星级4.4,标准差0.99)的评论中随机选择。在另一种情况下,17天饮食法使用相同的程序去除评价失真(平均3.5,标准差1.0),从说明持续时间和体重减轻的评价样本中随机选择Atkins评价(平均4.4,标准差1.01)。因此,每本书都与三篇评论一起展示,这些评论要么是随机选择的亚马逊评论,要么是有意选择和编辑的,以与临床发现保持一致。在阅读完评论后,参与者被问到:“想象一下你决定开始节食。你会从这两种饮食中哪一种开始呢?”

理想情况下,每个参与者将看到从适当人群中随机抽取的不同的评论选择。然而,由于实验软件的技术限制,这是不可能的,所以我们从同一人群中随机选择不同的评论,每个实验运行三个版本。然后我们对这三个版本的结果取平均值。这个程序的目的是减少任何一组选定的评论的概率属性对最终结果施加过多影响的可能性。三个版本的实验结果大致相似。每个条件的结果和所选评论的特征可在多媒体附录1.实验2遵循了完全相同的程序,除了饮食只是在积极性上有所不同——两组评论都报告了相似的平均体重减轻。在实验3中,饮食评论的正面评价相似(3.4星),但报告的平均体重减轻程度不同。在每种情况下,因变量都是饮食选择。

《关于对涉及人类的研究进行伦理审查的法案》(2003:460)规定了瑞典以人类为研究对象的研究。只有在收集个人数据(即种族或民族出身、政治观点、宗教或哲学信仰、工会会员资格、健康或性生活数据)或试图对参与者施加身心影响的情况下,研究才需要获得批准。这些研究不符合这些标准。参与者被清楚地告知,通过提交他们对问卷的回答,他们同意将这些回答用于研究。


研究1:减肥饮食

在第一项研究中,我们比较了减肥饮食的临床数据和关于这些饮食的书籍评论中报道的减肥结果。临床试验表明,阿特金斯饮食法在前6个月的平均体重变化约为- 7公斤,在随后的6个月的体重恢复约为2公斤[17-19]。在亚马逊的评论中,6个月后平均体重变化约为- 25公斤,12个月后平均体重变化约为- 20公斤。作为图1在所有时间点上,阿特金斯饮食法报告的平均有益效果都超过了实际效果。

在亚马逊的评论中,减肥与星级数呈正相关(斯皮尔曼ρ= 0.43,P<.001),饮食持续时间(ρ=.71;P<.001),字数(ρ=.14,P<.001),大写字母的数目(ρ=.1,P= 0.01),但与感叹号数目无关(ρ= 0.05,P= 2)。

Gardner等人2007年临床试验的个体水平数据[18]能够在三个时间点上详细比较真实效果和公认效果(参见图2)。2个月时,综述数据与临床数据的差异有统计学意义(t69.8= 5.63,P<措施,Cohen’sd=0.98), 6个月(t92= 8.72,P<措施,d=1.48), 12个月(t60= 5.86,P<措施,d= 1.14)。在临床试验中,参与者有时会体重下降,然后又反弹。Gardner试验中参与者的平均最大体重减轻为8.33 kg (SE 0.67);这个最大减重量也大大低于持续2个月或更长时间的亚马逊平均减重量。这些数据表明,93%(64/69)的在线评论者报告体重减轻了10公斤或更多,而只有27%(19/71)的试验参与者经历了类似的体重减轻水平。

很有可能,真正的减肥和所谓的减肥之间的差异是由那些对阿特金斯的销售有既得利益的人写的虚假评论造成的。虚假评论不太可能随着时间的推移而持续出现,也不可能以与真实评论数量成比例的速度出现。相反,它们应该集中在战略时刻(在书的一个版本发布之后),或者在虚假评论签约后不久。因此,我们检查了这种扭曲是否适用于所有时间段(表明心理偏见),或者它是否只存在于某些时间段(表明虚假评论驱动了扭曲)。样本被分成十分位数。每十分位数包含50+个体,时间跨度为1996年至2012年。利用Gardner等人的数据,我们计算了每个参与者的预期体重减轻。Gardner等人提供了四个时间点的体重测量;假设这些点之间的体重下降是线性的。研究人员计算了每个参与者的预期体重和实际体重之间的差异。 A series of 10 one-samplet测试表明,在每个时间段都存在统计学上显著的失真(最大值)P值= .00005)。此外,预测和实际体重下降之间的差异在每个十分位数中具有相似的幅度(最小平均差6.12,平均平均差7.56,标准差1.41)。

包含体重变化和饮食持续时间信息的评论子集比总评论样本更积极(平均4.43星对4.06星)。对于亚马逊评论与临床试验结果之间的差异,另一种解释是,结果为负面的人不太愿意提供有关体重变化和持续时间的具体信息。在多媒体附录2,我们表明,当分析具有与总样本相匹配的星形分布的评论子集时,可以看到类似的结果模式。因此,这种替代假设可以被拒绝。

图2。三个时间点亚马逊评论(下一行)和临床试验(上一行11个)的减肥分布比较。水平红线表示平均体重变化。体重减轻>50公斤的异常值未显示,但包含在平均值计算中。
查看此图

研究2:生育治疗

在我们研究的第二部分,我们将生育数据与亚马逊上关于基于草药和维生素的未经证实的生育治疗的评论进行了比较。在分析的552篇评论中,186人报告在接受治疗后怀孕,327人表示他们没有怀孕,39篇评论不清楚是否发生了怀孕和/或评论者表示怀孕不是治疗的预期结果。443项审查说明了治疗的持续时间。排除未报告怀孕/不希望怀孕或治疗时间少于一周的审查,45.3%(173/382)报告怀孕。在怀孕的妇女中,怀孕的中位数和平均时间分别为30天和46天。在纵向研究中,平均怀孕时间要长得多:3.6个周期,或者,如果我们假设一个28天的周期,101天。图3显示了在前三个月经周期中怀孕的亚马逊评论者和研究参与者的比例。卡方检验表明,在第1周期怀孕的亚马逊评论者比研究参与者更多(190人中有100人对340人中有129人)。χ21= 10.04,P=.001),在第2周期(81人中35人vs 211人中63人),χ21= 4.70,P= 03)。在第3周期,差异无统计学意义(57例中21例vs 148例中38例);χ21= 1.97,P= 16)。

图3。在前瞻性研究和草药/维生素生育治疗的亚马逊评论中,每个周期怀孕的非怀孕妇女的比例。通过整理治疗时间为28±14天(第1周期)、56±14天(第2周期)和84±14天(第3周期)的文献,计算亚马逊比例。1星(*)和2星(**)表示P<有统计学意义。0.05和P<。分别为01级。
查看此图

研究三:扭曲的声誉如何影响治疗选择

研究1和研究2表明,医学治疗的所谓益处往往超过其实际益处。研究3的目的是检验这种声誉扭曲是否大到足以影响人们的医疗决策。

如果治疗的声誉影响随后的决定,有偏见的报道可能影响文化演变。我们进行了三个实验,目的是评估正面扭曲的评论如何影响饮食选择。结果表明,参与者更有可能选择一种饮食,如果它的评论在积极性(给饮食的星级)和体重变化方面都是扭曲的(实验1:χ21n = 100 = 33.42,P<.001)或仅就积极性而言扭曲(实验2:χ21n = 100 = 24.61,P<措施)。然而,仅包含扭曲减肥的评论对偏好没有影响(实验3:χ21n = 99 = 0.02,P= .89)。这些结果总结在图4

图4。实验1表明,被试更喜欢正面评价和减肥效果大的饮食书,而不是更能代表临床试验结果的正面评价和体重变化的饮食。实验2和3表明,只有积极性而不是体重变化会影响偏好。
查看此图

数学模型

这一机制能否解释有害医学治疗在不同文化中的流行?如果同样的报告偏见影响到所有的医学治疗,人们可能会认为更好的治疗仍然会有更好的声誉。然而,事实并非如此。在这里,我们表明,治疗的声誉被报告偏差扭曲的程度将严重依赖于结果分布的形状。在某些情况下,结果将是以较差的待遇换取较高的声誉。模型的基本思想见图5

为了隔离报告偏差的影响,我们将对人们的知情程度做出几个强有力的假设。首先,我们假设人们可以接触到无限多的线人。这些告密者是诚实的,但如果他们的结果更好,他们更有可能分享信息。然后,学习者选择平均声誉最好的治疗方法。这个简单的模型表明,报告偏倚会导致次优治疗在人群中传播。

图5。假设的例子说明在数学模型中探索的效果。由于报告偏差使得不良结果无法观察到,较差的治疗获得了比良好治疗更好的声誉(下一行:全部改善)(上一行:3/4改善,1/4保持稳定)。
查看此图

模型的具体假设如下:对于焦点处理,令dx)表示描述结果分布的密度函数(以某种优度尺度衡量)。为了实现报告偏差,即较好的结果总是比较差的结果更有可能被报告,我们假设一个获得结果的个体x将以概率报告该结果吗fx),f的严格单调递增函数是x。学习者可以接触到无数尝试过这种治疗方法的人的报告。然后学习者用密度函数观察报告结果的分布dxfx)除以常数∫−∞D (y) f(y) dy保持单位总概率。因此,平均观察结果显示在图6

图6。平均观察结果。
查看此图

为了形式化治疗的比较,将一个治疗定义为严格的更好如果另一种治疗方法产生效果的概率比x总是这么高,对某些人来说x高,比其他治疗的结果更好的概率x.然后,它认为,对于任何给定的治疗,人们总能找到另一种结果分布,对应于假设的治疗,这样,前一种治疗严格优于后一种治疗,但学习者会选择后一种治疗,因为它会有更好的平均观察结果。

我们将结果的良善建模为实线上的值。报告偏差被建模为严格的单调函数f令人满意的F (x)→0X→−∞,F (x)→1x→∞。让d1x)为实线上非简并概率分布的密度函数,令D1x)表示其累积分布函数。

定理1

对于每一个分布d1x)具有累积分布函数D1x),则存在分布d2x)具有累积分布函数D2x),这是更糟糕的(即,D2x)≥D1x)所有人xD2x) >D1x对某些人来说)x),但使用某些感知偏差函数会被认为更好f。这是严格差分布的平均观察结果d2x)优于的平均观察结果d1x) (图7)。

图7。方程显示治疗二似乎更有效。
查看此图

定理说的是存在一个分布d2x)的结果远比d1x),但这仍然会(在报道偏见下)f)具有更高的感知价值(见多媒体附录3)。


主要研究结果

我们发现,减肥饮食和生育治疗的好处大于实际好处,显然是因为结果一般或较差的人不太愿意告诉别人他们的经历。因此,现实世界中医学治疗的声誉似乎受到报道偏见的影响,类似于科学研究中对积极结果的出版偏见[26]。此外,我们发现由此产生的声誉扭曲足以影响人们开始哪种饮食的决定。

在我们的数据中,对于阿特金斯饮食法的过度正面声誉,另一种解释是,审稿人犯了错误或撒谎。然而,测量误差似乎不太可能解释我们观察到的三到四倍的体重减轻差异,或者评论者在在线评论中夸大到如此大的程度。同样,单凭错误似乎不太可能解释受孕率的显著差异,审稿人也没有什么动机在怀孕状况上撒谎。虚假评论(由那些希望夸大或贬低产品声誉的人写的)也不太可能解释我们的结果。在所有8个阿特金斯饮食法的持续时间里,所谓的益处和实际效果之间的偏差是相似的。图1),在15年的饮食书评中相似,并且在所有三个月经周期中相似。这种一致的偏离模式似乎更有可能源于人类心理的特征,而不是故意伪造评论。

虽然我们的分析侧重于具体的体重变化,但实验数据表明,评论的总体积极性比报道的体重减轻有更大的影响。然而,对于我们的主要假设来说,人们主要是受到他人经历的情感方面还是数量方面的影响并不重要,因为无论是在我们的数据中,还是在其他关于饮食满意度和减肥的研究中,这两者都是密切相关的[27-29]。与开始节食的人群相比,我们的样本可能对减肥不那么感兴趣。有可能未来的节食者会对具体的体重信息更加敏感。

声誉被扭曲的情况

总之,我们发现了对我们的假设的支持,即无效甚至有害的治疗可能在人群中传播,当(1)治疗依赖于口碑声誉,(2)治疗结果较差的个体可以保持“隐形”,如果他们愿意,(3)结果范围很广。此外,数学模型显示,声誉扭曲并不是在所有治疗中都起着同样的作用:自相矛盾的是,一种成功地将个人从糟糕的结果拉到中间结果的治疗,可能看起来比一种无法帮助个人获得糟糕结果的治疗更糟糕。因此,这种偏见可以解释无效医疗方法在历史上的扩散[5]。

当医生忘记病人在他们的护理下死亡时,可能会出现一种略有不同但概念上相似的扭曲。像放血这样的治疗对健康状况不佳的人尤其危险。30.31]。考虑到这些人很可能在他们的余生中保持疾病或残疾,像放血这样的治疗可能会反直觉地看起来有效,因为过去流血的病人看起来比过去从未流血的病人更健康。实际发生的情况是,医生“剔除”了那些最有可能生病或体弱多病的人。因有害治疗而死亡的患者可能相对容易从治疗效果的考虑中忽略,因为他们已经离开了社区。尽管造成扭曲的原因不同(结果不好的患者死亡并被遗忘,而结果不好的患者倾向于保持沉默),但我们的数学模型描述了这两种情况。

治疗方式并不一定像我们模型假设的那样直接竞争。人们可能会简单地采用符合某些标准的第一种治疗方法(例如,“连续两个人对它评价很高”),而不是比较多种治疗方法并选择声誉最好的一种。我们记录的声誉扭曲意味着这些标准将更频繁地得到满足,因此它可能导致人们采用更多的治疗方法,包括更多无效的治疗方法。

更直接地说,这种反馈偏差可能是人们对减肥饮食和其他医学治疗抱有不切实际的高期望的原因之一。例如,在一项研究中,人们被要求在开始48周的饮食之前估计他们的“梦想体重”、“快乐体重”、“可接受体重”和“失望体重”,47%的参与者甚至没有达到他们的“失望体重”。32]。有趣的是,参与者的平均“可接受”体重变化与我们在亚马逊评论中发现的平均体重变化非常相似:减掉了25公斤。

这种声誉的积极扭曲对临床医生有一些重要的影响。患者越来越多地在决定采用哪种治疗方法方面发挥积极作用。用于做出这些决定的所有信息不太可能完全来自医学专业人士或严格的研究:人们会听取他们的朋友、家人和其他有类似经历的患者的意见。破坏这些信息可靠性的偏见,就像这里记录的那样,将变得越来越重要。医生和病人应该意识到这一点。

结论

研究人员指出,在没有系统收集数据的情况下,有几个过程使得很难确定医学治疗的利弊。特别是,没有直接效果的治疗有时会显得有效,因为被称为回归均值的统计现象和被称为安慰剂效应的生理现象[3334]。也有人提出,延长疾病的治疗方法可能反而传播得更好,因为它们比有效的治疗方法“被证明”的时间更长[35]。在这里,我们探索了另一种机制,报告偏倚及其逻辑后果:当结果不佳的人保持沉默时,治疗的预期收益将超过其实际效果。

致谢

我们感谢Daniel Cownden和Susanne Herbst提供的方法建议,Alberto Acerbi帮助从亚马逊上提取评论,Christopher Gardner分享饮食数据,Erhard Godehardt和Christian Gnoth提供生育数据。这项研究得到了瑞典研究委员会(赠款2009-2390和2009-2678)的支持。资助者在这项研究中没有发挥任何作用。

利益冲突

没有宣布。

多媒体附录1

研究3的刺激细节及实验结果。

PDF档案(adobepdf档案),173KB

多媒体附录2

群星分布等于总评论样本的评论子集的分析。

PDF档案(adobepdf档案),310KB

多媒体附录3

数学定理的证明。

PDF档案(adobepdf档案),397KB

  1. Pittler MH, Brown EM, Ernst E.静电磁铁减轻疼痛:系统评价和随机试验的荟萃分析。中国生物医学工程学报2007;17 (7):736-742 [j]免费全文] [CrossRef] [Medline
  2. 欺骗或治疗:关于替代医学的不可否认的事实。纽约:W.W. Norton & Co;2009.
  3. 是什么支撑着野生动物犯罪?犀牛角贸易和犯罪网络的弹性。国际野生动物法律与政策学报,2013,16(1):57-80。[CrossRef
  4. 米利肯,肖J.南非-越南犀牛角贸易关系。交通2012:1 - 180。
  5. 糟糕的医学:从希波克拉底开始的医生伤害他人。纽约:牛津大学出版社;2006.
  6. Krumholz HM, Lee T.重新定义质量——近期临床试验的含义。中华医学杂志,2008,32(4):563 - 563。[CrossRef] [Medline
  7. Glasziou P, Moynihan R, Richards T, Godlee F.过度用药;关心太少。英国医学杂志,2013;347(7月2日):f4247-f4247。[CrossRef] [Medline
  8. Wennberg我。跟踪医学:研究人员对了解医疗保健的探索。纽约:牛津大学出版社;2010.
  9. [3]刘建军,李建军,李建军,等。文化生态位:社会学习对人类适应的重要意义。《科学通报》2011年6月28日;增刊2:10918-10925 [j]。免费全文] [CrossRef] [Medline
  10. 社会学习的进化并不能解释人类积累文化的起源。中国生物医学工程学报(英文版);2009;31(1):359 - 361。[CrossRef] [Medline
  11. 雷兰德KN。社会学习策略。学习行为2004;32(1):4-14。[Medline
  12. 李文杰,李文杰。文化和进化过程。芝加哥:芝加哥大学出版社;1988.
  13. De Smet PAGM。草药,健康和治疗非洲民族药理学宝库。荷兰:非洲博物馆;1999.
  14. Plotkin S, Plotkin S,接种疫苗的简短历史。In: Plotkin SA, Orenstein WA, Offit PA,编辑。疫苗。费城:Elsevier Health Sciences;2004.
  15. 张国强,张国强,张国强,等。疟疾化疗简史。中华临床医学杂志;2010;40(2):172-177。[Medline
  16. de Barra M.医疗声誉:数据集和分析语法。2014.URL:http://figshare.com/articles/How_feedback_biases_give_ineffective_medical_treatments_a_good_reputation/843626[2014-08-12访问][WebCite缓存
  17. Truby H, Baic S, deLooy A, Fox KR, Livingstone MB, Logan CM,等。英国四个商业减肥项目的随机对照试验:来自BBC“饮食试验”的初步发现。中华医学杂志2006;33 (3):1309-1314 [j]免费全文] [CrossRef] [Medline
  18. Gardner CD, Kiazand A, Alhassan S, Kim S, Stafford RS, Balise RR等。Atkins、Zone、Ornish和LEARN饮食对超重绝经前妇女体重变化及相关危险因素的比较:A到Z减肥研究:一项随机试验。中国医学杂志2007年3月7日;297(9):969-977。[CrossRef] [Medline
  19. Foster GD, Wyatt HR, Hill JO, McGuckin BG, Brill C, Mohammed BS等。低碳水化合物饮食治疗肥胖的随机试验。中华医学杂志,2003,32(2):382 - 390。[CrossRef] [Medline
  20. 刘建军,刘建军,刘建军,刘建军,等。微量营养素对低生育能力妇女促排卵的影响。生物医学学报,2012;24(1):54-60。[CrossRef] [Medline
  21. 威斯特法尔LM,波兰ML,特兰特AS。不孕不育的双盲、安慰剂对照研究:一种提高妇女生育能力的营养补充剂。中华妇产科杂志,2006;33(4):205-208。[Medline
  22. Fields E, Chard J, James D, Treasure T,指南开发小组。生育(更新):NICE指南摘要。BMJ 2013; 346: f650。[Medline
  23. 妊娠时间:德国前瞻性研究结果及其对不孕症治疗的影响。人类生殖2003 Sep 01;18(9):1959-1966。[CrossRef
  24. 刘建军,刘建军,刘建军。人类月经周期在生殖生命中的变化。中国生物医学工程学报(英文版);2009;31(2):397 - 396。[Medline
  25. 鲍德温AS, Rothman A, Jeffery R.减肥满意度:研究人们减肥相关结果和经历与满意度之间的纵向协变。中华医学杂志;2009;38(3):213-224 [j]免费全文] [CrossRef] [Medline
  26. Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR.临床研究发表偏倚。柳叶刀1991年4月13日;337(8746):867-872。[Medline
  27. Clarke KK, Freeland-Graves J, Klohe-Lehman DM, Bohman TM。有幼儿的低收入母亲体重减轻的预测因素。中华医学杂志,2007;17(7):1146-1154。[CrossRef] [Medline
  28. De Vet E, Nelissen RM, Zeelenberg M, De Ridder DT。难道没有一座山够高吗?设定高的减肥目标预示着努力和短期的减肥效果。心理健康杂志,2013;18(5):638-647。[CrossRef] [Medline
  29. VanWormer JJ, Martinez AM, Cosentino D, Pronk NP。对减肥计划的满意度:什么重要?[J] .健康促进杂志;2010;24(4):238-245。[CrossRef] [Medline
  30. 瓦尔德道明。创伤患者的共病因素。英国医学通报1999年1月1日;55(4):744-756。[CrossRef
  31. Wutzler S, Maegele M, Marzi I, Spanholtz T, Wafaisade A, Lefering R,德国创伤外科学会创伤登记。多重创伤患者既往医疗状况与住院死亡率的关系中华外科杂志;2009;31(1):75-81。[CrossRef] [Medline
  32. Foster GD, Wadden TA, Vogt RA, Brewer G.什么是合理的减肥?患者对肥胖治疗结果的期望与评价。[J]中华精神病学杂志1997;16(1):79-85。[Medline
  33. Price DD, Finniss DG, Benedetti F.安慰剂效应的综合综述:最新进展和当前思想。精神病学年鉴2008年1月;59:565-590。[CrossRef] [Medline
  34. 莫顿V,托格森DJ。回归均值对医疗保健决策的影响。中国医学杂志2003年5月17日;326(7398):1083-1084 [j]免费全文] [CrossRef] [Medline
  35. 田中MM,肯德尔JR,拉兰KN。从传统医学到巫术:为什么医学治疗并不总是有效。科学通报,2009;4(4):592 [j]免费全文] [CrossRef] [Medline


PCOS:多囊卵巢综合征
TTC):试着怀孕


G·艾森巴赫编辑;提交30.12.13;J Kendal, A Kandler的同行评审;对作者09.05.14的评论;收到订正版23.05.14;接受14.07.14;发表21.08.14

版权

©Mícheál de Barra, Kimmo Eriksson, Pontus Strimling。原发表于医学互联网研究杂志(//www.mybigtv.com), 2014年8月21日。

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map