这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
越来越多的患者在网上论坛上大声疾呼。这种转变是受欢迎的,因为这是一种患者自主的行为,反映在“专家患者”一词中。与此同时,人们相当担心患者很容易被伪科学研究和辩论误导。关于与健康相关的在线论坛所使用的信息来源、用户如何应用这些信息以及他们在此类论坛中的行为,人们知之甚少。
该研究的目的是确定(1)在线健康相关论坛中使用的信息来源,以及(2)活跃论坛访问者在介绍和传播这些信息时的角色和行为。
这项观察性研究使用了德国最大的多发性硬化症(MS)在线论坛作为数据库,分析了用户对最近提出的有争议的慢性脑脊静脉功能不全(CCSVI)假说的争论。在提取所有帖子并过滤2008年1月1日至2012年8月17日期间的相关CCSVI帖子后,我们首先确定了文章中使用或引用的科学出版物和其他信息源的超链接。用人
在11,997个帖子中的139,912个帖子中,有8628个帖子讨论或至少提到了CCSVI。我们在31个帖子中发现了指向ccsvi相关科学出版物的超链接。相比之下,论坛上有2829个不同的url,最常见的是指社交媒体,如YouTube或Facebook。我们总共确定了6种不同角色的超链接海报,包括社交媒体粉丝,组织追随者和平衡源用户。除了“普通用户”这一庞大且非特异性的残差类别外,还确定了几个特定的行为模式,例如CCSVI- focused Responders或CCSVI Activators的小而相关的群体。
大部分观察到的贡献都不是基于科学结果,而是基于各种社交媒体来源。这些来源似乎主要包含观点和个人经历。一小群具有不同行为模式的人在推动关于CCSVI的讨论中发挥了核心作用。
在过去的几十年里,我们目睹了一场向积极、自我管理和负责任的患者转变的强大运动,这就是所谓的“专家患者”[
这一领域的大多数研究都调查了人们使用互联网检索健康信息的频率[
然而,什么样的信息传播机制是有效的,人们在网络论坛上依靠什么样的信息来源,他们如何形成他们的观点,他们如何行动,我们仍然知之甚少。更好地了解这些机制可能有助于评估它们对俗人的影响,并预测这些新形式的信息传播和交流的好处和危险。
此类研究的一个有前途的领域是最近提出的多发性硬化症(MS)慢性脑脊静脉功能不全(CCSVI)假说及其对患者群体的影响。简而言之,这个假说最初是由Paolo Zamboni [
在我们可以就这些众多的信息源和意见是否以及如何有助于一些参与者在辩论中获得启发或其他人的困惑做出声明之前,我们需要更多地了解在线健康论坛中使用的信息来源,以及用户和参与者如何使用这些信息,包括他们在这些论坛中的不同角色和贡献行为。为了检验这些问题,我们可以参考英国在线自残论坛上的一项研究[
我们的观察性研究利用免费访问与多发性硬化症相关的大型德国在线论坛的优势,目的是确定(1)在线健康论坛中使用的信息来源,以及(2)积极参与论坛的人在介绍和传播这些信息时的角色和行为模式。
在这项观察性研究中,我们使用Web爬虫的自定义实现从一个在线健康论坛提取内容,目的是从一个在线健康论坛收集一个大型讨论数据库。此外,我们使用信息检索算法(专门为这一特定任务设计和实现)来识别处理CCSVI的帖子的综合样本。
该研究的数据库包括发表在德国多发性硬化症协会(DMSG,德国多发性硬化症协会)在线论坛上的文章[
在2008年1月1日至2012年8月17日期间,从11,997个线程中抽取了139,912个帖子。因为论坛一般是关于MS的,所以只有一小部分提取的帖子是关于CCSVI的。初步分析表明,“一个话题讨论一个话题”的假设在所观察的论坛中并不成立。相反,随着时间的推移,用户倾向于偏离最初的主题。因此,开发了一种自定义的信息检索算法,将单个帖子分类为相关(“至少部分讨论CCSVI”)或不相关。关于算法设计、训练和评估的详细信息,请参见
一个论坛帖子的截图。
由于“专家患者”一词意味着对科学信息的智能使用,我们旨在评估论坛中对科学来源的使用程度。用户偶尔会在他们的帖子中加入超链接,这些链接指的是用户基于他们的观点的内容。我们分析了这些链接中哪些被定义为科学论文的引用,以获得被引用论文类型和时间引用模式的概述。这一鉴定过程需要两个步骤。
首先,我们生成了一份大概详尽的涉及CCSVI的出版物列表。从Zamboni的原始出版物开始,使用CiteXplore Web服务构建了一个引用网络[
其次,一个程序从语料库中获取每个超链接(也包括那些“无关”帖子中的超链接),从引用的网页或PDF文档中提取文本内容,并从出版物列表中搜索标题或出版物id。在命中的情况下,其中一名作者核实是否确实引用了其中一份出版物,如果是,则是哪一份。每个匹配也被分为直接参考或间接参考。在这方面,间接参考资料被视为仅讨论或解释某一出版物的资源,不包括基于该出版物的其他工作。链接到出版物本身的直接引用。
除了在帖子中搜索科学信息来源外,我们还努力确定帖子中使用或引用的其他信息来源。为了获得广泛的参考网站的概述,我们定义了一个分类方案。首先,我们将压缩后的语料库中找到的每个URL缩减为URL的基本域部分(即,只使用“domainname.com”—如果URL在域名之后包含额外的内容,如目录、文件夹、网页、文件扩展名,则该内容将从URL中删除)。其次,我们将剩余的域分为8个类,如
主要域类。
组织 | 在更广泛的意义上,包括基金会、协会和工会。这些有时是专业的,经常推动某种议程。 |
商务 | 出售不包括治疗的产品或服务的私营企业。 |
新闻 | 商业新闻提供商。 |
其他 | 各种不适合其他类别的内容。 |
个人 | 一个人的静态内容。 |
科学 | 科学工作和知识的来源,包括维基百科。我们将后者包括在这个类别中,因为它的可靠性是在[中建立的 |
社会 | 围绕交流和用户生成内容的社交媒体网站。 |
卫生保健提供者 | 医生办公室,诊所,专业人士问答。不仅限于多发性硬化症。 |
为了描述用户行为,我们尝试识别不同的行为模式。由于事先对论坛用户的行为模式一无所知,我们采用了探索性数据分析的方法来揭示可能的模式。聚类算法根据用户的相似度根据一组预定义的特征对用户进行分组。因此,我们想定义两个独立的特征集,目的是描述用户行为的两个不同方面,并通过聚类揭示这些特征中的模式。我们雇佣了最受欢迎的
通过单独的聚类,我们特别详细地分析了两个行为方面:(1)对所讨论信息来源的偏好,以及(2)一般的贡献行为或发帖习惯。在第一个集群中,我们主要关注8个域类中的每个类的超链接。用户由8维空间中的向量表示:例如,值3表示2nd维度意味着用户已经发布了3个来自域类“组织”的超链接。第二个聚类集中在9个定量特征上,描述了用户发布的内容和方式。特征(度量)要么取自文献中讨论的类似方法[
在这两种情况下,
在第一个聚类中,我们必须补偿用户的不同一般活动水平,因为我们只想根据用户的信息源偏好对用户进行分组。我们将每个向量除以它的欧几里得范数,以获得只显示“品味”(偏好)而不显示“活动”的单位向量。在第二次聚类中,不同特征具有不同的尺度。例如,用户经常显示几百天的活动,但根据定义,他们启动的线程的比例不能超过1。因此,我们执行了
我们在雷达图中可视化了产生的星团[
行为特征的定义。
测量 | 定义 | 基本原理 |
平均消息长度(从[ |
不计算引用的平均帖子内容长度。 | 消息长度是用户在帖子中投入精力的一个指标,它也告诉我们一些关于用户讨论风格的信息。一些用户更喜欢精心设计的、像文章一样的文章,而另一些用户则以更对话的方式使用论坛。 |
每日平均帖数(由[ |
用户每天发布的平均帖子数。 | 这是用户最重要的活动特征,它还提供了对用户选择性的洞察。在很长一段时间内每天发布大量帖子的用户可能会成为常客,他们会不顾外部事件而发布帖子。 |
每篇文章的平均引用数 | 一篇文章中包含的唯一引用的平均数量。 | 该特性描述了用户为论坛带来新的信息来源的趋势,也可能描述了用证据支持用户立场的能力。 |
平均每天线程数(从[ |
用户每天发布的平均不同线程数。 | 虽然这也是一个活动特性,但它提供了对用户感兴趣的焦点的洞察。低值可能表示倾向于只讨论特定主题,而高值可能表示倾向于加入任何类型的讨论。 |
活动天数(由[ |
第一个帖子和最后一个帖子之间的天数。 | 该特性表明了用户的贡献行为和发布习惯的一致性,是解释其他特性时重要的上下文信息。 |
被引用的文章比例 | 文章至少被引用一次的比例。 | 虽然只能假设用户在使用引用功能时试图表达什么,但该功能有望显示出引发其他论坛参与者直接回应的趋势。 |
相关职位比例 | 被信息检索算法分类为相关的帖子的百分比。 | 该特性是用户对CCSVI感兴趣的可靠指标一个.虽然不能仅从这一特征推断用户是支持CCSVI还是反对CCSVI,但对CCSVI有高度兴趣的用户相信这一假设似乎是合理的。 |
初始化线程的百分比(从[ |
基于用户贡献的线程总数的用户发起的线程的百分比。 | 这个功能衡量用户开始讨论的倾向,这通常与向论坛介绍新信息有关。 |
每篇文章相关部分的用户覆盖率 | 用户讨论CCSVI的用户数除以用户发布的总帖子数。连续的相关帖子被认为是一个单一的讨论。在这些讨论中同时出现的用户被视为讨论伙伴。 | 这一特征可以被描述为CCSVI意见交换的效率。 |
一个CCSVI:慢性脑脊髓静脉功能不全
我们在31个帖子中发现了指向ccsvi相关科学出版物的超链接。
每月发表的参考文献总数的巨大差异大致与相关文章总数相关。有趣的是,最高点(2010年9月- 2010年11月)出现在上述相位转移的时候。引起其他重大波动的外部事件尚不清楚。但是,当发布的引用总数从一个给定时间点上升到另一个时间点时,更改通常反映在所有域类中,这表明外部事件的某种响应同样影响不同类型的资源。这张图还显示了这个话题在非专业人士论坛上迅速流行起来的速度,从2012年发布的一些参考文献可以看出,用户似乎已经对这场辩论失去了兴趣。
为每个域类发布超链接的时间轴。
我们只在集群中包含了一小部分用户,因为我们希望关注那些参与CCSVI讨论的用户。此外,还需要关于每个用户的足够数量的信息。因此,在使用超链接的情况下(第一次聚类),我们只对发布了至少5个相关超链接的用户进行聚类。在发布习惯(第二次聚类)的情况下,我们只包括至少发布了5个相关帖子的用户。中滤波过程如图所示
第一次将用户聚类为6组显示的聚类如图所示
聚类用户,谁发表了至少5个相关帖子,显示6组显示
聚类抽样程序流程图。
显示聚类中使用的用户集的维恩图。
引用每个集群中用户数量的使用集群(n=64个包含案例)。
雷达图显示每个聚类的聚合域类使用(属于聚类的用户向量被总结)。每个簇向量被归一化为一个单位向量。辐条的长度与它所代表的值成正比。
发布行为,根据第二次聚类,每个聚类的用户数(n=171个包含案例)。
雷达图显示贡献行为聚类的特征均值(聚类内的总体用户)。均值最小-最大归一化至[0;1]范围。辐条的长度与它所代表的值成正比。
大部分观察到的贡献都不是基于科学结果,而是基于各种社交媒体来源。这些来源似乎主要包含观点和个人经历。一小群具有不同行为模式的人在推动关于CCSVI的讨论中发挥了核心作用,这是由他们的行为确定的。这群人的识别是我们探索性分析技术的意外结果。我们的识别方法是行为驱动的,因此为论坛中基于影响力的所谓“意见领袖”识别提供了一种可行的替代方案,如[
科学出版物在CCSVI讨论的“繁荣阶段”被带到论坛,随后是批评观点的阶段,从2010年9月开始,CCSVI假设的反对者在论坛中占了上风。虽然科学和非专业人士的话语似乎是齐头并进的,但很明显,科学出版物和科学来源,如维基百科,最终在非专业人士论坛中只扮演了一个次要的角色。相反,社交媒体是最重要的信息来源。社交媒体内容的性质各不相同,但我们认为社交媒体通常是关于个人经历和意见交流的。我们确定的参考使用模式(如社交媒体粉丝或主页推广者)进一步说明了这一点。我们建议将这种外行话语的性质更多地描述为基本话语或话语间话语[
我们的6组发帖行为是基于对不同特征的仔细考察,与5个自残网络论坛的参与者相似[
只有一小部分用户表现出足够的活跃度,适合对他们的行为进行有意义的描述。这与普遍观察到的社交媒体参与不平等现象是一致的。通常情况下,活跃程度以幂次定律为特征,约1%的用户对社区具有核心影响力[
高度活跃的人际关系海报被认为是重要的社区建设者,因为大量的个人“闲聊”都归功于他们。有趣的是,一组17人的CCSVI激活者在推动关于CCSVI的讨论中发挥了核心作用,因为他们经常发起关于CCSVI的讨论,并包含许多超链接。尽管人们相当担心,社交媒体和互联网应用程序允许少数人传播错误信息,并破坏有益的互动,正如最近讨论的反疫苗接种主义案例[
我们发现了一些资深贡献者,但这些人并不经常参与CCSVI的讨论。此外,还发现了4个非常短命的、以ccsvi为重点的账户。一种可能的解释是,它们是一些用户临时使用的替代账户。
这项研究的一个主要优势是它的观察性质。以一种不引人注目的方式观察真实世界的数据。我们分析了一个公共互联网论坛,这是一个非结构化和无节制的,超过3年的CCSVI讨论期。因此,我们避免了自我报告的偏见和人为设置。此外,我们应用了机器学习方法,以阐明用户交互的复杂本质。
然而,有几个限制。没有论坛用户的人口统计数据,甚至有可能有些人使用了不同的账户。此外,在2010年8月27日之前,用户可以为每一份个人贡献自由选择他们的别名。由于缺乏登录机制,有可能不同的人在同一个名字下发布。
相关内容的识别不是微不足道的,并没有100%的准确性,这导致数据库可能存在偏见。将url减少到基本域是一种简化。在评估用户模式时,我们必须处理小样本量(N=64和N=171)。聚类方法本身依赖于几个假设。我们假设恒定的行为模式存在,我们定义了适当的特征来描述它们,并且它们在特征空间中是线性可分的。对指定角色的解释是主观的,但仅基于本研究中记录的定量数据。
我们必须决定如何在帖子中确定科学的信息来源。为了安全起见,我们只接受发布带有科学出版物链接的url作为科学出版物的使用。当然,其他用户可能以一种相当精心的方式讨论科学出版物,而没有发布url。此外,出版物通常隐藏在付费墙后面,这可能会使发布url不受欢迎。它们也是用英语写的,这可能会造成语言障碍。我们的方法低估了在线健康论坛中对科学出版物的讨论,但在确定科学出版物的介绍方面非常具体。
我们对在线健康论坛参与者的描述完全基于“指标”,类似于Jones等人的研究[
在帖子和论坛讨论中,科学来源远不如社交媒体重要。虽然一些未发现的证据可能表明,科学结果在一个在线健康论坛中成功地传播到非专业人士的讨论中,但科学结果在所研究的特定论坛中所讨论的信息源中所占的比例非常小。这是否预示着“专家病人”的崛起,仍有待进一步研究。论坛上的一些参与者,尤其是资深贡献者,根据他们的贡献行为和整体行为的性质,可以被认为是专家,他们的帖子相当广泛,通常包括科学和其他参考文献。然而,他们也只代表了一小部分,在我们得出可靠的结论之前,我们需要对他们的陈述进行语义分析。相比之下,大多数用户倾向于依赖基于社交媒体的信息来源,这些信息通常包含个人经历和观点。
卫生保健系统可以被描述为一个双边网络:一个由通过多个平台相互连接的大型组件组成的网络,这样临床医生、卫生保健机构和公司就可以与患者和社区互动[
我们的研究使用了一些复杂的方法来提取在线论坛中发帖行为的信息,以解决这一领域的重要问题。为了消除该研究的一些局限性,并更准确地确定论坛贡献者在科学信息方面的作用和行为,需要一种定性方法,最好是对在线健康论坛中的社会交流过程和辩论策略进行话语分析,类似于加拿大对赌博者在线社会支持论坛的研究,其中参与者的互动,他们的共同讨论,并分析了他们如何构建身份和协商合法性[
论坛信息检索。
聚类结果数据表。
参考科学出版物。
慢性脑脊髓静脉功能不全
德国多发性硬化症协会
多发性硬化症
我们感谢Lara Weibezahl对论文最终稿的批判性意见和审查,以及Richard Nicholas博士对CCSVI的神经学观点。
大学医学中心伦理委员会Göttingen证实(参考文献11/5/13),由于数据的性质(匿名数据的二次数据分析),伦理批准是不必要的。
使用的一些方法和结果是在线可获得的硕士论文的一部分[
没有宣布。