这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
在线卫生社区(ohc)越来越受到全球患者、护理人员和支持者的关注。中国的OHCs也不例外。然而,中国OHCs中的用户生成内容(UGC)和相关用户行为在很大程度上未得到充分探索,很少进行系统分析,从而丧失了利用OHCs的见解优化治疗设计和护理提供的宝贵机会。
本研究旨在通过系统全面地分析国内两大热门ohc的UGC及相关用户行为,揭示其共同特征和不同特征。
我们重点研究了米健的肺癌论坛(LCF)和乳腺癌论坛(BCF)以及甜蜜之家的糖尿病会诊论坛(DCF),因为这三种疾病在中国患者中的重要性以及它们在中国OHCs中的总体患病率。我们的分析探讨了每个社交网络的关键用户活动、小世界效应和无标度特征。我们全面考察了这些论坛的UGC,采用加权知识网络技术,发现各个论坛的突出话题以及这些话题之间的潜在关系。最后,我们讨论了我们的分析结果对公共卫生的影响。
我们的分析表明,每个论坛上每个线程的读取数遵循gamma分布(
在中国OHCs中,UGC和相关的在线用户行为可以作为重要的信息来源,以获得关于个人和人群健康状况的见解。有效和及时地挖掘和利用这些内容可以不断提供有价值的第一手线索,以增强卫生提供者和政策制定者的态势感知。
在线社区是互联网用户为了各种目的和兴趣而创建的社会群体。“互联网+”快速发展
存在许多ohc,为用户提供多种流畅的方式来交流信息、分享经验、寻求答案和获得支持。PatientsLikeMe是世界上第一个也是最大的致力于患者的社交网络平台。截至2018年,共有超过65万用户通过该平台交流分享健康信息,涉及2900多种疾病[
自多功能ohc出现以来,学者们试图从不同角度对这些虚拟社区进行分析。例如,Smailhodzic等[
总体而言,现有的OHCs研究主要集中在揭示用户参与OHCs的动机、探讨用户在线知识共享行为的影响因素以及挖掘OHCs中的UGC。对于中国的OHCs,现有的研究主要集中在小规模的单一疾病论坛。与国际同行的研究相比,目前对中国OHCs的分析在广度和深度上都要有限得多,需要进一步扩大认识,加强现有研究的初步成果。为满足需求和填补空白,本研究综合考察了在中国最受欢迎的2个OHCs上举办的3个具有代表性的疾病论坛。通过大规模的评价,揭示了这些论坛用户行为和UGC的共同特征和不同特征,从而有助于从总体上理解中国OHCs的用户行为和UGC。
鉴于OHCs的流行和扩散,了解UGC在这些论坛中反映的多方面患者体验和相关用户行为,可以为增强公共卫生意识和提高所提供的护理质量提供许多有价值的见解。全面深入地分析这些用户内容和行为还可以从软件工程的角度优化ohc的设计和管理,以及更好的基于社区的知识服务的设计和开发。在上述预期效益的推动下,本研究对中国3个大型ohc的UGC及相关在线用户行为进行了深入分析。我们利用多种社会网络分析方法,为每个OHC构建知识共享网络,研究OHC的演化,发现用户行为特征,揭示每个虚拟社区的突出主题及其关系,揭示所研究的3个OHC的共同特征和不同特征。通过这些案例分析,我们也希望从总体上对中国OHCs的用户行为和UGC提供一些见解。
本研究选择在中国有影响力的两家OHCs,米健和甜蜜之家进行分析。本研究选择米健进行分析,是因为该公司是目前中国患者OHC最大的公司。该网站的服务对象是慢性病、重症、罕见病患者,旨在帮助他们缓解心理压力,学习疾病相关健康知识,有效获取医疗资源。本研究选择Sweet Home进行分析,是因为Sweet Home是中国最大的糖尿病患者OHC。该网站提供了医疗咨询、服务指导和情感表达的分类论坛。通过该网站,糖尿病患者不仅可以讨论自己的病情,还可以与全国各地的糖尿病患者进行远程联系和交流。关于本研究中确定的2个焦点OHCs,我们的分析集中在米建网站上的肺癌论坛(LCF)和乳腺癌论坛(BCF),特别是“甜蜜之家”糖尿病咨询论坛(DCF),因为这两种ohc在使用者中非常受欢迎,考虑到乳腺癌和肺癌是世界上两种主要的慢性非传染性疾病,而且中国拥有全球最多的糖尿病患者,这三种疾病对中国患者和整个人群的福祉具有重要意义[
在疾病论坛中,单个对话被称为“线程”(即一个主题)。用户可以回复另一个人的线程,这被称为“回复”。因此,一个用户在论坛上发表的帖子既可以是该用户自己创建的原创帖子,也可以是对另一个用户的帖子的回复。
本研究中分析的实验数据集与同行研究中对应数据集的比较。
研究 | 网站 | 论坛 | 线程数 | 用户数 | 回复数量 |
本研究 | Mijian [ |
肺癌论坛 | 37090年 | 22610年 | 254687年 |
本研究 | Mijian [ |
乳腺癌论坛 | 112790年 | 31909年 | 2123728年 |
本研究 | 甜蜜的家[ |
糖尿病咨询论坛 | 41060年 | 26751年 | 466225年 |
吴等[ |
壹翔网络[ |
乳腺癌论坛 | 754 | 540 | 3498 |
吴等[ |
39健康网络[ |
乙型肝炎论坛 | 1066 | N/Ac | N/A |
吴等[ |
贴吧( |
肿瘤论坛 | 2009 | 1476 | 11940年 |
史等[ |
Manyoubang [ |
糖尿病互助论坛 | 777 | 636 | 3553 |
王等[ |
Breastcancer [ |
乳腺癌论坛 | 107549年 | 49552年 | 2800000年 |
王等[ |
BecomeAnEX [ |
戒烟 | 38156年 | 5435 | 316886年 |
德拉·罗莎等人[ |
Facebook ( |
多发性硬化症 | N/A | 24915年 | N/A |
一个中国的在线健康社区。
b其他国家的在线健康社区。
cN/A:不适用。
社会网络是由一组社会行动者(如个人和组织)、一组二元关系以及行动者之间的其他社会互动组成的社会结构[
我们对复杂网络进行了拓扑分析[
在哪里
假设整个网络都有
小世界效应,也被称为6度分离,是指所有陌生人都可以通过6个或更少的人联系在一起。
在哪里
其次,我们探讨了社交网络的无标度特性。无标度属性是关于网络的一种结构特征,由Barabási等人介绍[
主题分析技术可用于提取概念性主题,确定主题类型,并分析大型文本语料库中潜在的主题内部结构。在本研究中,我们分析了有关OHCs的健康话题,以确定热点话题及其用户的突出健康信息需求。
我们分两个步骤执行主题分析。首先,我们根据点互信息(PMI)和左右信息熵提取UGC中的关键短语,有效地发现单词之间的共现关系;在这一步中,根据信息论,互信息主要用来衡量两个信号之间的相关程度[
在哪里
熵是一种与随机变量相关的不确定性度量。更高的熵与更大的潜在信息含量相关,因此不确定性也更高[
在哪里
其次,以关键字为节点,以关键字对的共现关系为边,构建加权知识网络(weighted knowledge network, WKN) [
在上述公式中,if为关键字
在哪里
现在,我们可以为相关的热含量定义一个WKN模型如下:
根据所构建的WKN模型,结果可以通过社交网络可视化工具进行显示。
本研究分析的3个数据集的统计特征。
数据集和变量 | 最低 | 第一季度 | 中位数 | 第三季 | 最大 | 的意思是 | SD | 简历一个 | |
|
|
|
|
|
|
|
|
|
|
|
读取 | 15 | 362 | 758 | 2043.5 | 98050年 | 531.25 | 1136.88 | 2.14 |
|
回复 | 0 | 4 | 8 | 16 | 3405 | 15.34 | 31.98 | 2.08 |
|
追随者 | 0 | 5 | 14 | 49 | 10127年 | 54.52 | 456.76 | 8.38 |
|
线程 | 1 | 1 | 2 | 5 | 595 | 5.84 | 20.12 | 3.44 |
|
|
|
|
|
|
|
|
|
|
|
读取 | 14 | 297 | 504 | 854 | 90783年 | 368.81 | 719.18 | 1.95 |
|
回复 | 0 | 8 | 15 | 26 | 1017 | 21.47 | 23.57 | 1.08 |
|
追随者 | 0 | 15 | 46 | 166 | 2627 | 219.26 | 474.06 | 2.16 |
|
线程 | 1 | 1 | 3. | 12 | 5118 | 43.34 | 317.59 | 4.53 |
|
|
|
|
|
|
|
|
|
|
|
读取 | 38 | 812 | 1203 | 1813 | 95905年 | 1065.60 | 1342.66 | 1.26 |
|
回复 | 0 | 4 | 8 | 14 | 796 | 11.44 | 14.99 | 1.31 |
|
追随者 | 0 | 0 | 0 | 0 | 466 | 1.10 | 7.63 | 6.93 |
|
线程 | 0 | 2 | 4 | 14 | 3862 | 20.60 | 94.14 | 4.57 |
一个CV:变异系数;简历= SD /的意思。
接下来,我们绘制了每个论坛中每个线程读取数的频率分布,如图所示
每个论坛(肺癌、乳腺癌和糖尿病咨询)中每个线程的阅读数分布。为了更好的可视化,水平轴只显示每个线程在5000之前的读取数,因为这样的线程几乎不存在。
每个论坛(肺癌、乳腺癌和糖尿病咨询)中每个帖子的回复数的对数分布。
我们探讨了每个论坛上的主要用户活动。为了了解社区中的用户粘性,我们分析了在线用户的活动。社区管理人员可以根据这些用户的行为采取不同的策略和激励措施来改善他们的用户体验。
一周中每天所有帖子的百分比。
每天每个小时的线程(A)和应答(B)的百分比。
斯皮尔曼排名相关系数的帖子和回复相对频率在每个论坛在一天的每个小时。
论坛 |
|
|
肺癌论坛 | 0.911 | <措施一个 |
乳腺癌论坛 | 0.914 | <措施一个 |
糖尿病咨询论坛 | 0.976 | <措施一个 |
一个使用0.01显著性水平(2尾检验)显著相关。
社会网络结构图直观地展示了网络的节点关系矩阵[
每个聚合社会网络的特征。
特征 | 肺癌论坛 | 乳腺癌论坛 | 糖尿病咨询论坛 |
节点数量 | 22610年 | 31909年 | 26751年 |
边数 | 183175年 | 739620年 | 223077年 |
平均节点度 | 8.10 | 23.179 | 8.34 |
网络直径 | 10 | 8 | 11 |
平均聚类系数 | 0.130 | 0.179 | 0.130 |
平均路径长度 | 3.494 | 3.011 | 3.967 |
高级用户百分比一个 | 3.1% (697/22,610) | 9.1% (2906/31,909) | 2.6% (697/26,751) |
低学历用户的百分比b | 66.6% (15050/22610) | 67.0% (21382/31909) | 49.3% (13057/26751) |
一个度大于或等于100的用户百分比。
b度小于或等于5的用户百分比。
每个聚合社交网络用户的总学位分布。(A)肺癌论坛(LCF);(B)乳腺癌论坛;糖尿病咨询论坛(DCF)。
接下来,我们分析了这3个社交网络从成立之初的动态演化特征(LCF: 11月15日,2013;BCF: 2015年8月25日;DCF: 2005年9月1日至2020年(
由于2020年COVID-19疫情的爆发及其对OHCs用户行为的可能影响,我们将观测窗口分为2个时期(一个在2020年1月1日之前,另一个在2020年1月1日之后)。通过比较这两个时期的用户行为,我们分析了UGC是否因为疾病爆发而发生了明显的变化。我们从三个论坛的UGC中提取了前200个关键短语。在预处理中,我们首先根据同行文献过滤掉没有事实信息的关键词,以及合并的同义词关键词[
为肺癌论坛构建了两个单独的加权知识网络,用于分析阶段(A) 2013年11月15日至2020年1月1日,(B) 2020年1月1日至2020年10月20日。
根据PubMed文献中OHC信息的分类,主题特征分类策略主要有8大类,分别为“病因与病理知识”、“诊断与检查”、“治疗”、“疾病管理”、“并发症”、“社会生活”、“疾病预防”、“教育与研究”[
3个论坛的前10个关键词。
期 | 肺癌论坛热门关键词 | 乳腺癌论坛热门关键词 | 糖尿病咨询论坛热门关键词 |
2020年1月1日前 | 治疗,患者,化疗,肿瘤,肺癌,父亲,母亲,确诊,手术,检查 | 乳腺癌、患者、治疗、肿瘤、化疗、癌症、手术、影响、检查和转移 | 血糖、对照、胰岛素、断食、治疗、正常、检查、糖尿病、患者、检测 |
2020年1月1日至10月20日 | 治疗,患者,化疗,肿瘤,发现,父亲,效果,母亲,肺癌,和病情 | 乳腺癌,患者,治疗,肿瘤,化疗,发现,影响,增加,手术,检查 | 血糖、对照、胰岛素、断食、治疗、正常、检查、糖尿病、患者、检测 |
根据
为乳腺癌论坛构建了两个单独的加权知识网络,用于分析阶段(A) 2015年8月25日至2020年1月1日,以及(B) 2020年1月1日至2020年10月20日。
为糖尿病会诊论坛全程(2005年9月1日- 2020年10月20日)构建的加权知识网络。
本研究对中国3家大型ohc的UGC及相关在线用户行为进行了深入分析。我们运用多种社会网络分析方法,为每个OHC构建知识共享网络,研究相应网络社区的演化规律,发现用户行为特征,揭示虚拟社区共享的突出话题及其关系。
由于中国现有的OHCs研究只研究了一个小规模的单一疾病论坛,如
首先,我们发现这3个疾病论坛的数据是两极分化的,底层的数据分布肯定是不均匀的。在这些疾病论坛中,每个线程的读取数遵循gamma分布(
其次,用户在工作日比周末更活跃。以上3个论坛的发帖频率和回复频率在一天中各小时间呈高度正相关。特别是,LCF和DCF表现出较高的时间相似性(
此外,研究显示,所有三个论坛都具有小世界效应(
最后,我们发现,在上述3个疾病论坛中,疾病治疗、疾病检查、诊断、社会生活等几个热点话题是共同分享的。与治疗最相关的话题是检查和诊断,许多孩子在LCF中为父母咨询相关信息。在BCF中,用户更关注下一代的健康,而在DCF中,用户更关注血糖检测和饮食控制。此外,我们注意到,在LCF和BCF中,用户在讨论2020年疾病爆发后的医疗问题时,都倾向于提及与covid -19相关的事项。
本文有一些局限性。一方面,虽然本研究选择了中国2个有影响的OHCs(米建和甜蜜之家)进行分析,但分析结果不能推广到所有中国OHCs。另一方面,本文只关注了整体社会网络结构的特征,没有区分用户和用户角色之间的强弱联系。同时,本研究只分析了1个用户的主题内容,没有考虑回复和一个帖子的主题类型。因此,后续研究应尝试对用户之间的连接边增加权重,研究用户在社交网络中的影响,或研究不同时期的主题变化。
我们的研究结果揭示了中国OHCs的社交网络、用户行为和UGC的基本特征。利用OHCs中的UGC和相关的在线用户行为作为重要的信息来源,可以洞察个人和人群的健康状况,有利于用户了解不同论坛的热点话题,获得健康管理知识。尽管ohc在中国正在发展,但采取措施提高用户的留存率和活跃度,增加用户粘性,分析用户行为,挖掘论坛内容主题是必不可少的。更好地挖掘潜在内容,为用户提供有用的信息和知识是很重要的。总之,我们的研究不仅有助于理解OHCs的不同特征,而且有助于发现各个论坛的突出主题和这些主题之间的潜在关系。因此,有效、及时和一致地挖掘和利用内容可以为卫生提供者和政策制定者提供更有价值的证据。
按月显示每周每天的张贴频率的箱形图。
不同年份社会网络的动态演化特征。
图6-8详细图片
乳腺癌论坛
糖尿病咨询论坛
Erdos-Renyi
肺癌论坛
自然语言处理
在线健康社区
点互信息
用户生成内容
加权知识网络
中国科技部科技计划项目(no . 2020AAA0106302)、国家自然科学基金项目(no . 61876150和12026609)、西安市科技计划项目(no . XA2020-RKXYJ-0105)资助了本研究。
没有宣布。