原始论文
摘要
背景:癌症影响到个人,他们的家庭成员和朋友,越来越多的人转向在线癌症论坛来表达他们的想法/感受并寻求支持,例如询问与癌症相关的问题。这些在线论坛所表达的想法/感受和需要的支持可能因以下情况而异:(1)个人患有癌症或(2)个人是患有癌症或患有癌症的个人的家庭成员或朋友;这些论坛帖子中使用的语言可能反映了这些差异。
摘要目的:使用自然语言处理方法,我们的目标是确定(1)自称患有或曾经患有癌症的用户与(2)自称是患有或曾经患有癌症的个人的家人或朋友的用户在在线癌症论坛上发表的帖子中表达的支持需求和关注的差异。
方法:使用自然语言处理算法潜狄利克雷分配(LDA)和心理语言学词典语言查询与字数统计(LIWC),我们分析了在线癌症论坛上发表的帖子,目的是描述与这些不同群体的用户相关的语言特征。
结果:自称患有癌症的用户更有可能发布与医院就诊相关的LDA主题(Cohen)d=0.671),并使用与健康相关的LIWC类别相关的词汇(Cohend=0.635)和焦虑(Cohend= 0.126)。相比之下,自称是家庭成员或朋友的用户倾向于发布与失去家庭成员相关的LDA主题d=0.702)和关注过去的LIWC类别(Cohend=0.465)和死亡(Cohend=0.181)与这些用户的关联更大。
结论:使用LDA和LIWC,我们发现癌症用户在在线癌症论坛上发表的帖子中表达的支持需求和关注与癌症患者的家人或朋友相比存在差异。因此,在线癌症论坛的回应者需要认识到支持需求和关注的这些差异,并根据这些发现调整他们的回应。
doi: 10.2196/29555
关键字
介绍
背景
越来越多受癌症影响的人士透过网上癌症论坛寻求支援[
- ].这些论坛作为一个支持小组,个人可以从论坛成员那里寻求和接受有关癌症的支持,其中一些人可能(从他们的个人经历中)熟悉所表达的支持。先前的研究表明,在线癌症论坛上自称患有癌症或正在接受癌症治疗的成员倾向于寻求建议[
在线癌症论坛的成员得到的情感支持越多,他们就越有可能继续成为该论坛的会员。 ].在线癌症论坛帖子中表达的支持需求和关注可能因访问论坛的人而异;例如,癌症患者表达的支持需求可能与癌症患者的家庭成员或朋友表达的支持需求不同。在之前的工作中,研究人员使用社交媒体和在线论坛帖子的语言特征来确定用户是否属于不同的群体,如不同的年龄组[
]和性别[ ],以识别和描述从其他用户(不表达孤独)中表达孤独的用户[ , ],并预测患者患心血管疾病的风险[ ].同样,在本文中,我们分析了Reddit上一个在线癌症论坛上发布的帖子,以确定描述自称患有癌症或曾经患有癌症的用户(我们将此组称为“患有癌症”组)和自称是癌症患者的家庭成员或朋友的用户(称为“家庭或朋友”组)的帖子的语言特征。我们假设这些语言特性将反映属于这些不同群体的用户在支持需求和关注方面的差异。
相关工作
用户加入在线健康论坛,寻求和提供与自己和他人的健康和福祉有关的支持。先前的研究表明,在线健康论坛是寻求和提供心理健康支持的有效途径[
]、药物使用康复[ , ]和癌症[ - ].先前的研究分析了在线癌症论坛上的帖子和评论,并确定成员在公开信息中表达的负面个人信息比私人信息更多[
得到的情感支持越多,他们继续成为论坛会员的可能性就越高。 ].一个在线癌症论坛上,被诊断患有癌症或正在接受癌症治疗的成员倾向于寻求建议,癌症幸存者则会分享他们与癌症相关的经历[ ].在成为会员的过程中,在线癌症论坛的会员在论坛上扮演着不同的角色,对于长期成为论坛会员的个人来说,这些角色往往更侧重于鼓励其他会员,而不是他们刚成为论坛会员时的角色,这往往与寻求信息有关[
].这些论坛为寻求支持的个人提供重要的点对点支持;因此,重要的是,论坛的成员对帖子的回应有一个准确的理解所寻求的支持类型。我们在这篇论文中的工作与之前分析在线癌症论坛帖子的工作不同,因为他们没有将论坛成员的帖子与那些患有癌症的家人或朋友区分开来。
方法
数据
我们的数据包括Reddit上一个活跃的在线癌症论坛的帖子,/ r /癌症这是Reddit上用户最多的癌症论坛(截至2021年3月,共有3.7万名会员)。/ r /癌症自我描述为“这个reddit是用来讨论癌症、癌症相关新闻、生存故事、失去的故事以及与疾病相关的一切的。”使用Google的BigQuery [
],这是一个公开可用的Reddit数据集的数据存储,我们收集了2015年12月至2019年8月期间发布的29,533篇帖子/ r /癌症.从这些帖子中,我们通过选择明确提到作者患有癌症或患有癌症的帖子的作者的用户名来识别自称患有癌症或患有癌症的用户;具体来说,我们选择了包含“癌症”一词和第一人称单数代词(即“我”和“我”)的帖子,例如,“刚刚被诊断出患有肺癌,我该如何应对”。其中一位合著者(AA)审查了这些帖子,并删除了那些没有表明用户患有癌症或患有癌症的帖子。同样,我们通过选择明确提到家庭成员或朋友患有癌症或患有癌症的帖子作者的用户名,来识别那些自称是患有癌症或患有癌症的个人的家庭成员或朋友的用户;具体来说,我们选择了包含“癌症”一词的帖子,还包含以下与家人和朋友相关的关键词:“母亲”,“妈妈”,“父亲”,“父亲”,“父母”,“祖母”,“祖母”,“祖母”,“祖父”,“祖父”,“祖父”,“祖父”,“祖父”,“祖父”,“祖父”,“丈夫”,“妻子”,“配偶”,“儿子”,“女儿”,“孩子”,“阿姨”,“阿姨”,“叔叔”,“侄子”,“侄女”,“妹妹”,“兄弟”,“家人”,“朋友”,例如,“我的小孩正在与癌症作斗争。”其中一位合著者(AA)审查了这些帖子,并删除了那些没有表明用户是患有癌症或患有癌症的人的家人或朋友的帖子。给定用户的用户名,这些用户要么在帖子中自称患有癌症,要么是患有癌症或患有癌症的人的家人或朋友,我们收集了他们在论坛上发表的所有帖子(即,/ r /癌症). 显示数据集的摘要。类别 | 职位数量 | 用户数量 |
“患癌”组 | 4414 | 2938 |
“家人或朋友”组 | 3483 | 2456 |
语言使用差异
我们使用了两种方法来确定“患有癌症”组和“家人或朋友”组的用户在帖子中使用语言的差异。具体来说,我们使用了(1)开放词汇表方法和(2)基于字典的方法。在本工作的所有分析中,我们使用Cohen报告效应大小d,即标准化均值之差。
开放词汇法
在本节中,我们使用一种自然语言处理主题建模算法,潜狄利克雷分配(latent Dirichlet allocation, LDA) [
],用于识别和分组文档中共同出现的单词(例如,本作品中的Reddit帖子);这些词组被称为主题.LDA是一种生成模型,它假设主题由单词和令牌的组合组成,Reddit帖子由主题的混合组成。由于Reddit帖子中的单词是已知的,因此可以使用Gibbs抽样来估计主题的潜在变量[ ].标签可以根据与主题相关的内容词分配给各种主题。例如,LDA可以将单词“星期一”、“星期二”、“星期三”、“星期四”和“星期五”聚类为一周中的几天。使用DLATK软件包[ ,我们从/r/Cancer的帖子中生成了20个LDA主题,这些帖子是由自称患有或曾经患有癌症的用户(即“患有癌症”组)和自称是家庭成员或朋友的用户(即“家庭或朋友”组)发布的;我们选择生成20个主题是因为我们通过使用10、20、30和40个主题来改变LDA主题的数量,其中一位共同作者(AA)审查了这些主题,并观察到20个主题中的主题具有最连贯的主题。与之前使用LDA从社交媒体帖子中识别与表达孤独的用户最相关的主题类似[ , ]及按不同年龄组别划分职位[ ]和性别[ ],我们使用了DLATK包[ ]找出与“患有癌症”组的帖子和“家人或朋友”组的帖子最相关的主题,反之亦然。基于字典的方法
在本节中,我们使用了语言查询和单词计数(LIWC) [
],这是一本心理语言学词典,有73个类别(例如,积极和消极情绪、健康和人称代词),以及与这些类别相关的精心整理的单词列表。具体来说,使用DLATK包[ ],我们确定了与LIWC类别相关的词在属于“患癌症”组的帖子中与“家人或朋友”组的帖子中出现的频率。道德与隐私
本研究被作者所在机构的机构审查委员会指南视为豁免。这项工作使用的数据集是公开的。本作品的作者没有与论坛的任何成员或版主联系r /癌症我们也没有联系任何Reddit用户。此外,Reddit用户档案信息并未在本工作中被审查或使用。
结果
开放词汇法
显示了效应值(使用Cohend)中最重要的LDA主题(P<。001年[Benjamini-HochbergP[更正])与…有关/ r /癌症“患有癌症”组的用户发布的帖子与“家人或朋友”组的用户发布的帖子进行比较。此外, 显示了效应值(使用Cohend)与之相关的最重要的LDA主题/ r /癌症属于“家人或朋友”组的用户的帖子与属于“患有癌症”组的用户的帖子的比较。论文的作者独立标记每个主题,然后开会讨论并同意每个主题的标签。
乔治。一个主题主题 | 主题中高度相关的词 | 科恩d |
医院访问 | 疼痛,医院,背部,天数,血液,开始,医生,回家,更糟的是,急诊室 | 0.671 |
问题/咨询 | 忠告,好,疑惑,经历,类型,信息,疑问,生存,早,相似 | 0.537 |
疾病的症状、风险和治疗方法 | 细胞,风险,治疗,疾病,症状,癌症,子宫颈,胰腺,身体,病人 | 0.474 |
关于癌症的研究/问题 | 研究,病人,部分,研究,乳房,问题,诊断,前列腺,发现,幸存者 | 0.432 |
癌症手术 | 手术,结肠,切除,肿瘤,甲状腺,切除,淋巴,肾脏,淋巴结,胃 | 0.349 |
治疗费用/支付 | 治疗、保险、医疗、金钱、健康、临床、工作、期权、薪酬、试验 | 0.345 |
饮食改变 | 吃,体重,食物,胃,喉咙,饮食,健康,舌头,味道,损失 | 0.293 |
癌症检测 | 扫描,活检,背部,医生,结果,CT,淋巴,发现,肿瘤医生,肿瘤 | 0.290 |
来自个人/社区的支持 | 支持,人,帖子,免费,分享,故事,小组,爱,希望,伟大 | 0.245 |
治疗的副作用 | 化疗,治疗,放疗,副作用,一周,头发,圆润,漂亮,开始了 | 0.214 |
一个LDA:潜在狄利克雷分配。
乔治。一个主题主题 | 主题中高度相关的词 | 科恩d |
失去家人 | 妈妈,日子,过去,迷失,家,没有,爱,医院,想要,做成 | 0.702 |
照顾家人 | 姐妹、兄弟、家庭、妻子、家、工作、父母、母亲、生活、关怀 | 0.373 |
家庭成员的诊断 | 爸爸,他是,爸爸,诊断,阶段,以前,发现,肺,今天,胰腺 | 0.339 |
家庭成员的诊断 | 妈妈,阶段,乳房,诊断,建议,她,朋友,卵巢,奶奶,肺 | 0.179 |
谈论支持 | 时间、生命、家庭、事物、制造、支持、关怀、健康、长久、困难 | 0.159 |
一个LDA:潜在狄利克雷分配。
基于字典的方法
显示了效应值(使用Cohend)和LIWC类别,与“家人或朋友”组相比,与属于“患有癌症”组的帖子更相关。此外, 显示了效应值(使用Cohend)和LIWC类别,与“患有癌症”组的帖子相比,与“家人或朋友”组的帖子更相关。
LIWC一个类别 | 科恩d |
健康 | 0.635 |
生物过程 | 0.607 |
第二人称代词 | 0.234 |
焦虑 | 0.126 |
一个语言探究与字数统计。
LIWC一个类别 | 科恩d |
第三人称单数代词 | 1.168 |
人称代名词 | 0.977 |
女性的引用 | 0.964 |
男性的引用 | 0.746 |
第一人称单数代词 | 0.543 |
过去的焦点 | 0.465 |
联系 | 0.398 |
第一人称复数代词 | 0.242 |
悲伤 | 0.224 |
时间 | 0.222 |
目前的焦点 | 0.221 |
死亡 | 0.181 |
朋友 | 0.175 |
一个语言探究与字数统计。
讨论
主要研究结果
在这项工作中,我们使用LDA和LIWC表明,属于“患有癌症”群体的用户与属于“家人或朋友”群体的用户在在线癌症论坛帖子中表达的支持需求和关注存在差异。在下一节中,我们总结了这项工作的发现。
在我们的分析中,我们观察到,自称患有癌症或曾经患过癌症的用户倾向于发布有关主题的帖子,例如他们的医院就诊以及寻求与癌症相关的建议和信息;这一发现与之前的研究结果一致[
的研究表明,(在一个在线癌症论坛上)自称患有癌症或正在接受治疗的人,大多会向论坛的其他成员寻求建议。我们还观察到,自称患有癌症的用户倾向于发布与治疗费用/支付、饮食变化和治疗副作用相关的主题,并使用与LIWC相关的健康和焦虑类别相关的词汇。这些发现有助于设计流程,以便在在线癌症论坛上提供更好的支持。例如,癌症治疗的费用可能很昂贵,而且由于自称患有癌症或曾经患有癌症的用户倾向于发布与治疗费用/支付相关的主题,在线癌症论坛可以与卫生保健提供者和相关组织合作,提出并记录癌症患者支付治疗费用的详细方法和提示;用户可以通过在线论坛轻松获取和访问这些信息。对于其他用户关心的问题,如饮食的改变和治疗的副作用,也可以做类似的事情。鉴于与焦虑相关的LIWC类别更多地与自称患有或曾经患有癌症的用户相关,在线癌症论坛可以为这些用户提供/推荐专业的心理健康服务。对于那些自称是癌症患者的家庭成员或朋友的用户,我们观察到他们倾向于发布诸如失去家庭成员,照顾家庭成员以及家庭成员的诊断等主题;此外,这些用户倾向于使用与过去/现在、悲伤和死亡等LIWC类别相关的单词。考虑到一些自称是家庭成员或朋友的用户倾向于发布关于照顾家庭成员和家庭成员诊断的主题,在线癌症论坛可以与卫生保健提供者合作,记录这些用户如何为患有癌症的亲人提供支持和照顾-这些信息可以很容易地在论坛上获得。此外,考虑到与过去/现在、悲伤和死亡相关的LIWC类别更多地与“家人或朋友”组联系在一起,这可能意味着属于该组的用户(在他们的帖子中)表达了面对失去亲人或亲人生病的困难时期;因此,癌症论坛可以提供专业的心理健康咨询师,他们可以为这些用户提供如何应对亲人生病或失去亲人的帮助。
限制
先前的工作确定,关注类似主题的在线论坛成员的兴趣可能不同[
];因此,这项工作的一个限制是使用的语言/ r /癌症可能不同于其他在线癌症论坛。此外,本工作中使用的样本由在subreddit上发布帖子的Reddit用户组成/ r /癌症并不能代表所有受癌症影响的用户。结论
在本文中,我们使用LDA和LIWC来确定(1)自称患有或曾经患有癌症的用户和(2)自称是癌症患者的家人或朋友的用户与帖子相关的LDA主题和LIWC类别;此外,我们观察到这些语言使用的差异反映了属于这些群体的职位所表达的支持需求和关注的差异。
利益冲突
没有宣布。
参考文献
- 王勇,郭立强,李俊。获取和接受在线支持:使用计算机辅助内容分析来检查在线社会支持的动态。医学互联网研究2015年4月20日;17(4):e99 [J]免费全文] [CrossRef] [Medline]
- 杨迪,Kraut R, Levine JM。新来者和老年人对在线健康支持社区的承诺。参见:SIGCHI计算系统中人因会议论文集。纽约:ACM;2017年5月在CHI计算机系统人为因素会议上发表;2017年5月6日至11日;丹佛,CO . 6363-6375。[CrossRef]
- 杨丹,Kraut R, Smith T, Mayfield E, Jurafsky D.网络健康社区中寻求者、提供者、欢迎者和故事讲述者的社会角色建模。见:2019年中国计算机学会计算系统中人因会议论文集。纽约:ACM;2019年5月在CHI计算机系统人为因素会议上发表;2019年5月4日至9日;格拉斯哥,苏格兰,英国第1-14页。[CrossRef]
- 杨丹,姚志强,郭立军。渠道关系:网络癌症互助团体的自我表露、互惠性和社会支持。2019年5月在:CHI计算系统中人因会议上发表;2019年5月4日至9日;格拉斯哥,苏格兰,英国,1-15页。[CrossRef]
- 张建军,张建军,张建军,等。网络癌症论坛的研究进展。参见:第九届国际AAAI网络和社交媒体会议论文集。帕洛阿尔托,加利福尼亚州:AAAI出版社;2015年03月01日发表于:第九届AAAI网络与社交媒体国际会议;2015年5月26-29日;牛津大学,牛津,英国,p. 1-9http://www.aaai.org/ocs/index.php/ICWSM/ICWSM15/paper/download/10546/10493
- 王yc, Robert K, John m,留还是走?在线健康支持团体中情感和信息支持与承诺的关系。参见:ACM 2012年计算机支持协同工作会议论文集。纽约:ACM;2012年2月15日发表于:CSCW '12:计算机支持的协同工作;2012年2月11日至15日;西雅图,华盛顿州p. 833-842。[CrossRef]
- Park G, Yaden DB, Schwartz HA, Kern ML, Eichstaedt JC, Kosinski M,等。女性比男性更热情,但并不比男性更自信:Facebook上的性别和语言PLoS One 2016; 25;11(5):e0155885 [j]免费全文] [CrossRef] [Medline]
- 施哈,Eichstaedt JC, Kern ML, Dziurzynski L, Ramones SM, Agrawal M,等。社交媒体语言中的个性、性别和年龄:开放词汇方法。PLoS One 2013 Sep 25;8(9):e73791 [j]免费全文] [CrossRef] [Medline]
- 王志强,王志强,王志强,等。研究使用twitter的个体的孤独表达:一项观察性研究。BMJ Open 2019 Nov 04;9(11):e030355 [j]免费全文] [CrossRef] [Medline]
- 刘德华。在线孤独论坛中表达孤独感的个体在非孤独论坛中的交流:观察性研究。JMIR Form Res 2021 july 20;5(7):e28738 [j]免费全文] [CrossRef] [Medline]
- Andy AU, Guntuku SC, Adusumalli S, Asch DA, Groeneveld PW, Ungar LH,等。使用社交媒体数据预测心血管风险:机器学习模型的性能评估。中华医学会心内科杂志2019;5(1):e24473 [j]免费全文] [CrossRef] [Medline]
- Munmun直流。reddit上的心理健康论述:自我表露、社会支持和匿名。2014年06月01日发表于:第八届AAAI博客与社交媒体国际会议;2014年6月1-4日;密歇根州安娜堡市。
- 麦克林D,古普塔S, Lembke A,曼宁C, Heer J.论坛:一个致力于成瘾康复的在线健康论坛的分析。参见:第18届ACM计算机支持的协同工作与社会计算会议论文集。纽约:ACM;2015年3月14日发表于:CSCW '15:计算机支持的协同工作和社会计算;2015年3月14-18日;加拿大不列颠哥伦比亚省温哥华1511-1526页。[CrossRef]
- 社会支持(在帖子标题中表达)在在线物质使用恢复论坛中引起评论吗?在:第四届自然语言处理与计算社会科学研讨会论文集。2020年11月20日发表于:第四届自然语言处理与计算社会科学研讨会;2020年11月20日;虚拟p. 35-40。[CrossRef]
- Fernandes S, Bernardino J.什么是BigQuery?见:IDEAS '15:第19届国际数据库工程与应用研讨会论文集。纽约:ACM;2015年7月15日发表于:IDEAS’15:第19届国际数据库工程与应用研讨会;2015年7月13-15日;日本横滨,第202-203页。[CrossRef]
- 李建平,李建平,李建平,等。机器学习研究[j]; [c]; 2005免费全文]
- Gelfand AE, Smith AFM。基于抽样的边际密度计算方法。美国统计学会学报1990年6月;85(10):398-409。[CrossRef]
- 李建军,李建军,李建军,李建军,李建军,李建军:语言分析工具。发表于:2017年自然语言处理经验方法会议:系统演示;2017年9月;哥本哈根,丹麦,第55-60页。[CrossRef]
- 彭文杰,张建军,张建军,等。中国大学生心理测评研究进展与发展趋势。2015年9月1日URL:https://repositories.lib.utexas.edu/bitstream/handle/2152/31333/LIWC2015_LanguageManual.pdf[2021-08-29]访问
- Tran T, Ostendorf M.网络社区语言特征及其与社区接受的关系(预印本)。arXiv 2016年2月1日;1:1。[CrossRef]
缩写
LDA:潜在狄利克雷分配 |
LIWC:语言探究与字数统计 |
D·沃尔默·达尔克编辑;提交12.04.21;Jang H、Torii M同行评议;对作者的评论24.06.21;收到修订版本20.07.21;接受10.08.21;发表07.09.21
版权©Anietie Andy, Uduak Andy。最初发表于JMIR Cancer (https://cancer.www.mybigtv.com), 2021年9月7日。
这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是原始作品首次发表在JMIR Cancer上,并适当引用。必须包括完整的书目信息,到https://cancer.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。