这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
互联网和社交媒体平台提供了对癌症幸存者及其护理人员的生活经历的深入了解;然而,可获得的叙述数据量往往难以进行彻底的分析。妇科癌症的幸存者有独特的需求,例如与未来癌症的遗传易感性、癌症对性健康的影响、许多人被诊断为晚期以及新治疗方法的涌入有关的需求。
本研究旨在提出一种独特的方法,利用基于互联网平台的大量数据进行混合方法分析。我们分析了美国癌症协会网站上妇科癌症幸存者发表的讨论板帖子,特别关注评估幸存者的心理社会方面。
所有来自美国癌症协会癌症幸存者网络的卵巢癌、子宫癌和妇科癌症(不包括卵巢癌和子宫癌)讨论版的帖子都被包括在内。文章是使用Python从网络上抓取的,并根据癌症幸存者护理质量框架中描述的社会心理主题进行组织。生成与每个主题相关的关键字并进行验证。关键词识别与预定心理社会主题相关的帖子。定量分析使用Python和R Foundation for Statistical Computing软件包完成。对一部分员额完成了定性分析,作为概念的证明。通过潜狄利克雷分配(LDA)(一种无监督主题建模技术)发现的主题被评估,并与预定的感兴趣主题进行比较。
对6436名妇科癌症幸存者和护理人员在2000年7月至2020年2月期间发表的125,498个帖子进行了评估。在125,489个帖子中,23,458个(18.69%)与癌症的心理社会体验有关,并被纳入混合方法心理社会分析。定量分析(23,458个帖子)显示,所有妇科癌症讨论板的幸存者最常讨论的是朋友和家人在护理中的作用,以及疲劳,癌症对人际关系的影响,以及健康保险状况。在帖子中最常使用的与幸存者心理社会方面相关的词汇包括“家庭”、“希望”和“帮助”。定性分析(23458个帖子中的20个)同样表明,幸存者经常讨论应对策略、痛苦和担忧、家庭和护理人员在癌症治疗中的作用,以及管理财务和保险问题的代价。使用LDA,我们发现了8个主题,没有一个与生存的心理社会方面直接相关。在LDA识别的56个关键字中,“睡眠”和“工作”这两个(4%)被包括在我们独立设计的关键字列表中。
基于网络的讨论平台提供了一个很好的机会来了解患者的生存经验。我们的新方法加快了对这些可靠数据的定量和定性分析,这可能用于更多的患者群体。
妇科癌是一种广泛的疾病类别,包括宫颈癌、子宫癌、卵巢癌、阴道癌和外阴癌,它们在表现、病理、治疗、预后和生存轨迹方面各不相同。据估计,2021年约有116,760例新发妇科癌症病例和34,080例新死亡病例[
2006年,在具有里程碑意义的出版物“从癌症患者到癌症幸存者:迷失在过渡中”中首次描述了癌症幸存者[
国家综合癌症网络提供了提供生存护理的指导方针,并概述了生存护理的7个方面,包括预防新发和复发性癌症,预防癌症和治疗的后期影响,监测癌症复发,筛查新发癌症,评估和治疗癌症和治疗的后期影响,协调提供者之间的护理,以及规划持续的生存护理[
由于幸存者是肿瘤护理中一个相对较新的组成部分,该领域继续开发新的干预措施,并修改现有的举措,以最好地满足幸存者的需求。直接从幸存者的声音中学习是为这些幸存者服务提供信息的一个重要步骤。基于网络的讨论板和社交媒体平台已经成为研究人员和临床医生利用关于癌症幸存者的公开讨论的工具,提供了大量来自幸存者的坦率和自发的想法和意见[
美国癌症协会癌症幸存者网络有专门针对癌症类型的讨论板,幸存者和护理人员可以通过帖子进行互动。为了展示一种新的方法来扫描这些帖子的广泛汇编,并对它们进行主题组织,我们分析了ACS妇科癌症讨论板,包括卵巢癌、子宫癌和妇科癌症(不包括卵巢癌和子宫癌)讨论板。我们的方法使用前面描述的癌症生存护理质量框架,对>125,000个讨论板帖子进行了自动化分析,并特别关注框架内的主题
本研究采用混合方法,特别是顺序解释设计[
这个过程是在主题建模的初步探索之后开发的,特别是潜在狄利克雷分配(LDA)。主题建模是一种无监督的机器学习方法,用于确定大量文本中相关单词的模式,从而独立地发现程序基于概率确定的重要主题[
癌症存活者护理质素架构[
所有来自卵巢癌、子宫癌和妇科癌症(不包括卵巢癌和子宫癌)ACS讨论板的125,498个帖子都进行了评估。分析中包含的帖子创建于2000年7月21日至2020年2月24日,即网络抓取完成的日期。帖子要么是添加到现有对话中的回复,要么是讨论板上的“对话启动者”。网络抓取,或简称“抓取”,是一种技术,用于从基于网络的平台提取感兴趣的内容,以便使用计算机软件进行分析,本质上是“下载”它,以供研究人员使用。Python是一种计算机编程语言,它可以自动执行计算机上的特定操作,例如web抓取过程。通过创建一个自定义Python脚本,自动抓取>125,000个帖子的过程。Python有多个包,允许软件执行不同的操作。在我们的分析中,我们特别使用了Python包
我们设计了一个“关键词”列表,从癌症生存护理质量框架中捕获每个预定主题
关键字列表的目的是能够确定哪些ACS帖子讨论了任何预定的感兴趣的主题。我们的方法扫描数据,检测关键字何时被使用。使用特定主题的关键字表明ACS帖子讨论了特定主题。该软件记录了在每篇评估的ACS帖子中,每个预定主题的关键词出现的次数。因此,每个ACS帖子都为每个主题分配了一个“主题评分”。这使得我们可以根据主题关键词出现的次数来确定在给定的帖子中哪些主题最流行,而无需首先阅读它。同时,主题评分让我们能够立即识别哪些ACS帖子讨论了感兴趣的特定主题。这加快了过程,因为我们能够快速调出与特定主题相关的所有帖子,从而加快了额外的审查和定性分析。
“心理”和“心理学”
“疲劳”,“累”,“累”,“疲劳”,“排气”,“午睡”和“休息”
" Stress "和" stressed "
"创伤后应激" "创伤"和"创伤"
“创伤后成长”,“创伤”和“创伤”
“苦恼”,“抑郁”,“沮丧”,“感觉低落”,“悲伤”,“悲伤”,“眼泪”,“哭泣”,“心烦意乱”,“心碎”,“心碎”,“扳手”,“内疚”,和“哭泣”
"焦虑" "焦虑"和"恐慌"
“害怕复发”与“复发”
“睡眠”、“失眠”、“醒来”、“睡着”、“打扰”、“不安”和“睡眠障碍”
"应付" "应付"和"应付"
" Worry " " worried " " worrying "和" worries "
“生活方式”,“侵入性”,“疾病侵入性”,“干扰”,“尴尬”,“羞耻”,“羞耻”和“扰乱”
“雾”,“记忆”,“集中”,“集中”,“集中”,“认知”,“认知”和“模糊”
“教育问题”、“学生”、“学习困难”和“学校问题”
"社会退缩" "社会退缩" "社会孤立" "社会孤立" "孤独"和"社会退缩"
“财务”,“财务”,“雇佣”,“工作”,“全职”,“全职”,“兼职”和“工作量”
“财务毒性”、“债务”、“成本”、“账单”、“昂贵”、“费用”、“钱”、“金钱麻烦”和“财务麻烦”
“未充分就业”,“失业”,“重返工作岗位”,“回归全职”,“回归全职”,“回归兼职”,“下岗”,“下岗”,“解雇”,“辞职”,“被解雇”
“工作效率”,“工作有成效”,“努力工作”,“努力工作”,“落后”,“落后”和“落后”
“学校生产力”、“学习”和“学校学院”
“保险”,“被保险”,“医疗补助”,“医疗保险”和“自费”
“人际关系”、“男朋友”、“丈夫”、“配偶”、“女朋友”、“妻子”、“重要的人”、“fiancé”、“伴侣”和“关系”
“性”,“亲密”,“亲密”,“性交”,“性”和“性”
“生育”,“可育”,“不孕”,“不育”,“保存”,“怀孕”,“怀孕”,“受孕”,“流产”,“流产”,“试管婴儿”,“体外”,“卵母细胞”,“胚胎”,“冷冻”,“冷冻”,“卵子”,“精子”,“冷冻”
“母亲”、“母亲”、“父亲”、“父亲”、“姐妹”、“兄弟”、“儿子”、“女儿”、“朋友”、“配偶”、“丈夫”、“妻子”、“伴侣”、“孩子”、“家庭”、“照顾者”、“关系”、“友谊”、“伙伴关系”、“婚姻”、“离婚”、“分开”、“订婚”和“fiancé”
“心理评估”,“社会历史”,“推荐给治疗师”,“推荐给心理医生”,“推荐给心理医生”,“推荐给社会工作”,“推荐给社会工作”,“推荐给社会工作”,“推荐给心理医生”
“心理治疗”,“心理药物治疗”,“咨询”,“治疗”,“支持小组”,“左洛复”,“阿普唑仑”,“拉西普罗”,“西莱克萨”,“安非他酮”,“德昔瑞尔”,“百忧解”,“阿得拉”,“安定”,“欣百达”,“文拉法舒”,“思瑞康”,和“Depakote”
“坚持”、“坚持”、“按照指示”、“坚持”和“坚持”
“心理症状再评估”、“心理症状再评估”、“心理症状复查”、“心理症状复查”
为了确定我们的关键词是否有效,我们从妇科癌症讨论板上随机选择了20个帖子,完成了两步验证过程。验证过程的目标是:(1)检查计算机程序是否根据文章中出现的关键字的数量将关键字适当地分类到他们预期的兴趣主题中;(2)验证计算机程序根据哪个主题代表的关键字数量最多来确定关键字的个人naïve是否会将文章分类为与同一主题最相关的主题。对于关键字验证的第一步,研究团队成员(EA)使用关键字列表手动将20个随机选择的帖子分配到他们的心理社会主题,并注意到哪个主题在帖子中出现的关键字最多。EA创建了关键字列表,因此熟悉关键字。这一步用于验证计算机程序是否根据给定文章的关键字数量正确捕获了每个主题。
关键字验证过程的第二步由另一个研究团队成员(MH)完成,他以前从未见过关键字列表。MH盲目地将每个帖子分配到一个主题
为了确定EA和MH的反应是否与计算机程序将20个帖子分类为最相关的主题(主题得分最高的主题)的反应一致,另一个研究小组成员(DT)比较了EA、MH和计算机程序对20个帖子的主题指定。这个关键字验证过程是成功的,有一些小的差异被认为是可以接受的,因为一些预先确定的主题是非常密切相关的(例如,幸存者可能会担心他们的“工作效率”可能会导致他们失去工作并成为“失业者”,这是两个不同但密切相关的主题)。在程序和研究人员之间出现的几次差异中,程序仍然在研究人员选择的主题上给帖子打了很高的分,这意味着帖子在很大程度上仍然反映了研究人员和计算机程序选择的主题。因此,如果查询ACS中讨论由研究人员或计算机程序指定的主题的帖子,就会突出显示该帖子。
一旦我们确信我们的关键字和方法捕捉了主题
接下来,我们能够为每个主题对帖子的主题得分进行排序。这样做是为了在给定的主题中找到最相关的帖子。同时,我们可以看到哪些主题在某篇文章中最流行。为了让我们考虑一篇文章与特定主题“相关”,我们将主题得分设置为3(一篇文章必须包含至少3个主题关键字的实例)。设置最小主题分数可以最小化用户以与预定主题无关的方式使用关键字的次数;例如,一个幸存者在他们的帖子中写一次“失业”就不会提示计算机程序将其标记为与“就业不足,失业,重返工作”主题相关。
根据人类研究保护办公室的规定,公开可用的数据,如ACS讨论板上的帖子,不构成以人类为研究对象的研究。因此,进行数据分析、解释和传播调查结果不需要机构审查委员会的审查批准,如45CFR46:102所支持的[
使用我们的方法进行网络抓取和数据收集的过程生成了各种定量数据点,并使用R和
除了预先确定的兴趣主题和各自的关键词外,我们希望以图片的形式展示幸存者和护理人员在他们的帖子中使用的词语。为了捕捉这一点,我们创建了一个图表,描绘了ACS帖子中所有125,498个帖子中最常用的40个单词。
通过使用关键字列表并通过主题评分在给定的帖子中捕获最突出的预定主题,我们可以轻松确定哪些ACS帖子与特定的感兴趣的主题相关。这促进了进一步的定性分析;例如,如果我们想看
为了证明我们的方法如何在一个非常大的基于讨论的数据集中加速定性分析,我们定性分析了20个帖子。根据先前描述的定性研究建议,样本量为20个[
这些定性分析由2个研究小组成员(EA和MH)完成。每一篇文章都被单独审查,审稿人指出了他们认为与文章主题最相关的引文
共有125,498篇文章被定量分析,其中61,699篇(49.16%)来自子宫癌讨论板;57,011人(45.43%)来自卵巢癌讨论区;6788例(5.41%)来自妇科癌症(卵巢和子宫癌除外)讨论区。这些帖子是由6436个独特的帖子创建的,每个独特的帖子平均创造19.5 (SD。107.4,范围1-2397)的职位。帖子总数在2008年经历了大幅增长,并在2011年达到最大值,其中卵巢癌讨论区是最多产的。子宫癌讨论区在2011年和2016年经历了帖子的显著增长,妇科癌症(除卵巢癌和子宫癌外)讨论区随着时间的推移有稳定的帖子数量,如图所示
在125,489个帖子中,23,458个帖子(18.69%)与癌症的心理社会体验有关,并基于至少3分的主题得分进行了进一步调查
从所有被评估的讨论区帖子中看到的最常见的单词,不管它们与预定的心理社会主题的相关性如何,都被描绘在一个图表中(
讨论区随时间变化的帖子数量。
社会心理主题随时间的流行。
帖子中最常用的词。
在我们的概念证明定性分析中包含的20个帖子包括238个被确定为感兴趣的引用。这20篇帖子来自8位不同的用户,他们要么是卵巢癌或子宫癌患者的幸存者,要么是他们的护理人员。在这20个帖子中,大多数关注的是与预定的主题有关的兴趣
在探索观察到的心理社会职位的定性方面时,额外的细微差别显现出来。与痛苦和担忧的心理社会主题相关的大量讨论与对疾病复发、进展或转移的担忧有关。这也让我们深入了解了应对的主题,我们观察到两种显著的方法:在护理中发挥积极作用,在精神上发挥作用。通过在护理中发挥积极作用来应对是很明显的,因为海报上要求对治疗方案提出意见,彼此分享和解释主要文献,请求帮助为他们的医生设计问题,并头脑风暴自我宣传的策略。其中一个明显的因素是鼓励其他人寻求第二种意见,正如子宫癌讨论板的海报所示:
第二个意见可能会挽救你的生命。尽管有这个令人失望的消息,但你还有很多选择,所以不要让一个忙碌的医生把你排除在外。也不要自暴自弃。如果你必须倒下,那就战斗下去。为了你自己,为了你的丈夫,为了你的梦想。
除了增强自我效能,应对的另一个组成部分是精神。许多人分享了这种信仰给他们带来的安慰,让他们能够适应晚期诊断,并接受一个人的死亡。一位转移性卵巢癌患者分享了以下内容:
与其他人可能选择相信的相反,虽然我知道上帝可以医治许多人,但他没有义务这样做。我在这里不是要挑战任何人的信仰,只是告诉你们我来自哪里,因为这与我自己的第四期诊断有关。
幸存者还经常讨论他们与家人和护理人员的关系,其中一个重要因素是帮助亲人在情感上适应患者的癌症诊断、治疗和预后。一位卵巢癌幸存者发表了一篇关于配偶、父母、成年子女、朋友和同事如何支持患癌症的亲人的帖子,其中包括(1)团结支持网络,分配任务,增加整体支持,(2)记住照顾好自己,以便更好地支持患者,(3)参加照顾者的支持小组。另一篇引人注目的帖子来自一位患有卵巢癌的女性的丈夫,他向他的妻子咨询如何与她谈论她的癌症和预后,而她却否认了这一点。一名幸存者回答说,建议如下:
告诉她你在研究她的癌症。如果她还问,就告诉她更多。如果她想否认现实,那是她的选择。如果她变得足够好奇,问得更多,这可能是一个更深入对话的开端。理想情况下,你们两个人需要能够一起面对现实。她将会是那个在生理和心理上都受到影响的人。你肯定会受到情感上的折磨。而且believe me, she wants to live as much as you want her to live...As a caregiver, I know your heart aches.
另一个普遍存在的主题是金融毒性和保险状况的交集,它为幸存者的生活经历提供了有趣的见解。谈话的重点是获得治疗方案。一位子宫癌的幸存者发帖如下:
在这期间,我的保险公司拒绝支付阿瓦斯丁的费用。我不知道要花多少钱。
另一名幸存者给出了以下建议:
他们会理所当然地否认,除非他们有争议。人们总是被拒绝,在一些纠纷后被推翻……They start off with denial and then see if the doctor really means it or not...You really really really have to be on your doctor’s office to find out exactly what was submitted, exactly what your insurance requires and exactly why it was denied, and getting your doctor to fight. You shouldn’t have to...but you really really really do.
这为患者可能面临的经历提供了见解,这些经历影响了他们在癌症本身之外的生活质量。
如前所述,定性分析提供了对
“我是42。我为我可能失去的几年时间而哭泣,以它增长的速度,我担心我现在只有几个月了。”
“我是一名四期癌症患者,我知道我已经遭受了什么影响,我不会为了再活三个月而‘再试一次’,在这段时间里,不会没有很多副作用。我只是代表我自己说话,但我已经下定决心了!”
“这通常会让人很虚弱。我们甚至会在副作用似乎无法忍受的时候感到绝望。”
“孩子,真让人讨厌。很抱歉你要和钱的事抗争。你要担心的已经够多了。他们不知道这有多紧急和重要吗。与此同时,这也证明了你是一个多么伟大的斗士。我真的希望你能澄清这一点,这样你就能得到你需要的治疗。”
“(作为照顾者),允许他们发泄,不要往心里去,要知道这是困惑和疾病在说话,是他们所有的恐惧……要坚强。不要自找麻烦,但要现实地预测和每天的计划,在战斗中态度很重要,活在当下,积极是关键。”
虽然LDA能够将帖子分成不同的主题,但结果的主题很广泛。研究一个发现了16个而不是8个主题的模型,可以得出更具体的主题,尽管许多主题被认为是随机的和不相关的;因此,我们继续对8主题模型进行分析。LDA发现的8个主题从流行度最高到流行度最低分别是支持、治疗副作用、诊断、研究和临床试验、治疗、卵巢癌、帮助和时间。这些发现总结在
本研究应用了一种新的方法,该方法是使用混合定性和定量方法来检查大型基于网络的、基于叙述的数据集。这种方法提供了使用定量技术描述和利用大量数据的能力,同时指导和简化定性分析。我们在之前发表的癌症生存护理质量框架的背景下演示了该方法的实用性,重点是该框架
社交媒体和基于讨论的平台可以提供癌症和其他健康状况患者的宝贵信息;然而,社交媒体帖子中可用的数据量对其在研究中的使用构成了障碍[
本报告中提出的方法可用于为临床医生和研究人员提供宝贵的见解、意见和癌症幸存者自己以有效和低成本的方式提出的建议。在论坛和社交媒体平台上公开的幸存者之间坦诚的对话可能会为未来的幸存者努力和计划提供信息,因为它们揭示了幸存者诚实和自发的担忧、态度和偏好。本报告有助于从ACS讨论板中提取的不断增长的知识体系,包括我们小组的先前出版物[
先前的工作已经探索了妇科癌症患者独特的生存需求。DeRooij等[
虽然我们的分析得到了来自ACS讨论区20年帖子的数据集的加强,但我们承认,在这段时间内,患者的癌症护理和生存需求发生了巨大变化。因此,必须对研究结果进行独立评估,以确定如何将其应用于当前和未来的生存计划。由于定性分析是作为概念的证明,我们要强调的是,这个项目的定性分析并不是对所有职位的全面分析;相反,它演示了如何使用这种技术进行讨论
妇科癌症幸存者之间基于互联网的讨论为未满足的心理社会生存需求提供了宝贵的见解,这些需求可以在未来的生存计划中得到解决。大多数情况下,妇科癌症的幸存者讨论了朋友和家人在护理中的作用,以及疲劳,癌症对人际关系的影响,以及健康保险状况,这些都是通过分析的定量阶段发现的。补充定性分析告知了这些主题如何影响幸存者,显示了可能解决的幸存者护理的具体差距。这种信息丰富和可定制的方法可能会继续应用于临床环境和患者群体,利用大量患者生成和以患者为中心的互联网数据进行实证调查。
通过潜狄利克雷分配发现主题和关键字。
美国癌症协会
相干度度量
潜在狄利克雷分配
没有宣布。