发表在17卷第四名(2015): 4月

激发和接受在线支持:使用计算机辅助内容分析来检查在线社会支持的动态

激发和接受在线支持:使用计算机辅助内容分析来检查在线社会支持的动态

激发和接受在线支持:使用计算机辅助内容分析来检查在线社会支持的动态

原始论文

1美国宾夕法尼亚州匹兹堡卡耐基梅隆大学计算机科学学院语言技术研究所

2卡内基梅隆大学计算机科学学院人机交互研究所,美国宾夕法尼亚州匹兹堡

3.匹兹堡大学心理学系,美国宾夕法尼亚州匹兹堡

通讯作者:

王怡佳,硕士

语言技术学院

计算机科学学院

卡内基梅隆大学

语言技术学院

福布斯大道5000号盖茨希尔曼5404号

匹兹堡,宾夕法尼亚州,15213

美国

电话:1 412 736 2538

传真:1 412 268 6298

电子邮件:yichiaw@cs.cmu.edu


背景:尽管许多患有严重疾病的人参加在线支持社区,但很少有研究调查参与者如何在这些网站上获得和提供社会支持。

摘要目的:第一个目标是提出并测试一个动态过程模型,在线支持社区的参与者通过该模型获得并提供情感和信息支持。第二项是使用机器学习技术演示对话数据的计算机编码的价值(1)通过复制关于人们如何获得支持的人类编码数据的结果;(2)通过回答人类编码数据的小样本难以解决的问题,即暴露于不同类型的社会支持如何预测在线支持社区的持续参与。第三是提供这些机器学习技术的详细描述,以使其他研究人员能够在这些社区中进行大规模的数据分析。

方法:分析了在线癌症支持社区约9万名注册用户之间的交流。该语料库包含1,562,459条消息,分为68,158个讨论线程。亚马逊机械土耳其工人编码了(1)1000条关于5个属性的线程启动消息(积极和消极的情感自我表露,积极和消极的信息自我表露,问题)和(2)1000条关于情感和信息支持的回复。他们的判断被用来训练机器学习模型,自动估计消息中这7个属性的数量。在属性方面,基于人类的判断和基于计算机的判断之间的平均皮尔逊相关系数为0.65。

结果:第一部分使用人工编码数据来调查(1)4种类型的自我表露和开始帖子中的提问与(2)第一次回复中情感和信息支持的数量之间的关系。消极情绪的自我表露(beta= 0.24,P<.001),负面事件(beta=.25,P<.001)和正向事件(beta=.10,P=.02)增加情感支持。然而,问问题会压抑情绪支持(beta= -.21,P<措施)。相反,问问题能增加信息支持(beta=.38,P<.001),而积极的信息自我表露会降低它(beta= -.09,P= .003)。自我表露导致对情感需求的感知,从而引发情感支持,而提问导致对信息需求的感知,从而引发信息支持。第2部分使用机器编码的数据来复制这些结果。第三部分分析了机器编码的数据,显示获得更多情感支持的人在小组中待的时间更长33%(风险比=0.67,P<.001),而接触更多信息支持的人离开组的时间更早(风险比=1.05,P<措施)。

结论:自我表露在获得情感支持方面是有效的,而提问在获得信息支持方面是有效的。此外,人们对特定类型支持的渴望会影响他们所获得的支持。最后,人们得到的支持类型会影响他们留在或离开团体的可能性。这些结果证明了机器学习方法在调查在线支持社区中社会支持交换动态方面的效用。

中国医学杂志,2015;17(4):e99

doi: 10.2196 / jmir.3558

关键字



背景

很大一部分患有慢性或重大疾病的人使用在线资源来获取关于他们的病情和应对方法的信息。尽管信息网站是最受欢迎的,但许多人——尤其是癌症患者和幸存者——参与在线健康支持社区[12].最近的一项荟萃分析表明,在线支持社区在减少抑郁、提高自我效能和生活质量方面是有效的[3.].尽管一些临床试验表明,参与基于互联网的支持社区可以改善情绪健康(例如,[45]),结论是模糊的,因为大多数干预措施有多个组成部分,支持小组参与只是其中的一部分[6].此外,研究还表明,支持性干预往往不能提供它们所能产生的好处(例如,[7])。因此,关于在线社区的支持何时以及为什么有效,仍有许多有待了解的地方。

在线下和在线社区中确定的几类社会支持中,情感和信息支持受到了最多的理论和实证关注。莱丁斯与葛芬[8报告称,76%加入在线健康社区的人是为了交换情感和信息支持。情感支持指的是提供关心、同情或鼓励,而信息支持指的是提供信息或建议。离线环境中的证据表明,癌症患者寻求情感支持[9]并声称它特别有帮助[10].研究表明,关注情感支持的同伴讨论可以增强癌症患者的心理适应能力[1112].癌症支持社区的参与者还交换有关诊断、治疗、不良反应、与医生的关系、财务问题等方面的信息和建议。研究表明,在线下支持小组中交换的信息与心理健康的改善有关。13].

有趣的是,大多数关于社会支持的研究,无论是线下的还是线上的,都集中在它的生理和心理影响上,而不是它是如何产生的。由于这个原因,我们对人们用来寻求他人支持的策略知之甚少。这令人惊讶,因为支持的交换是一个动态的沟通过程,涉及寻求支持者和提供支持者的行动[14].在支持诱导过程中,支持寻求者使用各种技巧来表明他们对支持的需求。在提供支持的过程中,支持提供者将寻求者的行为视为寻求支持的请求,并决定如何回应。

获得社会支持的策略

社会支持激活模型[15]从两个维度对支持寻求行为进行了分类:(1)直接诱导与间接诱导;(2)言语诱导与非言语诱导。在网络环境中,交流是口头的,直接的诱导策略可能包括问一个关于药物的问题,而间接的策略可能包括表达对诊断的恐惧。此外,有证据表明,这两种策略可能用于获得不同类型的支持。例如,先前的研究表明,在线支持社区的参与者通过提问来获得事实信息[16]而且重点突出的问题比开放式的问题更能有效地得到有用的答案[17].相比之下,为了获得情感支持,参与者经常讲述他们的疾病以及他们对疾病的情感反应[1618].这项研究的目的是进一步阐明在线癌症支持社区的成员从他们的团体其他成员那里获得信息和情感支持的过程。

我们的研究的一个重要特征是它依赖于自动化技术来分析社区成员之间的大量对话交流。大多数关于支持社区沟通的研究都是基于手工编码相对较小的信息样本(例如,[1618-22])。甚至Meier和同事的[21)相对雄心勃勃的努力只在大约3000条信息中编码了情感和信息支持。因为在线支持社区通常会生成大量的帖子,手工编写所有消息是不切实际的。先前的研究表明,部分自动化在线支持社区对话的部分文本分析是可行的(例如,[2324]),但在对这些社区中的大量消息进行完全自动化分析方面,几乎没有什么努力。

利用大规模数据和计算机辅助内容分析的价值有三个原因。首先,由于机器学习模型通常可以很容易地复制,它们使对类似研究问题感兴趣的研究人员能够部署可比方法来挑战、验证或扩展其他人的结果。其次,机器学习方法可以分析的大规模数据使研究人员能够回答更微妙的研究问题,进行更细粒度的分析,并检查参与者之间的长期交互模式。例如,我们使用了一个乳腺癌支持社区中3万多名参与者在9年时间里的近6万次交流数据,我们已经证明,获得情感和信息支持对成员随后的群体参与有不同的影响[25].第三,计算机辅助内容分析为实时干预提供了机会。例如,在线支持社区可以使用自动模型来检测特定帖子的作者正在寻求的支持类型,然后将其引导到与其需求最相关的讨论或其他参与者中。

在本文中,我们使用档案数据来研究人们在线程启动帖子中所做的对话动作与他们收到的响应支持的数量和类型之间的关系。在第1部分中,我们使用一个相对较小的样本(大约1000个手工编码的会话线程)进行了分析。在第2部分中,我们使用机器学习算法来分析超过67000个对话线程,复制了这些结果。这些算法使用类似于多元回归的统计程序,将消息的语言特征与人类对它们的判断联系起来[26].具体来说,第2部分描述了自动识别乳腺癌讨论论坛中交换的消息寻求并提供情感和信息支持的程度的技术。第1部分和第2部分检验了先前研究提出的假设,但没有经过严格检验:(1)寻求支持者的自我表露引发了情感支持,而(2)提出问题引发了信息支持。最后,第3部分通过简要回顾以前发表的分析,展示了自动编码的其他好处,这些分析表明参与者所获得的支持类型预测了他们在小组中的持续参与。

概念模型

图1展示了我们研究的基础模型。该模型假定支持寻求者的不同诱导策略(个人自我表露vs提问)会产生来自提供者的不同类型的支持(分别是情感支持vs信息支持)。此外,该模型假定这种影响是由寻求支持者的感知需求所介导的。更具体地说,该模型假定,无论自我表露的内容(情感的、信息的)或效价(积极的、消极的)如何,都会导致感知到的情感需求,从而引发情感支持。相反,提出问题会导致感知到的信息需求,这反过来又会引起信息支持。

在这个模型中,我们假设诱导策略对支持的影响是由支持寻求者的感知需求所介导的。这个假设很重要,因为如果没有这样一个过程,探索者的行为和他人反应之间的关系可以被解释为行为模仿。行为模仿是人类交流中公认的现象。27];这在两种语言中都有出现(例如,[28])和非语言行为(例如,[29]),从而提高语言理解能力和人际关系。在支持小组的对话中,行为模仿可能与满足感知需求的尝试相混淆。例如,大多数类型的自我表露在结构中使用第一人称单数代词,例如,“嗯,自从我的医生打电话给我并告诉我结果以来,我一直起伏不定”或“我是一个35岁的幸福的已婚2个孩子的母亲,完全完全动摇了我的核心。”通过回答自己的癌症经历来给予情感支持的人(例如,“我记得身处你的处境。我离双侧乳房切除术只有4个月了,情况有了极大的改善。生活将会变得更好。”)也可能会使用第一人称代词。

图1。社会支持获取与提供的概念模型。
查看此图

概述

第一部分调查了支持小组成员用来引出情感和信息支持的语言策略,以及他们感知需求的冥想作用。因为每一个构念图1基于人类的判断,这部分研究仅限于对大约1000个交流的分析。

方法

研究网站

我们研究了一个大型在线乳腺癌支持社区中的支持对话,该社区具有各种交流平台,包括讨论板和聊天室。讨论板平台是互联网上最受欢迎和最活跃的乳腺癌在线支持社区之一。在我们进行研究时,它有超过90,000名注册会员和66个论坛,按疾病阶段(如转移性乳腺癌)、治疗(如激素治疗)、人口特征(如40-60岁的女性)和治疗方案(如乳房重建)等标准组织。在论坛上,成员们提出问题,分享故事,并阅读关于如何应对疾病的帖子。这个讨论板平台为研究在线支持社区的动态提供了丰富的环境。

我们收集了2001年10月至2011年1月在线支持社区讨论区的所有公开帖子。在此期间,这些论坛在68158个讨论线程中总共包含了1,562,459条消息。每个讨论线程的中位数长度为6条消息(平均值22.9,标准差280.5)。从第一条线程启动消息到最后一条线程的平均生命周期为2天(平均值29.3,标准差115.6)。总共有81.12%(55,291/68,158)线程启动消息在24小时内收到响应,而11.42%(7785/68,158)从未收到响应。

测量诱导策略、感知支持需求和支持提供

我们雇佣了亚马逊Mechanical Turk (MTurk)的工作人员来判断从1000个线程启动者的随机样本中有多少消息,以及他们的第一个回复中包含了每个结构图1例如消极的信息自我表露或情感支持。MTurk是一个众包的在线市场。它允许请求者发布被称为“人类智能任务”(HITs)的工作,被称为“土耳其人”的工人可以选择执行这些工作。斯诺等[30.]的研究表明,MTurk上的少数(5到7之间)naïve评委的综合判断,导致对文本的评级与专家在以下维度上的评级非常相似,如所表达的情绪、所提到的事件的相对时间、单词相似度、单词意义消除歧义以及语言隐含或暗示。

我们创建了独立的任务来判断每个概念图1.一组土耳其人评估了有多少帖子启动者包含了对发帖者生活中的事件或她的想法和感受的自我表露。另一组则对发起讨论的人提出问题的数量进行打分。第三组评估了有多少帖子发起者寻求情感或信息支持。最后,给第四组人看了第一条回复(有相应的回复作为参考),并判断有多少人提供了信息和情感支持。土耳其人做出的9项判决的措辞列在表1.土耳其人用7分制的李克特量表(1= 0;7=很多)。

表1。Turkers执行的任务以及每个构造的类内相关性(ICC)。
构造 国际刑事法庭 对土耳其人的定义 土耳其人提示
情绪的自我表露
情感自我表露是指作者与他人讨论她的感受和情绪的程度,如快乐、恐惧、悲伤和愤怒。

积极的情感自我表露 0.90 积极情绪自我表露的例子:“现在化疗结束了,我发现自己早上醒来时感觉肩上的巨大负担已经卸下了。” 这条信息在多大程度上包含了积极的情感自我表露?

消极情绪自我表露 0.94 消极情绪自我表露的例子:“看完我的乳房x光检查报告后,我吓坏了。” 这条信息在多大程度上包含了消极的情绪自我表露?
信息自我表露
信息自我披露涉及作者与他人讨论其个人信息的程度,如健康状况、诊断结果和家庭状况。信息自我表露可以与作者积极的、消极的或中性的生活事件有关。

积极的信息自我表露 0.85 正面信息自我表露的例子:“多年来第一次带家人去克利夫兰动物园。” 这条信息在多大程度上包含了积极的信息自我表露?

消极的信息自我表露 0.91 消极信息自我表露的例子:“大约5周前,我在腋窝发现了一个肿块。它不是固定的,而是可以移动的。每隔一段时间,我的左乳房就会有周期性的刺痛或单一的刺痛。” 这条信息在多大程度上包含了消极的信息自我表露?
问问题 0.91 当提出一个问题时,作者是在请求团队的回应。可以直接或间接地提出问题。问题的例子:“为了活得久一点,你会经历什么?”“所以我想我的问题是,一个不致密的乳房,一般的乳房,能在成像上漏掉肿瘤吗?”“我想知道有没有人能给我一些建议?”“寻找其他人对此的任何见解。” 这条信息在多大程度上提出了一个问题?
诱发的支持



情感支持诱导 0.91 当寻求情感支持时,作者试图获得理解、鼓励、肯定、同情或关心。 这条信息在多大程度上寻求情感支持?

信息支持诱导 0.95 当寻求信息支持时,作者试图获得建议、推荐或知识。 这条消息在多大程度上寻求信息支持?
提供支持
社会支持分为两种:情感支持和信息支持。

提供情感支持 0.92 情感支持信息提供理解、鼓励、肯定、同情或关心。 这条信息提供了多少情感支持?

提供信息支持 0.92 信息性支持消息提供建议、推荐或知识。 这条消息提供了多少信息支持?

10个土耳其人做出每个判断,用不同的子集对每条信息进行评级。我们通过平均打分来汇总员工对每条信息的回复。土耳其人判断提问的每条信息报酬为0.03美元,判断情绪自我表露、信息自我表露、感知支持需求和支持提供的每条信息报酬为0.05美元。为了鼓励员工认真对待数字评分任务,他们还在信息中突出显示了为他们的评分提供证据的单词和短语。为了进一步控制注释的质量,我们将员工库限制为土耳其人,他们表明了美国的位置,并且至少98%的工作被他们以前的土耳其雇主接受。

表2提供了土耳其人判断的7个构念之间的描述性统计和相关性。

表2。由Turkers编码的结构之间的描述性统计和相关性。
变量 意思是(SD) 1 2 3. 4 5 6 7 8
1.积极的情绪表露 1.55 (0.96) 1






2.消极情绪表露 2.39 (1.52) 06 1





3.积极的信息披露 1.89 (1.09) .76 .09点 1




4.负面信息披露 3.58 (1.72) .68点 1



5.问题问 4.94 (2.17) .35点 06 。31 1


6.情感支持诱导 2.75 (1.66) 13。 .79 .09点 算下来 1

7.信息支持诱导 4.21 (2.01) 36 06 .37点 多多 陈霞 1
8.提供情感支持 2.68 (1.43) 16 .14点 1
9.提供信息支持 2.93 (1.47) 23) . 01 23) 13。

以下是我们最终手工编码数据集中的2个示例。例1显示了具有高情感支持和低信息支持的消息,例2显示了具有低情感支持和高信息支持的消息。示例消息使用Bruckman [31].虽然这些例子说明了一种支持高而另一种支持低的情况,但在整个手工编码的样本中,这两种类型的支持仅呈弱负相关(r972=。P<措施)。

例1(情感支持=5.7;信息支持= 1.0):

朱莉,你经历了这么多困难,但你仍然在学校表现得很好……你真的激励了我。热烈的网络拥抱和最美好的祝愿:>

例2(情感支持=1.2;信息支持= 4.5):

结外延伸是指肿瘤通过淋巴结壁延伸。这在病理报告中被注意到,但在主要情况下,它不是很重要,并且不用于评估癌症分期。

我们使用类内相关性(ICC)评估了评分者判断的可靠性,它表明了判断中可归因于被判断的信息的方差比例。表1显示了本研究中使用的社会支持相关结构的ICCs。我们通过将土耳其人的判断与专家对信息和情感支持的判断进行比较,验证了他们的判断,这些信息和情感支持包含在Meier等人研究的语料库中选择的50条信息中。21]和班比娜[16].土耳其人与专家对情感支持的平均评分之间的相关性(r=.70)和信息支持(r=.76)都很高。

结果

诱导策略与支持提供的关系

我们首先测试了自我表露引发情感支持,而问题引发信息支持的假设,使用1000个turker编码的信息数据集。我们使用结构方程模型研究了帖子发起者自我表露和提问的数量与第一个回复中提供的情感和信息支持的数量之间的关系。报告了标准化回归系数(β)。图2显示结果的路径模型。该模型很好地拟合了人工编码数据,比较拟合指数(CFI)=0.98,近似均方根误差(RMSEA)=0.062(见[32]用于评估结构方程模型拟合优度的经验法则;CFI>0.97通常被认为是良好的拟合,而RMSEA介于0.05至0.08之间通常被认为是可接受的拟合)。注意,我们在模型中没有包括积极/消极情绪自我表露和信息支持提供之间的关系,因为这些关系并不显著,排除它们可以提高模型的拟合性。这适用于本文所报道的所有模型。

更多的线程启动信息包含消极的情绪自我表露(beta=。24, se 0.04,P<.001)和消极的信息自我披露(beta=。25, se 0.04,P<.001),对他们的回应越多,提供的情感支持就越多。积极的信息自我表露也与回答中更多的情感支持有关,尽管没有那么强(beta=。10, se 0.04,P= .02点)。然而,积极的情绪自我表露与更多的情绪支持没有显著相关(beta=。07, se 0.04,P= 10)。与自我表露通常会增加情感支持的效果相反,提问与获得较少的情感支持相关(beta= -)。21, se 0.03,P<措施)。

参与者使用不同的策略来获得信息支持。发帖者在明确要求时更有可能获得信息和建议,但在描述生活中积极的事件时则不太可能得到。线程启动者提出的问题越多,第一个回复提供的信息支持就越多(beta=。38, se 0.03,P<措施)。相反,当线程启动者透露更多积极的信息自我表露时,回复包含较少的信息支持(beta= -)。09, se 0.03,P= .003)。消极的信息自我表露与接受信息支持无关(beta=。3, se .03,P=球)。这些结果与之前的研究结果一致,即提出明确的问题并提供理由可以获得信息和建议。3334].相比之下,当话题发起者描述他们生活中的积极事件时,他们不太可能收到信息和建议,即使他们问了问题。也许在这些情况下,接收者认为线程启动者并不真正需要他们的帮助,尽管他们要求帮助。

图2。基于turker编码数据的社会支持沟通过程路径模型分析。值表示标准化回归系数。ε1和ε2表示误差项。*P< 05;**P< 01;***P< 001年。
查看此图
感知支持需求的中介效应

当人们以自我表露为主题时,特别是当他们透露了生活中消极的想法、感受和消极事件时,当他们避免问问题时,其他人可能会为他们提供情感支持。然而,当他们提出问题并避免描述生活中积极的事件时,其他人会为他们提供信息和建议。我们假设这些语言特征会导致社会支持,因为社区中的其他参与者分别将它们视为情感支持和信息支持需求的指标。也就是说,社区的其他成员将这些语言特性视为对特定类型支持的请求。为了验证这一假设,我们进行了中介分析,以评估线程启动消息中的语言特征是否对回复中的情感和信息支持有影响,因为它们表明了对特定类型支持的渴望。

结果显示在图3,其中只包括结构之间的直接路径。尽管CFI指数(0.98)表明中介模型很好地拟合了数据,RMSEA标准(0.119)是有问题的。正如Schermelleh等人[32]指出,“决定数据模型是否适合或不适合是相当困难的,特别是如果模型适合的各种测量方法指向关于模型实际与观测数据匹配程度的相互矛盾的结论……[尽管存在关于什么构成良好拟合SEM模型的经验法则],但这些经验法则的截止标准是相当武断的,不应该太当真。”我们将我们的发现解释为中介作用。作为图3说明,当人们被认为在寻求情感支持时,他们就会得到情感支持(beta=。30, se 0.04,P<.001)和信息支持(beta=. 001)。36, se 0.04,P<措施)。语言特征在预测接受信息或情感支持方面的影响图2所有这些都至少部分地受到了作者寻求这种特殊支持的看法的调解,如所示图3.数据来自人类对每个结构的判断。数字表示结构方程模型的标准化回归系数。只有结构之间的直接联系才有意义P<。显示了05。间接效应可以通过直接效应的相乘来计算(例如,提问对通过寻求信息支持所介导的接受信息支持的间接效应为。80*.36=.29)。

从获得情感支持的角度来看,所有言语行为的效果都部分或完全受到其对作者寻求情感支持判断的影响。消极的情绪自我表露(写下悲伤、恐惧、愤怒和其他消极的想法和感受)与获得更多的情感支持有关,这种影响完全由作者寻求情感支持的感知所介导(间接效应/总效应=.19/.21=90%);在控制了作者寻求情感支持的知觉后,消极情绪自我表露对获得情感支持的直接影响变得不显著(beta=.02,P= .74点)。同样,积极的信息自我表露对获得情感支持的影响部分由作者寻求情感支持的判断所介导(.03/.13=23%),留下一个不显著的直接路径(beta=.10,P= . 07)。消极信息自我表露对获得情感支持的影响也部分受到作者寻求情感支持的判断的中介(.08/.23=35%)。消极信息自我表露对获得情感支持的直接影响从0.25 (in图2)至。15 (P<.001)时,控制了作者寻求情感支持的感知。提问对获得情感支持的负面影响也部分地由作者没有寻求情感支持的判断所介导(- 0.04 / - 0.14 =29%)。然而,提问对获得情感支持也有直接的负面影响(beta= -.10,P<措施)。

关注信息支持的接受,积极和消极的信息自我表露和提问的效果完全被它们对作者寻求信息支持的判断的直接影响所调节。尽管人们可能在提问后获得信息支持(总效应=.26),但总效应是由提问和寻求信息之间的联系以及寻求信息和接受信息之间的联系(.29/.26=112%)介导的。同样地,在接受信息支持的积极信息披露的总负相关中,有42%是由它与作者寻求信息支持的感知之间的关联所介导的(-.05 / -.12 =42%)。

图3。在帖子开始的时候,语言特征直接影响了发帖者寻求情感和信息支持的感知,以及对情感和信息支持的接受。值表示标准化回归系数。ε1、ε2、ε3、ε4表示误差项。*P< . 05;**P< . 01;***P<措施。
查看此图

方法

概述

第2部分试图部分复制前面描述的分析,这些分析基于对1000个交互的人类编码,通过使用机器学习技术对58,357个交互进行自动化编码。我们构建了机器学习模型来自动测量发帖者在帖子开始时使用的语言诱导策略,以及他们在第一次回复时获得的情感和信息支持。我们的目标是使用机器学习方法将信息的特征与人类对各种诱导策略以及情感和信息支持的存在所做的判断联系起来。如随后所述,输入特征包括消息的语言特征,例如长度、来自一般和特定领域词典的单词、语法特征(例如,名词和动词短语的顺序)、高级语义特征(例如,建议和问题的存在)和问题。输出是数值,表示一条信息提出问题或提供各种类型的自我披露或支持的程度。一个模型是成功的,如果(1)它对感兴趣的结果的评估与人类法官的评估相匹配;(2)它是简约的,使用少量的输入特征,同时产生准确的评估。

构建、验证和应用机器学习模型涉及5个步骤。首先,人工判断手工编码的语言策略和信息样本中的支持条款。他们的判断代表了“基本事实”或“黄金标准”,我们将机器学习估计与之进行比较。其次,我们将信息表示为一组可以被计算机解释的语言特征,并将其作为机器学习算法的输入。第三,通过迭代测试机器学习算法的不同配置和输入特征的组合,我们从部分手工编码的数据中确定了最佳的机器学习模型。第四,为了评估最终模型的性能,我们将它们应用于一个数据样本。最后,我们通过应用机器学习模型来测试假设,自动编码整个数据集中的58,357个线程启动者-优先回复对。

构建社会支持概念的机器学习模型

由于大多数健康研究人员不熟悉用于构建机器学习模型来测量自我表露、提问、情感和信息支持的方法,我们将详细描述它们及其基本原理。对于机器学习的一般处理,我们建议读者参考Witten等人[35].在我们的模型中,为每个结构构建模型的过程是相似的,因此我们通过描述如何测量情感和信息支持的存在来说明一般方法。

步骤1:创建人工编码数据集

我们使用第1部分中收集的注释作为机器学习模型训练的人类编码数据集。关于如何获得人工注释的详细信息已在第1部分中描述。

步骤2:确定语言特征

在第二步中,信息被表示为较低级的、计算机可读的语言特征,这些特征可能提供文本是自我表露、提出问题或提供情感或信息支持的线索。我们将重点放在我们认为可以反映人们谈论疾病及其关系时所使用的主题和写作风格的领域的语言特征的搜索上。我们关注6个语言领域:

  1. 身体:在线健康支持社区中最常见的对话主题之一涉及患者的身体以及疾病如何改变他们的身体。参与者可能会描述他们的身体状况以寻求建议或与他人分享他们的经历。有时他们会通过提及自己身体的变化来告诉别人治疗的结果,比如体重减轻或肿瘤的大小。对身体的讨论可以发出提供支持的信号,而不仅仅是自我表露。
  2. 积极/消极的情绪和事件:揭示潜在的情绪或分享个人生活事件和故事是一种自我表露和提供支持的方式。在线支持参与者经常分享自己的个人感受,并使用表示快乐、恐惧、愤怒和其他情绪状态的语言。人们还经常描述他们生活中发生的积极的事情,比如成功的治疗,以鼓励他人并为他们提供支持。
  3. 社会:社会关系对癌症幸存者至关重要。他们的疾病可能会改变他们与他人互动的方式。通过与他人的互动,他们可以感受到支持,并获得面对疾病的力量。在缺乏支持的情况下,他们可能会感到被抛弃。
  4. 精神方面:精神或宗教方面的评论可以提供社会支持,尤其是对那些有强烈宗教信仰的人。在这个在线乳腺癌社区中,精神评论的例子是“上帝保佑”和“我会把你加入我的祈祷名单”。
  5. 时间:在线支持讨论中经常提到与时间相关的信息。例如,癌症的分期和治疗过程涉及到时间。
  6. 语言结构:语言结构,如句子结构和标点符号,可以是社会支持的指标。例如,以代词“I”开头的句子很可能是自我表露。当作者提出直接问题时,句子通常以问号结尾,或者使用动词-主语的顺序(例如,“can you”)。

为了实现这6个领域的语言特征,我们测量了3种低级语言特征文本框1

总结了3种语言的基本特征。

1.语言查询和字数(LIWC)词典

  • 代词:我,我们,你,她/他,他们,非人称代词
  • 时态:助动词,过去,现在,将来
  • 情绪:积极情绪、消极情绪(焦虑、愤怒、悲伤)
  • 其他话题:认知机制、生物过程、时间、宗教、死亡

2.潜狄利克雷分配(LDA)主题字典

  • 诊断前、治疗计划、论坛交流、适应诊断、经济问题、淋巴水肿、饮食、家人和朋友、积极生活事件、手术、思想和感受、放化疗、家族史、情绪反应、肿瘤治疗、精神、情感支持、常规和时间表、脱发和外观、术后问题

3.句法和情感特征

  • 长度:句子数,每句字数
  • 否定:不
  • 词性:专有名词、形容词、基数
  • 建议模式:建议动词,, < you +情态>
  • 疑问句:问号,any, <动词+主语>,间接疑问句
  • 状态:是动词,静态动词,
  • 主体性:强主体性、弱主体性
  • 药品:FDA药品
文本框1。总结了3种语言的基本特征。

第一种语言特征来源于Pennebaker和他的同事开发的通用字典[36语言探究和单词计数(LIWC)程序,该程序测量功能词(特别是各种类型的代词)和与心理相关的主题(例如,积极情绪词,消极情绪词,认知词)。其次,我们使用潜在狄利克雷分配(LDA)主题建模创建了专门的癌症相关词典。第三,我们包含了消息的语法特性。最后,因为讲故事本身就是一种复杂的语言功能,所以我们添加了一个功能,可以指示一条消息是否揭示了关于作者的故事。

LIWC程序是一个单词计数程序,它计算文本中单词与代表语言维度(例如,代词,时态),心理结构(例如,积极情绪)和个人关注(例如,休闲,死亡)的68个预定义字典中的每一个匹配的频率[36].Alpers及其同事[23]分析了在线乳腺癌社区中使用人类评分者和LIWC的数百个帖子,并证明了评分者分配的评分与LIWC分数之间的适度相关性。在他们工作的激励下,我们将LIWC分数纳入了我们的机器学习模型,并将其视为基线特征。LIWC词典的选择基于它们与社会支持概念的先验相关性。例如,对于情感支持,来自“我们”词典的单词(例如,“我们”,“我们的”)表达了陪伴和团结的感觉,而来自积极情感词典的单词(例如,“爱”)和宗教词典的单词(例如,“祈祷”)表达了鼓励。为了提供信息支持,词汇形成非人称代词词典(如“it”),现在时词典通常用于描述客观事实。我们收录了17本LIWC词典文本框1

上述特征是一般性的,而不是为癌症相关讨论的内容量身定制的。对支持社区文本的分析研究表明,不同的主题可以标志不同类型的社会支持互动[37].例如,当人们使用与手术相关的术语时,如重建、皮肤和外科医生,他们很可能是在寻求信息,但当人们表达他们的恐惧和其他感受时,他们很可能是在寻求情感支持。LDA是一种统计生成模型,可用于发现文档中的隐藏主题以及与每个主题相关的单词[38].我们首先使用从整个数据集中随机选择的3万条乳腺癌信息训练了一个LDA模型。该模型被设定为派生20个潜在主题。对于每个主题,我们选择了与该主题关联度最高的500个单词,并用它们来构建主题词典。两位熟悉癌症的专家手动为每个主题分配了一个标签表3).来自LDA分析的主题示例包括情绪反应(例如,“更好”、“幸运”和“神圣”)、饮食(“脂肪”、“体重”、“食物”、“运动”和“身体”)和肿瘤治疗(例如,“活检”、“淋巴结”、“阳性”和“报告”)。文本框1列出了LDA分析中包含的20个主题表3还显示了每个LDA主题词典中最具代表性的单词。每个LDA主题特征计算消息中与相应字典匹配的单词的频率。当LDA过程识别出与先前存在的LIWC字典重叠的主题时(例如,LDA家庭/朋友字典与LIWC朋友和家庭字典重叠),出于节俭的原因,我们在机器学习模型中只使用其中一个字典。

表3。潜狄利克雷分配(LDA)主题词典中的词汇样本。
LDA的话题 样本的词汇
Prediagnosis 告知,约定,等待,回来
治疗计划 临床、风险、医学、治疗
论坛交流 发布,阅读,帮助,讨论
调整诊断 理解,尝试,体验
金融问题 保险,计划,公司,工资
淋巴水肿 手臂疼痛肿胀水肿
饮食 吃,体重,食物,运动,身体
家人/朋友 女儿,妹妹,妻子
积极的生活事件 爱,美好,快乐,享受,乐趣
手术 乳房,外科医生,乳房切除术
想法和感受 思考,记住,相信
同步放化疗 化疗,放疗,治疗
家族病史 妈妈,孩子,年龄,年轻
情绪反应 更好,幸运,害怕
肿瘤治疗 活检,淋巴结,阳性,请报告
精神上的 爱,上帝,祈祷,祝福,和平
情感支持 希望、拥抱、高兴、遗憾、最好、好运
程序/计划 今天,晚上,睡觉,工作
脱发/外观 头发,假发,生长,头
参与问题 疼痛,出血,他莫西芬,症状

每句话的句子数和字数是用来表示信息长度和复杂性的特征。否定特征是消息中包含否定词或短语的句子数,例如“不”、“不应该”或“没有”。由于某些词性(POS)可以传达与疾病相关的信息或情感,我们计算了几个特定POS标签的数量。例如,专业标签可以用专有名词表示(如“史密斯医生”),情绪状态可以用形容词表示(如“幸福”生活),数字可以用来描述症状或治疗方法(如“活检后10天”)。我们应用了斯坦福POS标记器[39],为单词分配POS标签,并提取相关POS特征。为了识别包含请求和建议的句子,我们识别了信息中的几种文本模式或动词。例如,是一个检测以单词“Please”开头的句子,后面跟着一个动词(例如,“Please give”)的模式。是一个计算以代词“You”开头,紧接表达可能性的情态动词(如“should”、“might”、“must”)的句子数量的模式。此外,建议动词特征考虑了“make”、“suggest”和“wish”等动词的出现。问题模式特征被设计用来计算信息中直接和间接问题句的数量。有4种疑问句模式特征,包括问号的数量、不定代词的数量(如“any”、“anyone”、“anyone”)、以情态动词开头的句子的数量(如“有人知道…吗”)和间接疑问句的数量(如“我想知道如果…”)。状态特性被设计用来捕获持续一段时间的状态。这些特征可能与描述情绪状态和讲故事有关。我们统计了“be”动词(例如,“我妈妈很抑郁”),静态动词(例如,“我爱我妈妈”),以主语“I”开头的句子(例如,),以及以主语“I”开头的句子后面接积极或消极形容词(例如,)的数量。 Sentiment features described the subjectivity of a text segment. We counted the number of strong subjectivity words (eg, “reject,” “nervous”) and weak subjectivity words (eg, “idea,” “suggest”) for every message using the OpinionFinder subjectivity lexicon [40].最后,根据从食品和药物管理局网站[41].

二元故事特征表明作者是否在信息中讲述了一个个人故事。一位语言专家将2200条随机选择的信息分为故事和不是故事。然后,我们建立了一个机器学习模型来预测信息的作者是否在讲述一个故事。该模型的特性集包括前面描述的所有基本语言特性。人类编码与计算机预测之间的kappa一致性统计值为.88,表明高度一致[42].然后,我们应用故事模型来检测从支持社区收集的150万条消息中的故事消息。在表4,将基本语言特征映射到语言使用域上。

表4。语言特征与语言使用领域的映射。
语言特征和用法域 LIWC LDA的话题 语法
身体 生物过程,死亡 诊断前、治疗方案、适应诊断、淋巴水肿、饮食、手术、化疗、家族史、肿瘤治疗、脱发和外观、术后问题 药物
积极/消极的情绪和事件 情感,认知机制 经济问题,积极的生活事件,思想和感受,情绪反应,情感支持 状态,主体性
社会 代词 论坛交流,家人朋友 - - - - - -
精神上的 宗教 精神上的 - - - - - -
时间 时间 日程安排 - - - - - -
语言结构 紧张的 - - - - - - 长度,否定,词性,建议模式,问题模式
步骤3和4:机器学习模型的构建和性能

我们的任务是一个机器学习回归问题。我们建立了7个机器学习回归方程来预测每条信息中土耳其人对情感或信息支持、提问或自我表露量的判断的平均值(见中列出的判断维度)表5).中列出的字典和其他特征是预测变量文本框1还有故事特色。我们使用Weka,一个机器学习工具包,来构建支持向量机回归模型(SMOreg) [35].由MTurk工作人员编码的1000个线程启动者或他们的第一个回复被随机分为训练集(80%)、开发集(10%)和测试集(10%)。利用训练集建立模型。开发集用于评估模型的不同配置和使用的特征的变化的准确性。一旦模型在开发数据上取得了良好的表现,我们就使用测试集来评估最终回归方程的表现如何。我们使用测试样本中100条消息的人类编码评级和机器测量之间的皮尔逊积矩相关性来评估预测。人类编码评分和机器测量在7个维度上的平均一致性为0.65,范围从0.85的信息支持到0.44的积极情绪自我表露。表5显示每个与支持相关的构造的评估结果。

表5所示。7个机器学习模型的准确性和特征。
机器学习模型和十大特征 准确性(皮尔森r一个 SMOreg的特征权重b
积极的情感自我表露 无误

积极情绪
0.32

每句话字数
0.28

宗教
0.25

<请+动词>
-0.21

句子数
0.16

< subject + positive_形容词>
0.13

否定
-0.10

我们
0.07

金融问题
-0.07

强烈的主观性
0.07
消极情绪自我表露 .59

焦虑
1.18

愤怒
0.51

< SUBJECT_I >
0.40

悲伤
0.28

< subject + negative_形容词>
0.27

死亡
0.23

否定
0.18

强烈的主观性
0.17

每句话字数
0.14

句子数
0.14
积极的信息自我表露 。45

积极情绪
0.31

宗教
0.27

悲伤
-0.25

句子数
0.25

每句话字数
0.23

<请+动词>
-0.20

< subject + positive_形容词>
0.16

日程安排
0.13

生物过程
-0.13

助动词
-0.12
消极的信息自我表露 .64点

焦虑
0.42

句子数
0.41

任何
0.32

生物过程
0.28

肿瘤治疗
0.26

< SUBJECT_I >
0.26

< subject + positive_形容词>
-0.25

愤怒
0.24


0.23

淋巴水肿
0.21
问题问 尾数就

句子数
-0.82

宗教
-0.72

每句话字数
-0.64

积极情绪
-0.59

问号
0.52

任何
0.50

专有名词
-0.40

<请+动词>
0.36

精神上的
-0.30

否定
0.27
情感支持 结果

句子数
0.55

情感支持
0.46

我们
0.45

她/他
-0.44


0.37

问号
-0.33

强烈的主观性
0.24

调整诊断
0.23

是动词
0.23

积极的生活事件
-0.23
提供信息支持 .85

句子数
1.13

每句话字数
0.38

问号
-0.33

精神上的
-0.26

参与问题
0.22


-0.20


0.20

强烈的主观性
-0.19

论坛交流
-0.17

肿瘤治疗
0.16

一个精确度相关是10个人类判断的平均值与机器学习模型输出之间的皮尔逊积矩相关。

b支持向量机回归模型的输出特征权重显示了消息中特征的存在与人类对该消息的判断之间的关联强度。

表5还介绍了与每个模型相关的10个最重要的特征。表中的每个数字代表支持向量机回归模型的输出权重,显示人类判断和机器预测之间的关联强度。例如,LIWC中宗教词语的出现是积极情绪自我表露的积极指标(权重=.25),但却是提问的消极预测指标(权重= -.72)。在表5,尖括号中列出的特征表示模式(例如,SUBJECT_I表示在句子的主语位置上有代词“I”的模式),而其他特征则是LIWC或lda派生的字典的名称。

考虑到所有这些模型都有足够的有效性,然后我们应用它们来衡量我们数据集中150万条信息中的每一条的情感和信息支持、自我表露和提问的数量(步骤5)。

结果

机器编码与人工编码的数据

使用来自58,357个至少收到一个回复的线程启动者的机器编码数据,我们试图部分复制第1部分中提出的分析(图2),测试了自我表露引发情感支持而问题引发信息支持的假设。我们没有试图复制中介分析图3使用机器编码的数据,因为预测感知支持需求的低级语言特征将与预测自我表露和提问的语言特征相同,从而产生通用方法差异的问题。表6显示模型中使用的变量之间的描述性统计和相关性。

表6所示。使用机器学习的结构之间的描述性统计和相关性(N=58,357个讨论线程)。
变量一个 意思是(SD) 1 2 3. 4 5 6
1.积极的情绪表露 1.27 (0.26) 1




2.消极情绪表露 2.29 (1.08) .19 1



3.积极的信息披露 1.67 (0.41) .14点 1


4.负面信息披露 3.69 (1.26) 0。 .04点 1

5.问题 5.26 (1.29) 53 16 的相关性 50 1
6.提供情感支持 2.64 (1.06) 23) 13。 1
7.提供信息支持 2.95 (1.18) 口径。 。08 .20 . 21 36 16

一个所有变量都是由机器学习模型估计的,该模型预测了一条消息中包含的第一列结构的数量,按照李克特7分制打分,1=完全没有,7=非常多。自我表露和问题测量是基于线程启动信息,而情感和信息支持的测量是基于线程中收到的第一个回复。

图4是路径模型,它显示了使用线程启动帖子中的语言特征来预测第一个回复中提供的情感和信息支持的数量的结果。报告的结果与我们使用前5个答复中提供的平均支持数量所得到的结果相似。无论是CFI (CFI=0.998)还是RMSEA (RMSEA=0.016),该模型都能很好地拟合数据。

从这个大样本的机器编码数据中得到的大多数结果与从小样本的人工编码数据中得到的结果相同。该模型显示,4种类型的自我表露在线程启动消息中出现的次数越多,第一个回复包含的情感支持(全部)就越多P<.001),尽管对积极情绪自我表露的影响不显著(P=.10)的人工编码数据模型。具体来说,在诱导情感支持方面,消极信息自我表露的效果(beta=。18, SE 0.01)的影响强于任何一种积极情绪自我表露的影响(beta=。09, SE 0.01)或消极情绪自我表露(beta=。10,SE0.01), which in turn were stronger than the effect of positive informational self-disclosure (beta=.06, SE 0.01). However, these comparisons of effect strength should be treated with caution given high correlations among some constructs in表6(例如,积极情绪和积极信息自我表露之间的相关性为0.83)。与人类编码的数据集一样,当线程启动者提出问题时,回复中包含较少的情感支持(beta= -)。17, SE 0.01),但更多的信息支持(beta=。29, se 0.01)。积极的信息自我表露似乎会抑制信息支持(beta= -)。06年,SE < 0.00)。消极的信息自我表露似乎能引出信息支持(beta=。07, SE<0.00),尽管这种关联在人类编码数据集中不显著,可能是因为样本量小。

图4。基于机器编码数据的社会支持传播过程分析路径模型。ε1和ε2表示误差项。所有P值均<.001。
查看此图

讨论

第1部分和第2部分的结果都与不同的会话策略导致获得不同类型的社会支持的论点相一致。当人们明确要求得到信息和建议时,他们会得到信息和建议,而当他们透露更多关于生活中事件的细节以及他们的想法和感受时,尤其是消极的想法和感受时,他们会得到情感上的支持。使用不同的方法——一小部分手工编码数据样本和一大部分机器编码数据样本——这些部分的研究得出了类似的结论,即人们在寻求支持时使用的语言与他们得到的支持类型之间的关系。然而,从机器学习模型中得出的结论可以更精确,因为它们的样本量更大。例如,在人类编码和机器编码的数据集中,积极的情感自我表露对获得情感支持的影响的标志是相同的,但仅在后者中具有统计意义,因为与更大的对话样本相关的统计力量更强。这些结果表明,对话数据的机器编码可以带来比人类编码数据更大的价值。

为什么情感支持是间接要求的,而信息支持是直接要求的?对于更多地使用间接策略来寻求情感支持的一种解释是,如果一个人需要寻求支持,这种支持可能会被认为不那么有价值。情感支持的一个主要目标是表现出提供者对接受者的关心。仅仅注意到接受者需要支持并提供它本身就是关心的证据。因此,相对自发的情感支持可能会被视为比接受者明确要求的回应更有爱心。相反,信息或建议的价值是基于所提供信息的质量,而不是如何征求信息。如果明确要求,这些信息的质量不会降低。

一个相关的解释是基于人们在没有得到他们所寻求的支持时可能做出的因果归因。我们的数据显示,人们通常会得到他们所请求的支持类型,在寻求和接受信息支持之间存在中度相关性(r=.37)以及寻求和接受情感支持(r=。31)。然而,人们有时得到的支持与他们的意图不符,或者根本没有得到任何回应。如果有人从社区寻求信息支持,但没有得到它,一个合理的归因是社区中阅读请求的人都不知道答案。然而,由于对情感支持请求的回应可能被视为关心的一般表达,当请求时未能获得情感支持的合理归因是社区中没有人足够关心并提供关心的表达。因此,请求者可能会回避他们的情感请求,以维持他们“值得关心”的幻想,即使他们未能得到支持;也可能维持其他社区成员“关心”的幻想,即使他们未能提供支持[43].

为什么人们会问明确的问题来获得信息支持,而更含蓄地要求情感支持,最后一个原因是,寻求信息支持的人可能比寻求情感支持的人更容易确定他们在寻找什么。信息支持寻求者想要关于治疗、药物、症状和日常生活问题的具体问题的答案。例如,在我们的文集中,他们想知道患有乳腺癌的人养猫是否危险,诊断出乳腺癌后抑郁会持续多久,谁是一个地方的好医生,或者乳房切除后是否要做重建手术。这些人知道他们在寻求什么样的信息或建议,因此可以直接询问。然而,寻求情感支持的人可能不确定他们到底想要什么样的回应。在寻求情感支持时,人们会使用诸如“我很害怕化疗的副作用,我很担心它会对我产生什么影响”或“我的朋友刚刚被诊断出患有乳腺癌,她甚至还不到32岁”或“对我所拥有的感到恐惧”之类的话。放射治疗8个月后,我的肋骨一侧出现了奇怪的肿胀。”尽管这些人可能对安慰、保证或社会比较有强烈的需求,但他们可能无法清楚地表达出能够缓解他们痛苦的支持形式。因此,他们可能会透露自己内心的动荡或生活中的负面事件,但却无法要求特定类型的支持,因为他们不知道该要求什么。相反,他们把它留给社区的其他成员来诊断他们的需求并做出适当的反应。


概述

虽然研究的第2部分使用了大数据样本的机器学习方法,用小样本复制和扩展了第1部分的发现,但研究的第3部分通过解决一个小样本无法实际回答的研究问题,即获得支持如何预测群体成员随后在群体中的参与,展示了自动编码的价值。在此,我们简要总结了之前发表的一项研究,在该研究中,第2部分中描述的情感和信息支持的自动化测量被用于预测参与者在乳腺癌支持社区的参与时间(生存时间)[25].

参与时间长短是一个重要的研究课题,因为它影响个体成员的结果以及整个团队的成功。人们在在线支持社区呆的时间越长,就越有可能得到它提供的任何好处。此外,留在组中的成员是其他成员的资源。他们分享信息,提供帮助,与他人建立社会关系,随着时间的推移,从寻求者转变为提供者。1344].关于对社区承诺的文献表明,信息和情感支持都应该增加承诺,因为参与者可能会认为这是参与的重要好处,而且有证据表明,获得的和预期的好处会增加成员留在群体中的可能性[45].

方法

概述

我们应用生存分析来检验这样一个假设:那些获得更多支持的人在支持社区中停留的时间更长,控制了他们收到的非支持性交流。生存分析是一种统计技术,用于调查对时间相关结果的影响,例如事件是否发生以及何时发生。在这项研究中,感兴趣的事件是一个成员离开社区的时间(或者相反,这个人继续参与的时间长度)。该分析通过情感和信息支持以及其他控制变量来预测参与支持社区的时长。因为在大多数在线群体中,成员在群体任期的早期离开的概率要比后期高得多,我们使用时变自变量的参数回归生存分析,假设生存时间为威布尔分布。分析使用Stata版本13 (StataCorp LP, College Station, TX, USA)对每个参与者有多条记录的参数回归生存时间模型进行streg最大似然估计。

样本

我们收集的数据不包含人们阅读了哪些消息,只包含他们发布的消息。为了估计人们接触到的支持的数量,我们假设人们在他们发布的一周内阅读了他们发布的线程中的所有消息。因此,生存分析仅限于30301名至少发布了一条消息的人,因为没有公开的行为,就不可能估计他们查看的支持数量。有了这么大的数据量——大约30,000名成员暴露在大约50万条消息中——手动编码所有帖子是不现实的。因此,我们对暴露的测量是基于第2部分中描述的情绪和信息支持的机器编码测量。

测量辍学

我们将每个成员的第一篇帖子的时间戳作为参与乳腺癌讨论论坛的开始日期。此外,我们假设参与者如果在上次发帖后的12周内没有再次发帖,就会离开社区。根据这些标准,用户可以退出群组并多次重新加入。如果我们假设人们只离开小组一次,随后报告的结果是相同的。因为那些在数据收集结束后12周内发表最后一篇文章的人可能仍在参与,我们将他们视为正确的审查。

预测变量

计数后暴露是用户公开的帖子总数,假设用户在其发布的一周内阅读了在线程中发布的所有消息。它是用户在同一周和同一线程中发布消息的帖子数。

接触情感和信息支持对于一个用户来说,是机器编码的情感和信息支持的平均水平,分别是用户在同一周和同一条帖子中发布的所有消息的平均值。

有个人资料是一个二进制度量,表明用户是否创建了个人资料页面(1)或没有(0)。共有31.19%(9,452/30,301)这样做了。

线程启动器百分比一个人在一周内发布的帖子是线程启动者的百分比(即,一个用户在一周内发布的线程启动者的数量除以该用户在一周内发布的帖子总数)。我们之所以包含这个变量,是因为发起对话的人可能与那些参与由他人发起的对话的人不同。

结果

表7而且图5显示生存分析的结果。影响是根据风险比报告的,这是解释变量的单位增加对参与者在任何特定周内离开社区的概率的影响。因为除了“有一个剖面”之外的所有解释变量都是标准化的,所以风险比是预测器中一个单位增加的退出概率的预测变化(即,有一个从0到1的剖面变化,或者当所有其他变量都处于平均水平时,连续变量以一个标准偏差增加)。风险比大于1表示离开的可能性增加,而风险比小于1表示留下的可能性增加。

表7所示。生存分析结果。
预测变量 风险比 SE P
有个人资料 0.511 0.010 <措施
%线程启动器 0.853 0.010 <措施
计数后暴露 0.343 0.012 <措施
情感支持暴露 0.665 0.008 <措施
信息支持暴露 1.048 0.012 <措施
计数曝光×情感支持曝光 0.493 0.011 <措施
后计数曝光×信息支持曝光 0.953 0.020 02

在解释风险比时,比较由没有档案的成员组成,他们接触到包含平均水平的情感和信息支持的平均数量的消息。有档案的风险比值为0.51,意味着有档案的成员继续参与的可能性比没有档案的成员高49%(100% -[100%*0.51])。一周内开启更多话题的人继续参与的可能性比那些只回复别人帖子的人高15%。

事后计数暴露的风险比表明,当所有其他变量都处于平均水平时,看到的信息比平均值多一个标准差的人的存活率要高66%。那些接触到平均数量包含平均标准偏差的情感支持的人,留在小组的可能性高出33%。相比之下,那些接触到包含平均数量的消息的人,他们有5%的可能性离开小组。信息数量与支持类型之间的交互作用表明,当人们接触到更多的信息时,情感支持和信息支持的差异效应更大。那些接触到标准差信息越多,情感支持越多的人留在小组的可能性增加了50%,而那些接触到标准差信息越多,情感支持越多的人离开小组的可能性增加了5%。接触到更多信息和更多情感支持的信息的影响是非常强大的。例如,基于生存分析中的表790天后,在接受平均数量的信息和平均数量的情感支持的参与者中,预计只有3%的人会在小组中活跃。相比之下,如果他们接触到标准偏差的信息(平均支持水平),他们预计活跃的数量将超过10倍(35%),如果他们接触到标准偏差的信息(包含标准偏差的信息比平均情感支持多),预计活跃的数量将超过20倍(67%)。

图5。不同岗位数量和社会支持类型成员的生存曲线。注意:尽管获得更多的信息支持与较低的站点寿命可靠地相关,但影响很小,并且无法从视觉上区分代表高信息支持的线与代表平均信息支持的线。
查看此图

讨论

对于为什么情感支持与留在团队有关,而信息支持与离开团队有关,有几种似乎合理的解释。也许很多信息需求都是短期的。因此,有信息需求并从他人那里获得信息的人,这些即时需求得到了满足,几乎没有理由再返回,就像一个人在查完定义后可能不会继续阅读字典一样。另一方面,情感支持的需求可能是长期的,需要多种互动才能满足。另一种可能是,寻求情感支持的人本身更善于社交,更倾向于欣赏社区提供的鼓励和社会比较,而寻求信息的人则不是这样。最后,在无节制的健康支持社区中交换的事实信息可能缺乏来自经过审查的来源(如医生或美国癌症协会运营的网站)的信息的准确性、可信度和实用性。出于这个原因,接受信息支持的人可能会因为他们对所获得的信息的负面评价而离开。相比之下,在社区中获得的情感支持可能被认为更有价值,因为来自网站上类似其他人的社会比较、同理心和鼓励在群体之外是无法复制的。


网络支持社区中的社会支持交换是人们主动寻求并获得支持的动态交流过程。这项研究表明,在癌症支持社区中,不同的对话动作与获得情感和信息支持有关。当人们自我揭露他们的经历,尤其是消极的经历,当他们报告消极的想法和感受时,其他人会为他们提供情感支持。相反,当人们问问题,谈论生活中消极而非积极的事件时,其他人会为他们提供信息支持。此外,人们得到的支持与他们在支持社区中的持续参与有关。在接触到更多的信息和更高的情感支持后,他们更有可能继续参与,但在接触到更高的信息支持后,他们更有可能离开。

除了这些实质性的结果,我们的研究还证明了在线对话自动编码的价值。大多数支持性社区的交流研究都是基于手工编码相对较小的对话样本。在第2部分中,使用机器学习技术,我们能够在很大程度上复制基于人类编码的发现,并发现了不足的人类编码研究没有发现的关系。此外,第3部分使用自动化编码进行分析,这将是不可行的人工编码;也就是说,研究在10年期间接触50多万条消息与3万多参与者对在线支持社区的承诺之间的关系。

我们还概述了如何使用现代机器学习和语言分析技术来更好地理解在线健康支持社区和其他在线社区中的交互。尽管之前的研究人员已经表明,在在线支持社区中自动化一些对话的文本分析,并产生部分反映人类编码结果的机器编码结果是可行的,但大多数人未能提供足够多的方法细节,让持怀疑态度的研究人员能够挑战他们所做的假设或复制他们的工作。为了纠正文献中的这一缺陷,我们提供了大量关于机器学习模型的信息,这些模型旨在自动识别乳腺癌论坛中的自我表露、提问以及情感和信息支持。我们预测社会支持概念的模型的表现表明,使用计算机程序自动分析在线支持社区中的对话是可行的。特别是,我们认为,我们使用的特征集可以有效地应用于使用其他健康支持数据集构建社会支持预测模型。LIWC和语言特性可以直接应用,因为它们是通用的,不适合任何特定的领域。当研究人员将这些方法应用于另一个健康领域时,他们需要做的主要工作是根据感兴趣的数据重新创建定制的LDA主题词典。现在有很多工具可以对语料库进行LDA分析[4647],这一步可以毫不费力地应用到一个新的语料库。


当前研究的一些局限性值得注意。关于自动编码,一些结构的准确性,特别是自我披露措施,低于预期,从而削弱了效应量。虽然可以调整衰减的效应大小估计[48],未来应该努力改进测量,也许可以增加额外的语言特征或反映海报过去行为的特征。此外,用于开发机器学习模型的ground truth标签是基于MTurk工作人员提供的注释,而这些工作人员并不是请求或接受支持的人。自然的下一步是用实际提供或接受支持的人提供的标签来验证MTurk工作人员提供的标签。

此外,尽管我们目前的分析基于66个论坛的大量数据,但我们只在一个在线健康支持网站上检查了一种疾病(乳腺癌)。其他在线健康支持社区可能会产生不同的模式。例如,在前列腺癌支持社区中,自我表露对情感支持提供的积极影响可能是不同的,因为男性不太可能谈论他们的想法和感受,当他们自我表露时,他们的行为可能更引人注目。进一步研究其他在线支持社区可以帮助我们更好地理解和确认我们的发现。

最后,尽管我们的研究结果表明,人们使用不同的语言策略来获得信息和情感社会支持,并且暴露于信息和情感社会支持对承诺有不同的影响,但我们的分析是相关的。我们知道,请求尝试先于提供支持,而获得支持先于决定离开或留在小组,但我们既没有证明,我们标记为支持诱导的消息实际上是在请求支持,我们标记为提供支持的消息实际上是这样做的,也没有证明,线程启动消息或回复中的语言实际上会导致其他人采取不同的行动。需要实验室或现场实验来操纵支持语言,以测试我们观察到的相关关系是否代表因果关系。

虽然目前的研究使用了支持语言的自动编码来更好地理解健康支持社区中的对话动态,但这些相同的技术可以用于改善这些社区的运作方式。使用在线社交网站(如Facebook)中常见的过滤技术,有可能增加寻求支持的信息被能够提供这些信息的人看到的可能性。例如,使用我们描述的自动分类程序,可以自动识别正在寻求某种类型的支持,但在超过80%的消息收到回复的24小时窗口内没有收到支持的消息。然后,这些消息可以通过电子邮件发送给社区中最近活跃并在过去回复过类似消息的其他人。

致谢

本研究由美国国家科学基金IIS-0968485资助。我们要感谢Dong Nguyen为这个项目提供的数据。Carolyn Rosé为我们的研究和写作提供了宝贵的反馈。

利益冲突

没有宣布。

  1. 周WYS,亨特YM,贝克约德EB,莫泽RP,赫塞BW。社交媒体在美国的使用:对健康传播的影响。中国医学网络学报2009;11(4):e48 [免费全文] [CrossRef] [Medline
  2. 周wys,刘b, Post S, Hesse B.癌症幸存者中与健康相关的互联网使用:数据来自2003-2008年健康信息全国趋势调查。中华癌症杂志2011年9月5日(3):263-270。[CrossRef] [Medline
  3. Rains SA, Young V.正式计算机中介支持团体研究的元分析:检查群体特征和健康结果。人类传播研究2009;35(3):309-336。[CrossRef
  4. 李伯曼,戈兰特,吉泽-戴维斯,温兹伦伯格,本杰明,汉弗莱斯,等。乳腺癌电子支持小组:有效性的临床试验。巨蟹座2003 Feb 15;97(4):920-925 [免费全文] [CrossRef] [Medline
  5. Winzelberg AJ, Classen C, Alpers GW, Roberts H, Koopman C, Adams RE,等。对原发性乳腺癌妇女网络支持小组的评估。癌症2003年3月1日;97(5):1164-1173 [免费全文] [CrossRef] [Medline
  6. Eysenbach G, Powell J, Englesakis M, Rizo C, Stern A.与健康相关的虚拟社区和电子支持小组:在线对等交互影响的系统回顾。英国医学杂志2004;328(7449):1166-1171。[CrossRef
  7. Lakey B, Lutz C.社会支持和预防治疗干预。见:社会支持和家庭手册。纽约:施普林格美国;1996:435 - 465。
  8. Ridings CM, Gefen D.虚拟社区吸引力:人们为什么在网上闲逛。计算机媒介通信学报2004年11月10日(1):00 [免费全文] [CrossRef
  9. 邓克尔-谢特C,范斯坦LG,泰勒SE,法克RL。应对癌症的模式。健康心理,1992;11(2):79-87。[Medline
  10. Dunkel-Schetter C.社会支持与癌症:基于患者访谈的发现及其意义。社会问题杂志1984;40(4):77-98。[CrossRef
  11. Helgeson VS, Cohen S, Schulz R, Yasko J.乳腺癌患者的群体支持干预:谁受益于什么?健康心理2000 3月19日(2):107-114。[Medline
  12. 雅各布C,罗斯RD,沃克IM,斯托克代尔FE。癌症患者的行为:教育和同伴支持小组影响的随机研究。中华医学杂志1983年6月;6(3):347-353。[Medline
  13. 赫格森,科恩,舒尔兹,雅斯科。教育和同伴讨论组干预对乳腺癌适应的长期影响。健康心理杂志2001 9月20日(5):387-392。[Medline
  14. Pearlin L, McCall M.职业压力与婚姻支持。入:埃肯罗德J,戈尔S,编辑。工作和家庭之间的压力。纽约:施普林格美国;1990:36-60。
  15. Barbee AP, Cunningham MR, Winstead BA, Derlega VJ, Gulley MR, Yankeelov PA,等。性别角色期望对社会支持过程的影响。社会问题杂志1993;49(3):175-190。[CrossRef
  16. 在线社会支持:社会网络和计算机媒介传播的相互作用。纽约:坎布里亚出版社;2007.
  17. Burke M, Joyce E, Kim T, Anand V, Kraut R.介绍和请求:在网络社区中引发反应的修辞策略。在:社区和技术。英国伦敦:施普林格伦敦;2007:21-39。
  18. Rodgers S, Chen Q.互联网社区团体参与:乳腺癌女性的心理社会益处。计算机媒介传播学报2005;10(4):00。[CrossRef
  19. Cutrona CE, Russell DW。社会支持类型与特定压力:一种最优匹配理论。在:社会支持:一个互动的观点。纽约:Wiley-Interscience;1990:319 - 366。
  20. 哈迪M。“我的病的故事”:互联网上的个人疾病记录。卫生2002 1月1日;6(1):31-46。[CrossRef
  21. Meier A, Lyons EJ, Frydman G, Forlenza M, Rimer BK.癌症幸存者如何在癌症相关的互联网邮件列表中提供支持。中国医学杂志,2007;9(2):e12 [免费全文] [CrossRef] [Medline
  22. Shaw BR, McTavish F, Hawkins R, Gustafson DH, Pingree S.乳腺癌女性的经历:通过CHESS计算机网络交换社会支持。中华卫生杂志2000;5(2):135-159。[CrossRef] [Medline
  23. Alpers GW, Winzelberg AJ, Classen C, Roberts H, Dev P, Koopman C,等。网络乳腺癌支持小组计算机文本分析的评价。人类行为中的计算机2005年3月21日(2):361-376。[CrossRef
  24. 韩建勇,沙DV,金E,南孔K,李雪雪,文TJ,等。在线癌症支持小组中的共情交流:区分信息表达和接收效应。卫生公报2011年3月;26(2):185-197 [免费全文] [CrossRef] [Medline
  25. 王玉春,克劳特R,莱文JM。留下还是离开?:情感和信息支持与在线健康支持小组承诺的关系。2012年发表于:ACM 2012年计算机支持合作工作会议记录;2012年2月11-15日;西雅图,华盛顿州833-842页。
  26. 自动文本分类中的机器学习。计算机应用研究,2002;34(1):1-47。[CrossRef
  27. Chartrand TL, van Baaren R.人类拟态。心理学报2009;41:19 19-274。[CrossRef
  28. 尼德霍夫KG, Pennebaker JW。社会交往中的语言风格匹配。语言与社会心理学杂志2002年12月1日;21(4):337-360。[CrossRef
  29. 面对面对话中协同指涉过程中的协同言语手势模仿。《非言语行为》2011年1月23日;35(2):133-153。[CrossRef
  30. R斯诺,O'Connor B, Jurafsky D, Ng AY。又便宜又快捷——但它真的好吗?:为自然语言任务评估非专家注释。自然语言处理的经验方法会议论文集。2008发表于:自然语言处理的经验方法会议;2008年10月25日至27日;檀香山,HI页254-263。
  31. Bruckman A.教学生从道德角度研究网络社区。信息伦理杂志2006年11月1日;15(2):82-98。[CrossRef
  32. Schermelleh-Engel K, Moosbrugger H, Müller H.评价结构方程模型的拟合:显著性检验和描述性拟合优度测度。心理研究方法在线2003;8(2):23-74。
  33. 陈志强,陈志强,陈志强,陈志强,Rosé,等。对我说:在线社区中成功的个人-群体互动的基础。载于:计算机系统中的人因因素SIGCHI会议论文集。2006发表于:计算机系统中的人因因素SIGCHI会议论文集;2006年4月22日至27日;蒙特利尔,QC。[CrossRef
  34. 伯克M,克劳特R,乔伊斯E.会员资格的要求和要求:在线群组中的对话级新人社会化策略。小组研究2009年12月11日;41(1):4-40。[CrossRef
  35. Witten IH, Frank E, Hall MA。数据挖掘:实用机器学习工具和技术,第三版(Morgan Kaufmann数据管理系统系列)。加州旧金山:摩根·考夫曼;2011.
  36. Pennebaker JW, Booth RJ, Francis ME。语言探究与字数统计:LIWC2007。德克萨斯州奥斯汀:LIWC.net;2007.
  37. 中方通过LR。在线临终关怀支持社区的情感和信息支持信息。中国计算机科学,2008;26(6):358-367。[CrossRef] [Medline
  38. 布利DM,吴艾,Jordan MI。潜狄利克雷分配。J Mach Learn Res 2003; 3:93 -1022。
  39. 丰富最大熵词性标注器中使用的知识来源。在:2000年联合SIGDAT自然语言处理和非常大的语料库的经验方法会议论文集:与计算语言学协会第38届年会一起举行-第13卷。2000年发表于:SIGDAT关于自然语言处理和大型语料库的经验方法的联合会议:与计算语言学协会第38届年会同时举行;2000年10月7日至8日;香港p. 63-70。
  40. 李文杰,李文杰。情感分析中语境极性的识别。自然语言处理的经验方法会议论文集。2005年发表于:自然语言处理的经验方法会议;2005年10月6日至8日;温哥华,公元前347-354年。[CrossRef
  41. 美国食品和药物管理局,2013。药物URL:http://www.fda.gov/Drugs/[访问过2014-05-22][WebCite缓存
  42. 名义比额表的一致系数。教育与心理研究1960年04月01日;20(1):37-46。[CrossRef
  43. 戈夫曼E.关于面部美容;社会互动中的仪式元素分析。精神病学1955年8月18日(3):213-231。[Medline
  44. 读者-领导者框架:激励技术介导的社会参与。系统工程学报2009;1(1):13-32。
  45. 莫兰德RL,莱文JM。组织和工作小组的社会化。入职:特纳ME,编辑。工作中的群体:理论与研究。马赫瓦,新泽西州:心理学出版社;2001:69 - 112。
  46. 槌。2014.MAchine Learning for LanguagE Toolkit网址:http://mallet.cs.umass.edu/index.php[访问过2014-05-22][WebCite缓存
  47. 斯坦福大学自然语言处理小组,2014。斯坦福主题建模工具箱网址:http://nlp.stanford.edu/downloads/tmt/tmt-0.4/[访问过2014-05-22][WebCite缓存
  48. 广义线性模型中的测量误差。通信统计-模拟与计算2007年6月27日;14(3):529-544。[CrossRef


CFI:比较拟合指数
冲击:人类智能任务
人力资源:风险比
LDA:潜在狄利克雷分配
LIWC:语言探究与字数统计
POS:词性
RMSEA:近似的均方根误差


G·艾森巴赫(G Eysenbach)编辑;提交28.05.14;同行评议作者J Huh, A Bambina;对作者18.06.14的评论;修订版本收到日期05.09.14;接受07.10.14;发表20.04.15

版权

©王怡嘉,Robert E Kraut, John M Levine。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2015年4月20日。

这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map