这是一篇开放获取的文章,根据创作共用署名许可(http://creativecommons.org/licenses/by/2.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
尽管社交媒体广泛流行,但人们对这些媒体用户发布的与痛苦有关的帖子的程度和背景知之甚少。
目的是研究与疼痛相关的推文的类型、背景和传播。
我们对来自50个城市的与疼痛相关的推文进行了内容分析,以不引人注目地探索关于疼痛的交流的含义和模式。内容是根据每天的地点和时间,以及在线社交网络的背景进行检查的。
与“痛苦”相关的最常见词汇包括“感觉”(1504)、“不要”(702)和“爱”(649)。正面情绪的推文比例从马尼拉的13%到加州洛杉矶的56%不等,各城市的中位数为29%。从时间上看,具有积极情绪的推文比例从1600年的24%到2400年的38%不等,中位数为32%。与苹果、曼联和奥巴马等常见词汇相关的社交网络相比,基于twitter的与疼痛相关的社交网络表现出更大的稀疏性和更低的连通性。与客观词汇如苹果(0.26)、曼联(0.14)和奥巴马(0.25)相比,情绪词汇如累(0.45)、高兴(0.43)和悲伤(0.4)的词簇数量与节点数的比例更大。
综上所述,我们的研究结果表明,与疼痛相关的推文具有特殊的特征,反映了独特的内容和推文之间的交流。进一步的研究将探索地缘政治事件和季节变化如何影响推特用户对疼痛的感知,以及这种感知如何影响疼痛治疗。
推特是世界上最受欢迎的微博网站,每3天就有超过10亿条推文发布[
对许多人来说,疼痛是日常生活中无所不在但值得庆幸的短暂经历。然而,对于超过1亿的美国人来说,这种短暂的体验并没有消退,而是发展为慢性疼痛,造成超过6350亿美元的损失。一半以上的住院患者和50%-75%的癌症患者死于中度至重度疼痛。在急性疼痛情况下,超过60%的手术患者在手术后遭受中度至重度疼痛[
Twitter内容探索的两个核心领域是(1)内容分析或从推文本身提取意义;(2)基于推文转发模式的社区结构分析或社交网络测量。内容分析包括对词汇使用和关联的简单测量,以及通过情感分析对推文影响的量化[
转发的社区结构分析衡量了基于twitter的社交网络的连通性。先前的观察表明,慢性疼痛可能与不同形式的社会隔离有关,甚至可能导致不同形式的社会隔离[
据我们所知,这样的分析方法还没有应用到推特用户的communiqués上。在这里,我们探索了来自世界各地的65,000多条推文的内容,每条推文都包含“疼痛”一词。我们讨论了使用文本分析和网络分析相结合的可能性,可以利用Twitter在日常生活中不引人注目地研究疼痛的定性、多维方面。我们有两个目标:(1)评估与疼痛相关的推文的上下文和情绪;(2)比较基于twitter的与疼痛相关的社交网络与包含跨文化通用情感术语(快乐、兴奋、悲伤、恐惧、疲劳、痛苦)和常见客观术语样本(苹果、曼联、奥巴马)的网络的连通性[
我们假设存在与疼痛相关的特定主题;在null中,与疼痛相关的一组随机术语。
我们在与疼痛相关的推文中假设了积极和消极情绪的混合;在null中,一种一致的负面情绪。
我们假设与其他情感和非情感术语相关的网络相比,基于twitter的与疼痛相关的转发网络具有独特的连接模式;在null中,连接模式与其他基于twitter的转发网络难以区分。
佛罗里达大学的机构审查委员会(IRB-02)宣布该项目豁免为公共数据调查研究。进行了两个系列的分析。第一项研究检查了与疼痛相关的推文内容,第二项研究了推特用户转发与疼痛相关内容的社交网络。每组分析都使用了单独的与疼痛相关的推文语料库。
在经典内容分析中,人类读者在一组文本中识别主题或概念。我们使用自动化的基于计算机的内容分析,提取了65000条与疼痛有关的推文中经常提到的概念。这种从社交媒体平台中提取概念的方法之前已经被许多团队证明,以解决广泛的问题[
数据是在2012年9月的一次搜索中收集的。我们首先创建了一个函数,请求1500条最近包含“pain”一词的英文推文[
在选中的50个城市中,每一个都重复了搜索。为了保证质量,每个城市总共有10%的推文进行了视觉检查。我们认为,由于查询代码中的错误,来自一个城市的数据被发现损坏,并从进一步分析中删除。考虑到其他所有推文都是在批量搜索中收集的,考虑到由于搜索时间不同导致的抽样倾斜,我们选择不重复这个城市的数据收集。
值得注意的是,该分析中的推文并没有专门搜索“#pain”,因此该标签被用作元标签,将一条推文标记为包含特定主题[
从这个样本中获得的推文被合并到一个痛苦推文语料库中,由所有收集到的推文的文本组成。在这里,“语料库”(及其复数“语料库”)指的是进行分析的文本体。
为了测量一条推文中的词语与“疼痛”或其他词语相关的频率,我们使用了一种被称为图表分析的分析方法[
对于每个术语,总度中心性首先通过计算该术语与语料库中其他术语之间有多少不同的链接或边来计算。通过检查术语组之间的关联程度,而不是其他术语或术语组,使用基于鲁文方法的团体检测算法确定了彼此共同关联的术语团体[
推文的情感评分将基于规则的方法与统计建模系统相结合,创建了一个混合情感分类器[
分类者的得分与使用评分者之间一致评分系统的人类情绪评分进行了比较。考虑到最初对情绪分析实施的担忧,每个审稿人都参与了由首席研究员(PT)进行的简短教学会议,并给出了具体的例子,包括“锻炼很棒!一分耕耘一分收获!,而不是“脚踝扭伤,疼痛难忍,错过比赛真难过!”来表达负面情绪。然而,考虑到情感分析的主观性和这种表征的探索性,没有提供更正式的培训。鉴于历史上注释者与情感分析之间的一致性较差,一些人认为,基于规则和基于分类器的情感分析提供的决定性结果可能比人类注释者提供的结果更具方法论优势[
探索性分析将美国城市的基本人口和气候数据与对这些城市持积极态度的痛苦相关推文的比例联系起来。这种探索性分析的动机来自于历史上的临床智慧以及Keller等人的工作[
2013年3月,我们在Twitter上搜索了以下关键词:痛苦、#痛苦、快乐、兴奋、悲伤、恐惧、疲惫、痛苦、苹果、曼联和奥巴马[
导入Gephi后,计算每个搜索词的网络级和节点级度量[
为了确定那些参与疼痛转发网络的人转发其他情感术语的频率,我们从疼痛术语网络中抽取了100名个人,他们提交了包含“疼痛”一词的推文作为转发或向另一个推特用户提及。使用twitteR包中的userTimeline函数(twitteR包中为R编程语言创建的一段特定的计算机代码),然后我们为这些人请求最多100条tweet。这些推文的文本被组合成一个语料库。然后在这个语料库中搜索之前提到的6个情感词(快乐、兴奋、悲伤、恐惧、疲惫、痛苦)和3个客观词(苹果、曼联、奥巴马)的出现次数。对于每个术语,计算并报告了其频率及其与术语“疼痛”频率的比例。更多的技术细节可在
对疼痛推文语料库的一个版本进行了分析,其中相同的推文被删除;这被称为减少疼痛推文语料库。对于图形分析,减少疼痛的吐温语料库包含47,958个非重复推文。在减轻疼痛的青少年语库中,最常见的词汇包括“感觉”(n=1504)、“不”(n=702)、“爱”(n=649)、“不能”(n=543)、“屁股”(n=374)、“时间”(n=340)、“生活”(n=328)、“lol”(n=327)、“受伤”(n=294)和“人”(n=288) (
减轻疼痛的青少年语料库图的平均度中心性为60.7,单个术语的总度中心性计数范围从0到5652,中位数为18 (
项之间频繁关联的边权值。
排名 | 项1 | 项2 | 边缘的重量 |
1 | 笑 | 看 | 566 |
2 | 不 | 感觉 | 395 |
3. | 上传 | 视频 | 361 |
4 | (名字) | 笑 | 335 |
5 | 哈特 | 笑 | 310 |
6 | 感觉 | 哈哈 | 283 |
7 | 感觉 | 爱 | 276 |
8 | 斜面 | 感觉 | 222 |
9 | 哈特 | 凯文 | 200 |
10 | ”“ | 感觉 | 183 |
11 | 醒着的 | 最糟糕的 | 171 |
12 | 婴儿 | 带 | 166 |
13 | 希望 | 运行 | 164 |
14 | 房子 | 运行 | 163 |
15 | 请 | 运行 | 161 |
16 | 芝加哥 | 运行 | 160 |
17 | 马拉松 | 运行 | 160 |
18 | 英里 | 运行 | 160 |
19 | iPhone | 脾气 | 158 |
20. | 航空公司 | iPhone | 158 |
21 | 希望 | iPhone | 158 |
22 | iPhone | 保证金 | 158 |
23 | (名字) | 看 | 155 |
24 | 航空公司 | 脾气 | 147 |
25 | 希望 | 脾气 | 147 |
与疼痛相关的推文语料库减少图。语料库中包含的每个词都用一个点表示;点大小对应于相关项的总度中心性。每个点的颜色表示模块化社区的成员。在一条推文中,只要一个词与另一个词相关联,这两个点就由一条线或边连接起来;边宽对应于两个相连项之间的关联频率。
包含在161个模块化社区中的术语百分比。
对该情感分类器进行了阶段验证。在第一阶段,基于规则的分类器(最初用于对大量文本主题进行分类)在3个测试集上进行了测试:基于搜索“快乐”的1500条推文语料库,基于搜索“悲伤”的1500条推文语料库,以及基于搜索“苹果”的1500条推文语料库。基于规则的分类器识别出92.67%(1390/1500)的“快乐”推文在情绪上是积极的,19.53%(293/1500)的“悲伤”推文在情绪上是积极的,38.32%(575/1500)的“苹果”推文在情绪上是积极的。naïve贝叶斯分类器专门针对与疼痛相关的推文进行了训练,识别出89.64%(1345/1500)的“快乐”推文在情绪上是积极的,69.7%(1046/1500)的“悲伤”推文在情绪上是积极的,90.24%(1354/1500)的“苹果”推文在情绪上是积极的
在第二个验证阶段,情感分类器在来自疼痛补间语料库的100条推文中进行了测试,这些推文以前没有用于naïve贝叶斯组件的训练。当由人类评分时,该测试集包含38%(38/100)(作者PJT), 37%(37/100)(作者RG)和19%(19/100)(作者MG)积极推文,这取决于评分者,科恩kappa为0.42,表明评分者之间的一致性较低至中等。基于规则的成分确定了42%(42/100)的这些推文是积极的,naïve贝叶斯成分确定了38%(38/100)是积极的,科恩的kappa在0.16的两个成分之间。当与naïve贝叶斯组件结合创建最终的混合分类器时,总共有39%(39/100)的疼痛渐变语料库测试集推文被评为情绪积极。基于规则和naïve的混合贝叶斯分类器的Cohen 's kappa为.382,人类评分者和混合分类器的Cohen 's kappa为.317 (
研究人员对整个疼痛青少年的65,410条推文进行了情绪分析。研究人员首先在不同城市之间比较了与疼痛相关的推文的情绪评分。正面情绪的推文比例从菲律宾马尼拉的13.13%(197/1500)到加州洛杉矶的55.73%(836/1500)不等,中位数为29% (
研究人员比较了24小时内与疼痛相关的推文的情绪评分(
城市层面的人口和气候特征与带有积极情绪的疼痛相关推文的百分比之间的相关性被作为探索性分析进行了检验(
正面推文比例与城市人口和气候数据之间的斯皮尔曼排序相关性(ρ)。
变量 | ρ |
|
没有医疗保险的百分比 | .476 | 02 |
九月平均高温 | .425 | 03 |
纬度 | -.420 | .04点 |
经度 | -.358 | 。08 |
九月平均降水日数 | -.305 | .14点 |
高中毕业生百分比 | -.198 | .35点 |
本科及以上学历。% | .180 | .40 |
贫困线以下的个人 | -.169 | 点 |
年龄中位数 | .166 | 点 |
人口密度 | -.111 | .60 |
家庭收入中位数 | .108 | 收 |
人口 | -.018 | 公布 |
在选定的北美城市中,与疼痛相关的推文与积极情绪的比例。直径越大的圆圈表示在包含“痛苦”一词的推文中,积极情绪的比例越高。
24小时内包含积极情绪的日期和时间戳的与疼痛相关的推文的百分比。时间根据地理位置从UTC调整为当地时间。
在平均分布在11个搜索词中的16,500条推文中,48.28%(7967/16,500)涉及转发网络。通过对转发网络的视觉分析,与“苹果”、“曼联”和“奥巴马”相比,与“痛苦”相关的转发网络表现出更大的稀疏性和更低的连通性(
与弱连接网络组件的结果类似,与客观术语如苹果(0.26)、奥巴马(0.25)和曼联(0.14)相比,情绪术语如累(0.45)、高兴(0.43)和悲伤(0.4)的模块化社区数量与节点数的比例更大。
在检查疼痛术语网络中100个样本转发者中其他情感和客观术语的频率时,我们首先确定了这些人发布的5967条其他推文。值得注意的是,在本样本语料库中,“疼痛”一词仅被提及35次(
100名用户的痛苦网络推特用户中情绪词汇的出现情况。一个
术语 | 频率 | 频率与疼痛成比例 |
疼痛 | 35 | 1 |
快乐 | 73 | 2.09 |
兴奋 | 1 | 0.03 |
悲伤的 | 30. | 0.86 |
恐惧 | 24 | 0.69 |
累了 | 10 | 0.29 |
痛苦 | 0 | 0.00 |
苹果 | 1 | 0.03 |
曼彻斯特 | 0 | 0.00 |
奥巴马 | 5 | 0.14 |
一个从疼痛术语网络中抽取100名用户,这些用户提交了包含“疼痛”的推文,并转发了推文或向某人提及。请求这些人每人最多100条最近的推文。收集了5967条推文。搜索所有这些术语的文本。
(A)痛苦,(B) #痛苦,(C)快乐,(D)兴奋,(E)悲伤,(F)恐惧,(G)疲惫,(H)痛苦,(I)苹果,(J)曼联,(K)奥巴马。每个圆表示一个节点或Twitter用户,连接圆的每条线表示一条边,或在另一个用户的推文中提到一个用户。每条边都是有方向性的,因为它从初始Twitter用户“指向”到接收Twitter用户。节点大小反映了节点的中心性程度,线粗反映了节点之间的连接数,颜色反映了节点的连通性群落。
转发网络中的总节点(蓝色)和巨大的组件节点(红色)。
每个转发网络的节点数(蓝色)和模块化社区数(红色)。
这里提出的结果表明,与疼痛相关的推文具有特殊的特征,反映了独特的内容和推文之间的交流。大多数推文似乎都是在描述关系中的疼痛,尽管肯定有一些主题表示具体的身体疼痛。这些数据支持了这样一个假设,即推特上关于疼痛的讨论确实集中在一系列身体和非身体的话题上,而不仅仅是作为一种医疗状况。大约三分之一的与疼痛相关的推文被量化为包含积极的整体情绪,这一比例因地理位置和一天中的时间而不同,这支持了我们的第二个假设,即与疼痛相关的推文中有积极和消极情绪的混合。我们的研究结果也支持了关于转发网络与疼痛有关的独特连接模式的假设。
疼痛相关推文的自动内容分析为研究人员、政策制定者和医疗保健专业人员提供了几个潜在的应用。例如,生物心理社会因素和推文内容之间的潜在联系可能有助于预测急性和慢性疼痛的结果。通过使用超大的推文数据集,对与疼痛相关的推文进行更深入的探索,可能会更好地区分疼痛的身体来源和情感来源,尽管这种区分需要通过外部数据收集方法进行校准,以将内容确定为任何程度的情感来源和身体来源。可用推文的数量,加上它们的时间和位置标签,可以分析疼痛密度的季节性和时间变化及其与环境和地缘政治事件的关系[
也有可能使用这种方法作为确定社区健康状况的流行病学平台,以及与疼痛相关的卫生保健需求的晴雨表,类似于实验性地使用Twitter内容作为流感监测工具[
情绪的量化,尤其是在一份充斥着缩写和俚语的140个字符的文档中进行测量,对分类器的准确性和可重复性提出了有效的问题。之前使用相关推文情绪量化方法的工作表明,这种情绪分析可以很好地跟踪重要的社会文化事件,尽管情绪变化的幅度可能很小,而且倾向于负面情绪的增加而不是积极情绪的增加[
鉴于样本城市的选择缺乏严谨性,我们对正面推文比例与城市人口统计数据之间相关性的分析是探索性的。平均高温和纬度之间的相关性是合理的,因为较高的温度和较低的纬度可能与更多的阳光照射和更多的积极影响有关[
我们的研究结果表明,关于疼痛的推文的情绪在24小时内是不同的。这与Thelwall等人之前的工作是一致的[
在这一探索性分析中注意到的一个有趣的观察是,与疼痛相关的推文的积极情绪与没有医疗保险的个人比例高的地区之间的联系。有可能社交媒体用户的人口统计学扭曲也可能是那些没有医疗保险的人,这与先前将慢性疼痛与获得医疗服务联系起来的数据不一致[
除了内容分析,检查与疼痛相关的推文还可以揭示那些把疼痛作为一种话语发布推文的推特用户的在线社交网络信息。近年来,多个团队探索了社交媒体平台,因为它们与身体和心理健康挑战的社会支持系统有关[
关于“疼痛”的推文转发模式比关于客观主题的推文产生更小的讨论社区。那些参与痛苦相关讨论的用户通过规模较小的大型组件进行弱连接,更有可能参与到数量更多的小型模块化社区中。综上所述,这些结果表明,推特用户倾向于不推广他人关于疼痛的言论,就像他们可能会推广体育或政治等主题的推文一样。值得注意的是,这与“苹果”甚至“曼联”的转发网络在结构上并没有太大的不同,尽管痛苦转发的组件规模确实要小得多。
与之前关于使用社交媒体渠道进行社会支持系统的工作相反,我们的研究结果表明,与疼痛有关的此类出版物可能不会像发表关于体育或政治的声明那样引发社交媒体上的“对话”[
齐藤和增田[
缺乏关于疼痛的转发可能确实会限制Twitter在研究疼痛相关讨论方面的效用,至少作为一个有限的数据集是如此。另一方面,在关于疼痛的推文总体流行率较低的情况下,关于疼痛的推文的存在可能提供了一个重要的洞察特定推文用户对疼痛的关注。为此,早期关于社交媒体和慢性疾病的研究表明,替代社交网络媒体,如Facebook,包含的医疗保健小组比Twitter上的要多。
这项工作为疼痛研究提供了几种有趣的可能性。可用推文的数量,加上它们的时间和位置标签,可以分析疼痛密度的季节性和时间变化及其与环境和地缘政治事件的关系[
考虑到我们项目的范围,我们积累了一些与基于twitter的研究方法相关的局限性。首先,考虑到使用Twitter的主要是对科技更熟悉的年轻人,我们的结果并没有占到普通人群的大部分。皮尤研究中心2012年的一项调查显示,16%的互联网用户使用Twitter, Twitter对18至29岁的成年人、非洲裔美国人和城市居民“尤其有吸引力”。
总之,我们的结果表明,对疼痛相关推文的图表和情感分析可以为当今社会普遍存在的社交媒体话语中疼痛的角色提供重要的见解。事实上,我们的研究中确定的情感和心理疼痛参考文献的优势表明,未来的研究将重点放在与疼痛的物理表现相关的术语上,以探索疼痛研究的这一重要方面是必要的。此外,未来语义网络分析的实际应用应该包括增强功能,如词干、n-gram和同义词列表,以提高分类的准确性。有必要进一步研究地缘政治事件和季节变化如何影响推特用户对疼痛的感知。
疼痛推文语料库生成。
减轻疼痛推文语料库中最常见的术语。
具有最高总度中心性的术语。
人类比率和分类方法之间的一致性统计,用于分类器性能的其他细节,包括敏感性和特异性的具体信息。
疼痛相关的推文量按小时计算。
Graph-level指标。
节点级指标。
转发网络的入度、出度和总度中心性的效应量。
应用程序编程接口
全球定位系统
医疗保健提供者和系统的医院消费者评估
我们要感谢科里·阿斯特罗姆在准备这份手稿时给予的巨大帮助。这项研究部分由Patrick J Tighe (NIH K23 GM 102697)资助。
没有宣布。