医学互联网研究杂志-推特上的中风幸存者:从性别角度的情绪和话题分析

原始论文

¹古特曼神经康复医院，Badalona，西班牙

²Universitat Autònoma de Barcelona, Bellaterra (Cerdanyola del Vallès)，西班牙

^3.Fundació Institut d 'Investigació en Ciències de la Salut german Trias i Pujol, Badalona，西班牙

通讯作者:

亚历杭德罗·加西亚-鲁道夫博士

古特曼神经康复医院

Camí de Can Ruti, s / n

巴达洛纳,08916

西班牙

电话:34 934977700

电子邮件:alejandropablogarcia@gmail.com

背景:中风是世界范围内导致长期残疾的主要原因。与男性相比，女性经历更多的活动限制，更差的与健康相关的生活质量，以及更多的中风后抑郁。人们越来越多地使用Twitter来播报自己的日常生活，让人们可以不显眼地接触到各种话题和情感的自发表达的观点样本。

摘要目的:这项研究旨在考虑中风幸存者样本发布的推文中单词的原始频率，并按性别比较幸存者发布的8种基本情绪(愤怒、恐惧、期待、惊讶、喜悦、悲伤、信任和厌恶);确定每种情绪在推文集合中的比例，并根据幸存者的性别对每种情绪进行统计比较;提取推文集合中相对于每个性别出现的主要主题(表示为一组单词);并对推文和话题进行幸福评分(使用一个成熟的工具)，并根据幸存者的性别进行比较。

方法:我们根据最先进的词汇(国家研究委员会)进行了情绪分析而R包。男性和女性的情绪得分首先进行f检验，然后进行威尔考克森秩和检验。我们扩展了情感分析，用快乐计量器(一种专门考虑Twitter输入的工具)给快乐打分。我们计算了所有推文的每日幸福平均得分。我们使用VosViewer软件创建了用于探索性聚类分析的术语图。我们使用扫描隧道显微镜R包，允许我们按性别确定主要主题。我们给定义主要主题的所有单词都打了幸福分数，并按性别进行了比较。

结果:我们分析了2007年8月1日至2018年12月1日479名中风幸存者发布的800,424条推文:女性(n=244)发布了396,898条推文，男性(n=235)发布了403,526条推文。所有479名参与者的中风幸存者状况和性别，以及至少3个中风特定推特活跃用户列表的成员身份都被手动验证。自2007年以来，他们的推文总数为5,257,433条;因此，我们分析了他们最近15.2%的推文。积极情绪(期待、信任和喜悦)明显更高(P<.001)，而负面情绪(厌恶、恐惧和悲伤)显著高于(P在原始频率和情绪比例的分析中，男性中<.001)。在整个研究期间的幸福平均分表明女性的幸福水平更高。我们计算了更有可能按性别讨论的前20个话题(包括百分比和ci)，发现女性的话题表现出更高的幸福得分。

结论:我们应用了两种不同的方法——普卢契克模型和身体测量仪工具——来研究中风幸存者的推特样本。我们得出的结论是，女性比男性更多地表达积极的情绪和快乐。

中国医学网络杂志2019;21(8):e14077

doi: 10.2196/14077

关键字

中风；情绪；推特； infodemiology； infoveillance；情绪分析；主题模型；性别

一般的背景

推文可以包含关于其作者情绪的信息。即使用户没有明确地发布他们的个人情绪状态，信息也能反映他们的情绪。因此，推文被视为情绪的微观实例。推特被广泛用于健康状况分析。然而，据我们所知，还没有针对慢性中风进行的研究，重点关注中风幸存者的情绪方面和主题。

青年人中风

中风是全球长期残疾的第三大原因，也是抑郁症的主要原因之一[1］．有证据表明，在高收入国家，青壮年中风发病率正在上升[2］．最近有报道称，缺血性中风不再是一种只影响老年人的疾病，估计每年有360万年轻人(年龄<55岁)受到影响[3.］．年轻人中风的负担可能会进一步增加，因为最近多项研究报告了缺血性中风的发病率在增加，特别是在年轻人中，而在同一时期，老年人的发病率一直在下降[4］．

在全球范围内，几乎一半的中风负担都在年轻人身上，因为他们中风后存活的可能性更大，未来寿命更长，而且在低收入和中等收入国家，中风发生的年龄更小[5］．此外，年轻人脑血管疾病的总体人群负担可能被低估了，因为即使在年轻中风患者中，临床上无症状的梗死和白质改变也很普遍[6］．

在高收入国家，约四分之一的缺血性中风发生在劳动年龄人群中，从20世纪80年代至今，全球这一年龄组的发病率不断上升[3.］．

中风结果的性别差异

在经历中风后，女性比男性经历更多的活动限制，更差的与健康相关的生活质量(HRQoL)，以及更多的中风后抑郁，最近在一项更新的性别差异系统综述中报道[7］．

2019年1月发表在《欧洲神经病学杂志》上的最新研究报告称，女性中风后患严重抑郁症的可能性是男性的两倍。阿姨及同事[8]对南伦敦中风登记的2313人(1275名男性和1038名女性)中风发作后5年的症状进展进行了跟踪研究，发现20%的女性患有严重抑郁症，而男性只有10% [8］．

女性抑郁症患病率较高可能反映了普通人群的患病率较高，抑郁症被确定为全球女性疾病负担的主要原因[9］．

#中风

社交媒体的发展已经改变了患者、医生和其他卫生保健利益相关者的互动方式。10］．Twitter引领了特定疾病社区的发展，这些社区可以使用“标签”对他们的互动进行分类和汇总。这些Twitter社区提供了易于访问的、免费的平台，提供了重要的教育和专业福利。

在中风医学领域，社交媒体，特别是推特，最近因其造福患者、中风组织和医学教育的潜力而受到重视。11］．

与中风相关的推特网络最近被研究了。12]，从2012年3月20日到2018年1月31日，通过包含#Stroke标签的621653条推文，对推文内容、活动指标、参与度和用户特征进行了分析。最常讨论的话题是预防、糖尿病、心房颤动、失语症、痴呆、取栓装置、溶栓和烟草。具体来说，讨论的内容包括对中风症状的认识、相关危险因素(如心房颤动、心脏病和糖尿病)以及同行评审期刊关于中风治疗的研究结果。推文主要由宣传/支持组织(21.5%)、医生(8.4%)、不知道直接在医疗保健行业工作的个人(14.0%)、其他医疗保健专业人员(5.5%)、与研究/学术界相关的组织(2.3%)和学术界(2.2%)组成，而中风患者贡献了6.7%的推文(n=41,822)。研究结论显示，在研究期间，医生(8.4%)和患者(6.7%)产生的带有#Stroke标签的推文总数比例相似，而且医生和患者之间的网络交流明显很少。12］．

中风幸存者适应过程中的情绪困扰

布伦南强调假设在适应我们周围世界中的重要性。根据布伦南的模型，我们每个人都有一个对世界的认知地图或表征，这源于我们的社会和文化背景以及我们生活经验的积累。这个高度复杂的“假设世界”在生物学上具有适应性，因为它允许我们预测和计划未来。13］．

以典型的中风患者为例，他们的假设世界几乎总是会受到中风经历及其直接影响的挑战或否定。14］．正如布伦南所说，“调整核心假设涉及大量的认知处理和情绪困扰，这通常会导致严重的情绪困难，比如困惑、失落、悲伤和愤怒。”

此外，中风和残疾的经历也可能证实某些人先前持有的消极信念(例如，“我毫无价值”或“别人认为我很软弱”)，并可能以这种方式导致情绪困扰[14］．

自发的、情绪化的语言，以及推特上的日常话题讨论

在过去的几年里，推特已经成为社会语言学中一个著名的数据来源，因为它捕捉了关于广泛话题的观点和情绪。虽然推特用户是一个自我选择的群体，但有人认为，分析推特数据产生的结果与使用标准研究方法和数据源获得的结果一致[15］．

考虑到推文中频繁使用与日常经历相关的情感语言[16]，对于很大一部分人来说，推特提供了一个不显眼的途径，可以让他们接触到具有时效性和生态有效性的自发表达情绪的样本[17］．

情感分析在医疗保健环境中并不是一个新现象，例如，在之前的研究中，出院总结中更积极的情绪与再入院风险的显著降低有关[18］．

本研究

在接下来的小节中，我们将描述我们研究的具体特征和目标。

Twitter列表

先前的研究表明，话题专家往往是推特上有趣讨论的主要驱动力。19］．相对于随机抽样的Twitter数据采集，提出了多种抽样方法;其中一个建议只从专题专家(即关注者认为他们对某个主题很了解的Twitter用户)那里检索内容，以减少采样数据中不必要的推文数量，同时仍然收集与特定主题相关的有用推文。然而，关键的挑战在于找到一组优秀的专家。20.］．

Twitter用户可以将他们关注的账户组织到Twitter用户列表中。这些列表的用途多种多样。在某些情况下，它们可能对应于特定用户的朋友和家人的个人列表，但通常情况下，列表被用于根据共同的主题或主题将Twitter帐户分组。通过这种方式，每个Twitter用户都可以有效地成为社区管理员。因此，先前的研究提出，如果一个Twitter用户属于某一特定主题的多个列表，我们可以将其视为“主题专家”[20.］．

在我们的研究中，我们建议利用中风领域的用户列表。据我们所知，在与慢性健康状况相关的研究中尚未使用过清单。

普鲁切克的《人类情感

目前，还没有一个公认的关于人类基本情感的心理学理论;然而，人们一致认为，简单的正负二分法不足以捕捉所有的情绪。21］．

在这项工作中，我们使用了Plutchik [22这种方法假定人类有以下八种基本情绪:喜悦、悲伤、愤怒、恐惧、信任、厌恶、期待和惊讶。这种方法已经有了广泛的应用，例如，国家研究委员会(NRC)的单词-情感关联词典，其中包含了10170个词汇条目，这些词汇条目是为普鲁契克的基本人类情感编码的[23]，并已应用于多项情绪分析研究[24］．

普鲁契克的分类也有一个优势，它提供了一个平衡的积极情绪(信任、喜悦、愤怒和期待)和消极情绪(厌恶、悲伤、恐惧和惊讶)的列表，据我们所知，这些情绪还没有被应用于慢性疾病，一般来说，或中风，特别是。

政治

在基于普契克模型进行情感分析后，我们提出了另一个观点，通过使用快乐计工具为推文分配幸福分数。hedonometer的用法和样例:25是由推特、书籍、歌词和纽约时报开发出来的，用于在大规模的文本语料库中测量所表达的快乐——积极和消极的情绪。自发展以来，快乐计已被应用于Instagram上抑郁症预测标记的研究[26]或推特上的气候变化情绪[27］．快乐计量器根据文本中使用的单个单词的快乐程度计算出一个快乐分数。亚马逊的土耳其机器人在线市场对四个不同语料库中使用频率最高的10222个英语单词进行了幸福感评级。

用结构主题模型添加协变量信息

尽管潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)可能是最常见的主题建模形式，但现在存在许多相关的技术，包括动态主题模型、相关主题模型和层次主题模型。然而，近年来出现的最流行的技术之一是结构主题建模(STM)。STM提供了一种灵活的方法，可以使用文档级协变量将与文本相关的“元数据”(例如，何时编写文本、在哪里(例如，哪个国家)编写文本、作者是谁以及作者的特征)合并到分析中。反过来，它允许分析文本语料库中元数据和主题之间的关系。

研究目标

正如布伦南所说[13，调整的过程包含了巨大的情绪困扰。这通常会导致严重的情绪困难，如困惑、失落、悲伤和愤怒。考虑到女性经历更多的活动限制，更差的健康相关生活质量，以及更多的中风后抑郁，在本研究中，我们建议利用Twitter提供的自发表达的情绪和意见样本的不突发性访问，并使用两种不同的、成熟的方法(Plutchik模型和hedonometer工具)从性别角度分析它们，具体目标如下:

在考虑中风幸存者样本发布的推文中单词的原始频率的同时，根据性别对中风幸存者的推文进行8种基本情绪(愤怒、恐惧、期待、惊讶、喜悦、悲伤、信任和厌恶)的比较。
确定每种情绪在推文集合中的比例，并按性别进行统计比较。因此，这种测量方法使我们能够跟踪每条tweet中每种情绪的比例，并且受单个异常值的影响较小。
提取在tweet集合中出现的与每个性别相关的主要主题(表示为一组单词)。
为推文和话题分配幸福分数(使用幸福感计)，并按性别进行比较。

数据收集

我们考虑了之前研究中的网络分析[12)(见引言中的#Stroke)作为起点。节点大小与用户影响力相关，用户影响力与用户被提及的次数直接相关。被识别最多的节点及其对应的粉丝数量如下:@TheStrokeAssoc(1.02亿)，@signagnststroke(6,800万)，@StrokeHope(9380万)，@PeterCoghlan1(720万)，@strokefdn(1150万)，@StrokeAssocNW(550万)，@StrokeAHA_ASA(1060万)，@HeartandStroke(4530万)，@HeartandStroke(4530万)。

Twitter数据收集使用rtweetR包[28]通过Twitter的REST(具象状态传输)和流应用程序接口(api)。我们最初应用了lists_users函数获取顶部节点订阅的所有列表，包括它们自己的列表。随后，我们使用了lists_members函数获取Twitter列表成员(给定列表上的用户)。为了保留一个列表成员，我们施加了一个条件，即它应该至少出现在3个不同的列表中。

对于每个已识别的用户，我们使用get_timelines()函数检索tweet(它检索每个Twitter用户最近的3200条tweet，没有任何时间限制)。我们从一千名用户那里收集了1,300,845条推文，并将它们进一步分为具体推文(女性或男性)和组织推文(机构和协会);最后一步是只从性别可以明确确定的细节中收集推文，这将在下一节中解释。

参与者选择过程

我们的数据收集方法模仿了先前的研究，这些研究使用Twitter平台生成了一个方便的用户样本，这些用户拥有公开的账户，他们在个人资料或推文中自称为中风幸存者。

然后，我们让一名研究人员生成Twitter用户的初始列表，另一名研究人员检查列表上每个Twitter用户的详细信息，以确保正确识别中风幸存者用户，从而确认了自我报告的中风诊断。

然后，我们采用一个逐步的过程，将每个Twitter用户的性别编码为男性、女性或未知/不充分的数据。两名研究人员分别使用这些代码，从每个Twitter用户的用户名开始，然后是个人资料名称、个人资料描述、个人资料照片和推文。然后，两位研究人员对每个推特用户的最终性别代码进行了审查，以确保一致性并解决分歧。

数据清理

最后的样品制备，用分析quantedaR包。这包括基本的规范化过程(例如，删除标点符号和小写的所有文本)，停止单词删除(例如，单词“a”和“the”)，Twitter用户提及的规范化(例如，“@janedoe”被转换为“@user”)，词元化(例如，“dog”，“dogs”和“dog’s”都被转换为“dog”)，以及不可打印字符删除(例如，表情符号)。所有分析都依赖于公开的匿名数据;遵守Twitter的条款和条件、使用条款和隐私政策;并在作者所在机构的机构审查委员会批准下进行。

我们不会报告任何可以用来识别在网上发布内容的原始推特用户的具体推文，因为这是一个重要的问题，在最近的文献中，使用推特数据进行研究的道德问题已经被广泛讨论。29］．

情绪分析

我们计算了每个Plutchik类别中每个用户(因此包括性别)的情感词的总体频率而R包[30.］．的get_nrc_emotion()函数中实现了NRC Word-Emotion Association Lexicon，可通过开放访问获得而R包。最后对数据进行统计分析:对于每条推文，给定一个情绪X，计算情绪比例得分为:

比例_X=每条推文中带有情感的词汇出现频率X /(每条推文中消极词汇出现频率+每条推文中积极词汇出现频率)(等式1)

男性和女性的情绪比例分数然后在R中进行Wilcoxon秩和检验，因为F-检验表明，两个分布不符合方差齐性的准则[31］．

结构主题模型

以上述数据清理阶段的最后一个推文样本为起点，我们进行如下操作:

将清理过的推文转换为tm语料库，并使用tmR包[32］．
计算TDM中所有单词的术语频率逆文档频率(TF-IDF)。
排除所有TF-IDF≤0.1的单词，去除所有频率较低的单词。
使用对数似然方法计算语料库中主题的最佳数量(K)，使用吉布斯采样和探索不同的度量标准:“Griffiths2004”，“CaoJuan2009”，“Arun2010”和“Deveaud2014”FindTopicsNumber函数从ldatuningR包[33］．
应用光谱方法使用扫描隧道显微镜包来发现主题。
主题验证(语义一致性和排他性)。
计算模型结果的可视化和解释。

STM的一个独特特性，由扫描隧道显微镜R包[34]的特点是，它可以用广义线性模型模拟文献级协变量对主题流行度参数μ的影响。如上面的情感分析部分所述，我们的协变量是具有两个层次的性别因素(“女性”和“男性”)。

除了纳入性别协变量之外，扫描隧道显微镜R包支持显式估计主题之间的相关性。该特性提供了关于语料库结构的进一步信息。相关性是通过将标准LDA框架中的Dirichlet分布替换为相关主题模型中的logistic正态分布来估计的[35］．

这使我们能够确定何时两个主题可能在推文中同时出现(在这里，我们关注正相关和负相关，这对确定性别差异也很有用)。

政治

我们将快乐计工具应用于所有推文和主要确定的主题，如下所示:对于每条推文中的每个单词，我们获得了一个幸福得分，计算出每天的平均幸福得分，并按日期分组按性别绘制;STM允许我们确定主要主题，并将主题标记为“更可能是女性”和“更可能是男性”。由于每个主题都是由一组单词定义的，我们使用heheonometer获得了每个单词的快乐度得分，因此，我们能够根据他们的快乐度得分来比较主题。例如，这也让我们可以选择25个最能体现幸福程度的词，并确定这些词属于女性还是男性话题。

样品描述

在选择过程结束后，最终的479名推特用户样本被选中，他们在2007年8月1日至2018年12月1日期间发布了800,424条推文。女性(244人)总共发布了3,788,069条推文;从中，我们收集了396,898条推文(最近的推文，截至2018年12月)，我们所选样本发布的推文的平均数量为1620条。此外，54%的被选样本发布了超过1000条推文，71%发布了超过500条推文。所选样本的追随者总数为182,807人。

男性(n=235)总共发布了1,469,364条推文，我们从中收集了403,526条推文(最近的推文，截至2018年12月)，我们所选样本发布的推文的平均数量为1717条。此外，59%的被选样本发布了超过1000条推文，73%发布了超过500条推文。所选样本的追随者总数为255,053人。

图1显示样本中每个选定参与者的第一次和最后一次发布推文的日期(红色为女性，蓝色为男性;在整个分析过程中，代码颜色相同)。图中的每条竖线代表一个参与者，他的第一条推文在竖线的顶部，最后一条推文在竖线的底部。我们将参与者从左到右排序，其中第一条推文的最早日期显示在每个参与者的最左侧。例如，最左边的参与者是一名男子，他的第一条推文发布于2007年，最后一条推文发布于2014年。

在多媒体附件1，我们展示了每年发布的推文数量;2018年发布了更多的推文(约30万条)，其他50万条推文自2007年以来呈增长趋势，如之前的研究(在#Stroke部分中描述)所示。

对于479名参与者，我们检查了他们的个人资料，以验证他们的地理位置，这些资料是通过rtweet图书馆。我们能够识别479个用户中的378个(78.91%)的地理位置。

在多媒体附件1，我们按国家列出了用户总数(N=378)，显示大多数用户来自四个国家:95%来自澳大利亚、加拿大、英国或美国。

美国用户最多(206/378;55%)。英国有113个用户(29.89%)。因此，这两个国家加起来占了参与者的85%以上。

在多媒体附件1，我们在所有参与者的个人资料描述中呈现前500个单词的词云。大多数单词在两个词云中都重复出现，但可以观察到一些独特的特征(女性明显指的是音乐、现场和时间，而男性则不是)。

情绪分析

NRC单词-情感关联词典，其中包含10170个词汇条目，这些词汇条目是为普鲁契克的基本人类情感编码的[23]，并在而R包将一种情绪(或一种以上的情绪)与10170个词汇中的每一个关联起来。给定一个单词和情感X, NRC单词-情感关联词典会将一个分数(范围:0到1)与之关联。1分表示该词表达的情感X最多，0分表示该词表达的情感X最少。

然后，我们(通过get_nrc_sentiment()函数)确定了根据NRC，表达积极或消极情绪的单词数量，以及Plutchik的八种基本情绪中的一种(或多种)。

表1类的get_nrc_sentiment()函数获得的原始单词数(及其百分比)而R包。

在男性和女性中，最常见的情绪是信任、期待和快乐(前3位)，如图所示图2．

如图所示，女性在所有积极类别中使用的词汇(愤怒除外)要多得多，而男性在所有消极类别中使用的词汇(惊讶除外)要多得多表1．

在考虑负面或正面词汇时，女性使用12%的负面词汇，而男性使用13.6%的负面词汇。相比之下，女性使用了21.8%的积极词汇，而男性使用了20.5%。类的get_nrc_sentiment()函数也可以从NRC词典中获得单词的正面和负面标签而R包。

表1。每种情绪所对应的词汇的原始频率。

情感	男性，n (%)	女性，n (%)
愤怒	76650 (5.7)	74858 (5.4)
期待	155608 (11.6)	166150 (12.0)
厌恶	55512 (4.1)	54785 (4.0)
恐惧	117221 (8.7)	104826 (7.6)
快乐	131243 (9.8)	161933 (11.7)
悲伤	101475 (7.6)	89868 (6.5)
惊喜	77109 (5.7)	83663 (6.1)
信任	170、0176 (12.7)	178718 (12.9)
负	182288 (13.6)	166000 (12.0)
积极的	276124 (20.5)	300751 (21.8)

^一个不适用是因为。

^bN/A:不适用。

图2。情绪排名(占总字数的百分比)。男人:左;女人:右)。每条柱状图代表了在表1．

然后我们计算每种情绪X的情绪比例得分，如方法部分的方程1所示。

表2报告统计比较;例如，对于全球积极情绪，女性(中位数=100%，平均值=65.57%)使用的积极词汇明显多于男性(中位数=66.67%，平均值=60.73%)。自F-test表明两个分布有显著不同的方差(F_{237040年,242190年}= 1.0468,P<.001)，他们接受Wilcoxon秩和检验。该检验表明，男性和女性之间的差异具有高度统计学意义(W=2.6817e+10，P<措施)。相似的结果在表2在整体负面情绪方面:男性使用的负面词汇明显多于女性;此外，每个个体的积极情绪(喜悦、期待和信任，惊讶除外)都对女性有利，而每个个体的消极情绪(恐惧、悲伤和厌恶)则更受男性欢迎。

全局负正比例比较显示在图3．与男性相比，女性使用的消极词汇要少得多，而积极词汇要多得多(见图表的顶部和底部)图3分别)

普鲁契克的八种情绪被细分为四对互补的情绪，即喜悦-悲伤、期待-惊讶、信任-厌恶和愤怒-恐惧[23］．

表2。对每种情绪识别的单词进行统计比较。

情感,参与者		中位数	的意思是	F (df)	P价值	W	P价值
快乐				0.9030(237040、242190)	<措施	2.63 e + 10	<措施
	男人	0	0.2972	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0	0.3611	- - - - - -	- - - - - -	- - - - - -	- - - - - -
负				1.0468(237040、242190)	<措施	3.05 e + 10	<措施
	男人	0.3333	0.3927	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0	0.3443	- - - - - -	- - - - - -	- - - - - -	- - - - - -
恐惧				1.1183(237040、242190)	<措施	3.01 e + 10	<措施
	男人	0	0.2481	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0	0.2121	- - - - - -	- - - - - -	- - - - - -	- - - - - -
积极的				1.0468(237040、242190)	<措施	2.68 e + 10	<措施
	男人	0.6667	0.6073	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	1.0000	0.6557	- - - - - -	- - - - - -	- - - - - -	- - - - - -
悲伤				1.0261(237040、242190)	<措施	2.45 e + 10	<措施
	男人	0	0.2204	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0	0.1868	- - - - - -	- - - - - -	- - - - - -	- - - - - -
愤怒				1.0399(237040、242190)	<措施	2.90 e + 10	<措施
	男人	0	0.1573	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0	0.1495	- - - - - -	- - - - - -	- - - - - -	- - - - - -
期待				0.9837(237040、242190)	<措施	2.79 e + 10	<措施
	男人	0	0.3299	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0	0.3488	- - - - - -	- - - - - -	- - - - - -	- - - - - -
惊喜				1(237040、242190)	>。	N/A^b	N/A
	男人	0	0.1672	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0	0.1779	- - - - - -	- - - - - -	- - - - - -	- - - - - -
信任				1.0134(237040、242190)	<措施	2.81 e + 10	<措施
	男人	0.1667	0.3628	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0.2500	0.3755	- - - - - -	- - - - - -	- - - - - -	- - - - - -
厌恶				1.0559(237040、242190)	<措施	2.88 e + 10	<措施
	男人	0	0.1153	- - - - - -	- - - - - -	- - - - - -	- - - - - -
	女性	0	0.1109	- - - - - -	- - - - - -	- - - - - -	- - - - - -

图4绘制每一种情绪的分数，在每对情绪的研究中，每个月总结出所有时间段的情绪词，用而R包并与ggplot2R包。它清楚地表明，在研究期间，女性在积极情绪上的得分较高，而男性在几乎所有情绪上的得分都较低。

如图4在整个研究期间，快乐和全球积极词汇显然代表了女性更高的价值观。

用幸福计量器分配幸福分数

然后，我们用幸福感计计算了每条推文中每个单词的幸福得分，总结了整个研究期间每天的平均幸福得分，并按日期绘制，按性别分组。

如图5在2013-2014年、2016年和2018年期间，几乎在整个考虑的时间段内，女性的幸福感评分也高于男性。

结构化主题建模

在应用STM之前，我们使用VosViewer进行了探索性聚类分析[36］．根据VosViewer的定义，术语图是一种二维表示，其中强相关的术语彼此靠近，弱相关的术语彼此远离。术语图中的每个点都有一种颜色，该颜色取决于该点上项目的密度。有人认为，VOS映射技术比流行的基于多维比例尺的文献计量映射方法产生更令人满意的术语映射。使用这些基于多维比例的方法构建的地图显示存在某些伪影。使用VOS映射技术构建的地图就没有这个问题，正如Waltman等人所报道的[36］．详情载于多媒体附件1(VosViewer聚类分析)。

我们测试了不同的参数配置，以增加簇间距离并减少簇内距离。VosViewer允许我们识别出7个男性集群和5个女性集群(多媒体附件1)．在获得的与男性和女性最相关的250个单词的聚类中，我们突出了男性和女性获得的聚类中常见的单词。不幸的是，大多数单词都是这样;因此，它不允许我们从视觉上识别性别差异。

然而,在多媒体附件1，我们给出了对男性和女性都不常见的词的聚类，并对每个词应用了享乐计;每个单词的幸福分数都显示在括号中。

我们总结了幸福感得分，得出仅在男性群体中出现的所有词语的平均幸福感得分为5.31(标准差1.31)，仅在女性群体中出现的词语的平均幸福感得分为6.25(标准差1.07)。然后，我们分别考虑了每个最大的聚类，并获得了以下男性:聚类1的平均幸福得分=5.52(标准差0.99)，聚类2的平均幸福得分=5.06(标准差1.25)。对于女性来说，第一组的平均幸福得分为6.30(标准差1.12)，第二组的平均幸福得分为5.70(标准差1.13)，第三组的平均幸福得分为6.68(标准差0.81)。同样，在聚类水平上考虑得分时，女性的幸福得分高于男性。

在STM之前，我们也对7个主题进行了LDA分析;课题数量的确定如所示多媒体附件1通过使用不同的度量和FindTopicsNumber函数ldatuningR包。

所获得的主题在多媒体附件1，但与聚类分析一样，我们无法明确地识别与男性或女性相关的主题。

因此，我们应用STM将协变量(性别)与确定的主题和图结果相关联，如图所示图6．与大多数主题模型一样，STM最大化的目标函数是多模态的。因此，我们为变分EM算法选择起始值的方式会影响我们的最终解。

我们应用了LDA初始化(默认选项)，它使用几次折叠吉布斯采样来初始化算法。

表3显示了男性和女性选择的前三个主题，有3种不同类型的单词配置文件:最高概率，频率排他性(FREX)和得分值。所有确定的主题的详细描述都在多媒体附件1．

FREX以一种平衡词频的方式衡量单词对主题的排他性。得分指标将该单词在主题中的对数频率除以该单词在其他主题中的对数频率，最高概率考虑每个主题中概率最高的单词，直接从主题-单词分布推断。

在多媒体附件1，我们提出了获得的主题的评价。语义一致性是Mimno及其同事提出的标准[37];当一个给定主题中最可能出现的单词经常同时出现时，它会最大化，并且已经表明语义一致性度量与人类对主题质量的判断有很好的相关性[37］．

主题19、17和10将所有语义一致性值显示在图的右侧，主题19位于最右的可能位置，接近主题10。主题1、6和3位于中心位置，而右上角位置是六个最佳选择的主题，显示可接受的值。

然后，我们用快乐计工具将幸福分数分配给主题(我们按照中描述的VosViewer集群进行操作)多媒体附件1)．如图6， STM允许我们将主题标记为“更可能是女性”和“更可能是男性”。

如在表3，每个主题定义为一个包含20个单词的列表。为了给快乐打分，我们选择了概率最高的单词(每个主题的第一行)表3)．因此，我们应用hedonometer工具，为每个话题出现概率最高的每个单词分配一个幸福分数。

在多媒体附件1，我们给出了定义每个主题的所有单词的完整列表。对于每个单词，我们给出了幸福分数及其对应的主题(因此也给出了与主题相关的性别)。我们从这些词中选择了一个子集(表4而且5)．我们列出了25个幸福指数最高和最低的单词，并列出了相应的性别。

表4结果显示，在25个幸福指数最高的单词中，有19个对应于女性话题，只有6个对应于男性话题。表5显示了25个幸福得分最低的单词，其中只有7个对应于女性，而18个对应于男性。

表3。女性(主题1、3、6)和男性(主题10、17、19)所确定的前三个主题和百分比。

主题(%)	概率最高	咩^一个	分数
1 (5.23)	年，快乐，明天，打开，生日，拿，来，忙，圣诞节，宝宝，睡觉，周五，周日，周一，清单，床，微笑，市场，请客，猜	梅里，生日，应用，ang, eve，醒来，con, clay, 12月，天使，快乐，est, syracus, ako，放松，壁橱，lang，商店，旋转木马	快乐，年，生日，明天，开放，圣诞节，睡觉，星期五，来，上班，爸爸，星期天，拿，床，商店，星期一，假日，清单，日期，市场
3 (7.21)	好，很棒，视频，希望，晚上，早上，lol，今晚，长，完成，头部，周末，乐趣，阅读，庆祝，花旗，电影，运气，早，忘记	播放列表，鸡肉，烧烤，彼得，鸡蛋，奶酪，电影，熟食，土豆，饼干，烧烤，汤，食谱，视频，kitti，杯子，辣椒，运气，锅，belli	好，视频，希望，晚上，早上，好，lol，周末，播放列表，电影，今晚，唐，好运，乐趣，长久，甜蜜，忘记，将要，周六，晚餐
6 (5.73)	时间，生命，事物，世界，上帝，家庭，推特，听，权力，恨，传递，说话，人，步骤，假设，祝福，超级，连续，信息，创造	上帝，主，祈祷，信仰，阿门，祝福，祈祷，诗篇，灵魂，negat, holi，治愈，感谢，charl, nchousingbuild, merci，邪恶，完成，是的，指南针	时间，上帝，事物，生活，家庭，推特，世界，主，祝福，听到，权力，步骤，超级，恨，祈祷，祈祷，祝贺，流行，信仰，假设
10 (3.82)	结束，心，走，新闻，停止，跑，手，付出，英里，率，价值，成功，死亡，提供，单身，到达，员工，失败，雪，英雄	英里，速度，bpm，态度，赞美诗，生物，鹰，失败者，肩膀，缺陷，随意，复杂，纹身，僵尸，英雄，pinterest，手，病毒，温哥华	心，走，结束，新闻，英里，停止，跑，速度，每分钟，手，支付，死亡，成功，态度，英雄，雪，价值，bbc，提供，达到
17 (5.25)	回来，比赛，比赛，球队，工作，地点，男孩，男人，点，赢，输，黑，公园，完美，表演，输，约翰，足球，电影，球员	院子，洞，季后赛，球员，乔，nfl，鹰，牛仔，布朗克斯，吻，达拉，剧院，杜德尔，卢，阴户，扔，黄金，谷仓，韩国，勇敢	比赛，球队，比赛，回来，男孩，工作，足球，球员，公园，完美，黑色，行为，地点，北方，击败，测试，电影，失败，旅行，踢
19日(6.25)	中风，支持，发现，幸存者，学习，很多，大脑，护理，健康，病人，帮助，意识，钱，抚养，孩子，研究，进口，风险，经验，医院	意识，提高，发现，风险，研究，病人，地区，医生，地段，恢复，donat，增加，因素，研究，资源，康复，治疗，癌症，康复，学习	中风，幸存者，学习，很多，发现，支持，大脑，病人，战争，护理，rais，健康，研究，风险，发现，损伤，研究，区域，恢复，疾病

^一个能用frequency-exclusivity。

表4。快乐得分最高的前25个单词，主题和参与者的性别。

词	参与者	分数	主题
爱	女性	8.42	t16.1
快乐	女性	8.3	T1
赢得	女性	8.12	T15
微笑	女性	8.1	T1
赢得了	男人	8.1	T17
音乐	女性	8.02	T2
周末	女性	8．0	T3
庆祝	女性	7.98	T3
圣诞节	女性	7.96	T1
有趣的	女性	7.96	T3
免费的	男人	7.96	T11
伟大的	女性	7.88	T3
成功	男人	7.86	T10
奖	女性	7.86	T15
积极的	女性	7.8	T6
英雄	男人	7.8	T10
太阳	男人	7.8	T11
生日	女性	7.78	T1
赢家	女性	7.78	T15
美	男人	7.76	T5
家庭	女性	7.72	T6
礼物	女性	7.72	T15
才华横溢的	女性	7.68	T2
超级	女性	7.68	T6
令人惊异的	女性	7.66	t16.1

表5所示。幸福感得分最低的前25个单词、主题和参与者的性别。

词	参与者	分数	主题
死亡	男人	1.54	T18
杀了	女性	1.56	病人
死	男人	1.74	T18
失败	男人	1.96	T10
死	男人	2．0	T10
疼痛	男人	2.1	T4
地狱	男人	2.22	T9
可怜的	男人	2.32	T9
讨厌	女性	2.34	T6
悲伤的	女性	2.38	病人
攻击	男人	2.42	T8
拍摄	女性	2.5	T2
狗屎	男人	2.5	T18
失语症	男人	2.58	T11
中风	男人	2.58	T19
谎言	男人	2.6	T13
坏	女性	2.64	t16.1
战斗	女性	2.7	t16.1
失去了	男人	2.76	T17
失去	男人	2.76	T17
禁用	男人	2.82	T18
问题	男人	2.98	T4
错误的	男人	3.14	T18
忘记	女性	3.22	T3
减少	男人	3.42	T9

然后我们计算每个主题的幸福分数的箱线图(图7)，按“更可能是男性”排序至“更可能是女性”;平均值和回归线分别用红圈和一条红线表示(P<措施)。

图7从主题4到右侧(即女性主题)显示出更高的幸福得分，但主题16除外，该主题包含几个幸福得分较低的词(如“坏”或“孤独”;多媒体附件1)．回归线显示女性话题(P<措施)。

然后我们从最左边和最右边的话题中比较了幸福得分图6(主题19-主题1，主题17-主题6，主题10-主题3，等等)。我们发现，在10对主题中，有4对对女性有利(没有对男性有利)，当对对主题进行幸福得分比较时(图8；男士蓝色，女士红色)。中给出了完整的比较列表多媒体附件1．

STM还允许主题之间的相关性。正相关性表明这两个话题都有可能在一条推文中被讨论。在图9，我们为所有确定的主题绘制正相关和负相关。

Topic 1与Topic 3的正相关程度最高。可以进一步证实这一点表3，因为这两个主题都涉及实际积极的日常生活场景，如庆祝活动(生日、圣诞节、节日、快乐)，主题1与主题19呈强负相关，主题19指的是研究、研究、风险、因素、医院、疾病、中风和护理。

因此，Topic 3也与Topic 19和Topic 10呈强负相关。

话题10指的是跑步，每分钟心跳，心率，态度，停止，步行，到达，而话题3指的是娱乐，庆祝，电影，周六，晚餐，烧烤，鸡肉，烧烤，鸡蛋，奶酪，美味，土豆，烹饪。话题6涉及宗教——上帝、主、祈祷、信仰、阿门、祝福、祈祷、诗篇、灵魂——而话题17涉及体育——季后赛、nfl、比赛、院子、足球、球员——显示出男性和女性在感兴趣的话题上的明显差异。

主要研究结果

在这项工作中，我们在GNU框架(R-3.5.1)中提出了将Twitter列表应用于慢性健康状况。我们应用了一组公开可用的R库，通过Twitter的REST和流API来收集和组织Twitter数据(rtweet)、情绪分析(而)、文本挖掘(tm, quanteda)，以及结构主题模型(扫描隧道显微镜)．我们还应用了快乐计工具，按性别为主题分配幸福分数。

根据我们的发现，男性在推特上表达负面情绪时使用的词语明显多于女性，而女性在表达积极情绪时使用的词语明显多于女性。

结果还显示，男性和女性最常唤起的三种情绪是信任、期待和快乐。此外，对基本情绪的统计分析发现了每个性别的显著偏好:来自信任、期待和快乐等情感领域的词汇在女性的推文中出现的频率明显更高，而男性的推文则明显更倾向于唤起厌恶、愤怒、恐惧和悲伤。

我们还应用了另一个专门为考虑Twitter输入而设计的工具——hedonometer。在研究期间，女性的幸福指数几乎都高于男性。幸福指数是由每个用户每天总结出来的。

最后，我们应用结构性主题建模(据我们所知，这是首次应用于慢性健康状况)来确定按性别处理的主要主题，并确定按性别处理的主题之间的正相关和负相关。

在这个上下文中，主题被定义为一组单词;因此，我们将幸福分数分配给在确定的话题中概率最高的单词，并发现女性谈论的话题比男性谈论的话题显示出更高的幸福分数。

在西方和东方文化中都有一种常见的刻板印象，认为女性比男性更情绪化，尤其是在应对负面情绪时。38］．如引言部分所述，与男性相比，中风后女性活动受限更多，与健康相关的生活质量更差，中风后抑郁更严重[7并且中风后患严重抑郁症的可能性是男性的两倍。我们为我们的发现找到了几种解释，如下所示。

首先，根据Ayis等人[8]，女性从人际关系和网络中获取更多的自我意识和自我价值，她们对人际关系和网络中的逆境更敏感。因此，在社交网站(sns)上分享积极的事件和情绪，女性中风幸存者可能会体验到(与男性相比，在更大程度上)人际关系和内心的好处。在社交网络上分享积极事件和情绪的内在好处包括重新体验和延长这些积极事件;人际利益包括积极的社交互动和来自其他SNS用户的积极反馈(根据Sas等人对Facebook使用的民族志日记研究的结果[39])。

其次，先前的研究表明，社交网络上自我呈现的积极性对社交网络其他联系人反应的数量和质量都有影响。例如，Utz [40研究发现，当社交网络用户在帖子中表达悲伤时，最不可能得到网友的回应。同样，Forest和Wood [41表明Facebook上积极的状态更新比消极的状态更新能从朋友那里得到更多积极和有利的反馈。

对我们的发现的第三种解释可能与“社交网络传播中的积极偏见”有关，即“虽然社交网络环境通常允许真实的自我呈现，但它更倾向于积极的真实形式，而不是真实自我的消极方面”[42］．

因此，根据Reinecke等人的研究，由于社交网络传播中的积极偏见，心理健康水平较高的个体比心理健康水平较低的社交网络用户更有可能通过使用社交网络体验到真实性。

第四个解释与Facebook最近对1.5万名用户的分析有关。43］．作者得出的结论是，“自我认同的女性使用的语言在人际交往中更温暖，更富有同情心，更有礼貌，而且与之前的发现相反，他们使用的语言稍微更坚定，而自我认同的男性使用的语言则更冷漠，更有敌意，更没有人情味。”事实上，他们发表的以下文本也适用于我们自己的发现:

与女性联系最紧密的话题包括描述积极情绪的词语(例如，“兴奋”、“快乐”、“<3”、“爱”)、社会关系(例如，“朋友”、“家人”、“姐妹”)和强化副词(例如，“sooo”、“sooo”、“荒谬”)。与男性联系强烈的话题包括与政治相关的词语(如“政府”、“税收”、“政治”)、体育和竞争(如“足球”、“赛季”、“胜利”、“战斗”)，以及特定的兴趣或活动，如射击枪支、演奏乐器或玩电子游戏。

因此，根据第四种解释，我们在Twitter等另一个社交网络上的发现与Facebook上那些不一定被认定为中风幸存者的用户的发现类似。

限制

收集的样本不具有代表性，也不具有研究期间中风幸存者发布的所有推文的全面性。虽然收集的数据也包括针对其他用户的推文(即对话推文)，但结果不能被认为反映中风幸存者在推特上出现的所有对话主题。

数据收集依赖于Twitter的流API，该API防止从Twitter私人账户收集推文。因此，调查结果可能不代表拥有私人账户的个人。

此外，最近的分析[4462%的推特用户年龄在49岁以下;我们的参与者倾向于这样一个年龄范围，而且他们大多数来自美国。

然而，正如导论部分所讨论的，最近的多项研究报告了年轻人群中风发病率的持续增加，所包括的参与者是在检查了他们的Twitter中风相关列表的会员资格后随机选择的，并手动重复检查了与性别和中风幸存者状况相关的情况。

我们分析了总共发布3,788,069条推文的女性(n=244)。从中，我们将396,898条推文纳入分析(最近的推文，截至2018年12月);因此，我们分析了参与这项研究的女性发布的所有推文的10.5%。

我们分析了总共发布了1,469,364条推特的男性(n=235)。从这些推文中，我们分析了403526条推文(最近的推文，截至2018年12月)。因此，我们分析了参与这项研究的男性发布的所有推文的27.4%。

从我们提取的样本中，女性发布的推文总数明显大于男性。这似乎与一般的Twitter使用统计数据是巧合:女性通常更活跃，每个月，访问Twitter的女性比男性多4000万。45］．

其他需要提及的限制我们研究的相关因素与地理位置、空间轨迹或发布推文的时间有关。正如Padilla等人所说[46]和戈尔等人[47，这些因素可能会影响推文的情绪。我们观察到，85%的参与者档案来自英国和美国，但我们的研究没有控制时空方面。

最后，中风幸存者可能经历的个体心理差异也必须被提及。某些人的性格特征可能使他们更倾向于积极或消极的情绪。情绪在何种程度上反映了心理特征的差异，而在何种程度上反映了这些特征被表达的情境背景，目前尚不清楚。可能患有严重抑郁症的用户可能在Twitter上不活跃;这可能是数据样本中另一个显著偏差的来源。

与以往工作的比较

Brunner及其同事最近进行了一项关于推特主题或慢性健康状况情绪分析的罕见研究[48］．在2016年的一个月内收集了带有创伤性脑损伤(TBI)相关标签的推文，并对其进行了定性和定量分析。共有29199条推文包括893名用户发送的推文，其中219名用户有脑损伤。Twitter被用来讨论健康问题，提高人们对脑外伤的认识，谈论脑外伤后的生活，谈论运动和脑震荡，以及交流鼓舞人心的信息。

关于抑郁症，Lachmar和他的同事[49]捕获了2016年5月流传的3225条原创推文，标签是#我的抑郁症长什么样。清理工作一共产生了1978条推文。使用定性内容分析揭示了七个主题:功能失调的想法，生活方式的挑战，社会斗争，隐藏在面具后面，冷漠和悲伤，自杀的想法和行为，寻求解脱。与Lachmar及其同事的研究相反[49]分析或#Stroke分析(介绍部分中介绍的)，我们的分析没有链接到特定的标签。

值得一提的是，有必要从性别角度进行进一步的研究，正如妇女大脑计划等倡议所推动的那样[50］．

结论

这项研究探讨了八种特定类型情绪的情感表达能力，并从性别角度通过中风幸存者的Twitter帖子确定了20个主要感兴趣的话题。大量研究表明，与男性相比，女性通常会经历更频繁、更强烈的负面情绪。尽管如此，我们的研究结果表明，当考虑全局积极-消极或单个推文并使用两种不同的成熟方法(Plutchik模型和hedonometer工具)分析它们时，男性在推文中表现出更频繁和更强烈的负面情绪。

致谢

本研究部分由EU H2020 PRECISE4Q -卒中预测建模个性化医疗提高生活质量(资助协议777107 -研究与创新行动)资助。

作者的贡献

AG-R和SL构思了这项研究。AG-R、JS和SL收集、选择和清理数据。AG-R和JS对数据进行了分析。AG-R起草了最初的手稿。SL、JS和MBG对手稿中重要的知识内容进行了批判性的修改，并批准了最终的手稿。AG-R, SL, JS和MBG获得了研究资金。

利益冲突

没有宣布。

‎

多媒体附件1

人口统计学，词汇云，VosViewer聚类分析，潜在的Dirichlet分配主题，相关分析，STM主题，快乐计得分，和Plutchik心理进化模型。

PDF档案(adobepdf档案)，2mb

王晓明，王晓明，王晓明，王晓明。世界卫生组织杂志。2016。Stroke:需要全局响应https://www.who.int/bulletin/volumes/94/9/16-181636.pdf[2019-07-22]访问
Béjot Y, Daubail B, Jacquin A, Durier J, Osseby G, Rouaud O，等。1985年至2011年青年人缺血性中风发病率的趋势:第戎中风登记中华神经外科杂志2014年5月;85(5):509-513。［CrossRef] [Medline］
青年缺血性卒中:目前对发病率、危险因素和心血管预后的看法。欧元卒中J 2016 Mar 08;1(1):28-40 [免费全文] [CrossRef] [Medline］
Vangen-Lønne AM, Wilsgaard T, Johnsen SH, Carlsson M, Mathiesen EB。缺血性中风发病率和病死率的时间趋势:1977-2010年特罗姆瑟研究。Stroke 2015 May 07;46(5):1173-1179。［CrossRef] [Medline］
Krishnamurthi RV, Moran AE, Feigin VL, Barker-Collo S, Norrving B, Mensah GA，等。1990-2013年20-64岁成年人中风患病率、死亡率和残疾调整生命年:来自2013年全球疾病负担研究的数据神经流行病学2015 Oct 28;45(3):190-202。［CrossRef］
Putaala J, Kurkinen M, Tarvos V, Salonen O, Kaste M, tatisumak T.首次缺血性中风的年轻人无声脑梗死和脑白质病变。神经病学2009 5月26日;72(21):1823-1829。［CrossRef］
张志强，李志强，李志强，等。卒中后患者报告预后指标中性别差异的重点更新。2018年3月;49(3):531-535。［CrossRef］
Ayis SA, Rudd A, Ayerbe L, Wolfe CDA。中风患者抑郁症状轨迹的性别差异及其与10年死亡率的相关性:南伦敦中风记录伦敦:南伦敦中风登记;2019.
Mathers C.全球疾病负担更新。见:全球疾病负担:2004年更新。日内瓦:世界卫生组织;2008:2004。
拉度G，所罗门M，乔尔赫CM，荷蒂乌奇M，布莱斯库IA，珀卡尔利亚VL。医疗保健营销适应数字时代。中国医学杂志2017;10(1):44-46 [免费全文] [Medline］
Cabrera-Maqueda JM, Minhas JS。中风医学的新视野:理解社交媒体的价值。2018年2月;49(2):25-27。［CrossRef］
邦迪JJ, Chick JFB, Hage AN, Srinivasa RN, Chaudhary N, Srinivasa RN，等#中风。中华神经外科杂志2018年4月20日;10(12):e33-e33。［CrossRef］
适应癌症还是个人转变?Psychooncology 2001; 10(1):队。［Medline］
Taylor GH, Todman J, Broomfield NM。中风后情绪调整:一个修正的社会认知转变模型。神经心理康复2011 Dec;21(6):808-824。［CrossRef］
Sylwester K, Purver M.推特语言使用反映了民主党和共和党的心理差异。PLoS One 2015 9月;10(9):e0137422 [免费全文] [CrossRef] [Medline］
Kramer A.通过Facebook传播情感。见:SIGCHI会议论文集关于计算系统中的人为因素。美国:ACM;2012年发表于:atIGCHI计算机系统人为因素会议;2012;德克萨斯州奥斯汀p. 05-10。
Kern ML, Park G, Eichstaedt JC, Schwartz HA, Sap M, Smith LK，等。从社交媒体语言中获得见解:方法和挑战。精神方法2016年8月8日507-525。［CrossRef] [Medline］
Gohil S, Vuik S, Darzi A.医疗保健推文的情感分析:所用方法的回顾。JMIR公共卫生监测2018年4月23日;4(2):e43 [免费全文] [CrossRef] [Medline］
推特话题流行度的时空分析。arXiv 2011 Apr 05:2904-2908。
Ghosh S, Zafar M, Bhattacharya P, Sharma N, Ganguly N.关于人群智慧的抽样:twitter流的随机vs.专家抽样。2013.URL:http://ama.liglab.fr/wikiDeAMA/DOCS/randomvsexpert.pdf[2019-08-06]访问
“太多的美国人被困在恐惧、暴力和贫困中”:对2016年美国总统大选竞选演讲的心理学情绪分析。语言学前沿2018;4(1):1-9。［CrossRef］
情感的本质:人类的情感有深刻的进化根源，这一事实可以解释它们的复杂性，并为临床实践提供工具。美国科学家2001:344-350。
Mohammad S, Turney P.常用单词和短语引起的情绪:使用机械土耳其人来创建一个情绪词典。2010年发表于:NAACL-HLT关于文本中情感分析和生成的计算方法的研讨会;2010;美国加州。
《爱尔兰英语中情感的社会语言学分析》，2016年发表于:文本与话语学会年会上;2016;卡塞尔。
Dodds PS, Harris KD, Kloumann IM, Bliss CA，丹佛斯CM。全球社交网络中幸福和信息的时间模式:幸福计量学和推特。PLoS One 2011 12月;6(12):e26752 [免费全文] [CrossRef] [Medline］
Reece A, Danforth C. Instagram照片揭示了抑郁症的预测标志。EPJ数据科学2017年8月8日;6(1):15。［CrossRef］
Cody E, Reagan A, Mitchell L, Dodds P, Danforth CM。推特上的气候变化情绪:一项不请自来的民意调查。PLoS One 2015;10(8):e0136092 [免费全文] [CrossRef] [Medline］
科尔尼M.打包' rtweet '。URL:https://cran.r-project.org/web/packages/rtweet/rtweet.pdf[2019-03-19]访问
Webb H, Jirotka M, Stahl B, Housley W, Edwards A, Williams M，等。为研究传播而发布Twitter数据的伦理挑战。2017年发表于:ACM Web科学大会;2017;纽约特洛伊，第25-28页。
骑师M. Syuzhet包介绍。URL:https://cran.r-project.org/web/packages/syuzhet/vignettes/syuzhet-vignette.html[2019-08-06]访问
语言学统计R:实用介绍。纽约:Mouton de Gruyter;2009.
tm包介绍:R.文本挖掘https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf[2019-03-19]访问
Murzintcev N. ldatuning:潜狄利克雷分配模型参数的调整。URL:https://cran.r-project.org/web/packages/ldatuning/index.html[2019-03-19]访问
统计软件杂志。结构主题模型的R包https://cran.r-project.org/web/packages/stm/vignettes/stmVignette.pdf[2019-03-19]访问
布莱DM，拉弗蒂JD。《科学》相关主题模型。应用科学，2007,6(1):17-35。［CrossRef］
Waltman L, van Eck NJ, Noyons EC。文献计量网络映射和聚类的统一方法。信息计量学报2010年10月;4(4):629-635。［CrossRef］
王晓明，王晓明，王晓明。主题模型的语义一致性优化。见:自然语言处理经验方法会议论文集，EMNLP ?11，第262?272页。美国宾夕法尼亚州斯特劳兹堡计算语言学协会。2011年发表于:自然语言处理的经验方法会议;2011;美国宾夕法尼亚州斯特劳兹堡。
邓艳，常琳，杨敏，霍敏，周锐。情感反应的性别差异:经验与表达的不一致性。PLoS ONE 2016 6月30日;11(6):e0158666。［CrossRef］
Sas C, Dix A, Hart J, Su R.积极情绪的戏剧化资本化:Facebook成功的答案?2009年发表于:第23届英国HCI集团人与计算机年度会议:庆祝人与技术;2009;史温顿,英国。
荷兰学生使用社交网站:时间和平台的影响。在:网络社交和个人主义:个人和职业关系的技术。好时，PA: IGI Global;2011:103 - 125。
Forest AL, Wood JV。当社交网络不起作用时。心理科学2012 Feb 07;23(3):295-302。［CrossRef］
reecke L, Trepte S.社交网络网站的真实性和幸福感:关于在线真实性和社交网络传播中的积极偏见影响的两波纵向研究。计算机在人类行为2014年1月;30:95-102。［CrossRef］
Park G, Yaden DB, Schwartz HA, Kern ML, Eichstaedt JC, Kosinski M，等。女性比男性更热情，但并不比男性更自信:Facebook上的性别和语言。PLoS One 2016;11(5):e0155885 [免费全文] [CrossRef] [Medline］
Omnicore。Twitter的数据:统计数据，人口统计数据和有趣的事实https://www.omnicoreagency.com/twitter-statistics/[2019-03-18]访问
谁在社交媒体上更活跃?URL:https://www.digitalinformationworld.com/2014/10/who-is-more-active-on-social-media-men-or-women-infographic.html[2019-03-19]访问
帕迪拉J，卡瓦克H，林奇C，戈尔R，迪亚洛SY。推特上旅游景点访问情绪的时空调查。PLoS One 2018;13(6):e0198857 [免费全文] [CrossRef] [Medline］
戈尔R，迪亚洛S.你就是你的推特:连接美国的地理差异?推特内容的肥胖率。PLoS ONE 2015;你的推文决定你的生活:1-16 [免费全文］
Brunner M, Hemsley B, Dann S, toher L, Palmer S.标签#TBI:关于创伤性脑损伤推文的内容和网络数据分析。脑损伤2017 Dec 08;32(1):49-63。［CrossRef］
拉克马尔EM，维滕伯恩AK，伯根KW，麦考利HL。#我的抑郁症看起来像:研究推特上关于抑郁症的公众话语。JMIR Ment Health 2017 10月18日;4(4):e43 [免费全文] [CrossRef] [Medline］
女性大脑计划。URL:http://www.womensbrainproject.com/[2019-06-10]访问

‎

API:应用程序接口

新兴市场:期望最大化

能用frequency-exclusivity

HRQoL:与健康有关的生活质量

LDA:潜在狄利克雷分配

美国核管理委员会:国家研究委员会

其他:具象状态转移

社交网站:社交网站

STM:结构化主题建模

TDM:术语文档矩阵

TF-IDF:术语频率-逆文档频率

G·艾森巴赫(G Eysenbach)编辑;提交23.03.19;R Gore, L Subirats, S Kiritchenko同行评审;对作者18.04.19的评论;修订本收到11.06.19;接受16.06.19;发表26.08.19

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

推特上的中风幸存者:从性别角度的情绪和话题分析

推特上的中风幸存者:从性别角度的情绪和话题分析

原始论文

通讯作者:

摘要

关键字

简介

一般的背景

青年人中风

中风结果的性别差异

#中风

中风幸存者适应过程中的情绪困扰

自发的、情绪化的语言，以及推特上的日常话题讨论

本研究

Twitter列表

普鲁切克的《人类情感

政治

用结构主题模型添加协变量信息

研究目标

方法

数据收集

参与者选择过程

数据清理

情绪分析

结构主题模型

政治

结果

样品描述

情绪分析

用幸福计量器分配幸福分数

结构化主题建模

讨论

主要研究结果

限制

与以往工作的比较

结论

致谢

作者的贡献

利益冲突

参考文献

缩写