医学互联网研究杂志-调查个人对腰痛经历的背景的看法:推特数据的主题建模分析

原始论文

¹澳大利亚考菲尔德东莫纳什大学信息技术学院人本计算系

²澳大利亚墨尔本莫纳什大学公共卫生和预防医学学院流行病学和预防医学系

*所有作者贡献相同

通讯作者:

Pari Delir Haghighi博士

以人为本计算系

资讯科技学院

莫纳什大学

H栋6楼

丹德农路900号

考尔菲德东，3145

澳大利亚

电话:61 99032355

电子邮件:pari.delirhaghighi@monash.edu

背景:腰痛(LBP)仍然是全球致残的主要原因。为了改善结果，更好地理解关于LBP的信念和LBP对个人的影响是很重要的。虽然LBP的个人经历传统上是通过定性研究来探索的，但社交媒体可以从大量的、异质的、地理分布的人群中获得数据，这是使用传统的定性或定量方法所不可能实现的。由于社交媒体网站上的数据是在未经请求的情况下收集的，与传统的数据收集方式相比，个人更有可能自由地、不受约束地表达自己的观点和情绪。因此，社交媒体的内容分析提供了一种新的方法来理解经历过LBP等问题的人是如何感知它及其影响的。

摘要目的:本研究的目的是从第一人称视角识别LBP经验的上下文变量，以深入了解个人的信念和感知。

方法:我们分析了2014年1月1日至2018年12月31日期间896,867条关于LBP的清理推文。我们测试并比较了潜在狄利克雷分配(LDA)、狄利克雷多项式混合(DMM)、GPU-DMM、biterm主题模型和非负矩阵分解来识别与推文相关的主题。通过一致性评分来确定最佳模型。两位领域专家独立地对连贯得分最高的主题进行了定性内容分析，并将其归类为上下文类别。专家们会面并消除了任何分歧，并制定了最终的标签。

结果:LDA算法的一致性得分最高，优于其他所有算法。最佳模型为LDA，共60个主题，一致性评分为0.562。60个主题被分为19个上下文类别。“情感和信仰”在推文总数中所占比例最大(157,563/896,867,17.6%)，其次是“身体活动”(124,251/896,867,13.85%)和“日常生活”(80,730/896,867,9%)，而“食物和饮料”、“天气”和“不被理解”所占比例最小(11,551/896,867,1.29%;10109/896867, 1.13%;9180/896,867，分别为1.02%)。在“情感和信念”的11个主题中，113,562/157,563(72%)有负面情绪。

结论:对LBP领域推文的内容分析确定了与传统定性研究结果一致的共同主题，但提供了与LBP相关的个人观点的更细粒度视图。这种理解有可能有助于开发更有效和个性化的护理模式，以改善LBP患者的结果。

中国医学杂志，2016;23(12):e26093

doi: 10.2196/26093

关键字

腰痛；推特；内容分析；社交媒体；主题建模；以病人为中心的方法；痛苦的经验；疼痛的背景

腰痛(LBP)是全球致残的主要原因[1，2］．大约50%-80%的成年人一生中至少经历过一次腰痛[3.]是导致缺勤和限制身体活动的主要原因，对经济造成巨大负担[1，4］．在美国，与LBP相关的总成本每年超过1000亿美元[5，6］．它也是目前麻醉品处方在全球流行的一个重要因素[7］．

优化LBP等疾病的管理需要消费者参与他们的护理。为了做到这一点，医疗保健提供者需要从消费者的角度了解病情的全部情况。这里的“上下文变量”指的是关于个人疼痛经历背景的任何类型的有用信息，例如身体、情感、社会和/或职业变量[8］．更好地了解LBP患者的背景变量可以为临床医生和医疗服务提供者提供另一种见解，以了解患者的担忧、信念和期望，并有可能改善LBP的结果[9］．虽然已经有许多研究考察了个体对LBP的看法，但患者的观点仍然没有得到充分的了解[10］．虽然已经进行了定性研究——包括系统的范围审查——调查患者的需求和期望，但这些研究主要集中在一个单一的主题上，如医疗保健，其结果是从质量较差的异质研究中推断出来的[11-13］．当前方法的进一步限制是，大多数传统的数据收集方法使用预定义的框架，这些框架有可能限制响应。例如，通常使用的验证问卷提供关于背痛及其后果的陈述(如“背痛必须休息”)，并要求受访者在量表上表明他们的同意程度[12，13］．此外，由于后勤和方法上的原因，许多研究限制了要研究的人群的选择。

随着当前在线和网络技术的进步，社交媒体已成为第一人称医疗保健数据的一个新的丰富来源[14-16］．社交媒体平台提供了一个以经济高效的方式从更大、更多样化的人群中快速收集数据的机会。Twitter上经常讨论与健康有关的话题[17-19，一个微博社交媒体网站[20.］．Sinnenberg等人进行的系统综述[21他发现Twitter在健康研究中的六个主要用途:内容分析、监督、参与、招募、干预和网络分析。从社交媒体网站收集和分析大量与健康相关的数据，可以从第一人称视角提供有价值的信息[14，22］．在LBP领域，这种方法可用于调查个体的观点和围绕LBP经验的背景[15，23］．我们假设检测到的主题识别了个体LBP经验的特定上下文。因此，本研究的目的是从第一人称视角识别LBP体验的上下文变量，使用Twitter数据的主题建模方法，为个人的信念和感知提供有用的见解。这有可能为LBP管理提供更有效的以患者为中心的方法。

研究方法

我们的研究方法是应用主题建模对Twitter数据进行内容分析。内容分析是定性研究中广泛使用的技术[24]通过从文本文档中获得感兴趣的主题，可以深入研究患者的经验[14，25］．

Twitter数据

使用Twitter作为数据源，而不是其他社交媒体平台、博客文章或新闻文章，因为个人使用这个平台通过发布短消息来表达和分享他们对健康相关主题的感受和意见，这些短消息可以通过应用程序编程接口(api)或其他开放源代码轻松收集[14-17，26］．我们使用了一个名为Twint的开源推特抓取工具。27收集与LBP有关的英文推文。Twint允许在不使用Twitter API的情况下通过Python编程语言的公开库收集Twitter数据。27，28］．我们收集了2014年1月1日至2018年12月31日(含)之间发布的推文。选择5年的时间框架为我们提供足够的数据来研究新兴主题的模式和推文数量随时间的变化。由于近年来社交媒体平台的活跃用户数量不断增加，我们需要大量的数据来进行主题建模，因此我们没有考虑2014年之前发布的推文。我们根据3项关于背痛的研究选择搜索关键词[15，29，30.］．详情见表1．搜索关键词由我们的领域专家(FC，风湿病专家;DU，物理治疗师)，他在腰痛领域有广泛的研究和临床专业知识。在数据收集过程中，选择搜索关键字和适当的时间框架是重要的考虑因素。莫纳什大学人类研究伦理委员会批准了这项研究(项目ID 19738)。

我们的数据处理和分析包括4个步骤(见图1)．

表1。用于搜索腰痛相关推文的关键词。

源	研究目的	关键字	总n
Lee等人，2016 [15］	量化一条关于背痛的新推文所带来的风险	“背疼”，“背疼”，“后背开始疼”，“我的背疼”，“伤了我的背”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”，“我的背疼”	12
Ahlwardt等人，2014 [30.］	将推特上自我报告的牙痛经历与背痛、耳痛和头痛的经历进行比较	“背疼”，“背疼”，“背疼”，“背疼”，“背疼”，“背疼”，“背疼”，“背疼”，“背疼”，“背疼”，“背疼”，“背疼”	10
坎贝尔等人，2013 [29］	研究就业社会支持对非特异性背痛影响的系统综述	“腰痛”，“背痛”，“背痛”，“背痛”，“腰痛”，“腰痛”，“腰痛”，“腰痛”	7

步骤1:数据预处理

我们删除了重复、转发、url和与营销和广告相关的推文，这将数据集从7,892,210减少到2,825,645。我们进一步过滤了数据，删除了不包含第一人称代词的推文[15］．因此，剩余的数据集大小为2,010,295。

我们用缩略形式代替了它们的展开形式(例如，“didn’t”变成了“did not”)。我们将HTML字符转换为ASCII字符，并删除标签、Unicode字符串(例如“\u2026”)、数字和标点符号。我们替换了缩写，拉长的单词(例如，“gooood”到“good”)，以及表情符号和表情符号与它们对应的英语表达。然后，我们执行拼写纠正、小写、标记化和词元化，创建n-grams，删除停止词(例如，常见术语如“the”和“is”)。我们再次删除重复，剩下的数据集是1,249,576条推文。

在完成上述步骤后，我们排除了少于三个单词的tweet，因为在主题建模中，文档大小对于实现高精度很重要[31］．这将数据集减少到896,867条推文。

步骤2:主题建模

主题建模是一种技术，通过提取代表主要主题的“主题”来提供大型文档集合的摘要[32］．它允许从文本文档语料库(如twitter)中发现常见的隐藏主题。我们测试了5种完善的主题建模算法，用于在基于文本的语料库中检测主题，即潜在狄利克雷分配(LDA) [33]， Dirichlet多项混合(DMM) [34]， gpu-dmm [35]， biterm主题模型(BTM) [36]和非负矩阵分解(NMF) [37］．

LDA是一种生成概率模型，它假设每个文档可以用主题的分布来表示，每个主题可以用单词的分布来表示[33，38］．DMM也是一个生成模型，但它假设每个文档都与一个单一的主题相关联[34，39］．GPU-DMM是DMM的一种扩展方法，它考虑单词之间的语义相似性，以提供对文本文档的语义理解，并改善主题推理[35，40］．BTM通过对单词共现模式(即biterms)建模来揭示主题，而不是使用文档级别的单词共现[36，41］．NMF能够使用非负表示学习数据中的潜在特征，并改善潜在语义主题识别[37，42，43］．

为了使用这些模型(NMF除外)，我们使用了一个基于java的用于短文本主题建模算法的开源库STTM(1.8版)[44]，而对于NMF，我们使用sklearn [45)图书馆。对于每种方法，我们进行了从5个主题到200个主题的一系列实验。我们将这5种算法应用于896,867条推文，以确定最佳模型和最佳主题数。

选择正确的主题数量是主题建模中的关键步骤，因为它会影响结果的准确性。定量方法计算一致性分数和困惑度，这有助于确定主题的最佳数量[46］．一致性评分衡量主题中单词的两两单词相似度评分的总和，使用的是逐点互信息(PMI)评分[47］．最好的搭配组合通常有较高的PMI。另一方面，定性方法需要人类和领域专家来检查主题。人的判断非常重要，因为主题建模使用了一种无监督学习的形式。

作为一种定量方法，我们计算了每个模型在5到200个不同数量主题上的一致性得分，基于PMI得分[47，48］．用连贯评分来评价主题词分布的质量。LDA优于其他方法(即DMM、GPU-DMM、BTM和NMF)。

此外，我们使用定性方法来选择最具代表性的主题。我们手动检查了这些主题，它们的前20个术语，以及每个主题的随机推文样本。我们还为每个主题创建了一个词云，并评估词云及其示例推文。我们确定了为我们提供独特而有意义的主题的数量;如果我们超过这个数量的主题，我们开始注意到重复和重叠的主题增加。我们采用定量和定性相结合的方法来选择最佳的主题数量。

第三步:主题标注和分类

主题标注是通过为每个主题分配一个描述性词汇或短语来表示主题含义的过程[49］．虽然自动标注方法可以降低成本和时间，但它们不能达到很高的语义有效性和准确性[50，51］．在我们的研究中，我们使用了“目测”方法，即阅读和检查一个主题中的顶部单词，并手动分配标签[50］．我们确保结果符合“好”标签的要求:(1)语义相关，(2)有意义，(3)有代表性，(4)充分，(5)可理解[34，49］．

LDA假设每个文档(tweet)都是不同比例的主题的混合体[33］．我们有兴趣根据推文的主要主题来检查推文，以便更好地了解所有推文中主题的频率。因此，我们进行了进一步的分析，并使用主导主题的标签来表示每条推文，然后计算每个主题的推文总数。

为了改善专题分析的结果，低阶主题可以被分组到广泛的高阶类别中[52］．更高级别的类别可以更好地概述个人讨论的关键主题。为此，在手工标注主题之后，我们对主题进行了分类，并为代表常见主题的主题分配了一个类别标签。为了确定重要的和广泛讨论的类别，我们然后计算了与每个类别对应的所有推文的百分比。

步骤4:领域专家验证

两位领域专家(FC，风湿病专家;DU(物理治疗师)，积极从事临床工作，以及LBP领域的研究人员，独立检查了从上一步中选择的主题，每个主题都包括前20个单词，以确定面部有效性。如前所述，在主题建模中，每个主题的顶部单词提供了该主题的描述，从而帮助领域专家推断其含义[49］．然后，专家们会面以调和任何分歧，并制定出最终的标签。

概述

从2014年到2018年，从2,420,258名独立用户那里收集的关于LBP的推文总数为7,892,210条。自2017年以来，每条推文的平均字数有所增加(多媒体附件1)，以配合推特于2017年11月将推文字数上限由140字增加一倍至280字[53］．

步骤1:数据预处理

在进行全面的数据预处理后，最终保留tweets的数量为896,867条，占我们收集的原始原始数据的11%(896,867/7,892,210)，词汇量为29,539条。tweet的最小长度为4个单词，最大长度为20个单词。

步骤2:主题建模

在测试了5种主题建模算法和基于一致性评分和人工检查的主题数量后，我们选择了包括60个主题的最佳模型，从896,867条关于LBP的自报告推文中检测到。多媒体附件2从5到200，展示了不同主题数量下不同模型的一致性得分。最佳模型为LDA模型，共60个主题，一致性评分为0.562。多媒体显示了60个主题及其前20个术语选择的最佳模型。

第三步:主题标注和分类

研究人员对60个主题进行了检查，并手动为其贴上了主题标签。然后，常见标签和重复标签被分为更高阶的类别。结合相关主题后的“疼痛区域”和“睡眠”两类词云在多媒体附件4．手动标记的60个主题的流行程度显示在多媒体．

步骤4:领域专家验证

两位领域专家对所选主题进行了独立审查，并对任何差异进行了调和，最终形成了19个上下文类别，详细内容见多媒体附件6．19个上下文类别中每个类别的推文总数显示在图2，详情见多媒体．“情感和信仰”类别在推文总数中所占比例最大，其次是“体育活动”和“日常生活”。推文中比例最低的是“食物和饮料”、“天气”和“不被理解”。

这些年来，每个更高级别类别的推文比例表明，所有19个类别每年都被个人以相对相似的频率讨论图3)．然而，“情感与信仰”的比例从2014年到2018年有所下降。在此期间，关于“加重因素”和“症状”等其他类别的推文数量有所增加。中给出了每个类别的推文示例表2举例说明与每个类别相关的个人观点类型。

表2。每个上下文类别的推文示例。

类别	推文的例子
情感与信念	我的背疼，感觉很难过，因为我想起来做点什么!我讨厌躺在床上。 ‎
体育活动	昨天我骑自行车锻炼了6英里，对自己很满意，吃得也很健康。我今天背疼 ‎
日常生活症状	所以我的背疼得要命，我几乎不能坐在这里做头发。 ‎ 我讨厌我的下背部疼痛，并使我的腿疼痛和悸动。啊。 ‎
睡眠	每次我睡在我姐姐的客房，我的背都疼，那张床不舒服。我睡在地板上可能会更好 ‎
疼痛区域	今天不是个好日子。我的背很疼，肩膀也很疼，手肘也很痛，手都有点麻，最严重的是我的左膝也有点痛。 ‎
卫生保健	所以我找到了一个好的理疗师和一个好的脊椎按摩师，都是一样的价格，如果你有腰痛，你会去看谁? ‎
女性	怀孕真的让我失去了一切。我累坏了，我的背疼死了，而且我很情绪化…… ‎
加重因素	昨天我试着在蹦床上做后空翻。现在，每次我走路我的背都疼。当我做后空翻时，我头朝下落地。 ‎
就业	昨天上班时伤了背，明天要干整整12个小时，还没有工资。热爱现在的生活。 ‎
娱乐	看太阳马戏团:迈克尔·杰克逊看完我的背就疼了 ‎
宗教	见证时间!我要把荣耀归给神，因为他治好了我严重的背痛 ‎
共病的条件	我不知道是我的背痛导致了抑郁，还是我的抑郁导致了背痛…… ‎
药物疗法	我刚第一次服用羟考酮治疗腰痛。我想我恋爱了。它不只是消除疼痛。它暗杀了它。 ‎
流传的	椰子油、泻盐和蒸汽浴油缓解了我的背痛 ‎
社会支持	我告诉妈妈我背疼，她主动帮我搓脚和背，我有最好的妈妈 ‎
食物和饮料	我的背疼得下不了床，我需要咖啡 ‎
天气	我喜欢寒冷的天气，但这对我的背痛没有帮助。阿tttttt，夏天温暖的天气在哪里? ‎
不被理解	天啊，没有人能理解我现在的痛苦。我的背疼死了。 ‎

主要结果

在这项研究中，我们从896,867条关于腰痛的推文中确定了60个特定主题，并将它们分为19个与腰痛上下文变量相关的类别。最多的类别是“情感和信仰”，有157,563/896,867条推文(17.6%)，其次是“身体活动”(124,251/896,867条，13.85%)和“日常生活”(80,730/896,867条，9%)，而“食物和饮料”、“天气”和“不被理解”的推文比例最低(11,551/896,867条，1.29%;10109/896867, 1.13%;9180/896,867，分别为1.02%)。在“情感与信念”这一类别中有11个话题;在这一类别的157,563条推文中，113,562条(72%)表达了负面情绪。我们的结果与LBP领域传统研究方法的一般发现一致，但从个人角度提供了LBP背景的更深入细节。

与之前工作的比较

我们的研究检查了上下文变量，以提供对LBP体验的第一人称视角的新见解，并证实了之前使用更传统的定性和定量研究数据收集方法确定的广泛领域。例如，心理社会因素在LBP中起着重要作用。54从我们对推文的分析来看，“情感和信仰”是我们发现的最常见的话题，在896867条推文中有157563条。这与LBP被广泛认为是一种生物心理社会疾病是一致的，而且越来越多的证据表明，心理因素，如信仰和情绪，发挥着重要作用[55］．例如，系统综述强调，在不同的国家和人群中，关于背痛和由此产生的负面后果的信念是普遍的[56]，同时影响治疗效果和预后[57］．此外，针对负面信念的大众媒体运动已经开始实施，试图在人口水平上影响人们如何控制背痛[58］．我们的研究还提供了关于情绪的新发现。尽管我们发现了一系列的情绪，从积极的情绪(如快乐、爱或乐趣)到消极的情绪(包括地狱、糟糕或恶心)，但大多数都是消极的。尽管有几项研究研究了特定情绪的作用，如愤怒[59，60，在腰痛的研究中，我们对背痛患者所经历的一系列情绪，特别是负面情绪的理解是有限的。

我们的研究还强调了与个体疼痛体验相关的领域，这些领域在文献中尚未得到充分探讨，但在LBP干预和自我管理行为的有效性中起着重要作用，如“不被理解”、“宗教”和“食物和饮料”类别。我们发现，尽管“不被理解”这一类别的推文所占比例最小，共有9180条推文，但它拥有排名前五的单词:“制造”、“人们”、“停止”、“事情”和“抱怨”。这与之前的系统范围审查相一致，该审查审查了患者对医疗护理的期望，报告称患者感到被误解，并希望将他们的LBP合法化[11］．LBP患者报告了来自卫生保健专业人员、家人和朋友以及社区的负面社会刻板印象[61]，他们对医生提供的不充分的建议感到不满，并确定了对表现出更多理解和同理心的护理提供者的未满足需求[11］．

“食品和饮料”这一类别新颖有趣。这些推文包括与食物类型(如披萨、巧克力、饼干和奶油)、用餐时间(如早餐和午餐)以及带来或制作食物的过程相关的词汇。虽然它们反映了重要的日常饮食习惯，但它们也可能突出了影响个人饮食能力的疼痛问题和/或与体重特别是肥胖相关的问题[62]，这是一个重大的公共卫生问题[63］．

背痛的患病率存在明显的性别差异[64］．对推文的分析发现，“女性”类别下有3个主题，包括“母性”、“大胸问题”和“女性健康投诉”。据报道，超过三分之二的孕妇有腰痛[65］．改善心理健康、身体健康和整体健康可能会降低女性的腰压[65-67］．推文中确定的主题可能会提供更多与个人主题相关的方向，值得进一步研究(例如，“大胸问题”的潜在影响，以及这是LBP的原因还是潜在的混淆变量)。确定与"母性"或"女性健康抱怨"等主题相关的可能机制，也有助于了解这些关联是由于心理社会因素还是生物力学因素，如举起和携带儿童。了解LBP的背景可以为LBP患者如何看待和体验他们的病情提供有价值的见解;这可能会导致在探索腰痛的原因方面发现新的研究领域，以及有机会确定需要解决的潜在错误信息领域。

限制

我们的研究有一些局限性。虽然这些关键词来自于现有的关于腰痛的研究，并得到了领域专家的认可，但一些关键词，如“背部疼痛”和“背部疼痛”，是非常广泛的。因此，收集的数据可能不是针对LBP的。在Twitter数据分析中选择正确的关键字是非常重要的，可以避免不相关的数据降低结果的准确性。过滤和清理Twitter数据对于获得高准确性的结果也是至关重要的。在我们的研究中，我们进行了大量的数据清理，但我们的人工检查显示，有一组推文包含了Migos一首著名嘻哈歌曲(Bad and Boujee)的歌词中的几行。这些台词包括“……所以我的钱让我的背疼。”我们的搜索关键词之一是“背痛”。尽管有许多工具和方法可以自动执行数据清理，但总是有必要手动检查结果。

推特用户往往更年轻，可能不能代表一般人群;因此，必须仔细解释结果[68］．与医疗保健领域的其他社交媒体研究类似，我们无法证实在推特上发布LBP的人是否真的是患者。15］．然而，我们基于第一人称代词(例如，I, my, or mine)进行的过滤可能已经减少了这种情况。

为了确定主题的最佳数量，我们使用了一致性评分，这是一种广泛使用的方法，然后手动检查和比较模型。这一过程可以通过使用其他措施进一步改进，如启发式方法[69]或困惑测量[70］．

我们也认识到手动标注主题可能是主观的。两名具有广泛知识的领域专家参与了选定主题的标注和审查，但这一领域的未来工作可能涉及更多和更多样化的领域专家，以进一步减少这种主观性。

结论

我们的研究结果对个体的信念和观点提供了有用的见解，这些观点与他们对LBP的需求和担忧有关，补充了文献中可用的信息。考虑本研究中确定的背景因素，而不是简单地专注于LBP的生物医学模型，可以更全面地解决患者的需求，有助于改善LBP的结果，并提高患者的满意度。这些发现有可能帮助医疗保健提供者和临床医生开发更有效的、个性化的LBP治疗方法。也有可能使用社交媒体来确定社区信仰和对LBP的需求的任何重大变化，可以以更及时的方式加以解决。

致谢

这项研究没有从任何公共、商业或非营利部门的资助机构获得特定的资助。国家卫生和医学研究理事会职业发展奖学金(2级;1142809)。

作者的贡献

PDH, FB, DU和FC对研究概念和设计做出了贡献。R有助于数据收集和主题建模。PDH、DU和FC有助于主题标记和聚类。PDH、FB、DU和FC有助于数据的解释。R和PDH参与了初稿的起草。PDH, FB, DU和FC对重要的智力内容的手稿进行了批判性的修订。R和PDH提供行政、技术或物质支持。所有作者都同意了手稿的最终版本。

利益冲突

没有宣布。

‎

多媒体附件1

每年推文的平均字数。

DOCX文件，83 KB

‎

多媒体附件2

潜在Dirichlet分配、Dirichlet多项混合(DMM)、通用Pólya Urn Dirichlet多项混合(cpu -DMM)、biterm主题模型和主题数为5-200的非负矩阵分解的相干评分。

DOCX文件，197 KB

‎

多媒体

最好的模型有60个主题和它们的前20个术语。

DOCX文件，35kb

‎

多媒体附件4

疼痛区域和睡眠类别的词云。

DOCX文件，244kb

‎

多媒体

每个手动标记的主题的推文总数。

DOCX文件，23kb

‎

多媒体附件6

与腰痛相关的19个情境分类。

DOCX文件，23kb

‎

多媒体

每个上下文类别的tweet总数和百分比。

DOCX文件，21 KB

Hoy D, March L, Brooks P, Blyth F, Woolf A, Bain C，等。全球腰痛负担:来自2010年全球疾病负担研究的估计。安Rheum 2014年6月24日;73(6):968-974。［CrossRef] [Medline］
2013年全球疾病负担研究合作者。1990-2013年，188个国家301种急慢性疾病和损伤的全球、区域和国家发病率、患病率和残疾寿命:2013年全球疾病负担研究的系统分析。柳叶刀2015 Aug 22;386(9995):743-800 [免费全文] [CrossRef] [Medline］
鲁宾DI。脊柱疼痛的流行病学和危险因素。神经临床杂志2007年5月;25(2):353-371。［CrossRef] [Medline］
霍伊D，布鲁克斯P, Blyth F, Buchbinder R.腰痛的流行病学。2010年12月24(6):769-781。［CrossRef] [Medline］
郭宏宏，田中S, Halperin WE, Cameron LL。背痛在美国工业中的患病率和损失工作日的估计。中华医学会公共卫生杂志1999年7月;89(7):1029-1035。［CrossRef] [Medline］
Katz约。腰椎间盘疾病和腰痛:社会经济因素和后果。骨关节外科杂志2006年4月88日增刊2:21-24。［CrossRef] [Medline］
Mafi JN, McCarthy EP, Davis RB, Landon BE。背部疼痛的管理和治疗趋势不断恶化。JAMA实习生2013年9月23日;173(17):1573-1581 [免费全文] [CrossRef] [Medline］
周L, Cicuttini FM, Urquhart DM, Anthony SN, Sullivan K, Seneviwickrama M，等。腰痛患者感知工作场所、金融、社会和家庭领域的非生物医学服务需求:一项系统综述。J Physiother 2018 Apr;64(2):74-83 [免费全文] [CrossRef] [Medline］
林永泽，周林，欧RT, Seneviwickrama KMD, Cicuttini FM, Briggs AM，等。腰痛患者希望获得关于预后、治疗方案和自我管理策略的明确、一致和个性化的信息:一个系统的评价。《物理学报》2019年7月;65(3):124-135 [J]免费全文] [CrossRef] [Medline］
De Souza LH, Frank AO。慢性背痛患者的主观疼痛体验。物理学报2000年11月;5(4):207-219。［CrossRef] [Medline］
周玲，Ranger TA, Peiris W, Cicuttini FM, Urquhart DM, Sullivan K，等。患者对医疗保健提供者对腰痛管理的感知需求:系统范围审查。中华外科杂志2018年4月18日(4):691-711。［CrossRef] [Medline］
Symonds TL, Burton AK, Tillotson KM, Main CJ。由于腰背问题导致的缺勤可以通过工作场所的社会心理干预来减少。脊柱(Phila Pa 1976) 1995 12月15日;20(24):2738-2745。［CrossRef] [Medline］
Waddell G, Newton M, Henderson I, Somerville D, Main C.恐惧-回避信念问卷(FABQ)和恐惧-回避信念在慢性腰痛和残疾中的作用。Pain 1993 Feb;52(2):157-168。［CrossRef] [Medline］
Delir Haghighi P, Kang Y, Buchbinder R, Burstein F, Whittle S.调查纤维肌痛患者的主观体验和天气影响:Twitter的内容分析。JMIR公共卫生监测2017年1月19日;3(1):e4 [免费全文] [CrossRef] [Medline］
Lee H, McAuley JH, Hübscher M, Allen HG, Kamper SJ, Moseley GL.推特回复:用大量社交媒体数据预测新的背痛病例。J Am Med Inform association 2016 May;23(3):644-648。［CrossRef] [Medline］
阿斯哈尔MZ，艾哈迈德S，卡西姆M，扎赫拉SR，昆迪FM。SentiHealth:使用混合方法创建与健康相关的情感词汇。sprerplus 2016;5(1):1139 [免费全文] [CrossRef] [Medline］
Raghupathi W, Raghupathi V.医疗保健中的大数据分析:前景和潜力。健康科学与科学系统2014;2:3 [免费全文] [CrossRef] [Medline］
卞杰，Topaloglu U，余峰。针对药物相关不良事件的大规模推特挖掘。SHB12(2012) 2012 10月29日;2012:25-32 [免费全文] [CrossRef] [Medline］
Pershad Y, Hangge P, Albadawi H, Oklu R.社会医学:医疗保健中的Twitter。临床医学杂志2018年5月28日;7(6):121 [免费全文] [CrossRef] [Medline］
Aichner T, Jacob F.衡量企业社交媒体使用程度。国际市场研究杂志2015年3月1日;57(2):257-276。［CrossRef］
Sinnenberg L, Buttenheim AM, Padrez K, Mancheno C, Ungar L, Merchant RM。推特作为健康研究的工具:系统回顾。中华医学会公共卫生杂志2017年1月;107(1):e1-e8。［CrossRef] [Medline］
Jayaraman PP, Forkan ARM, Morshed A, Haghighi PD, Kang Y.医疗保健4.0:数字健康前沿综述。电线数据挖掘Knowl发现2019年12月25日;10(2):1-23。［CrossRef］
高涛，Delir Haghighi P, Burstein F, Buchbinder R.开发上下文模型来理解腰痛。载于:第19届亚太信息系统会议论文集。2015年发表于:第19届亚太信息系统会议论文集;2015年7月5日;新加坡URL:http://aisel.aisnet.org/pacis2015/64
谢秀华，夏珊。定性内容分析的三种方法。合格卫生决议2005年11月;15(9):1277-1288。［CrossRef] [Medline］
核磁共振患者会发推特吗?患者推文关于其MRI体验的专题分析。中国医学影像放射科学2015年12月;46(4):396-402。［CrossRef] [Medline］
Prier K, Smith M, Giraud-Carrier C, Hanson C.识别Twitter上的健康相关话题:以烟草相关推文为测试主题的探索。见:Salerno J, Yang SJ, Nau D, Chai SK，编辑。社会计算，行为文化建模与预测。柏林，海德堡:施普林格;2011年3月19日:18-25。
TWINT -推特情报工具。GitHub。URL:https://github.com/twintproject/twint[2021-03-29]访问
一种从推特中提取和分析数据的基本方法。在:Roesler V, Barrére E, Willrich R，编辑。多媒体、物联网和网络技术专题。可汗:施普林格;3月3日，2020:185-211。
金宝强P，温-琼斯G，缪勒S，邓恩KM。就业社会支持对非特异性背痛风险和预后的影响:系统回顾和关键综合。国际Arch occupation environment Health 2013 Feb 9;86(2):119-137 [免费全文] [CrossRef] [Medline］
Ahlwardt K, Heaivilin N, Gibbs J, Page J, Gerbert B, Tsoh JY.关于疼痛的推特:将自我报告的牙痛与背痛、耳痛和头痛进行比较。J Am Dent协会2014年7月;145(7):737-743 [免费全文] [CrossRef] [Medline］
T健，M朝石，N玄龙，M巧珠，郑明。基于后验收缩分析的主题建模限制因素研究。2014年6月21日出席:第31届国际会议国际机器学习会议;2014;中国北京，第190-198页。
bli D, Carin L, Dunson D.概率主题模型:关注图形模型设计和文档和图像分析的应用。IEEE信号处理2010年11月01日;27(6):55-65 [免费全文] [CrossRef] [Medline］
李志强，李志强。计算机科学与技术，2003;(3):993-1022 [免费全文］
王晓明，王晓明，王晓明。基于EM的文本分类方法研究。计算机科学与技术，2000;39(1):103-134。［CrossRef］
李超，王宏，张震，孙安，马哲。基于辅助词嵌入的短文本主题建模。在:SIGIR '16:信息检索研究与开发的第39届国际ACM SIGIR会议论文集。纽约，纽约州:ACM出版社;2016年7月17日发表于:SIGIR '16;7月17日至21日;比萨，意大利，第165-174页。［CrossRef］
程旭，闫旭，兰艳，郭洁。BTM:基于短文本的主题建模。IEEE知识数据学报2014年12月1日;26(12):2928-2941。［CrossRef］
李丹，宋松。非负矩阵分解算法。:麻省理工学院出版社;2000年1月1日发表于:第十三届神经信息处理国际会议;2000;丹佛，535-541页。
Chandrasekaran R, Mehta V, Valkunde T, Moustakas E.关于COVID-19大流行的推文主题、趋势和情绪:时间信息监测研究。J Med Internet Res 2020年10月23日;22(10):e22624 [免费全文] [CrossRef] [Medline］
Surian D, Nguyen DQ, Kennedy G, Johnson M, Coiera E, Dunn AG。使用主题建模和社区检测来描述关于HPV疫苗的Twitter讨论。中国医学杂志，2016;18(8):e232 [免费全文] [CrossRef] [Medline］
梁伟，冯荣，刘霞，李勇，张旭。GLTM:一种基于全局和局部词嵌入的短文本主题模型。IEEE Access 2018;6:43612-43621。［CrossRef］
Mackey T, Kalyanam J, Klugman J, Kuzmenko E, Gupta R.通过Twitter检测、分类和报告非法在线营销和受管制物质销售的解决方案:使用机器学习和网络取证来打击数字阿片获取。J Med Internet Res 2018年12月27日;20(4):e10029 [免费全文] [CrossRef] [Medline］
Odlum M, Yoon S, Broadwell P, Brewer R, Kuang D. Twitter如何支持艾滋病毒/艾滋病应对以实现2030年根除目标:世界艾滋病日推文的深入专题分析。JMIR公共卫生监测2018年11月22日;4(4):e10262 [免费全文] [CrossRef] [Medline］
王勇，张颖。非负矩阵分解的综合评述。IEEE知识数据学报2013年6月;25(6):1336-1353。［CrossRef］
STTM:一个短文本主题建模库。GitHub。URL:https://github.com/qiang2100/STTM[2021-02-17]访问
scikit-learn: Python中的机器学习。URL:https://scikit-learn.org/stable/[2021-02-17]访问
张军，王超，张志刚，张志刚。阅读茶叶:人类如何解读主题模型。2009年发表于:第22届神经信息处理系统国际会议;2009年12月7日;温哥华，不列颠哥伦比亚省，加拿大p. 288-296网址:https://papers.nips.cc/paper/2009/hash/f92586a25bb3145facd64ab20fd554ff-Abstract.html
词关联规范、互信息和词典编纂。计算语言学1990 Mar 1;16(1):76-83。［CrossRef］
王志刚，王志刚。基于正则化主题模型的主题一致性研究。2011年发表于:第24届神经信息处理系统国际会议;2011年12月12日;西班牙格拉纳达p. 496-504网址:https://papers.nips.cc/paper/2011/hash/5ef698cd9fe650923ea331c15af3b160-Abstract.html
李志强，李志强，李志强。一种基于知识的主题建模方法。ijacsa 2017; 8(9): 335 - 349。［CrossRef］
刘海。在一致性和共识的寻找中:测量统计主题的可解释性。机器学习研究2017;18(1):6177-6208。
格里默J，斯图尔特BM。作为数据的文本:政治文本自动内容分析方法的前景与缺陷。政治分析2017年1月4日;21(3):267-297。［CrossRef］
Nowell LS, Norris JM, White DE, Moules NJ。专题分析:努力达到诚信标准。国际定性方法杂志2017年10月02日;16(1):160940691773384。［CrossRef］
Boot AB, Tjong Kim Sang E, Dijkstra K, Zwaan RA。字符限制如何影响推文中的语言使用。帕尔格雷夫社区2019年7月9日;5(1):1-13。［CrossRef］
Pincus T, Burton AK, Vogel S, Field AP.对前瞻性腰痛队列中心理因素作为慢性/残疾预测因素的系统回顾。脊柱(Phila Pa 1976) 2002年3月01日;27(5):E109-E120。［CrossRef] [Medline］
Maher C, Underwood M, Buchbinder R.非特异性腰痛。柳叶刀2017年2月18日;389(10070):736-747。［CrossRef] [Medline］
Morton L, de Bruin M, Krajewska M, Whibley D, Macfarlane G.关于背痛和疼痛管理行为的信念及其在普通人群中的相关性:一项系统综述。Eur J Pain 2019 1月07日;23(1):15-30 [免费全文] [CrossRef] [Medline］
Wertli MM, Rasmussen-Barr E, Held U, Weiser S, Bachmann LM, Brunner F.恐惧-回避信念-腰痛患者治疗疗效的调节因子:一项系统综述。脊柱杂志2014年11月01日;14(11):2658-2678。［CrossRef] [Medline］
Urquhart DM, Bell RJ, Cicuttini FM, Cui J, Forbes A, Davis SR.对腰痛的消极信念与社区女性的高疼痛强度和高残疾程度相关。BMC musloskelet Disord 2008 Nov 04;9(1):148-148 [免费全文] [CrossRef] [Medline］
刘晓霞，刘志刚，刘志刚，刘志刚。每日慢性疼痛强度、每日愤怒表达与特质愤怒表达之间的关系:生态瞬时评估研究。Pain 2012 Dec;153(12):2352-2358 [免费全文] [CrossRef] [Medline］
Burns JW, Quartana P, Bruehl S.慢性腰痛患者的愤怒抑制和随后的疼痛行为:愤怒调节风格的调节作用。Ann Behav Med 2011年8月5日;42(1):42-54 [免费全文] [CrossRef] [Medline］
斯莱德SC，莫洛伊E，基廷JL。非特异性慢性腰痛患者的病耻感:一项定性研究。疼痛医学2009年1月1日;10(1):143-154。［CrossRef] [Medline］
周L, Brady S, Urquhart D, Teichtahl AJ, Cicuttini FM, Pasco JA，等。肥胖与腰痛和残疾之间的关系受情绪障碍的影响:一项基于人群的男性横断面研究。医学(巴尔的摩)2016 Apr;95(15):e3367 [免费全文] [CrossRef] [Medline］
Agha M, Agha R.肥胖发病率上升:A部分:对公共卫生的影响。国际外科肿瘤学(N Y) 2017 Aug;2(7):e17 [免费全文] [CrossRef] [Medline］
吴安，March L，郑霞，黄娟，王霞，赵娟，等。1990年至2017年全球腰痛患病率和残疾寿命:来自2017年全球疾病负担研究的估计。安翻译医学2020年3月;8(6):299-299 [免费全文] [CrossRef] [Medline］
Liddle S, Pennick V.预防和治疗怀孕期间腰背痛和骨盆疼痛的干预措施。Cochrane Database Syst Rev 2015 9月30日(9):CD001139 [免费全文] [CrossRef] [Medline］
王勇，王志强，王志强，王志强，等。9年以上中年妇女背部疼痛的过程和因素:来自澳大利亚妇女健康纵向研究的数据脊柱(Phila Pa 1976) 2018年12月01日;43(23):1648-1656。［CrossRef] [Medline］
吴sk, Cicuttini FM, Davis SR, Bell R, Botlero R, Fitzgibbon BM，等。在社区妇女中，一般健康状况不佳和活力水平较低与持续的高强度腰痛和残疾有关:一项前瞻性队列研究2018年7月;113:7-12。［CrossRef] [Medline］
张华，Wheldon C, Dunn A，陶c，霍杰，张锐，等。挖掘Twitter以评估GPU-DMM健康行为的决定因素:一般Pólya美国瓮狄利克雷多项混合人类乳头瘤病毒疫苗接种。美国医学通报协会2020年2月01日;27(2):225-235 [免费全文] [CrossRef] [Medline］
赵伟，陈俊杰，Perkins R，刘震，葛伟，丁勇，等。主题建模中确定适当数量的启发式方法。BMC Bioinformatics 2015;16增刊13:S8 [免费全文] [CrossRef] [Medline］
王志强，王志强，王志强。主题模型的评价方法。见:第26届国际机器学习年会论文集。: ACM出版社;2009年发表于:第26届机器学习国际年会;2009年6月14-18日;蒙特利尔，魁北克，加拿大，第1-8页。

‎

API:应用程序编程接口

BTM:Biterm主题模型

数字:狄利克雷多项混合

GPU-DMM:一般Pólya瓮狄利克雷多项式混合

腰痛:腰痛

LDA:潜在狄利克雷分配

NMF:非负矩阵分解

采购经理人指数:点互信息

STTM:短文本主题建模算法

JMIRPE办公室编辑;提交27.11.20;G Chirambo, E O’hagan同行评审;对作者22.01.21的评论;修订本收到日期:06.03.21;接受21.11.21;发表23.12.21

©Robert, Pari Delir Haghighi, Frada Burstein, Donna Urquhart, Flavia Cicuttini。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2021年12月23日。

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

调查个体对腰痛经历的背景的看法:推特数据的主题建模分析

调查个体对腰痛经历的背景的看法:推特数据的主题建模分析

原始论文

通讯作者:

摘要

关键字

简介

方法

研究方法

Twitter数据

步骤1:数据预处理

步骤2:主题建模

第三步:主题标注和分类

步骤4:领域专家验证

结果

概述

步骤1:数据预处理

步骤2:主题建模

第三步:主题标注和分类

步骤4:领域专家验证

讨论

主要结果

与之前工作的比较

限制

结论

致谢

作者的贡献

利益冲突

参考文献

缩写