原始论文
摘要
背景:患者使用社交媒体作为替代信息来源,在那里他们分享信息并提供社会支持。尽管每天都有大量与健康相关的数据发布在Twitter和其他社交网络平台上,但利用社交媒体数据来了解慢性病和患者生活方式的研究是有限的。
摘要目的:在这项研究中,我们通过提供一个框架来在Twitter上识别炎症性肠病(IBD)患者,并从他们的个人经历中学习,从而有助于缩小这一差距。我们通过构建一个Twitter用户分类器来实现对患者推文的分析,该分类器将患者与其他实体区分开来。这项研究旨在揭示利用Twitter数据来促进IBD患者健康的潜力,依靠人群的智慧来识别健康的生活方式。我们试图利用描述患者日常活动及其对健康的影响的帖子来描述与生活方式相关的治疗。
方法:在研究的第一阶段,使用一种结合社会网络分析和自然语言处理的机器学习方法来自动将用户分类为患者或非患者。我们考虑了三种类型的特征:用户在Twitter上的行为,用户推文的内容,以及用户网络的社交结构。我们比较了两种分类方法中几种分类算法的性能。其中一个对每条推文进行分类,并根据推文级别的分类推断出用户的类别。另一种是将推文级功能聚合到用户级功能,并对用户本身进行分类。不同的分类算法使用4个指标进行检查和比较:精密度、召回率、F1分数和受试者工作特征曲线下的面积。在第二阶段,使用第一阶段的分类器来收集患者的推文,这些推文描述了患者为应对疾病而采取的不同生活方式。使用IBM沃森服务进行实体情绪分析,我们计算了IBD患者在描述日常生活时使用的420个与生活方式相关的单词的平均情绪。
结果:两种分类方法的结果都很有希望。虽然推文级方法的准确率略高,但用户级方法的召回率和接收者工作特征曲线下的面积明显更好。对IBD患者写的推文进行情感分析,确定了经常提到的生活方式及其对患者健康的影响。研究结果加强了已知的适合IBD的营养,因为几种已知会导致炎症的食物在负面情绪中被指出,而放松活动和抗炎食物则在积极的环境中出现。
结论:这项研究提出了一个在Twitter上识别IBD患者的管道,并收集他们的推文来分析他们分享的实验知识。这些方法可以适用于其他疾病,并加强对慢性疾病的医学研究。
doi: 10.2196/29186
关键字
简介
背景
近年来,社交网站和基于网络的社区已经成为患者的替代信息来源。各地的患者都使用社交媒体分享健康和治疗信息,互相学习经验,并提供社会支持。挖掘这些信息丰富的对话可能会对患者的生活方式有所启发,并支持慢性疾病的研究。
近年来,文本挖掘和社交网络分析已被用于检测推特上关于健康的提及[
, ]或追踪COVID-19大流行和症状的传播[ - ].对于慢性疾病,之前的研究主要集中在分析患者的推文,并揭示他们的推特社区[ - ].虽然相对大量的研究致力于糖尿病或癌症,但对炎症性肠病(IBD)的研究才刚刚开始巩固。IBD是一种消化系统的慢性炎症,其特征为发作期和缓解期。与IBD相关的两种原发疾病,克罗恩病和溃疡性结肠炎,通常在年轻患者中诊断(年龄范围在15-30岁之间)。IBD的发病率正在迅速上升,并已发展成为一种全球性疾病[
- ].没有药物或手术可以治愈IBD。治疗方案只能帮助缓解症状,而且对每个患者的影响不同。它们包括处方药和与生活方式相关的解决方案,如饮食和治疗。症状包括腹痛、腹泻和疲劳,严重者可能需要住院或手术治疗[
, ].作为慢性肠道疾病,克罗恩病和溃疡性结肠炎都需要日常的药物摄入和特殊营养护理。患者将IBD描述为一种令人尴尬的疾病,它会立即导致日常活动中断。他们很难适应随之而来的变化,认为自己与同龄人不同。由于IBD的特点是频繁排便,人们不会急于与他人分享他们的疾病[
, - ].根据IBD患者的说法,这种尴尬的部分原因可以归结为缺乏公众意识。外人看不出一个人的胃疼,也看不出他的肠子有疤。这种疾病是看不见的,其他人可能会怀疑它的存在。 , ].IBD带来的尴尬,以及向有类似经历的人倾诉的需要,有助于解释在Twitter上创建IBD相关社区的原因。通过克服空间和距离,Twitter用户形成了一个不受物理边界或静止的社区。有共同立场的感觉有助于打破障碍,开启对话,增加一个人分享的意愿。
, ].根据个人经验,咨询其他病人可能会更容易,因为他们能更好地理解这种情况。人们可以更容易地识别与自己相似的用户故事,并更容易接受他们的建议[ ].当人们在推特上披露健康信息时,他们就会接触到各种各样的观点,从而减少了对自己疾病的不确定性。 ].由于IBD的性质及其对消化系统的影响,IBD患者被迫每天处理他们的疾病,坚持严格的饮食方案,并保持平静的日常生活。营养或体力活动的改变,目前是通过反复试验来检验的,对患者来说是一个漫长而痛苦的过程。我们可以从他们的个人经历中学习,通过收集和分析患者的社交媒体数据,为现有的疾病医学知识提供额外的基础。基于大众智慧的互补性建议可以缓解患者的生活,缩短寻找适合他们的生活方式的过程。
目标及贡献
这项研究旨在通过收集和分析IBD患者分享的个人疾病经历,来揭示使用Twitter数据促进IBD患者健康的潜力。我们提出了一个框架,用于在Twitter上识别IBD患者,并检查他们分享的关于他们疾病的内容。我们首先构建了一个用户分类器,将患者与在Twitter上谈论IBD的其他实体区分开来,然后使用分类器收集患者的推文,并探索他们为应对疾病而进行的与生活方式相关的治疗。
这项研究的重点是创建一个管道,使用Twitter数据来识别IBD患者,并探索他们共享的信息。虽然这项研究的每一部分都可以通过尝试其他分类方法或丰富患者推文的分析来扩展,但这项研究显示了使用推特数据来增强IBD医学知识的潜力。我们证明,即使使用经典、简单的分类算法,患者也可以根据他们的交流在Twitter上被识别出来。我们比较了两种不同的用户分类方法——单实例(SI)学习方法和多实例(MI)学习方法的性能,并展示了使用后者的好处。本研究第二部分的初步分析表明,有可能从患者自我报告的推文中获得与健康相关的见解。
使用建议的框架来识别更多的患者并收集更多的数据,可以揭示他们对他们尝试的治疗方法的看法,或者探索疾病的其他方面,比如它对患者生活质量的影响。该框架也可推广到其他慢性疾病。它可用于比较IBD患者与普通人群或其他慢性疾病患者的讨论模式。
相关工作
推特和健康
在健康和福祉的背景下对社交媒体的研究继续将Twitter定位为传播健康相关信息的新媒介。与健康相关的推文从简单的牙痛到更严重的慢性疾病,如糖尿病、哮喘或癌症[
, , , ].肌萎缩性侧索硬化症患者使用Twitter作为交流手段,美国当地卫生部门使用Twitter进行糖尿病相关的教育和传播信息[ , ].甚至像艾滋病毒这样敏感的疾病也会在推特上被讨论。 - ].关于谁在推特上说什么以及为什么发推文的沟通模式因疾病而异[ ].Twitter是传播健康信息的强大工具,也是需要即时社会支持或救助的患者可访问的平台。它为与健康相关的对话提供了一个协作环境,慢性病患者可以每天分享他们的健康状况。他们使用Twitter来交流生活方式方面的知识,或者更好地理解医疗程序。通过推特,他们可以轻松方便地接触到大量的受众和各种观点。
].总的来说,之前的两项研究提出了检测推特上个人健康提及的模型,并展示了有前景的、可扩展的结果[
, ].然而,他们的目标与我们的不同,因为他们认为所有讨论特定人健康状况的推文都是积极的。在我们的研究中,我们试图确定患有特定疾病的患者。我们不仅对病人写的推文进行了分类,还对用户本身进行了分类。Twitter上的交流模式
不同类型的用户在Twitter上交流方式不同。他们与他人的联系方式不同,有不同的推特习惯,风格和语言内容也不同。研究Twitter用户之间的对话联系和文本挖掘他们的推文可以帮助根据用户的特征对用户进行分类,并识别不同类型的用户[
- ].个人主要反映他们的个人经历或情感,并倾向于与他人交往。他们经常被提及,也经常提及其他用户。相比之下,组织经常通过url指向外部信息源,并且不太积极地与他人连接。他们经常在推特中被提及,可能是作为信息来源,但很少提及其他用户[
, ].通过分析用户的屏幕名(即其Twitter帐户的用户名)或他们的传记(即其Twitter用户描述),可以确定用户是普通个人还是组织,并揭示潜在的用户属性[
, ].我们的研究依赖于这些先前的发现,并构建了分类特征,帮助区分IBD患者与其他发布该疾病推文的用户。我们调整和扩展了以前的方法,以应对在Twitter上识别IBD患者的不同任务。
Twitter和IBD
在Twitter上参与IBD相关讨论的实体中发现,IBD患者是在Twitter上谈论IBD的最常见用户类型[
, ].IBD患者使用Twitter分享个人经历并寻求社会支持。他们互相交流对症状和药物的看法,并互相推荐治疗方法。 , ].患者通过在推特上分享与疾病抗争的生活经历,对抗疾病隐形,提高公众对IBD的认识[ ].佩雷兹等[
]在Twitter上探索了IBD社区,并确定了谈论这种疾病的用户类型以及他们讨论的关键话题。他们通过分析用户的用户名和个人履历,根据用户的Twitter档案对用户进行分类。在我们的研究中,我们调查了大量的分类特征,并提出了一个基于Twitter上的交流方式和分享内容来检测IBD患者的模型。IBD患者往往比其他慢性疾病患者更情绪化和消极[
].当他们谈论疾病及其症状时,他们通常会表达出消极的情绪,但他们会积极地谈论有助于控制疾病的饮食和药物。 ].在推特上提供社会支持的患者更有可能发布积极的推特[ ].与之前关于患者在推特上情绪的研究不同,[
- ,我们将研究重点放在实体情绪上,而不是整条推文的情绪上。通过分析患者对与营养和健身相关的特定关键词的看法,我们发现了影响疾病的某些生活方式的看法。方法
概述
本研究分为两个主要阶段进行。在患者识别部分,我们构建了一个用户分类器,将患者与在Twitter上谈论IBD的其他实体区分开来。我们考虑了三种类型的分类特征:(1)从用户在Twitter上的活动中提取的特征,(2)用户推文的内容,以及(3)用户网络的社交结构。我们比较了两种分类方法中几种分类算法的性能:一种是先对推文单独分类,然后从推文级分类中推导出用户的类别,另一种是先将推文级特征聚合到用户级特征,然后对用户本身进行分类。
在研究的第二阶段“分析患者的推文”部分中,我们从患者在推特上分享的个人经历中获得了关于IBD的见解。我们通过查询Twitter应用程序编程接口(API)获取与营养或健身相关的特殊关键词来收集与生活方式相关的推文。然后,我们使用研究第一阶段的分类器过滤它们的作者,以获得一组IBD患者描述他们为治疗疾病而采取的不同饮食和体育活动的推文。我们确定了经常提到的生活方式,并使用IBM沃森服务进行实体情感分析,以评估其有效性。
而且 描述研究的两个主要阶段的一般流程。 描述了我们如何使用Twitter数据对用户进行分类并识别IBD患者。 演示了我们如何使用分类来分析患者的推文。
病人识别
数据收集和准备
我们使用Twitter搜索API收集了10天的ibd相关推文(从2018年2月11日中午到2018年2月21日中午)。我们使用OR运算符搜索3个关键字中的至少一个:克罗恩病,结肠炎、而且#炎症性肠病.“投资者商业日报社论”(Investor 's Business Daily Editorials)账户将缩写IBD作为一个标签进行搜索,以避免与新闻相关的推文,该账户通常标记为炎症性肠病.我们将搜索限制在用英语写的推文上,并收集了2045条推文。
然后将收集到的722位推文作者手动分为患者(1)和非患者(0)。总共有3位不同的注释者,即本文的作者(MS, YP和GR)进行标记,并根据他们的推文标记用户。如果每个用户至少有一条推文透露了他们的病情,那么他们的标签为1,否则标签为0(即,如果他们的推文都没有表明他们是IBD患者)。
对于655名用户(n=181, 27.6%患者,n=474, 72.4%其他用户),标注者完全一致,并设置了标签。为了解决关于其他9.3%(67/722)用户的争议,批注者通过考虑用户的用户名和履历,并在必要时审查他们的时间线,对他们基于推文的决定提出了质疑。考虑到新的数据,在剩余的67名用户中,45名(67%)在他们的传记或时间轴中明确提及他们的疾病后被归类为患者。总共有12%(8/67)的人谈到了其他生病的人,注释者一致认为他们自己不是IBD患者。对于剩下的21%(14/67)的用户,注释者没有达成共识,因此,这些用户从数据集中被省略了。标记过程结束时收集了708个标记用户:226个(31.9%)患者和482个(68.1%)非患者。
为了训练推文级别的分类器,我们还必须手动注释推文。我们处理了原始搜索查询中收集的推文(2018年2月),并从收集中排除了转发(RTs)。由于目的是为了识别患者,我们对重塑内容不感兴趣,只将用户的RT倾向作为行为分类特征。在排除RTs和14个我们没有达成注释共识的用户后,我们剩下1687条推文。为了像注释用户时那样考虑用户的传记,我们将每个传记作为另一个传记添加推特作者。共有83.5%(591/708)的用户拥有非空的传记,该过程产生了2278个集合微博.
在注释过程中,我们想确定某个tweet是否显示用户是IBD患者。明确暗示其作者是IBD患者的推文收到的标签为1,其他所有人收到的标签为0。由于我们已经注释了用户,所有非耐心用户所写的1638条推文都自动接收到0标记。然后,3个注释者(MS、YP和GR)手动对患者写的所有推文进行分类。共有346条tweet被一致归为1,288条tweet被一致归为0。注释者没有就6条推文(由6个不同的用户编写)达成共识,因此它们被排除在集合之外。所有6个用户至少还有一条推文,因此,他们都没有被完全排除在我们的数据集中。最后,我们收集了2272条推文,其中346条(15.23%)明确透露了作者的病情。
为了丰富我们的数据,我们为每个被标记的用户收集了另一周的推文(从2018年6月10日中午到2018年6月17日中午),这一次没有额外的过滤。在过去的几个月里,有6.6%(47/708)的用户被Twitter暂停使用或将其账户改为私有,他们的数据不再可供收集。另外93.4%(661/708)的用户收集了额外的一周,该过程产生了由194名患者和467名非患者撰写的82,884条推文的数据集。我们也从推文数据集中排除了同样的47个用户,最终的数据集包含2204条推文,其中325条(14.75%)是积极的推文。
MI学习方法
传统的分类问题是监督学习问题,在这种问题中,一个人收到一组单独标记的实例,并试图预测新实例的类标签。相比之下,MI学习是一种监督学习方法,其中每个学习示例都是一个实例袋与1个标签相关联,任务是预测看不见的袋子的标签[
].之前有关识别推特上健康提及的研究依赖于传统的监督学习来确定是否有健康问题推特讨论健康状况[
, ].但是,我们希望确定是否病人可以在Twitter上识别,而不必单独检查这些推文。我们独特的任务和数据的不平衡结构与MI学习方法是兼容的——我们有661个用户,每个用户发布的推文数量不同。阳性标签(患者)是通过找到至少一项用户患有IBD的证据来集体确定的;消极标签(非患者)意味着所有用户的证据都表明相反的情况,或者更确切地说,不足以成为积极标签。我们使用了基于元数据的MI方法,并为每个包(用户)提取了一个与任何特定实例(推文)不相关的元数据向量[
].分类特征部分解释了我们如何应用特征工程技术来生成特征用户本身的特征,而不仅仅是他们的推文。为了评估使用这种集体方法的有效性,我们比较了5种标准分类算法在用户级和推文级分类中的结果,如分类模型一节中详细解释的那样。
分类特征
概述
饶等[
]彭纳奇奥蒂和波佩斯库[ , 的研究表明,Twitter用户的人口统计数据和政治观点可以通过考虑3种类型的用户分类特征来区分:行为特征(从用户在Twitter上的活动中提取的特征)、语言特征(从用户的推文内容中提取的特征)和社会结构特征(描述用户社交网络的特征)。我们遵循了他们的工作,并将这些类型应用于我们的不同领域,以区分IBD患者和其他谈论这种疾病的患者。我们还将MI学习集成到我们的分类设置中,这不是他们研究的一部分。我们为每一种特征类型构造了一组分类特征,如下面的部分详细解释,并在 .用户分类特性、特性级别和特性 | 类型 | ||
行为特征 | |||
Tweet-level特性 | |||
推特计数器 | 整数 | ||
转发计数器 | 整数 | ||
转发率 | 浮动(0到1) | ||
炎症性肠病一个国旗 | 二进制 | ||
用户级IBD比率 | 浮动(0到1) | ||
克罗恩病的旗帜 | 二进制 | ||
用户级别的克罗恩比率 | 浮动(0到1) | ||
结肠炎的旗帜 | 二进制 | ||
用户级结肠炎比率 | 浮动(0到1) | ||
用户级的特性 | |||
推特计数器 | 整数 | ||
转发计数器 | 整数 | ||
转发率 | 浮动(0到1) | ||
IBD计数器 | 整数 | ||
Bio-IBD国旗 | 二进制 | ||
炎症性肠病的比率 | 浮动(0到1) | ||
克罗恩病计数器 | 整数 | ||
Bio-Crohn国旗 | 二进制 | ||
克罗恩病的比率 | 浮动(0到1) | ||
结肠炎计数器 | 整数 | ||
Bio-colitis国旗 | 二进制 | ||
结肠炎的比率 | 浮动(0到1) | ||
语言特征 | |||
Tweet-level特性 | |||
Emoji计数器 | 整数 | ||
感叹词计数器 | 整数 | ||
亵渎计数器 | 整数 | ||
提到计数器 | 整数 | ||
标签计数器 | 整数 | ||
URL国旗 | 二进制 | ||
第一人称的旗帜 | 二进制 | ||
字数 | 整数 | ||
字符数 | 整数 | ||
极性 | 浮动(−1 to 1) | ||
正极性标志(如果极性>为0,则为1) | 二进制 | ||
负极性标志(极性<0为1,否则为0) | 二进制 | ||
主体性 | 浮动(0到1) | ||
乔治。b主题分布(document=tweet) | 20×float (0 - 1) | ||
用户级的特性 | |||
Emoji总和 | 整数 | ||
Emoji平均 | 浮动 | ||
Bio-emoji计数器 | 整数 | ||
感叹词和 | 整数 | ||
感叹词的平均 | 浮动 | ||
Bio-interjection计数器 | 整数 | ||
亵渎和 | 整数 | ||
亵渎平均 | 浮动 | ||
Bio-profanity计数器 | 整数 | ||
提到总和 | 整数 | ||
提到平均 | 浮动 | ||
Bio-mention计数器 | 整数 | ||
标签和 | 整数 | ||
标签平均 | 浮动 | ||
Bio-hashtag计数器 | 整数 | ||
URL和 | 整数 | ||
URL平均 | 浮动(0到1) | ||
Bio-URL国旗 | 二进制 | ||
第一人称和 | 整数 | ||
第一人称的平均 | 浮动(0到1) | ||
Bio-first-person国旗 | 二进制 | ||
词的平均 | 浮动 | ||
生物字数 | 整数 | ||
字符平均 | 浮动 | ||
生物字符数 | 整数 | ||
Bio-polarity | 浮动(−1 to 1) | ||
正极性和 | 整数 | ||
正极性平均 | 浮动(0到1) | ||
负极性和 | 整数 | ||
负极性平均 | 浮动(0到1) | ||
主体性平均 | 浮动(0到1) | ||
Bio-subjectivity | 浮动(0到1) | ||
LDA主题分布(文档=所有用户的推文) | 20×float (0 - 1) | ||
社会结构特征 | |||
Tweet-level特性 | |||
用户级登录 | 浮动 | ||
用户级注销度 | 浮动 | ||
用户级亲密 | 浮动(0到1) | ||
用户级的特性 | |||
日志入度 | 浮动 | ||
日志有关学位 | 浮动 | ||
亲密 | 浮动(0到1) |
一个IBD:炎症性肠病。
bLDA:潜狄利克雷分配。
行为特征
设计这种类型的功能是为了捕捉用户在Twitter上的活动:他们多久发一次Twitter ?他们是写新内容还是主要转发其他内容?此外,他们提到IBD的频率如何?我们计算了数据集中的tweet和RT的数量,并计算了每个用户的RT比。我们统计了他们在推特中使用我们的关键词的次数,以解释他们处理IBD的频率。将用户级分类的聚合特征复制到所有用户的推文中,丰富了推文级分类。
语言特征
第二类特征来自Twitter用户的语言风格:他们是用第一人称写作吗?他们倾向于使用表情符号还是通过URL添加对外部资源的引用?我们使用了两种语言特征。根据以往的研究[
- ]和我们数据的性质,我们从文本中提取了几个我们认为有助于分类的特征。承认个人和组织在Twitter上的交流方式不同[
, ,我们寻找了一些具体的特征,这些特征可以区分个人和企业,并有助于识别患者。我们检查了数据中每条推文的特定特征:是否使用了表情符号、感叹词或脏话?是用第一人称写的吗?它是否通过URL指向外部源?它是否包含Twitter特殊字符(@)或标签(#)?我们使用了一个Python (Python软件基金会)库TextBlob增加文本的极性、主体性等与情感相关的特征。推文的长度和字数也被考虑在内。Python库emoji用来检测文本中的表情符号。来自库的词性标识符nltk用来表示第一人称的使用和识别感叹词。在Python库的基础上不敬的言语,我们建立了一个在文本中搜索的脏话列表。我们不得不将列表调整到IBD的特殊领域,因为与新陈代谢相关的单词不一定是脏话。我们从推文级别的功能开始,然后根据用户分组来代表个人的写作风格。为了反映用户在Twitter上表达自己的方式,我们将RTs排除在聚合之外。例如,使用该URL的推文数量仅计算原始推文。由于推文级分类器将用户的传记视为推文,我们将从传记中提取的语言特征作为生物特征添加到用户级分类器中。
在自然语言处理中,有几种方法可以获得文本的向量表示。其中一种比较著名且研究比较深入的技术是文本文档的贝叶斯概率模型,称为潜狄利克雷分配(latent Dirichlet allocation, LDA)。LDA是一种用于发现摘要的主题建模技术主题出现在文件集合中[
].我们使用LDA来表示推文级和用户级分类特征中的文本。在推文级特征中,每条推文都被认为是一个文档,并且每个推文都获得了表示。对于用户级功能,同一作者的所有推文都合并到一个文档中,以获得每个用户的表示。所有的功能都使用了数据清理后的文本的一格和二格表示。文本清理过程包括转换为小写,删除标点符号和停止词,并将链接和其他特殊符号规范化为标准表示。
社会结构特征
我们讨论的最后一类功能代表用户在Twitter上的社交联系。我们使用Twitter API来收集每个用户的关注者和被关注者。对于每个用户,我们保留他们拥有的追随者数量(影响力意义上的out-degree)和他们拥有的追随者数量(in-degree),并使用对数刻度对结果进行缩放。我们还计算了每个用户的亲密中心性度量。将用户级分类的聚合特征复制到所有用户的推文中,丰富了推文级分类。
分类模型
为了区分IBD患者和其他发布IBD推文的用户,我们比较了2种分类方法中几种分类算法的性能:SI学习方法,首先对推文进行单独分类,然后从推文级分类中推导出用户的类别;基于元数据的MI学习方法,首先将推文级特征聚合到用户级特征,然后对用户本身进行分类。
基于元数据的MI方法首先将MI数据转换为SI数据,然后将标准SI算法应用于转换后的问题[
, ].为了实现MI方法的用户特征,我们对推文级特征应用算术和平均,并获得每个用户的聚合特征(详细信息请参阅分类特征部分)。注意此过程可能会造成部分信息丢失[ ].对于这两种方法,我们测试了5种用于二进制分类任务的标准和知名算法,如我们的:AdaBoost、梯度增强分类器、线性支持向量机、逻辑回归和随机森林。所有算法都应用于Python中的scikit-learn (sklearn)包[
].实验
我们将数据集按用户划分为训练集和测试集(大约80%-20%)。训练集有155名患者和377名非患者,测试集有39名患者和90名非患者;因此,集合保持了组之间的比例。
在推文级别分类中,基于用户的分割进行训练集和测试集的分割,属于训练集的用户的推文归属于推文训练集,而属于测试集的用户的推文归属于推文测试集。结果,推文训练集包含263条正面推文和1586条负面推文,而测试集包含62条正面推文和293条负面推文。
我们从所有算法的超参数优化开始,在两种方法的训练数据上使用5倍交叉验证。每个算法和参数的测试值可以在
.总共有4个常用指标被用来评估模型:精密度,召回率,F1评分,以及受试者工作特征曲线(ROC AUC)下面积。所有4个指标都是在我们感兴趣的正面类别中计算出来的。在我们的设置中,精确度描述了一个积极预测确实是一个病人的概率,召回描述了分类器检索病人的能力,而F1Score结合了2。ROC AUC考虑这两个类别的召回率,并衡量模型在不收集大量不需要的其他用户的情况下检索患者的能力。
为了选择最佳的算法变体,我们使用了10倍交叉验证技术来可靠地评估预测能力。在此过程中,我们将训练集随机分为10个大小相等的部分;然后,我们对9个零件进行迭代训练,并对遗漏的零件进行模型评估。我们重复这个迭代10次,每次都省略不同的部分。此外,我们用不同的种子初始化重复了10次10倍交叉验证过程,以改变随机分割。每次都会计算性能指标,结果部分中显示的结果显示了这100次迭代的平均值。
在用户级分类中,我们使用Python中的sklearn包在分类过程中获得了所有4个指标。然而,在推文级别的分类中,在直接从sklearn包中获得指标之前,还需要另一个聚合阶段——该过程返回每个推文的预测(无论它是由病人写的),我们必须通过聚合对用户推文的预测来推断用户的预测。与手动注释过程一样,如果用户的所有推文都收到了0的预测,则该用户被认为是非耐心的,并收到了负面的预测。或者,如果用户至少有一个积极的预测,他们被认为是一个病人,并收到一个积极的预测。然后,我们使用sklearn包根据我们获得的用户预测和他们的真实标签来计算用户级指标。
最后,我们在整个训练集上训练每种方法(MI和SI)的模型,并在测试集上评估它们的预测。我们使用内置的特征重要性sklearn方法来研究每个特征对逻辑回归和随机森林算法的贡献。系数的绝对值表示特征对逻辑回归的重要性。
分析病人的推文
与生活方式相关的推文语料库
这项研究的下一个目标是获得一组推特,患者在推特上描述他们尝试过的与生活方式相关的治疗方法及其症状。通过过滤和合并不同的基于web的数据库[
, ],我们建立了一个包含420个食物或体育活动类型的单词列表(即与生活方式相关的单词;完整的名单可以在 ).使用Twitter Premium API搜索所有提到IBD的推文(至少包含数据收集和准备部分中描述的3个关键字中的一个):克罗恩病,结肠炎,#炎症性肠病)以及420个与生活方式相关的词汇中至少一个。为了构建搜索查询,我们在IBD关键字和与生活方式相关的单词中使用OR运算符,然后使用and运算符将两个组连接起来。我们搜索了2019年1月1日至2019年9月30日的相关推文。我们从搜索中排除了即时消息和重复的推文,并将搜索限制在用英语写的推文上。搜索结果显示,8519名不同用户发布了201136条独特的推文,其中包含新内容。
我们使用了第一部分研究中收集的新数据的分类器,将推文分类为患者推文和用户推文。我们需要为8519个新用户重新创建分类特性。正如我们在第一阶段所做的那样,我们收集了2019年10月1日至10月7日所有用户的另一周的推文,没有进行关键词过滤,也不包括即时消息。共有39.52%(3367/8519)的用户处于私有、挂起或其他不可用状态。该过程产生了5152个用户的数据集,他们总共撰写了402,843条推文。
我们在新数据上构建了分类特征一节中描述的所有分类特征,除了接近中心性。获得这个功能既昂贵又耗时,因为它是唯一需要为每个用户收集所有关注者和关注者并建立他们的Twitter网络的功能。由于它不是10个最有用的分类特征之一,我们决定省略它。
然后,我们使用在第一阶段训练的MI随机森林模型(详细信息请参阅分类模型部分)对用户进行分类并识别患者。共有45.79%(2359/5152)的用户被归类为患者,他们撰写了4160条包含我们关键词的原始推文。我们对这些推文进行了简单的文本清理,删除了所有的屏幕名(由@字符标识)和url,并继续对4160条干净的推文进行分析。
生活方式相关词汇的情感分析
IBM Cloud的自然语言理解(NLU)模块[
]用于对我们的每条推文应用类别分类和关键字提取。类别分类特征的目的是识别文本的主题。给定一个文本,NLU模块提供一个可能的类别和子类别以及它们对应的可能性的列表。关键字提取功能识别文本中高度重要的单词和短语,并计算其情绪。给定一个文本,NLU模块返回一个关键字列表及其对应的情绪,表示为−1到1的封闭区间内的分数:−1表示非常消极的情绪,1表示非常积极的情绪。得分为0表示该关键字是在中性上下文中提到的。的TextBlob语言特征部分中用于情感分析的库只支持全文情感分析,不支持实体级情感分析。尽管它免费且易于使用,但它不适合我们的新任务,因此,我们选择用NLU模块替换它。目的是确定患者为控制疾病而接受的与生活方式相关的治疗,并确定他们对这些治疗的看法。因此,我们将分析重点放在与健康和营养相关的关键词上。我们将NLU模块分类的所有推文按相关进行分组健康与健身(2080条),食物和饮料(1568条推文),或者宗教与灵性(15条)。总的来说,选择了3663条推文进行关键词情绪分析。我们收集了所有出现在我们预定义的生活方式相关词汇列表中的关键词,以及每条推文中与之对应的情感。中总共给出了该过程的3个例子
.请注意,在第二个示例中,原始tweet的第一个单词(标记为@符号)是一个屏幕名,因此在清理过程中被删除了。数量 | 原始文本 | 清洗后的文本 | 类别分类 | 关键字的情绪 |
1 | 菠菜是一种含有大量硫的炎症食物。也要禁止。(我注意到我的克罗恩病往往在菠菜季节发作。) | 菠菜是一种含有大量硫的炎症食物。也要禁止。(我注意到我的克罗恩病往往在菠菜季节发作。) | 食物和饮料 | 菠菜:−0.63 |
2 | 很棒的投票。我确实偶尔会酗酒,但IBD已经改变了我能喝的东西。不要再喝红酒或麦芽酒了 | 伟大的调查。我确实偶尔会酗酒,但IBD已经改变了我能喝的东西。不要再喝红酒或麦芽酒了 | 食物和饮料 | 红酒:−0.83;啤酒:−0.83 |
3. | 我是活生生的证明,瑜伽可以帮助#uchicagoibd #studiothree #瑜伽#ibd | 我是活生生的证明,瑜伽可以帮助#uchicagoibd #studiothree #瑜伽#ibd | 宗教与灵性 | 瑜伽:0.69 |
为了检验每个与生活方式相关的短语(简而言之,生活方式)的有效性,并评估其整体情绪,我们将结果按生活方式汇总,并计算出以下统计数据:这种生活方式在所有推文中出现的总次数,它在积极(或消极)上下文中出现的次数,出现次数的正负比(几率),以及这种生活方式的平均情绪。
我们利用统计数据建立了一个共现网络,将生活方式和他们的平均情绪之间的联系可视化。不同的生活方式是节点,如果两种生活方式出现在同一条推文中,就会出现一条弧线连接它们。他们一起出现的次数越多,生活方式之间的联系就越强。因此,得到的网络是无方向的,并根据生活方式同时发生的次数进行加权。目的是确定有益的生活方式(在积极的情况下经常被提及)和最好避免的生活方式(在消极的情况下经常被提及),并检查某些生活方式是否倾向于一起实施。
网络是通过Gephi软件(GNU通用公共许可证)用于网络分析和可视化。每个节点都根据其所代表的生活方式的平均情绪,按照从绿色到红色的刻度进行着色,绿色表示非常积极,红色表示非常消极。节点的大小反映了这些生活方式在推特数据库中被提及的次数:它们出现的次数越多,它们的节点就越大。每条弧线的粗细代表两种生活方式同时出现的次数:弧线越粗,两种生活方式同时出现的次数越多。为了避免得到一个过于密集的网络,我们只考虑在我们的数据库中至少提到五次的生活方式节点。我们纳入了至少同时发生四次的生活方式之间的弧线。这一过程产生了144种生活方式呈现在网络中,并根据平均情绪进行了排序。
道德的注意
Twitter数据的收集和分析可能会引发道德挑战,应该予以妥善处理。Twitter数据是公开的,可以通过Twitter api进行研究。通过接受Twitter的服务条款和隐私政策,Twitter用户承认他们的推文可以在全球范围内立即被查看,他们的信息可能会被第三方收集。
].尽管如此,社交媒体研究显示,推特用户觉得他们好像在和自己的关注者和追随者进行私人对话。 , ].虽然他们通常不关心他们的文章被用于研究目的,但他们希望在发表时匿名,并在发表前征求他们的同意。获得所有用户的知情同意参与对推特数据的研究可能是不可行的。数据集可能很大,涉及许多作者[
- ].在我们的研究中,单独获得所有722名用户的同意是一项劳动密集型工作,甚至是不可能的,因为有些用户可能无法联系到。此外,为用户提供完全匿名的同时直接引用他们的内容是不现实的;推文很容易被搜索到,其作者很容易被识别。为了遵守道德规范和维护用户隐私,我们只发布汇总结果,不透露具体用户。这3个例子直接引用了推文(in
)在获得作者的知情同意后呈现在本研究中。结果
病人识别
分别为推文SI分类和用户MI分类两种分类方法的10倍交叉验证和测试结果。该表显示了所有5种分类算法的4个指标的结果。
算法与度量 | SI推文级别分类 | MI用户级分类 | ||||||||
10倍 | 测试 | 10倍 | 测试 | |||||||
演算法 | ||||||||||
精度 | 0.6775 | 0.7241 | 0.6151 | 0.5902 | ||||||
回忆 | 0.6297 | 0.5385 | 0.7284 | 0.9231 | ||||||
F1分数 | 0.6525 | 0.6176 | 0.6542 | 0.7200 | ||||||
中华民国AUC一个 | 0.7532 | 0.7248 | 0.8469 | 0.8226 | ||||||
梯度提升分级机 | ||||||||||
精度 | 0.7416 | 0.6471 | 0.6668 | 0.6735 | ||||||
回忆 | 0.6465 | 0.5641 | 0.6778 | 0.8462 | ||||||
F1分数 | 0.6906 | 0.6027 | 0.6711 | 0.7500 | ||||||
中华民国AUC | 0.7768 | 0.7154 | 0.8658 | 0.8342 | ||||||
线性支持向量机b | ||||||||||
精度 | 0.7249 | 0.6667 | 0.6648 | 0.5814 | ||||||
回忆 | 0.6832 | 0.7179 | 0.6398 | 0.6410 | ||||||
F1分数 | 0.7034 | 0.6914 | 0.6472 | 0.6098 | ||||||
中华民国AUC | 0.7883 | 0.7812 | 0.8463 | 0.7205 | ||||||
逻辑回归 | ||||||||||
精度 | 0.7405 | 0.6333 | 0.6594 | 0.6250 | ||||||
回忆 | 0.6335 | 0.4872 | 0.6358 | 0.6410 | ||||||
F1分数 | 0.6829 | 0.5507 | 0.6423 | 0.6329 | ||||||
中华民国AUC | 0.7712 | 0.6825 | 0.8473 | 0.7372 | ||||||
随机森林 | ||||||||||
精度 | 0.7676 | 0.7333 | 0.6721 | 0.6444 | ||||||
回忆 | 0.4355 | 0.2821 | 0.6646 | 0.7436 | ||||||
F1分数 | 0.5555 | 0.4074 | 0.6595 | 0.6905 | ||||||
中华民国AUC | 0.6906 | 0.6188 | 0.8722 | 0.7829 |
一个ROC AUC:受试者工作特征曲线下的面积。
b支持向量机:支持向量机。
两种方法对患者分类结果均令人满意。尽管SI方法的准确率略高,但MI方法的召回指数更好,并且MI方法的ROC AUC测量结果始终较高。
显示测试集结果中4个度量之间的差异。调查每个特征对逻辑回归和随机森林算法的贡献,显示了使用第一人称语音的重要性。在分类方法和算法中,最重要的特征是第一人称的使用,这比其他特征有显著的优势。第一人称标志是SI方法的最佳特征,其平均值是MI方法的最佳特征。另一个主要特征是使用脏话,因为它是方法和算法中最重要的特征之一。
分析还强调了文本衍生的LDA特征的重要性。SI方法的第二个最佳特征是逻辑回归和随机森林算法的LDA主题11。这是唯一一个不包含ibd相关词汇的话题。MI方法的第4和第5个最重要的主题对于两种算法都是相同的——分别是lda主题17和9。在每种方法的训练数据上创建的LDA主题可以在
.分析病人的推文
在研究的第二阶段,建立并可视化了生活方式之间的联系网络。所得到的描述不同生活方式之间关系的网络可以在
.在我们的数据库中出现频率最高的单词是饮食其中包含了患者为控制病情而进行的所有营养调整。特定的饮食,比如穿越,素食者,或液体饮食也出现了,而且是在消极的背景下。
有趣的是,分析揭示的消极和积极的生活方式与已知的适合IBD的营养是一致的。我们发现,在最消极的生活方式(刻薄的情绪)中酒精牛奶辣味卷心菜面粉扁豆而且橙汁这些都是已知会引起炎症和刺激胃部的疾病。在最积极的生活方式(平均情绪)中,我们发现与活动相关的生活方式,如健身或瑜伽还有治疗食物,比如大马哈鱼,姜,大蒜.最积极的生活方式是寿司,通常含有抗炎成分,如大马哈鱼或金枪鱼,海藻,大米.
根据刻薄情绪排序,列出了20个最积极和20个最消极的生活方式相关词汇。排名 | 关键字 | 数 | 情绪,刻薄(SD) | 正数计数 | 负计数 | 几率 |
1 | 寿司 | 9 | 0.466 (0.814) | 7 | 2 | 3.500 |
2 | 生姜啤酒 | 5 | 0.407 (0.597) | 3. | 1 | 3.000 |
3. | 大马哈鱼 | 7 | 0.344 (0.691) | 4 | 3. | 1.333 |
4 | 樱桃 | 10 | 0.33 (0.696) | 6 | 2 | 3.000 |
5 | 早餐 | 29 | 0.28 (0.75) | 19 | 9 | 2.111 |
6 | 大蒜 | 8 | 0.244 (0.671) | 4 | 2 | 2.000 |
7 | 百吉饼 | 5 | 0.224 (0.633) | 3. | 1 | 3.000 |
8 | 杏仁 | 9 | 0.193 (0.668) | 6 | 3. | 2.000 |
9 | 酸奶 | 14 | 0.189 (0.688) | 7 | 3. | 2.333 |
10 | 瑜伽 | 15 | 0.186 (0.693) | 7 | 5 | 1.400 |
11 | 火腿 | 5 | 0.184 (0.535) | 2 | 1 | 2.000 |
12 | 饼干 | 13 | 0.172 (0.75) | 8 | 5 | 1.600 |
13 | 菠菜 | 6 | 0.171 (0.76) | 4 | 2 | 2.000 |
14 | 素食奶酪 | 5 | 0.164 (0.92) | 3. | 2 | 1.500 |
15 | 羊肉 | 5 | 0.14 (0.861) | 3. | 2 | 1.500 |
16 | 蛋糕 | 26 | 0.13 (0.752) | 16 | 9 | 1.778 |
17 | 健身 | 19 | 0.114 (0.728) | 9 | 6 | 1.500 |
18 | 姜 | 17 | 0.112 (0.724) | 8 | 7 | 1.143 |
19 | 番茄 | 10 | 0.089 (0.608) | 5 | 3. | 1.667 |
20. | 咖啡馆 | 7 | 0.081 (0.783) | 3. | 3. | 1.000 |
125 | Fodmap | 12 | −0.501 (0.573) | 2 | 9 | 0.222 |
126 | 鸡尾酒 | 5 | −0.51 (0.769) | 1 | 4 | 0.250 |
127 | 纤维 | 63 | −0.512 (0.547) | 7 | 47 | 0.149 |
128 | 辣的 | 37 | −0.514 (0.572) | 7 | 28 | 0.250 |
129 | 蔬菜 | 49 | −0.533 (0.529) | 6 | 39 | 0.154 |
130 | 玉米 | 28 | −0.534 (0.487) | 2 | 22 | 0.091 |
131 | 酒精 | 64 | −0.545 (0.545) | 9 | 51 | 0.176 |
132 | 奶昔 | 5 | −0.556 (0.811) | 1 | 4 | 0.250 |
133 | 牛奶 | 44 | −0.565 (0.5) | 4 | 35 | 0.114 |
134 | 素食 | 10 | −0.567 (0.409) | 1 | 8 | 0.125 |
135 | 零食 | 10 | −0.573 (0.568) | 2 | 8 | 0.250 |
136 | 无花果 | 5 | −0.578 (0.621) | 1 | 4 | 0.250 |
137 | 火鸡 | 10 | −0.608 (0.626) | 2 | 8 | 0.250 |
138 | 酵母 | 16 | −0.624 (0.391) | 1 | 13 | 0.077 |
139 | 橙色 | 7 | −0.638 (0.449) | 0 | 5 | 0.000 |
140 | 饮料 | 7 | −0.661 (0.616) | 1 | 6 | 0.167 |
141 | 卷心菜 | 8 | −0.675 (0.19) | 0 | 8 | 0.000 |
142 | 橙汁 | 5 | −0.682 (0.385) | 0 | 4 | 0.000 |
143 | 面粉 | 6 | −0.785 (0.211) | 0 | 6 | 0.000 |
144 | 小扁豆 | 6 | −0.785 (0.188) | 0 | 6 | 0.000 |
讨论
主要研究结果
这项研究提出了在Twitter上识别IBD患者并探索他们的推文的工作流程。目的是根据患者在推特上的交流方式来识别IBD患者,并从他们分享的个人经历中学习。
在研究的第一阶段,构建并评估了一个用于区分IBD患者和其他用户的Twitter用户分类器。结合社交数据和文本分析的分类特征从用户在Twitter上的活动、他们的社交关系和他们的推文内容中提取出来。考虑了多种分类算法,每种算法计算了4个评价指标。前一节中显示的令人鼓舞的结果帮助我们相信,基于这些特征,可以在Twitter上识别IBD患者。
来自SI和MI方法的分类结果表明,IBD患者在Twitter上与其他用户交流的方式不同。他们更经常使用第一人称说话,在推特上使用更多的脏话。这些差距可以解释为,患者是私人个体,而非患者也包括以更正式的方式交流的组织和自愿协会,有助于将患者与我们在本研究中尝试的不同分类模型中的其他实体区分开来。
我们的分析与之前关于Twitter用户分类的研究不同[
- 在2个方面。从概念上讲,我们研究了一个不同的领域,并试图在Twitter上识别患者。实际上,我们比较了用户级分类和推文级分类的结果。在研究的第二阶段,收集了IBD患者的推文,以调查他们为应对疾病而采取的不同生活方式,并评估这些生活方式的有效性。与之前关于患者在Twitter上情绪的研究不同[
- ,我们的研究重点是对特定词语的实体情绪,而不是整条推文的情绪。我们提出了一种新的方法,通过考虑实体情感分析来获得患者对他们尝试的不同营养和基于健康的解决方案的情绪。这些发现与已知的IBD是一致的,因为一些已知会引起炎症的食物是在负面情绪下指出的,而放松活动和抗炎食物是在积极的环境下出现的。这项研究表明,在了解慢性疾病方面,医生和工程师之间有合作的空间。由于该病的慢性性质和涉及肠道运动的事实,IBD患者被迫遵循特殊的营养并保持平静的日常生活。通过收集和分析患者在社交媒体上的个人经历,我们可以监测患者的生活方式,并支持IBD的医学知识。我们可以确定和评估饮食和体育活动的补充治疗方法,也许可以简化患者寻找正确治疗方法的过程。虽然这样的分析不应该试图取代医生或得出临床性质的结论,但它可以根据大众的智慧为健康的生活方式提供补充建议。
局限性和未来工作
概述
这项研究的重点是展示在推特上识别IBD患者并从他们的推特中学习的潜力。本次研究强调的是整个过程,我们并没有单独完善每一个环节。正如本节所解释的,每个部分都可以通过尝试不同的方法和丰富分析来改进。
病人识别
本研究第一阶段开发的分类器使用1级二元分类将IBD患者与其他发布该疾病推文的用户分开。它的一些特征在一般情况下将组织与个人区分开来,并不一定能检测到患者,例如在推文中使用第一人称。因此,我们的非患者类是异构的,并且有些模糊,既包括在通信模式上与患者显著不同的组织,也包括以更精细的方式与患者不同的健康个体。即使在手动标记过程中,由于分类分歧而被排除在数据集中的所有14名用户都是用第一人称说话的人。
未来工作的一个可能方向是尝试两步分类:将个人与组织分开,并继续在这些个人中寻找患者。它可以通过克服模型中非患者类的异质性来提高某些特征的鲁棒性。或者,我们可以尝试用多项分类来取代二元分类,这样不仅可以捕获组织和患者,还可以捕获谈论疾病的个人,可能会提到其他患者,但自己没有生病。
在构建基于网络的功能时,我们只收集了Twitter上的即时连接(即每个患者的关注者和关注者)。抽样方法产生了基本的网络特征,主要包括度测量。我们鼓励未来的研究考虑更多有趣的网络特征,如其他中心性测量或结构。这样的增强将需要收集至少一个级别的连接(例如,被关注者的被关注者),以更好地理解网络模式。
最后,分类器使用标准的分类算法,没有尝试当前最先进的基于神经网络的学习技术。使用词嵌入的文本表示,其中单词被映射到预定义向量空间中的实数向量[
, ,也值得研究。分析病人的推文
IBM Cloud的NLU模块在这项研究中用于实体情感分析,作为概念验证。我们没有评估其结果,也没有将其与市场上可用的类似工具(如谷歌Cloud的自然语言API)进行比较。未来的研究应该考虑使用不同的自然语言处理工具进行类似的分析,并比较它们的结果。即使是对来自生活方式相关推文数据的指定算法进行训练,比如本研究中使用的那些数据,也可以使分析受益。
总的来说,第二部分的结果是初步的,要了解IBD患者在Twitter上谈论的内容,还有很多工作要做。例如,通过描述治疗方案和患者对它们的看法,人们可以根据人群的智慧得出健康生活方式的建议。彻底探索异常值,比如4次提到牛奶,而不是35次提到牛奶,可以揭示有关这种疾病的新信息,这些信息尚未在文献中覆盖。
结论
在个性化医疗和以患者为中心的护理时代,获得反映患者观点的见解非常重要,这一点在社交媒体上得到了体现。尽管医生预约之间的间隔时间可能很长,但每天都有人在社交媒体上发布消息,患者不断利用它们交换意见和建议。
这项研究为在Twitter上识别慢性疾病患者提供了一个潜在的渠道,并收集他们的推文来分析他们在网上分享的实验知识。本研究中提出的方法应用于IBD,也可以帮助探索其他疾病。ibd相关实体的分类器可用于识别其他慢性疾病患者。对患者推文的分析可以帮助研究其他具有类似特征的慢性疾病。对于乳糜泻或糖尿病等涉及严格饮食指南的疾病,人们可以更好地理解患者在坚持新的生活方式方面的困难。当考虑到引起尴尬的疾病时,如艾滋病毒,人们可以更多地了解患有这种疾病的患者的持续斗争。
因此,本研究的贡献是双重的:它为文本挖掘和社交媒体领域提供了分析性的贡献,并通过更好地了解慢性疾病和促进慢性疾病患者的健康生活方式做出了实际贡献。
致谢
这项研究由欧洲研究区域网络共同基金健康饮食促进健康生活联合计划倡议下的肠道微生物学资助健康饮食,健康生活伞。
利益冲突
没有宣布。
分类算法的参数优化。
DOCX文件,20kb
420个与生活方式相关的词汇。
DOCX文件,39kb
在每种分类方法的训练数据上创建潜在的狄利克雷分配主题。
DOCX文件,20kb
与生活方式相关的词汇之间的关系网络。
PDF档案(adobepdf档案),148 KB参考文献
- Yin Z, Fabbri D, Rosenbloom ST, Malin B.一个可扩展的框架来检测Twitter上的个人健康提及。J medical Internet Res 2015 Jun 05;17(6):e138 [免费全文] [CrossRef] [Medline]
- Karisani P, Agichtein e,你真的心脏病发作了吗?对社交媒体上提及的个人健康进行强有力的检测。见:2018年万维网大会论文集。2018年发表于:WWW '18;2018年4月23-27日;里昂,法国,p. 137-146。[CrossRef]
- Chen E, Lerman K, Ferrara E.跟踪关于COVID-19大流行的社交媒体话语:开发一个公共冠状病毒推特数据集。JMIR公共卫生监测2020年5月29日;6(2):e19273 [免费全文] [CrossRef] [Medline]
- Jahanbin K, Rahmanian V.使用Twitter和Web新闻挖掘预测COVID-19疫情。亚洲热带医学2020;13(8):378-380。[CrossRef]
- Lopreite M, Panzarasa P, Puliga M, Riccaboni M.通过社交媒体对欧洲各地COVID-19疫情的早期预警。科学通报2021年1月25日;11(1):2147 [免费全文] [CrossRef] [Medline]
- Gabarron E, Dorronzoro E, Rivera-Romero O, Wynn R.推特上的糖尿病:情感分析。中国糖尿病杂志2019年5月;13(3):439-444 [免费全文] [CrossRef] [Medline]
- Cooper A, Kar P.一个新的黎明:社交媒体在糖尿病教育中的作用。J Diabetes Nurs 2014 Jan;18(2):68-71。
- Beguerisse-Díaz M, McLennan AK, Garduño-Hernández G, Barahona M, Ulijaszek SJ。推特上关于#糖尿病的“谁”和“什么”。数字健康2017年1月1日;3:2055207616688841 [免费全文] [CrossRef] [Medline]
- Sugawara Y, Narimatsu H, Hozawa A, Shao L, Otani K, Fukao A.推特上的癌症患者:社交媒体上的新型患者社区。BMC Res Notes 2012 12月27日;5:699 [免费全文] [CrossRef] [Medline]
- Tsuya A, Sugawara Y, Tanaka A, Narimatsu H.癌症患者发推特吗?研究日本癌症患者使用推特的情况。J Med Internet Res 2014年5月27日;16(5):e137 [免费全文] [CrossRef] [Medline]
- 全球IBD负担:从2015年到2025年2015年12月12日(12):720-727。[CrossRef] [Medline]
- 小洛夫特斯EV。炎症性肠病的临床流行病学:发病率、流行率和环境影响。胃肠病学2004年5月;126(6):1504-1517。[CrossRef] [Medline]
- Roccetti M, Marfia G, Salomoni P, Prandi C, Zagari RM, Gningaye Kengni FL,等。克罗恩病患者的态度:信息流行病学案例研究和Facebook和Twitter帖子的情绪分析。JMIR公共卫生监测2017年8月09日;3(3):e51 [免费全文] [CrossRef] [Medline]
- Trivedi I, Keefer L.出现炎症性肠病的成人:成人胃肠病学家的挑战和建议。胃肠病学研究报告2015;2015:260807 [免费全文] [CrossRef] [Medline]
- Norton BA, Thomas T, Lomax KG, Dudley-Brown S.患者对克罗恩病影响的看法:来自小组访谈的结果。患者偏好依从性2012;6:509-520 [免费全文] [CrossRef] [Medline]
- Rubin DT, Dubinsky MC, Panaccione R, Siegel CA, Binion DG, Kane SV,等。与其他慢性疾病相比,溃疡性结肠炎对患者生活的影响:患者调查。中国地质科学,2010年4月27日(4):1044-1052。[CrossRef] [Medline]
- 与溃疡性结肠炎生活:青少年和年轻人的经验。中华儿科杂志1996年1月23日(1):39-47。[CrossRef] [Medline]
- Devlen J, Beusterien K, Yen L, Ahmed A, cheeifetz AS, Moss AC.炎症性肠病的负担:患者报告的定性分析和概念模型的发展。肠炎2014 Mar;20(3):545-552 [免费全文] [CrossRef] [Medline]
- Hall NJ, Rubin GP, Dougall A, Hungin AP, Neely J.为“健康相关的正常”而战:对已确诊炎症性肠病(ibd)患者经历的定性研究。中华卫生心理杂志2005年5月;10(3):443-455。[CrossRef] [Medline]
- Frohlich做。利用社交媒体技术构建炎症性肠病。卫生公共2016年11月31日(11):1412-1420。[CrossRef] [Medline]
- Kemp K, Griffiths J, Lovell K.了解IBD患者的健康和社会护理需求:证据的综合。World J Gastroenterol 2012 Nov 21;18(43):6240-6249 [免费全文] [CrossRef] [Medline]
- 《网络拥抱:通过科技为慢性疼痛患者发声》。网络心理与行为学杂志2013年2月16日(2):123-126。[CrossRef] [Medline]
- Wiese J, Kelley PG, Cranor LF, Dabbish L, Hong JI, Zimmerman J.你跟我很近吗?你在附近吗?:调查社会群体、亲密度和分享意愿。见:第13届普适计算国际会议论文集。2011年发表于:UbiComp '11;2011年9月17日至21日;中国北京,第197-206页。[CrossRef]
- 白海杰,霍文涛,朱正华,金敏。是同行还是专家?YouTube公益广告制作方的说服力。国际医药杂志2015年1月07日;30(1):161-188。[CrossRef]
- 林文文,张旭,宋宏,Omori K. Web 2.0时代的健康信息寻求:对社交媒体的信任、不确定性减少和自我披露。计算人类行为2016年3月56:289-294。[CrossRef]
- Kimberly C.数据挖掘Twitter对癌症、糖尿病和哮喘的见解。普渡大学,2016。URL:https://docs.lib.purdue.edu/dissertations/AAI10170604/[2018-01-24]访问
- 海维林,郭柏林,李文杰,李文杰。通过推特对牙痛进行公共卫生监测。J Dent Res 2011 9月;90(9):1047-1051 [免费全文] [CrossRef] [Medline]
- Harris JK, Mueller NL, Snider D, hair - joshu D.地方卫生部门使用Twitter传播糖尿病信息,美国。先前慢性疾病2013年5月02日;10:E70 [免费全文] [CrossRef] [Medline]
- 两项关于推特网络和推特内容与肌萎缩性侧索硬化症(ALS)相关的研究:对话、信息和“日常生活日记”。在:消费者、临床医生、连接和社区的数字健康创新:第24届澳大利亚国家卫生信息学会议的选文。荷兰阿姆斯特丹:IOS出版社;2016年出席:HIC '16;2016年7月25-27日;澳大利亚墨尔本,第41-47页。[CrossRef]
- Adrover C, Bodnar T,黄Z, Telenti A, Salathé M.利用推特识别艾滋病药物治疗的不良影响和相关情绪。JMIR公共卫生监测2015年7月27日;1(2):e7 [免费全文] [CrossRef] [Medline]
- Sioula-Georgoulea I.从社会学角度看待Twitter: hiv阳性女性被公开羞辱的案例研究。ΕπιθεώρησηΚοινωνικώνΕρευνών2015年11月25日,144:103 - 128。[CrossRef]
- 艾滋病与千年发展目标:世界艾滋病日推特聊天的公众情绪分析。国际艾滋病杂志2016年11月14日;3(9):134-137 [免费全文] [CrossRef]
- 德乔杜里M,莫里斯MR,怀特RW。在网上寻找和分享健康信息:比较搜索引擎和社交媒体。在:SIGCHI会议论文集关于计算系统中的人为因素。2014年发表于:CHI '14;2014年4月26日至5月1日;加拿大多伦多,约1365-1376年。[CrossRef]
- Arakawa Y, Kameda A, Aizawa A, Suzuki T.在风格特征中添加twitter特定的功能,根据用户类型和转发数量对推文进行分类。科学通报2014年1月22日;22(7):1416-1423。[CrossRef]
- Holmberg K, Bowman TD, Haustein S, Peters I.天体物理学家在Twitter上的对话联系。PLoS One 2014 Aug 25;9(8):e106086 [免费全文] [CrossRef] [Medline]
- 彭纳奇奥蒂M,波佩斯库AM。民主党,共和党和星巴克的狂热爱好者:Twitter的用户分类。第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集,2011年,KDD '11;2011年8月21日至24日;美国加州圣地亚哥,第430-438页。[CrossRef]
- 彭纳奇奥蒂M,波佩斯库AM。推特用户分类的机器学习方法。Proc Int AAI Conf Web Soc Media 2011;5(1):281-288。
- 饶d, Yarowsky D, Shreevats A, Gupta M.推特潜在用户属性分类。在:第二届搜索和挖掘用户生成内容国际研讨会论文集。2010发表于:SMUC '10;2010年10月30日加拿大多伦多,第37-44页。[CrossRef]
- De Choudhury M, Diakopoulos N, Naaman M.在Twitter上展开事件景观:用户类别的分类和探索。载于:ACM 2012年计算机支持协同工作会议论文集。2012年发表于:CSCW '12;2012年2月11-15日;西雅图,华盛顿州,美国第241-244页。[CrossRef]
- Holmberg K, Eriksson-Backa K, Ek S.关于糖尿病和饮食的推文——内容和对话联系。见:第五届信息社会福祉国际会议论文集,2014年发表于:WIS '14;2014年8月18日至20日;图尔库,芬兰,第45-56页。[CrossRef]
- Bergsma S, Dredze M, Van Durme B, Wilson T, Yarowsky D.在Twitter上通过基于通信的名称和位置聚类广泛改进用户分类。2013年计算语言学协会北美分会会议论文集:人类语言技术。2013年发表于:HLT-NAACL '13;2013年6月9日至14日;美国佐治亚州亚特兰大,第1010-1019页。
- Harris JK, Mart A, moland - russell S, Caburnay CA.糖尿病话题与Twitter参与度相关。既往慢性疾病2015年5月07日;12:E62 [免费全文] [CrossRef] [Medline]
- Khan A, Silverman A, Rowe A, Rowe S, Tick M, Testa S,等。谁在推特上说炎症性肠病呢?在:GW年度研究日2018。2018年发表于:GW Research '18;2018年4月10-11日;虚拟p. 176网址:https://hsrc.himmelfarb.gwu.edu/gw_research_days/2018/SMHS/62/
- Rowe A, Rowe S, Silverman A, Borum ML. P024推特上的克罗恩病消息:谁在说话?消化病学2018年1月1日;154(1):S13-S14。[CrossRef]
- Roccetti M, Casari A, Marfia G.慢性自身免疫性疾病社区内部:Crohn患者行为和医疗信息的社会网络视角。2015年IEEE/ACM社会网络分析与挖掘国际会议论文集,2015年ASONAM '15;2015年8月25-28日;法国巴黎,1089-1096页。[CrossRef]
- O'Neill P, Shandro B, Poullis A.患者对社交媒体提供的炎症性肠病远程医疗的看法。未来健康杂志2020 10月;7(3):241-244 [免费全文] [CrossRef] [Medline]
- 弗罗利希,Zmyslinski-Seelig AN。《如何揭开造口术》挑战造口术的耻辱,并鼓励其他人也这样做。新媒体学报2014 july 09;18(2):220-238。[CrossRef]
- Pérez-Pérez M, Pérez-Rodríguez G, Fdez-Riverola F, Lourenço A.使用Twitter了解人类肠道疾病社区:关键主题的探索性分析。J Med Internet Res 2019 Aug 15;21(8):e12610 [免费全文] [CrossRef] [Medline]
- Margolis PA, Maddali HT, Gloor PA。慢性病患者网络社区结构比较。国际器官医学杂志,2016;4(1/2):113-136。[CrossRef]
- Cohen ER, Spiegel BM, van Oijen MG。Tu1068推特提供洞察溃疡性结肠炎的健康相关生活质量(HRQoL)。胃肠病学2013年5月;5(144):S-751。[CrossRef]
- Dietterich TG, Lathrop RH, Lozano-Pérez T.用轴平行矩形解决多实例问题。中国科学,1997年1月(1-2):31-71。[CrossRef]
- 徐旭。多实例问题中的统计学习。怀卡托大学2003年6月https://www.cs.waikato.ac.nz/~ml/publications/2003/xinxu_thesis.pdf[2018-07-15]访问
- 布利DM,吴艾,Jordan MI。潜狄利克雷分配。J Mach Learn Res 2003; 3:93 -1022。
- 多实例学习假设的研究进展。知识工程,2010年3月1日;25(1):1-24。[CrossRef]
- 董林。多实例学习算法的比较。怀卡托大学,2006年2月https://researchcommons.waikato.ac.nz/bitstream/handle/10289/2453/thesis.pdf?sequence=1&isAllowed=y[2018-07-15]访问
- 舒尔特O, Routley K.聚合预测与聚合特征的关系分类。2014年IEEE计算智能与数据挖掘研讨会论文集,2014年发表于:CIDM '14;2014年12月9日至12日;美国佛罗里达州奥兰多,第121-128页。[CrossRef]
- Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O,等。Scikit-learn: Python中的机器学习。J Mach Learn Res 2011; 12:25 -2830。
- 食品组成综合数据集(CoFID)。英国公共卫生2015年3月25日URL:https://www.gov.uk/government/publications/composition-of-foods-integrated-dataset-cofid: ~:文本= % 20 'composition % % 20的20种食物% 20集成,在% 20 % 20猪肉食谱% 20 % 20节[2019-09-16]访问
- FoodData中央。美国农业部,农业研究服务,2019。URL:https://fdc.nal.usda.gov/[2019-09-16]访问
- 自然语言理解。IBM云API文档。2020。URL:https://cloud.ibm.com/apidocs/natural-language-understanding[2021-07-15]访问
- Ahmed W, Bath PA, Demartini G.使用Twitter作为数据源:道德、法律和方法挑战的概述。入:伍德菲尔德·K,编辑。在线研究伦理(研究伦理与诚信进展,第2卷).彬格莱,英国:翡翠集团出版;2017:79 - 107。
- Fiesler C, proes N.“参与者”对Twitter研究伦理的看法。Soc Media Soc 2018年3月10日;4(1):205630511876336。[CrossRef]
- Williams ML, Burnap P, Sloan L.在社会研究中发布Twitter数据的道德框架:考虑到用户的观点、在线上下文和算法估计。社会学2017年12月;51(6):1149-1168 [免费全文] [CrossRef] [Medline]
- 杨文杰,杨文杰,杨文杰。一种神经概率语言模型。J Mach Learn Res 2003;3:1137-1155。
- 科洛伯特R,韦斯顿J.自然语言处理的统一架构:具有多任务学习的深度神经网络。第25届机器学习国际会议论文集,2008,ICML '08;2008年7月5日至9日;芬兰赫尔辛基,第160-167页。[CrossRef]
缩写
API:应用程序编程接口 |
炎症性肠病:炎症性肠病 |
LDA:潜在狄利克雷分配 |
小姐:多个实例 |
NLU:自然语言理解 |
中华民国AUC:接收机工作特性曲线下面积 |
RT:转发 |
如果:单一实例 |
JMIRPE办公室编辑;提交29.03.21;作者:陈杰,王宏,S Kiritchenko;对作者05.06.21的评论;修订本收到29.10.21;接受20.05.22;发表02.08.22
版权©Maya Stemmer, Yisrael Parmet, Gilad Ravid。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 02.08.2022。
这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。