医疗互联网研究杂志-开发一个自动系统，分类Twitter上关于医疗服务的聊天:医疗补助的案例研究gydF4y2Ba

原始论文gydF4y2Ba

Yuan-Chi杨gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
穆罕默德·阿里·阿尔-加拉迪gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
惠特尼·布雷默gydF4y2Ba^1gydF4y2Ba,废话gydF4y2Ba ；gydF4y2Ba
Jane M ZhugydF4y2Ba^2gydF4y2Ba， md, mpp, MSHPgydF4y2Ba ；gydF4y2Ba
大卫·格兰德gydF4y2Ba^3.gydF4y2Ba，医学博士，mpagydF4y2Ba ；gydF4y2Ba
安倍衬衣gydF4y2Ba^{1，gydF4y2Ba}^4gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba美国佐治亚州亚特兰大市埃默里大学医学院生物医学信息系gydF4y2Ba

^2gydF4y2Ba美国俄勒冈州波特兰俄勒冈健康与科学大学普通内科和老年病科gydF4y2Ba

^3.gydF4y2Ba美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院普通内科学部gydF4y2Ba

^4gydF4y2Ba美国乔治亚州亚特兰大市乔治亚理工学院和埃默里大学生物医学工程系gydF4y2Ba

通讯作者:gydF4y2Ba

杨元驰博士gydF4y2Ba

生物医学信息学系gydF4y2Ba

医学院gydF4y2Ba

埃默里大学gydF4y2Ba

伍德拉夫广场101号东四楼gydF4y2Ba

佐治亚州亚特兰大，30322gydF4y2Ba

美国gydF4y2Ba

电话:1 404 727 6123gydF4y2Ba

电子邮件:gydF4y2Bayuan-chi.yang@emory.edugydF4y2Ba

背景:gydF4y2Ba社交媒体在日常生活中的广泛应用使其成为对消费者对卫生服务的看法进行近乎实时评估的丰富而有效的资源。然而，由于社交媒体聊天内容的海量数据和多样性，在这些评估中使用它可能具有挑战性。gydF4y2Ba

摘要目的:gydF4y2Ba本研究旨在开发和评估一个涉及自然语言处理和机器学习的自动系统，以美国医疗补助计划(Medicaid)为例，自动描述用户发布的关于医疗服务的Twitter数据。gydF4y2Ba

方法:gydF4y2Ba我们通过两种方式从Twitter收集数据:通过公共流媒体应用程序编程接口使用医疗补助相关的关键字(语料库1)和使用网站搜索选项提到机构特定句柄的推文(语料库2)。我们手动将推文样本标记为5个预定的类别或gydF4y2Ba其他gydF4y2Ba并人为地增加了特定低频率类别的培训员额的数量。使用手工标记的数据，我们训练和评估了几种监督学习算法，包括支持向量机、随机森林(RF)、naïve贝叶斯、浅神经网络(NN)、k近邻、双向长短期记忆和来自变压器的双向编码器表示(BERT)。然后，我们将性能最好的分类器应用于收集的推文进行后分类分析，以评估我们的方法的效用。gydF4y2Ba

结果:gydF4y2Ba我们手动注释了11379条tweet(语料库1:9179;语料库2:2200)，使用7930(69.7%)进行训练，1449(12.7%)进行验证，2000(17.6%)进行测试。基于BERT的分类器准确率最高(81.7%，语料库1;80.7%，语料库2)和FgydF4y2Ba_1gydF4y2Ba消费者反馈得分(0.58，语料库1;0.90，语料库2)，在准确性方面优于第二好的分类器(74.6%，RF语料库1;69.4%， RF在语料库2)和FgydF4y2Ba_1gydF4y2Ba消费者反馈评分(0.44，语料库1上的NN;0.82, RF在语料库2上)。后分类分析显示推文类别的语料库间分布不同，其中政治推文(400778/628411,63.78%)和消费者反馈推文(15073/27337,55.14%)在语料库1和语料库2上分别是最频繁的。gydF4y2Ba

结论:gydF4y2Ba与医疗补助相关的推文内容广泛而多变，因此需要自动分类以识别与主题相关的推文。我们提出的系统为自动分类提供了一个可行的解决方案，可以部署和推广到医疗补助以外的医疗服务项目。注释数据和方法可用于未来的研究。gydF4y2Ba

J medical Internet Res 2021;23(5):e26616gydF4y2Ba

doi: 10.2196/26616gydF4y2Ba

关键字gydF4y2Ba

自然语言处理gydF4y2Ba；gydF4y2Ba 机器学习gydF4y2Ba；gydF4y2Ba 推特gydF4y2Ba；gydF4y2Ba infodemiologygydF4y2Ba；gydF4y2Ba infoveillancegydF4y2Ba；gydF4y2Ba 推特gydF4y2Ba；gydF4y2Ba 社交媒体gydF4y2Ba；gydF4y2Ba 医疗补助计划gydF4y2Ba；gydF4y2Ba 消费者的反馈gydF4y2Ba

消费者的观点和反馈对于改进产品或服务至关重要。在过去的20年里，互联网的广泛采用和使用使其成为收集有针对性的消费者反馈的主要平台。企业通常允许消费者对特定的产品和服务进行评级，并提供详细的评论或评论，这已成为电子商务平台的一个关键特征。例如，消费者对产品的评论和评级在亚马逊电子商务网站的差异化中发挥着重要作用，亚马逊目前在全球范围内都有业务。gydF4y2Ba1gydF4y2Ba，gydF4y2Ba2gydF4y2Ba］．也有一些公司，比如Yelp，专门专注于众包消费者反馈。gydF4y2Ba3.gydF4y2Ba-gydF4y2Ba6gydF4y2Ba］．同样，随着社交媒体成为许多人交流的主要平台，许多公司开始通过社交媒体账户维护和交流，通常可以与消费者进行私人和公开的直接交流。消费者不仅通过这些社交媒体账户发表评论或寻求帮助，他们还经常在自己的社交网络中参与有关产品或服务的讨论。因此，这种由消费者产生的谈话经常被用来评估对特定话题的看法，这些话题可能从产品或服务到社会项目、立法和政治。gydF4y2Ba

社交媒体是获取公共卫生观点的丰富资源，因为它能够直接和实时收集大量数据。它通常用于情感分析——一种分析书面语言中的观点、情感、态度和情感的研究领域。涉及社交媒体数据的情感分析研究涵盖了广泛的主题、事件、个人、问题、服务、产品和组织[gydF4y2Ba7gydF4y2Ba，gydF4y2Ba8gydF4y2Ba］．然而，社交媒体的使用并不局限于开放领域的情感分析。近年来，更广泛的医疗领域内的研究已经拥抱了社交媒体，目前正利用社交媒体进行实时公共卫生监测，包括流感监测、药物警戒和毒性警戒等主题[gydF4y2Ba9gydF4y2Ba-gydF4y2Ba11gydF4y2Ba］．与此同时，与美国的企业业务类似，当地卫生部门和医院等卫生服务提供商也开始专门采用社交媒体作为面向消费者的沟通渠道[gydF4y2Ba12gydF4y2Ba，gydF4y2Ba13gydF4y2Ba］．该领域之前的研究调查了与此类健康服务账户相关的社交媒体数据如何反映消费者对这些账户的看法。最简单的研究集中于使用与医院或疗养院账户相关的结构化或数字信息，如点赞或评级，并将这些指标与传统的质量报告和评级进行了比较[gydF4y2Ba14gydF4y2Ba-gydF4y2Ba16gydF4y2Ba］．基于开放领域自然语言处理(NLP)的进展，更广泛的健康领域的一些研究尝试使用非结构化数据，包括与患者对医院的体验有关的帖子，以推断消费者情绪[gydF4y2Ba17gydF4y2Ba，gydF4y2Ba18gydF4y2Ba或提取总结内容的主题[gydF4y2Ba19gydF4y2Ba］．gydF4y2Ba

众所周知，从社交媒体数据中提取知识对于NLP方法来说是非常困难的，因为存在拼写错误、口语化表达、缺乏上下文和噪声等因素。由于特定领域术语的复杂性、普通社交媒体用户缺乏专家知识以及与健康相关主题的独特性，这些问题在与健康相关的数据中更加严重。因此，利用社交媒体上的自由文本数据进行健康相关任务的研究少得多。过去的研究与我们的研究密切相关，重点是分析人们对健康保险计划属性的看法[gydF4y2Ba20.gydF4y2Ba以及社交媒体用户对公共卫生政策公告的反应[gydF4y2Ba21gydF4y2Ba］．然而，据我们所知，目前还没有一个近乎实时的自动系统，可以对社交媒体上有关医疗服务和医疗保险(Medicaid)等大型公共保险公司提供的保险覆盖范围的讨论进行全面的数据收集和分析。gydF4y2Ba

但是，通过社交媒体分析公众对公共保险公司和公共保险公司的治理和政策的看法是非常必要的。例如，使用医疗补助的客户可能根据他们的经验提供反馈，甚至参与他们的经验的讨论，他们可能没有机会，甚至不愿意向医疗补助提供者的客户服务代表透露。分析这种聊天可以为研究人员和政策制定者提供传统客户反馈渠道的补充信息，并可能有助于改善服务和相关政策。然而，与医疗补助等实体相关的讨论包含了关于政治和立法的讨论;学术研究、统计数据和事实信息;消费者的反馈;以此类推。与消费者反馈相关的闲聊相比，与政治相关的闲聊在内容上可能非常不同。因此，根据内容对这些推文进行适当的分类对于提供准确的信息至关重要。此外，情绪对这两大类聊天也可能有不同的含义——政治聊天中的负面情绪可能代表用户与关于医疗服务的政治决定相关的情绪(例如，与保险覆盖范围或医疗保险(Medicare)或医疗补助(Medicaid)中覆盖的福利相关的政策变化)，而不是服务本身。gydF4y2Ba

因此，在将颤振内容用于有针对性的分析之前，需要对颤振内容进行识别和分类。一个好的分类方案不仅可以帮助产生好的分析，还可以帮助避免不相关的内容污染讨论。为了实现这一目标并有效利用社交媒体大数据，需要基于机器学习方法的自动分类和分析系统。这一点，再加上社交媒体数据的前景，以及过去在这一专业领域缺乏研究，是本研究的主要动机。我们选择医疗补助作为我们的目标医疗服务，因为它是全国最大的单一公共保险项目。gydF4y2Ba22gydF4y2Ba)，包含社交媒体上大量相关的聊天内容。gydF4y2Ba

本文的具体目标如下:gydF4y2Ba

评估一个社交媒体平台，特别是Twitter，是否包含了足够多的关于医疗服务的讨论，从而可以用于进行大规模分析，将医疗补助作为我们的目标服务gydF4y2Ba
开发和讨论一个涉及NLP和机器学习的以数据为中心的系统，自动收集、分类和分析与医疗补助相关的Twitter聊天，如gydF4y2Ba图1gydF4y2Ba
描述Twitter-Medicaid数据集的人工注释及其组成gydF4y2Ba
描述有监督的分类策略，用于自动将与医疗补助相关的推文分类为广泛的类别，并评估几种机器学习模型的性能，特别强调可能代表消费者反馈的推文gydF4y2Ba
进行分类后的内容分析，以验证我们以数据为中心的系统的潜在效用gydF4y2Ba

图1。自然语言处理系统的工作流程，用于自动收集Twitter上医疗补助聊天的数据、分类和内容分析。API:应用程序编程接口;TFIDF:术语频率逆文档频率。gydF4y2Ba

本文的主要贡献如下:gydF4y2Ba

我们介绍了收集医疗补助相关Twitter数据、手动分析数据样本和开发注释指南的方法和结果，这些注释指南适用于准备用于训练分类算法的大型数据集。gydF4y2Ba
我们详细介绍了自动监督分类实验的方法、结果和评价，并对如何进一步提高性能提出了建议。gydF4y2Ba
我们讨论了收集到的数据的分类后分析，包括数据分布和内容分析。gydF4y2Ba
我们公开了本研究中的NLP和机器学习脚本，以及标记的训练数据集和更大的未标记的医疗补助相关数据集。gydF4y2Ba

数据收集gydF4y2Ba

为了开发用于分析与医疗补助相关的Twitter数据的模型，我们从网络中收集了两组公开可用的数据，我们将其标记为语料库1和语料库2。语料1包含提到“医疗补助”(Medicaid)或医疗补助机构(MA)和托管医疗组织(MCO，根据与该机构的合同提供医疗补助相关健康服务的组织)名称的推文，这些名称在推特上很容易区分(例如，gydF4y2Ba加州医保gydF4y2Ba:加州的医疗补助计划，和gydF4y2BaTennCaregydF4y2Ba田纳西州的医疗补助计划)。这些推文是从2018年5月1日至2019年10月31日通过Twitter的公共流媒体应用程序编程界面收集的，仅限于英语推文。据报道，社交媒体平台上经常出现拼写错误。gydF4y2Ba23gydF4y2Ba]，尤其是Twitter;因此，我们使用一个自动拼写变体生成器来生成“medicaid”的常见拼写错误，并使用它们来捕获将“medicaid”作为拼写错误之一的推文[gydF4y2Ba24gydF4y2Ba］．这可以提高检索速度和增加流数据的体积。关键字的完整列表，包括拼写错误，见表S1gydF4y2Ba多媒体附件1gydF4y2Ba．然后，我们识别并删除了内容与医疗补助没有直接关系的推文，以及重复或重复内容的推文(如筹款或政治活动)。为了专注于表达个人观点的推文，我们删除了转发推文，后者被视为原始推文的副本。最终的数据集由语料库1的628,411条tweet组成。gydF4y2Ba

尽管大多数消费者发布的关于医疗补助的讨论只包括“医疗补助”(或其变体)一词，但一些人直接标记或提到了与MAs或mcco相关的Twitter处理(如“@organization_name”)。语料库2由这些推文组成，MA和MCO推文句柄在之前的研究中被识别[gydF4y2Ba25gydF4y2Ba］．在数据收集中使用的句柄的完整列表列在表S2中gydF4y2Ba多媒体附件1gydF4y2Ba．这些推文是通过Twitter上的目标搜索(例如，“to:organization_name”)检索的。这些推文发布于2008年12月12日至搜索时间(2020年1月9日)之间。我们使用与Corpus 1相同的方法过滤推文。总体而言，语料库中有27337条推文。有关我们的数据的其他说明载于gydF4y2Ba多媒体附件1gydF4y2Ba．gydF4y2Ba

推文内容和手动注释gydF4y2Ba

为了更好地理解用户发布的tweet的内容，并开发自动描述这些tweet的方法，我们首先对这些tweet的内容进行了手工检查，并确定了常见的主题。我们使用扎根理论的方法进行了彻底的分析[gydF4y2Ba26gydF4y2Ba］．我们分析了随机样本的推文，以确定重复出现的主题，然后将主题分组到更广泛的类别和主题。本文的分析是由多位作者进行的，并对最初发现的主题进行了讨论。发现的主题要么被合并为更广泛的主题(如合并gydF4y2Ba信息gydF4y2Ba而且gydF4y2Ba外展gydF4y2Ba)，从我们的考虑中被丢弃(例如，对于很少或只观察一次的主题)，或被分成多个主题(例如，拆分gydF4y2Ba信息gydF4y2Ba推到gydF4y2Ba学术gydF4y2Ba，gydF4y2Ba信息gydF4y2Ba/gydF4y2Ba外展gydF4y2Ba,gydF4y2Ba新闻gydF4y2Ba)．经过本文的领域专家作者(JMZ和DG)的反复讨论和最终确定，我们将推特内容分为5个大类:(1)学术的，(2)消费者反馈的，(3)信息/外联的，(4)新闻的，(5)政治观点/倡导的。不能被归类为上述任何一类的推文都被标记为gydF4y2Ba其他gydF4y2Ba．这些类的描述如下:gydF4y2Ba

学术gydF4y2Ba（gydF4y2Ba学术gydF4y2Ba)——与医疗补助研究相关的推文。这些内容包括有学术附属关系的个人或组织或智库发布的推文，表达附属组织的观点，或任何与教育、学术和思想有关的推文，包括期刊出版物和报告(链接)。gydF4y2Ba
消费者的反馈gydF4y2Ba（gydF4y2Ba消费者gydF4y2Ba):这些包括与消费者体验或与医疗补助服务、覆盖范围、福利或健康问题相关的推文。这些推文通常来自医疗补助的消费者或消费者的家庭成员，也包括与他人的讨论。gydF4y2Ba
信息/外展gydF4y2Ba（gydF4y2Ba信息gydF4y2Ba):其中包括针对医疗补助计划的消费者和受益者的推文，传递包括机构服务、项目、活动、注册、资格标准等信息。包含一般健康信息或公共健康提醒信息的推文也被包括在内。gydF4y2Ba
新闻gydF4y2Ba（gydF4y2Ba新闻gydF4y2Ba):这包括新闻和公告，包括来自新闻机构或组织的任何推特。明确表达政治观点的推文以及来自医疗补助机构或计划的推文被排除在外。gydF4y2Ba
政治观点/宣传gydF4y2Ba（gydF4y2Ba政治gydF4y2Ba):这些包括评论、个人意见和对与医疗补助有关的政治的反馈。gydF4y2Ba
其他gydF4y2Ba（gydF4y2Ba其他gydF4y2Ba):这包括不相关的推文，通常是最初筛选时没有捕捉到的噪音。gydF4y2Ba

在JMZ建立所需的类别和开发注释指南之后，2名受过培训的注释人员在多次迭代中执行了第一轮注释(针对语料库1中的数据)，开发了注释指南，并通过讨论解决了歧义。本轮批注完成后，批注分歧由AS和WH解决。我们发现类分布非常不平衡，大多数tweet注释为gydF4y2Ba新闻gydF4y2Ba，gydF4y2Ba政治gydF4y2Ba,gydF4y2Ba其他gydF4y2Ba，而只有一小部分是在gydF4y2Ba学术gydF4y2Ba，gydF4y2Ba消费者gydF4y2Ba,gydF4y2Ba信息gydF4y2Ba类别(gydF4y2Ba表1gydF4y2Ba)．的表S3提供了每个类别的示例gydF4y2Ba多媒体附件1gydF4y2Ba．为了了解这种不平衡分布如何影响分类器在较小类别上的性能，特别是消费者类别上，我们使用3个分类器进行了初步的自动分类实验:naïve贝叶斯(NB)、支持向量机(SVM)和随机森林(RF)。我们将数据分成训练集(5795/7244,80%)和验证集(1449/7244,20%)，发现所有分类器对消费者反馈的最佳表现都较低，其中FgydF4y2Ba_1gydF4y2Ba分数= 0.3(支持向量机)。属于消费者反馈类的tweet对于我们的总体项目目标特别重要，因此我们设计了两种策略来提高这类的性能:第一个涉及来自相同数据集的目标tweet的附加注释，第二个专注于收集额外的数据集(如前所述，Corpus 2)。gydF4y2Ba

表1。第一轮注释(第2行和第3行)和最终数据集(第4行和第6行为语料库1)中注释数据的分布(计数和百分比);语料库2用于第5行和第7行)。gydF4y2Ba

数据集gydF4y2Ba	学术，n (%)gydF4y2Ba	消费者，n (%)gydF4y2Ba	信息，n (%)gydF4y2Ba	News, n (%)gydF4y2Ba	政治性，n (%)gydF4y2Ba	其他，n (%)gydF4y2Ba	合计，n (%)gydF4y2Ba
训练集(第一轮)gydF4y2Ba	61 (1.05)gydF4y2Ba	158 (2.73)gydF4y2Ba	198 (3.42)gydF4y2Ba	1288 (22.23)gydF4y2Ba	3613 (62.34)gydF4y2Ba	477 (8.23)gydF4y2Ba	5795 (100)gydF4y2Ba
验证集(第一轮)gydF4y2Ba	35 (2.42)gydF4y2Ba	37 (2.55)gydF4y2Ba	49 (3.38)gydF4y2Ba	317 (21.88)gydF4y2Ba	897 (61.90)gydF4y2Ba	114 (7.86)gydF4y2Ba	1449 (100)gydF4y2Ba
训练集(语料库1)gydF4y2Ba	83 (1.23)gydF4y2Ba	355 (5.27)gydF4y2Ba	429 (6.37)gydF4y2Ba	1299 (19.30)gydF4y2Ba	3710 (55.13)gydF4y2Ba	854 (12.69)gydF4y2Ba	6730 (100)gydF4y2Ba
训练集(语料库2)gydF4y2Ba	9 (0.75)gydF4y2Ba	709 (59.08)gydF4y2Ba	94 (7.83)gydF4y2Ba	40 (3.33)gydF4y2Ba	10 (0.83)gydF4y2Ba	338 (28.17)gydF4y2Ba	1200 (100)gydF4y2Ba
测试集(语料库1)gydF4y2Ba	20 (2)gydF4y2Ba	46 (4.60)gydF4y2Ba	49 (4.90)gydF4y2Ba	199 (19.90)gydF4y2Ba	603 (60.30)gydF4y2Ba	83 (8.30)gydF4y2Ba	1000 (100)gydF4y2Ba
测试集(语料库2)gydF4y2Ba	6 (0.60)gydF4y2Ba	579 (57.90)gydF4y2Ba	80 (8.00)gydF4y2Ba	21日(2.10)gydF4y2Ba	6 (0.60)gydF4y2Ba	308 (30.80)gydF4y2Ba	1000 (100)gydF4y2Ba
总计gydF4y2Ba	153 (1.34)gydF4y2Ba	1726 (15.17)gydF4y2Ba	701 (6.16)gydF4y2Ba	1876 (16.49)gydF4y2Ba	5226 (45.93)gydF4y2Ba	1697 (14.91)gydF4y2Ba	11379 (100)gydF4y2Ba

对于第一种策略，我们对来自Corpus 1的tweet进行了另一轮注释，以增加消费者类的tweet数量。由于原始数据集中消费者类tweet的数量非常少，我们意识到，由于预算和其他限制，通过绘制随机样本来注释足够数量的这些tweet是不可实现的。因此，我们尝试人为地增加这个类别的推文数量，而不是随机地为下一轮注释绘制推文，这将再次导致发现属于消费者反馈类别的少量推文。我们通过在更大的一组未标记的tweet上运行上述弱分类器来实现这一点，并且只选择由SVM分类器分类为消费者反馈的tweet。这显著增加了要注释的数据中的消费者反馈tweet的数量。然后将新的标注数据集添加到训练集，数据分布显示在gydF4y2Ba表1gydF4y2Ba．gydF4y2Ba

我们在语料库2中采用了相同的注释策略(即，注释由先前注释数据训练的分类器分类为消费者反馈的tweet)，但这一次，我们也注释了等量的非消费者tweet。这是因为Corpus 2中有丰富的消费者反馈推文，我们还希望将推文包含在其他类别中以提高性能。给出了整个注释过程的大纲gydF4y2Ba图2gydF4y2Ba．尽管我们试图减少两个语料库训练集中的类不平衡，以确保我们的评估代表了数据在真实分布中的分类器性能，但我们没有人为地平衡验证集。我们还对从2个语料库随机生成的测试集进行了注释，每个语料库有1000条tweet，因此它们将反映原始语料库的数据组成，允许我们评估分类器在部署流式数据时的表现。gydF4y2Ba

分类gydF4y2Ba

我们实验了5种传统的分类算法，包括高斯NB [gydF4y2Ba27gydF4y2Ba，gydF4y2Ba28gydF4y2Ba]， SVM [gydF4y2Ba29gydF4y2Ba，gydF4y2Ba30.gydF4y2Ba]， rf [gydF4y2Ba31gydF4y2Ba， k-nearest neighbor (KNN) [gydF4y2Ba28gydF4y2Ba]、浅神经网络(NN)和两种先进的分类算法，双向长短期记忆(BLSTM) [gydF4y2Ba32gydF4y2Ba，gydF4y2Ba33gydF4y2Ba]和来自变压器的双向编码器表示(BERT) [gydF4y2Ba34gydF4y2Ba，gydF4y2Ba35gydF4y2Ba］．尽管两种语料库中推文的来源和分布不同，但我们决定将它们结合起来，因为我们之前的研究表明，多语料库训练或远程监督可以提高社交媒体文本分类的性能[gydF4y2Ba36gydF4y2Ba］．传统分类器的特征提取和分类训练使用Python中的“Scikit-learn”包完成[gydF4y2Ba37gydF4y2Ba]， BLSTM分类是使用Python中的包“Keras”实现的[gydF4y2Ba38gydF4y2Ba]， BERT分类方法是使用包“simpletransformer”实现的，该包基于包“transformer”[gydF4y2Ba39gydF4y2Ba］．语料库1和语料库2在验证集和测试集上的性能如图所示gydF4y2Ba表2gydF4y2Ba．gydF4y2Ba

表2。分类器在语料库1和语料库2测试集上的分类性能。gydF4y2Ba

数据集和分类算法gydF4y2Ba		FgydF4y2Ba_1gydF4y2Ba得分(0. xx)gydF4y2Ba^{一个gydF4y2Ba}							百分比准确度(95% CI)gydF4y2Ba
		学术gydF4y2Ba	消费者(95% CI)gydF4y2Ba	信息gydF4y2Ba	新闻gydF4y2Ba	政治gydF4y2Ba	其他gydF4y2Ba
验证设置gydF4y2Ba
	注gydF4y2Ba^bgydF4y2Ba	11gydF4y2Ba	17 (11-24)gydF4y2Ba	24gydF4y2Ba	55gydF4y2Ba	70gydF4y2Ba	34gydF4y2Ba	55.0 (52.4 - -57.6)gydF4y2Ba
	支持向量机gydF4y2Ba^cgydF4y2Ba	0gydF4y2Ba	53 (38 - 66)gydF4y2Ba^dgydF4y2Ba	26gydF4y2Ba	70gydF4y2Ba	87gydF4y2Ba	43gydF4y2Ba	77.4 (75.2 - -79.5)gydF4y2Ba
	射频gydF4y2Ba^egydF4y2Ba	5gydF4y2Ba	43 (26-58)gydF4y2Ba	27gydF4y2Ba	74gydF4y2Ba	87gydF4y2Ba	48gydF4y2Ba	78.7 (76.6 - -80.7)gydF4y2Ba
	然而,gydF4y2Ba^fgydF4y2Ba	5gydF4y2Ba	24 (12-37)gydF4y2Ba	11gydF4y2Ba	55gydF4y2Ba	65gydF4y2Ba	26gydF4y2Ba	51.4 (48.9 - -54.0)gydF4y2Ba
	神经网络gydF4y2Ba^ggydF4y2Ba	31gydF4y2Ba	34 (21-46)gydF4y2Ba	32gydF4y2Ba	72gydF4y2Ba	86gydF4y2Ba	46gydF4y2Ba	75.2 (72.9 - -77.4)gydF4y2Ba
	BLSTMgydF4y2Ba^hgydF4y2Ba	27gydF4y2Ba	38 (25-51)gydF4y2Ba	42gydF4y2Ba	74gydF4y2Ba	88gydF4y2Ba	53gydF4y2Ba	78.9 (76.8 - -81.0)gydF4y2Ba
	伯特gydF4y2Ba^我gydF4y2Ba	54gydF4y2Ba	61 (48 - 72)gydF4y2Ba	64gydF4y2Ba	82gydF4y2Ba	92gydF4y2Ba	67gydF4y2Ba	85.2 (83.3 - -87.0)gydF4y2Ba
测试集(语料库1)gydF4y2Ba
	注gydF4y2Ba	12gydF4y2Ba	23日(16-31)gydF4y2Ba	20.gydF4y2Ba	53gydF4y2Ba	71gydF4y2Ba	21gydF4y2Ba	53.5 (50.4 - -56.6)gydF4y2Ba
	支持向量机gydF4y2Ba	0gydF4y2Ba	38 (24-51)gydF4y2Ba	14gydF4y2Ba	71gydF4y2Ba	83gydF4y2Ba	19gydF4y2Ba	73.0 (70.2 - -75.7)gydF4y2Ba
	射频gydF4y2Ba	0gydF4y2Ba	24 (10-37)gydF4y2Ba	21gydF4y2Ba	75gydF4y2Ba	84gydF4y2Ba	24gydF4y2Ba	74.6 (71.9 - -77.2)gydF4y2Ba
	然而,gydF4y2Ba	0gydF4y2Ba	20 (9-32)gydF4y2Ba	15gydF4y2Ba	47gydF4y2Ba	66gydF4y2Ba	26gydF4y2Ba	49.0 (45.9 - -52.1)gydF4y2Ba
	神经网络gydF4y2Ba	25gydF4y2Ba	44 (31-56)gydF4y2Ba	33gydF4y2Ba	70gydF4y2Ba	84gydF4y2Ba	32gydF4y2Ba	71.8 (69.0 - -74.6)gydF4y2Ba
	BLSTMgydF4y2Ba	22gydF4y2Ba	33 (19-45)gydF4y2Ba	20.gydF4y2Ba	71gydF4y2Ba	84gydF4y2Ba	30.gydF4y2Ba	73.1 (70.4 - -75.8)gydF4y2Ba
	伯特gydF4y2Ba	72gydF4y2Ba	58 (45 - 70)gydF4y2Ba	58gydF4y2Ba	80gydF4y2Ba	89gydF4y2Ba	51gydF4y2Ba	81.7 (79.3 - -84.0)gydF4y2Ba
测试集(语料库2)gydF4y2Ba
	注gydF4y2Ba	0gydF4y2Ba	72年(69 - 75)gydF4y2Ba	30.gydF4y2Ba	11gydF4y2Ba	3.gydF4y2Ba	21gydF4y2Ba	47.3 (44.2 - -50.3)gydF4y2Ba
	支持向量机gydF4y2Ba	0gydF4y2Ba	76年(73 - 78)gydF4y2Ba	2gydF4y2Ba	21gydF4y2Ba	7gydF4y2Ba	18gydF4y2Ba	56.4 (53.3 - -59.4)gydF4y2Ba
	射频gydF4y2Ba	0gydF4y2Ba	82年(80 - 84)gydF4y2Ba	7gydF4y2Ba	16gydF4y2Ba	11gydF4y2Ba	66gydF4y2Ba	69.4 (66.6 - -72.3)gydF4y2Ba
	然而,gydF4y2Ba	0gydF4y2Ba	38 (33-42)gydF4y2Ba	0gydF4y2Ba	7gydF4y2Ba	0gydF4y2Ba	50gydF4y2Ba	42.2 (39.1 - -45.3)gydF4y2Ba
	神经网络gydF4y2Ba	0gydF4y2Ba	79年(76 - 82)gydF4y2Ba	40gydF4y2Ba	24gydF4y2Ba	5gydF4y2Ba	66gydF4y2Ba	66.0 (63.0 - -69.0)gydF4y2Ba
	BLSTMgydF4y2Ba	0gydF4y2Ba	81年(79 - 84)gydF4y2Ba	34gydF4y2Ba	21gydF4y2Ba	4gydF4y2Ba	55gydF4y2Ba	67.3 (64.4 - -70.2)gydF4y2Ba
	伯特gydF4y2Ba	50gydF4y2Ba	90年(89 - 92)gydF4y2Ba	49gydF4y2Ba	37gydF4y2Ba	21gydF4y2Ba	79gydF4y2Ba	80.7 (78.2 - -83.1)gydF4y2Ba

^{一个gydF4y2Ba}这个数字表示小数点前两位。例如，支持向量机在消费者上的F1得分为0.53,95% CI为0.38-0.66。gydF4y2Ba

^bgydF4y2BaNB: naïve贝叶斯。gydF4y2Ba

^cgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba

^dgydF4y2Ba最好的分数用斜体突出显示。gydF4y2Ba

^egydF4y2Ba随机森林。gydF4y2Ba

^fgydF4y2Ba最近的邻居。gydF4y2Ba

^ggydF4y2Ba神经网络:浅神经网络。gydF4y2Ba

^hgydF4y2BaBLSTM:双向长短期记忆。gydF4y2Ba

^我gydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba

通过小写化和匿名化url和用户名对推文进行预处理。对于传统的分类器，非英语字符被进一步删除(保持下划线)，每个单词都由波特词干分析器词干。特征是最频繁出现的3000个n格(n从1到3的连续单词序列，共有1380个字母、1296个字母和324个字母)的非归一化计数。我们还引入了“词簇”功能，即从Twitter聊天中学习到的语义相似的词或短语的簇或广义表示[gydF4y2Ba10gydF4y2Ba，gydF4y2Ba40gydF4y2Ba］．词簇用词向量袋表示，特征空间由972个词簇组成。我们使用了Owoputi等人提供的Twitter单词集群“50mpaths2”[gydF4y2Ba41gydF4y2Ba］．对于高级分类器，将每个单词或字符序列替换为密集向量，然后将向量输入相关算法进行训练。gydF4y2Ba

我们使用验证集执行超参数调优，以改进不平衡数据集上的分类任务。具体来说，我们专注于提高FgydF4y2Ba_1gydF4y2Ba为消费者反馈打分。对于传统的分类器，我们优化了KNN的最近邻数量、RF的估计器(树)数量以及支持向量机的c参数和权重。我们还使用合成少数过采样技术进行过采样实验，但性能没有提高(见表S4)gydF4y2Ba多媒体附件1gydF4y2Ba)．中表S5列出了传统分类器的最佳超参数gydF4y2Ba多媒体附件1gydF4y2Ba．我们使用Twitter GloVe词嵌入BLSTM [gydF4y2Ba42gydF4y2Ba分类器中，每个单词都被转换为200维的向量。然后用40个epoch和dropout正则化训练BLSTM，根据验证数据的准确性选择最佳模型。我们选择RoBERTa-large作为BERT算法[gydF4y2Ba35gydF4y2Ba，训练3课时。技术细节如表S5所示gydF4y2Ba多媒体附件1gydF4y2Ba．gydF4y2Ba

Postclassification分析gydF4y2Ba

为了评估我们的分类方法的效用并获得对数据的理解，我们使用性能最好的分类器(基于BERT的分类器)来标记所有收集到的未标记数据并计算数据分布。然后，我们使用术语频率-反文档频率(TFIDF)方法进行内容分析[gydF4y2Ba43gydF4y2Ba]，关注语料库1中包含术语“medicaid”及其拼写错误的推文，并使用潜狄利克雷分配(LDA)进行主题建模[gydF4y2Ba44gydF4y2Ba，主要关注消费者反馈推文。我们的第一个目的是定性地评估分类器是否能够根据人工验证的内容来区分tweet。其次，我们希望通过确定TFIDF排名靠前的单词来获得对每个类别内容的基本了解。TFIDF方法使用反向文档频率调整术语频率，以便在一个类别中唯一的高频术语的排名将高于在各个类别中常见的高频单词。这有助于识别目标类别特有的重要术语。我们的第三个目标是超越TFIDF方法，使用LDA主题建模总结消费者反馈闲聊。对于所有内容分析，首先对文本进行预处理，删除url、用户名、非英语字符(保留下划线和连字符)、停止词和任何少于4个字符的单词。对于LDA主题建模，我们尝试了不同的超参数(主题数量=5、10、20、50和100)，并选择了相干性得分最高的模型。gydF4y2Ba

测试集中的注释和类分布gydF4y2Ba

我们总共注释了语料库1中的9179条推文和语料库2中的2200条推文。我们得到了大量的注释者之间的一致性(Cohen κ=0.734) [gydF4y2Ba45gydF4y2Ba，gydF4y2Ba46gydF4y2Ba超过892条双重注释的推文。测试数据集是从语料库中随机选择的，因此，它们可以被认为是收集数据的样本。在语料库1中，测试数据包含1000条推文，其中政治讨论是主要类别(603/1000,60.30%)，其次是新闻(199/1000,19.90%)，消费者反馈占推文的4.60%(46/1000)。相比之下，在语料库2中，消费者反馈占推文的57.90%(579/1000)，30.80%(308/1000)的推文无法分类，其中大部分是对话的一部分，没有完整的上下文就无法理解。gydF4y2Ba

分类结果gydF4y2Ba

FgydF4y2Ba_1gydF4y2Ba每个类的分数和验证集和测试集上的分类器的准确性显示在gydF4y2Ba表2gydF4y2Ba的表S6给出了精度和召回率，其中包括使用自举法估计的cigydF4y2Ba多媒体附件1gydF4y2Ba．在语料库1的验证和测试集中，分类器在政治讨论方面表现出较高的性能，但在消费者反馈方面表现相对较低。基于前面描述的巨大不平衡，这是意料之中的。在所有测试的传统分类器中，支持向量机在验证集上表现最好，得到FgydF4y2Ba_1gydF4y2Ba消费者反馈评分0.53。然而，FgydF4y2Ba_1gydF4y2Ba消费者对语料库1测试集的反馈得分仅为0.38。相反，我们发现BERT分类器具有最高的FgydF4y2Ba_1gydF4y2Ba验证集(0.61)和语料库1中的测试集(0.58)的消费者反馈得分。gydF4y2Ba

对于来自Corpus 2的测试集，大多数分类器在消费者反馈上表现良好。在传统分类器中，RF表现最好，为FgydF4y2Ba_1gydF4y2Ba消费者反馈评分0.82。另一方面，BERT仍然表现最好，消费者反馈FgydF4y2Ba_1gydF4y2Ba0.90分。gydF4y2Ba

由于BERT分类器在准确性和消费者反馈方面表现最好gydF4y2Ba_1gydF4y2Ba在验证集和2个测试集上的得分，我们使用BERT分类进行分类后分析。gydF4y2Ba

误差分析gydF4y2Ba

我们对基于bert的分类器所犯的错误进行了简要分析。我们首先计算两个测试集的混淆矩阵(gydF4y2Ba表3gydF4y2Ba)．在gydF4y2Ba表4gydF4y2Ba，我们提供了最常见的分类错误的例子，省略了不必要的细节。对于语料库1，我们强调了分类器经常将政治推文错误地分类为新闻或消费者反馈，反之亦然。这并不奇怪，因为用户有时会根据个人经验评论和讨论政治，一些新闻内容与对政策的看法有关。我们还强调，未分类的推文，其内容通常与医疗补助没有直接关系或缺乏信息，经常被错误地归类为消费者反馈或政治。消费者反馈与政治或未分类的推文之间的混淆，以及消费者反馈的低数量，导致了消费者反馈的低性能。我们还观察到一些新闻推文与信息推文混淆，因为信息经常以新闻或博客文章的形式传播。gydF4y2Ba

表3。测试集上BERT分类器的混淆矩阵gydF4y2Ba

数据集和真值gydF4y2Ba		预测价值gydF4y2Ba
		学术gydF4y2Ba	消费者gydF4y2Ba	信息gydF4y2Ba	新闻gydF4y2Ba	政治gydF4y2Ba	其他gydF4y2Ba
测试集(语料库1)gydF4y2Ba
	学术gydF4y2Ba	13gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	4gydF4y2Ba	2gydF4y2Ba	0gydF4y2Ba
	消费者gydF4y2Ba	0gydF4y2Ba	26gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	18gydF4y2Ba	2gydF4y2Ba
	信息gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	27gydF4y2Ba	9gydF4y2Ba	10gydF4y2Ba	3.gydF4y2Ba
	新闻gydF4y2Ba	1gydF4y2Ba	0gydF4y2Ba	9gydF4y2Ba	169gydF4y2Ba	17gydF4y2Ba	3.gydF4y2Ba
	政治gydF4y2Ba	2gydF4y2Ba	5gydF4y2Ba	3.gydF4y2Ba	39gydF4y2Ba	549gydF4y2Ba	5gydF4y2Ba
	其他gydF4y2Ba	0gydF4y2Ba	12gydF4y2Ba	4gydF4y2Ba	4gydF4y2Ba	30.gydF4y2Ba	33gydF4y2Ba
测试集(语料库2)gydF4y2Ba
	学术gydF4y2Ba	3.gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	2gydF4y2Ba	0gydF4y2Ba
	消费者gydF4y2Ba	1gydF4y2Ba	512gydF4y2Ba	1gydF4y2Ba	2gydF4y2Ba	26gydF4y2Ba	37gydF4y2Ba
	信息gydF4y2Ba	1gydF4y2Ba	5gydF4y2Ba	33gydF4y2Ba	15gydF4y2Ba	1gydF4y2Ba	25gydF4y2Ba
	新闻gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	5gydF4y2Ba	11gydF4y2Ba	3.gydF4y2Ba	2gydF4y2Ba
	政治gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	0gydF4y2Ba	1gydF4y2Ba	5gydF4y2Ba	0gydF4y2Ba
	其他gydF4y2Ba	1gydF4y2Ba	36gydF4y2Ba	15gydF4y2Ba	7gydF4y2Ba	6gydF4y2Ba	243gydF4y2Ba

表4。BERT分类器在语料库1和语料库2上对tweet进行错误分类的示例。gydF4y2Ba

数据集，推文gydF4y2Ba		真类(预测)gydF4y2Ba	评论gydF4y2Ba
测试集(语料库1)gydF4y2Ba
	我需要政府停摆结束，因为在政府停摆期间，没人会打电话给我，让我办理医疗补助gydF4y2Ba	政治(消费者)gydF4y2Ba	用个人经验讨论政治gydF4y2Ba
	“这只是残忍和排斥”:在特朗普对穷人的攻击中，接受医疗补助的儿童减少了100万gydF4y2Ba	政治(新闻)gydF4y2Ba	对医疗补助政策的意见作为新闻标题呈现gydF4y2Ba
	我也是!但我完全理解为什么有些人真的讨厌它。是的……缺乏医疗补助提供者是一个无处不在的问题(我确实接受，但只有一个移动诊所)。也许可以联系当地的卫生部门问问!gydF4y2Ba	消费者(政治)gydF4y2Ba	客户关于医疗补助服务的讨论。它可能因为与有关医疗补助的政治讨论相似而被错误分类gydF4y2Ba
	感谢为这个关于法案的故事…俄亥俄州让一些有特殊需要的孩子的军人家庭等待答案gydF4y2Ba	新闻(政治)gydF4y2Ba	医疗补助政策改革法案新闻gydF4y2Ba
	在降低药物使用障碍率方面取得成功的州增加了获得医疗补助的机会;私人保险，以及MAT和纳洛酮。谢谢《纽约时报》编委会@NYTOpinion。< URL >gydF4y2Ba	新闻(信息)gydF4y2Ba	有关医疗补助的新闻gydF4y2Ba
	3种方法增加密苏里州医疗补助计划EMOMED报销gydF4y2Ba	信息(新闻)gydF4y2Ba	为医疗补助受益人提供的信息，以博客文章的形式呈现gydF4y2Ba
	我明天要去的医疗补助办公室早上七点半开门。我不会那么早到的，但是。gydF4y2Ba	其他(消费者)gydF4y2Ba	没有分类，因为它不是关于体验或问题，但内容表明用户是一个客户gydF4y2Ba
	我希望有人会问他“医疗补助和医疗保险有什么区别?”gydF4y2Ba	其他(政治)gydF4y2Ba	由于缺乏相关内容而未分类，但与政治讨论类似gydF4y2Ba
测试集(语料库2)gydF4y2Ba
	组织_name用词不当gydF4y2Ba	消费者(其他)gydF4y2Ba	大部分可能是关于客服的评论，但算法很难识别gydF4y2Ba
	我的荣幸!gydF4y2Ba	其他(消费者)gydF4y2Ba	由于信息不足，被归类为其他，但算法可能会识别出这可能是客户和客户代表之间的对话gydF4y2Ba

在语料库2中，占主导地位的类是消费者反馈和未分类的推文，它们彼此错误分类的频率最高。我们怀疑它们被错误分类是因为推文有时缺乏上下文，使其含义模糊，机器难以理解。例如，推文“organization_name措词不当”虽然含糊不清，但可能被理解为客户或客户服务代表的某些文档措词不当，因此，我们将其归类为消费者反馈。然而，机器学习算法无法破译这种隐含的上下文:“用词不当”通常与反馈有关，而在指向该机构的推文中，它很可能与客户服务有关。类似地，推特“organization_name My pleasure!”，” may belong to a conversation between a customer and a representative, but the lack of information renders it to the other class. However, machine learning could not capture this understanding.

后分类分析:数据分布gydF4y2Ba

我们使用了最佳性能分类器(BERT)来标记两个语料库。得到的类分布如图所示gydF4y2Ba图3gydF4y2Ba．我们发现语料库1中的推文主要为新闻(142047/628411,22.60%)和政治讨论(400778/628411,63.78%)，而消费者反馈仅占4.55%(28604/628411)，这与语料库1测试集的数据分布一致。数据分布表明，该语料库适合于分析政治讨论或新闻聊天。在语料库2中，大部分推文被标记为消费者反馈(15073/27337,55.14%)和未分类(8590/27337,31.42%)，这也与测试集中的数据分布一致。gydF4y2Ba

后分类分析:语料库各类内容gydF4y2Ba

现在，我们简要总结了语料库1中包含与“医疗补助”相关的术语的推文内容分析的结果，以便从高级角度理解每个类别中的内容。的表S7列出了TFIDF方法检测到的排名最高的10个字母和字母gydF4y2Ba多媒体附件1gydF4y2Ba［gydF4y2Ba43gydF4y2Ba］．毫不奇怪，学术推特上充斥着以“学习……以及表示研究结果的术语。类似地，信息推文包含与“服务”、“关心”、……等，与信息外联一致。关于新闻推文，我们发现许多推文是关于肯塔基州和阿肯色州医疗补助工作要求的新闻(2019年3月27日被联邦法官屏蔽)。此外，“社会保障”和“特朗普……在新闻和政治阶层中排名也很高。对于属于消费者反馈的推文，一些高级术语与其他类共享(例如，“……“保险”、“社会保障”或“……)，而有些则是针对这一类人的(“赚得多”或“不覆盖”)，并可能暗示了对医疗补助收入上限和覆盖范围的评论。gydF4y2Ba

我们不知道我们事先收集的两个数据集的组成。因此，我们的分类实验的结果为我们提供了非常重要的知识，在进行针对医疗补助或一般健康服务的研究时，应该使用哪种类型的Twitter数据。例如，当研究消费者反馈时，最好使用语料库2的数据(即包含MA或MCO的Twitter句柄的推文);对于研究公众对政治决策的看法，语料库1会更有用。对每一类推文的详细内容分析，比如它们的时间和地理位置分布，可能会揭示更多相关信息。然而，这样的分析超出了本研究的范围，我们计划在本文描述的NLP系统的基础上，在未来进行更深入的内容分析。gydF4y2Ba

后分类分析:消费者反馈的LDA主题建模gydF4y2Ba

我们发现有20个主题的模型获得了最高的连贯性得分。每个话题的前20个单词列在gydF4y2Ba多媒体附件1gydF4y2Ba，表S8。现在，我们根据这些热门词汇总结主要发现，括号中提供了热门词汇的示例。我们推断，这个对话包含了与(1)申请医疗补助有关的讨论，为自己或甚至为家庭成员(例如，gydF4y2Ba否认gydF4y2Ba，gydF4y2Ba应用gydF4y2Ba，gydF4y2Ba家庭gydF4y2Ba,gydF4y2Ba孩子gydF4y2Ba）;(2)牙科医生、专科医生、处方药、急诊科就诊(如:gydF4y2Ba封面gydF4y2Ba，gydF4y2Ba牙医gydF4y2Ba，gydF4y2Ba治疗师gydF4y2Ba，gydF4y2Ba处方gydF4y2Ba，gydF4y2Ba药物治疗gydF4y2Ba,gydF4y2Ba紧急gydF4y2Ba）;(3)与客户代表互动，特别是通过电话(如:gydF4y2Ba调用gydF4y2Ba，gydF4y2Ba电话gydF4y2Ba，gydF4y2Ba小时gydF4y2Ba，gydF4y2Ba持有gydF4y2Ba，gydF4y2Ba告诉gydF4y2Ba,gydF4y2Ba等待gydF4y2Ba）;(4)与医院有关的帐单(如gydF4y2Ba医院gydF4y2Ba，gydF4y2Ba比尔gydF4y2Ba,gydF4y2Ba元钱gydF4y2Ba）;(5)比较不同的保险计划(gydF4y2Ba开关gydF4y2Ba，gydF4y2Ba保险gydF4y2Ba，gydF4y2Ba私人gydF4y2Ba,gydF4y2Ba计划gydF4y2Ba)．主题列表可以作为进一步分类消费者反馈讨论的指南，这可能导致更详细的分析，甚至提供如何进一步改进医疗补助计划的建议。更深入的分析留给以后的工作。gydF4y2Ba

主要研究结果gydF4y2Ba

由于推文位于两个类之间的边界，导致了许多分类错误，我们注意到多标签分类方案可能会提高性能[gydF4y2Ba47gydF4y2Ba］．然而，在本项目早期进行的实验中，我们发现多标签方案只在一定程度上提高了分类性能，同时增加了注释过程的难度。因此，在本研究中，我们将重点放在单标签分类方案上，将多标签模型的开发留给以后的工作。gydF4y2Ba

除了多标签分类模型，还可以通过为位于当前分类边界的推文创建新的分类来纠正分类错误。例如，我们可以进一步将政治讨论分为两类:没有个人经验或来自朋友或亲戚的经验的政策讨论和有经验作为支持证据的政策讨论。通过包含更多的用户配置文件信息，分类性能可能会进一步提高。例如，我们可以包括帐户是否属于新闻机构，或者用户是否隶属于学术组织或智库等功能，这可以提高新闻类或学术类的分类性能。由于这两个语料库的分布非常不同，开发一个特定于语料库的分类器可能会进一步提高性能。gydF4y2Ba

尽管我们的内容分析仅限于高级TFIDF术语和关于消费者反馈的LDA主题建模，但附加分析可以包括其他讨论的主题建模[gydF4y2Ba44gydF4y2Ba或情感分析，以了解人们对医疗补助计划总体或医疗补助计划具体方面的情绪[gydF4y2Ba8gydF4y2Ba］．对所选样本的手工分析可以加深对这些主题的理解，并可能产生对政策更改的建议。我们还注意到，内容分析不仅可以帮助研究人员进一步理解医疗补助聊天，而且还可以反过来提高分类性能。gydF4y2Ba

限制gydF4y2Ba

这种分析与Twitter数据的质量有关，它包含大量的噪声，可能会影响我们的内容分析和注释指南的准确性和通用性。此外，Twitter用户可能不能代表医疗补助注册者。在推特用户中，年龄较大的群体往往代表不足[gydF4y2Ba48gydF4y2Ba依赖医疗补助的弱势群体可能不会使用这个平台来讨论他们的医疗保险。gydF4y2Ba

结论gydF4y2Ba

我们开发了一个社交媒体挖掘系统，包括NLP和机器学习，用于持续收集和分类关于医疗补助计划的Twitter聊天。我们的研究表明，使用Twitter收集大型、复杂的医疗服务和医疗补助等覆盖项目的数据是可能的，从而获得有关消费者认知和意见的近乎实时的知识。流数据的自动分类是至关重要的，特别是对于较小的类别，如消费者反馈，用于研究目标主题。gydF4y2Ba

我们的分析可以告诉公共卫生研究人员如何利用公共讨论的健康项目和服务，如医疗补助。同样，研究小组或医疗补助机构也可以部署我们的系统，对社交媒体上的民意演变进行持续、持续的研究(例如，某些政策变化或裁决的影响)。我们还注意到，尽管这项工作的重点是医疗补助，但我们的方法和开放源代码可以很容易地应用于其他卫生服务。注释数据和方法可用于未来的研究[gydF4y2Ba49gydF4y2Ba］．gydF4y2Ba

致谢gydF4y2Ba

本研究得到了Robert Wood Johnson基金会(#76158,JMZ和DG)的部分支持。gydF4y2Ba

作者的贡献gydF4y2Ba

YY在MAA、AS和WH的协助下进行并指导了机器学习实验、评估和数据分析。YY、AS、MAA和WH对数据收集、注释和分析都有贡献。JMZ和DG在编写注释指南和类别方面提供了他们的专业知识，并帮助制定了项目的总体目标。AS、JMZ和DG监督了研究的各个方面。YY起草了稿件，所有作者对最终稿件都有贡献。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba

多媒体附件1gydF4y2Ba

补充材料，包括表格和其他信息。gydF4y2Ba

DOCX文件，51 KBgydF4y2Ba

陈鹏飞，吴松，尹杰。网络推荐和消费者反馈对销售的影响。见:信息系统国际会议论文集，ICIS 2004。2004年出席:信息系统国际会议，ICIS 2004;2004年12月12-15日;美国华盛顿特区网址:gydF4y2Bahttps://aisel.aisnet.org/icis2004/58/gydF4y2Ba
Mudambi SM, Schuff D.研究笔记:什么是有用的在线评论?对亚马逊网站上顾客评论的研究。Mis q 2010;34(1):185。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
胡敏，刘斌。客户评价的挖掘与总结。见:第十届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2004年出席:KDD04: ACM SIGKDD知识发现与数据挖掘国际会议;2004年8月;美国西雅图，第168-177页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Akay A, Dragomir A, Erlandsson B.利用社交媒体监测西格列汀消费者意见的新数据挖掘方法。生物工程学会。2015年1月19日(1):389-396。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Lim Y, Van Der Heide B.评估陌生人的智慧:yelp上在线消费者评论的感知可信度。J computer - mediat Comm 2014 Aug 25;20(1):67-82。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
评论、声誉和收入:以Yelp.com为例。2016年哈佛商学院NOM单元工作报告。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
岳丽，陈伟，李旭，左伟，尹敏。社交媒体情感分析研究。Knowl Inf Syst 2018 7月4日;60(2):617-663。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
情绪分析与意见挖掘。人类语言技术综合讲座2012年5月23日;5(1):1-167。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Broniatowski DA, Paul MJ, Dredze M.通过Twitter进行国家和地方流感监测:对2012-2013年流感流行的分析。PLoS One 2013 12月9日;8(12):e83672 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Sarker A, O'Connor K, Ginn R, Scotch M, Smith K, Malone D等。毒性警戒的社交媒体挖掘:从Twitter自动监测处方药滥用。2016年3月9日;39(3):231-240 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
O'Connor K, Pimpalkhute P, Nikfarjam A, Ginn R, Smith K, Gonzalez G. Twitter上的药物警戒?挖掘药物不良反应的推文。AMIA Annu Symp Proc 2014:924-933 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Griffis HM, Kilaru AS, Werner RM, Asch DA, Hershey JC, Hill S，等。美国医院使用社交媒体:采用和利用的描述性分析。J Med Internet Res 2014年11月27日;16(11):e264 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
哈里斯JK，穆勒NL，斯奈德D.社会媒体在全国地方卫生部门的采用。Am J公共卫生2013年9月103(9):1700-1707。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Glover M, Khalilzadeh O, Choy G, Prabhakar AM, Pandharipande PV, Gazelle GS。社交媒体对医院的评价:Facebook评分与表现异常值之间的比较分析。2015年10月7日;30(10):1440-1446 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Facebook用户评分与医院成本、质量和患者满意度有关吗?纽约州医院的横断面分析。BMJ Qual Saf 2018年2月09日;27(2):119-129。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Hefele JG, Li Y, Campbell L, Barooah A, Wang J.养老院Facebook评论:谁拥有它们，它们如何与其他质量和体验指标相关联?BMJ Qual Saf 2018 Feb 05;27(2):130-139。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Hawkins JB, Brownstein JS, Tuli G, Runels T, Broecker K, Nsoesie EO等。使用Twitter测量美国医院中患者感知的护理质量。BMJ Qual Saf 2016年6月13日;25(6):404-413 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rastegar-Mojarad M, Ye Z, Wall D, Murali N, Lin S.从社交媒体中收集和分析患者的医疗体验。JMIR Res Protoc 2015 july 02;4(3):e78 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ranard BL, Werner RM, Antanavicius T, Schwartz HA, Smith RJ, Meisel ZF，等。Yelp对医院护理的评论可以补充和告知传统的患者护理体验调查。2016年4月;35(4):697-705 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
van den Broek-Altenburg EM, Atherly AJ。利用社交媒体识别注册季节消费者对健康保险属性的情绪应用科学2019年5月17日;9(10):2035。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Hatchard JL, Neto JQ, Vasilakis C, Evans-Reeves KA。关于公共卫生政策的推特:社交媒体对英国政府宣布就标准化包装法规草案进行议会投票的回应。PLoS One 2019 Feb 26;14(2):e0211758 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
医疗补助登记在ACA之后发生了变化。医疗补助和芯片支付和接入委员会。URL:gydF4y2Bahttps://www.macpac.gov/subtopic/medicaid-enrollment-changes-following-the-aca/gydF4y2Ba[2020-03-11]访问gydF4y2Ba
韩斌，杨晓燕。社交媒体文本的词汇规范化研究。2013年1月4日(1):1-27。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
用于挖掘吵闹的健康相关文本源的无监督和可定制的拼写错误生成器。J Biomed Inform 2018 Dec;88:98-107 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
朱建明，Sarker A, Gollust S, Merchant R, Grande D.美国州医疗补助项目使用Twitter的特征:机器学习方法。J Med Internet Res 2020 Aug 17;22(8):e18401。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
马丁PY，特纳BA。扎根理论和组织研究。应用行为科学1986年04月01;22(2):141-157。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
朴素贝叶斯分类器的实证研究。在:IJCAI-01人工智能经验方法研讨会论文集。2001年参加IJCAI-01人工智能经验方法研讨会;2001;意大利，西西里岛，第41-46页gydF4y2Bahttps://www.cc.gatech.edu/~isbell/reading/papers/Rish.pdfgydF4y2Ba
掩护TM，哈特，PE。最近邻模式分类。IEEE反式。通知。理论1967年1月13(1):21-27。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Chang CC, Lin CJ。LIBSVM:支持向量机库。ACM系统技术会议2011年4月2(3):1-27。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
普拉特JC。支持向量机的概率输出及其与正则似然方法的比较。在:大差距分类器的进展。马萨诸塞州剑桥:麻省理工学院出版社;1999:61 - 74。gydF4y2Ba
TK。随机决策森林。《第三届文献分析与识别国际会议论文集》，1995年发表于:第三届文献分析与识别国际会议;1995年8月14日至16日;蒙特利尔，加拿大QC。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
长时间短时记忆。神经计算1997 11月15日;9(8):1735-1780。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
舒斯特尔M，帕里瓦尔KK。双向循环神经网络。IEEE传输信号处理，1997;45(11):2673-2681。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
戴福林，张茂明，李凯，陶达诺瓦。伯特:深度双向转换语言理解的预训练。计算与语言，2018。URL:gydF4y2Bahttps://arxiv.org/abs/1810.04805gydF4y2Ba[2021-04-12]访问gydF4y2Ba
刘勇，Ott M, Goyal N，杜杰，Joshi M，陈东，等。罗伯塔:一种鲁棒优化的伯特预训练方法。计算与语言，2019。URL:gydF4y2Bahttps://arxiv.org/abs/1907.11692gydF4y2Ba[2021-04-12]访问gydF4y2Ba
通过多语料库训练进行药物不良反应检测的便携式自动文本分类。J Biomed Inform 2015 Feb;53:196-207 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
佩德雷戈萨F，瓦罗夸克斯G，格拉福特A，米歇尔五世，蒂里奥B，格里塞尔O等。Scikit-learn: python中的机器学习。J Mach Learn Res 2011年11月:2825-2830 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Keras计算机程序，2015。URL:gydF4y2Bahttps://github.com/keras-team/kerasgydF4y2Ba[2021-04-12]访问gydF4y2Ba
Wolf T，登场L, Sanh V.变形金刚:最先进的自然语言处理。2020年自然语言处理经验方法会议论文集:系统演示。2020年10月;在线，EMNLP第38-45页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Nikfarjam A, Sarker A, O'Connor K, Ginn R, Gonzalez G.来自社交媒体的药物警戒:使用带有单词嵌入聚类特征的序列标记挖掘药物不良反应提及。J Am Med Inform Assoc 2015年5月;22(3):671-681 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Owoputi O, O 'Connor B, Dyer C, Gimpel K, Schneider N. Twitter的词性标记:词集群和其他进展。技术报告CMU-ML-12-107，卡内基梅隆大学2012:- [gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
彭宁顿J, Socher R, Manning C.手套:词表示的全局向量。2014年自然语言处理经验方法会议论文集(EMNLP)。2014年出席:2014年自然语言处理经验方法(EMNLP)会议;2014年10月;多哈,卡塔尔。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张晓燕，张晓燕。论文推荐系统的研究进展。Int J Digit library 2015 july 26;17(4):305-338。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
布理DM，吴艾，米Jordan。潜狄利克雷分配。J Mach Learn Res 2003;3:993-1022 [gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
维埃拉AJ，加勒特JM。理解观察者之间的共识:kappa统计。Fam Med 2005 5月;37(5):360-363 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
加权kappa:名义规模协议，为规模分歧或部分信贷提供准备金。1968年10月70(4):213-220。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
多标签分类:综述。数据仓库挖掘(IJDWM) 2007;3(3):1-13。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Wojcik S, Hughes A.评估Twitter用户。皮尤研究中心2019年。URL:gydF4y2Bahttps://www.pewresearch.org/internet/2019/04/24/sizing-up-twitter-users/gydF4y2Ba[2021-02-04]访问gydF4y2Ba
Bitbucket都。URL:gydF4y2Bahttps://yyang60@bitbucket.org/sarkerlab/medicaid-classification-script-and-data-for-publicgydF4y2Ba[2021-04-21]访问gydF4y2Ba

‎gydF4y2Ba

伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba

BLSTM:gydF4y2Ba双向长、短期记忆gydF4y2Ba

资讯:gydF4y2Ba再gydF4y2Ba

LDA:gydF4y2Ba潜在狄利克雷分配gydF4y2Ba

马:gydF4y2Ba医疗机构gydF4y2Ba

穆迪:gydF4y2Ba托管护理机构gydF4y2Ba

注:gydF4y2Ba朴素贝叶斯gydF4y2Ba

NLP:gydF4y2Ba自然语言处理gydF4y2Ba

神经网络:gydF4y2Ba浅神经网络gydF4y2Ba

射频:gydF4y2Ba随机森林gydF4y2Ba

支持向量机:gydF4y2Ba支持向量机gydF4y2Ba

TFIDF:gydF4y2Ba术语频率-反文档频率gydF4y2Ba

G·埃森巴赫编辑;提交18.12.20;S Doan, K Acquaviva同行评议;对作者12.01.21的评论;修订版收到08.02.21;接受03.04.21;发表03.05.21gydF4y2Ba

©杨元chi, Mohammed Ali Al-Garadi, Whitney Bremer, Jane M Zhu, David Grande, Abeed Sarker。最初发表在《医学互联网研究杂志》(//www.mybigtv.com)， 2021年5月3日。gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布，该协议允许在任何媒体上不受限制地使用、分发和复制，前提是要正确引用最初发表在《医学互联网研究杂志》上的原始作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物链接，以及版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

开发一个自动分类Twitter上关于医疗服务的聊天系统:医疗补助的案例研究gydF4y2Ba