JMIR形成性研究-发现长COVID症状模式:社交媒体推文中的关联规则挖掘和情感分析

原始论文

¹马尼托巴大学统计学系，温尼伯，硕士，加拿大

²加拿大西安大略大学计算机科学系

^3.马尼托巴大学社区卫生科学和家庭医学系，温尼伯，硕士，加拿大

通讯作者:

Surani mathararachchi，理学学士，理学硕士

统计处

曼尼托巴大学

66校监会

温尼伯，MB, r3t2n2

加拿大

电话:1 431 338 5077

电子邮件:matharas@myumanitoba.ca

背景:2019冠状病毒病大流行是一场重大公共卫生危机，对人类健康和福祉产生负面影响。由于感染了冠状病毒，患者可能会经历长期的健康影响，称为长冠状病毒综合征。该综合征具有多种症状特征，识别这些症状至关重要，因为它们可能对患者的日常生活产生负面影响。呼吸困难、疲劳和脑雾是长期COVID患者报告的三种最常见的持续和衰弱症状，通常是在COVID-19发病数月后。

摘要目的:本研究旨在了解患者在Twitter社交媒体平台上报告的长冠状病毒症状的模式和行为，这对提高我们对长冠状病毒的理解至关重要。

方法:从2020年5月1日到2021年12月31日，收集了与covid相关的长推特数据。我们使用关联规则挖掘技术来识别Twitter社交媒体讨论中长COVID患者的频繁症状并建立症状之间的关系。采用基于最高置信度的检测，以10%的最小置信度和0.01%的最小支持度确定最显著的规则。

结果:在我们研究的30,327条推文中，最常见的症状是脑雾(n=7812, 25.8%)、疲劳(n=5284, 17.4%)、呼吸/肺部问题(n=4750, 15.7%)、心脏问题(n=2900, 9.6%)、流感症状(n=2824, 9.3%)、抑郁(n=2256, 7.4%)和全身疼痛(n=1786, 5.9%)。长冠肺炎患者出现嗅觉和味觉丧失、感冒、咳嗽、胸痛、发热、头痛和手臂疼痛的比例为1.6% (n=474)至5.3% (n=1616)。此外，基于最高置信度的检测成功地证明了关联分析和Apriori算法在建立模式以探索长COVID症状之间57个有意义的关系规则方面的潜力。最强的关系显示，有肺部/呼吸问题和味觉丧失的患者很可能有77%的信心失去嗅觉。

结论:社交媒体上的讨论非常活跃，有助于加深对COVID-19及其长期影响的了解。这些讨论为分析长冠状病毒综合征的行为提供了一个潜在的研究领域。利用自然语言处理方法进行探索性数据分析，揭示了Twitter社交媒体平台上与COVID长时间讨论相关的症状和医疗状况。使用基于Apriori算法的关联规则，我们确定了症状之间有趣且有意义的关系。

生物化学学报，2022;6(9):e37984

doi: 10.2196/37984

关键字

新型冠状病毒肺炎; 长冠状病毒症状; 社交媒体分析; 关联规则挖掘; 元统计分析; 自然语言处理; 推特; 内容分析; 数据挖掘; infodemiology; 健康信息

COVID-19是由SARS-CoV-2病毒引起的传染性疾病，已成为严重的公共卫生危机，对人们的健康和福祉产生负面影响。大多数COVID-19患者在几周内完全康复。然而，有些人在最初的康复后仍然会出现症状，即使是那些最初感染时症状轻微的人。其他人则出现与COVID-19疾病相关的新症状。这些人有时称自己为“长途搬运工”[1]．这种综合征被称为后COVID-19或“长COVID-19”[2]．识别这些症状是至关重要的，因为它们可能会对患有这种疾病的人的日常生活产生长期的负面影响。呼吸困难、疲劳和脑雾是长期COVID患者持续报告的3种最常见症状，通常是在COVID-19疾病发病数月后[3.，4]．

社交媒体已经成为我们生活的重要组成部分。人们用它与他人联系，分享他们对任何当前话题的想法、情感和经历，通常不会透露他们的身份。5]．因此，Twitter、Facebook、Instagram等社交媒体平台对社会产生了巨大的影响，得到了相当多的研究关注[6]．在这些平台上有关于长冠状病毒综合征(LCS)的广泛讨论链。因此，分析各种来源的长期covid - 19相关患者的社交媒体对话，为了解症状与其后果之间的关系提供了机会。

根据世界卫生组织临床病例定义[4]，“长期COVID-19病症发生在有可能或确诊的SARS CoV2感染史的个体中，通常在COVID-19发病后三个月，症状持续至少两个月。”与健康有关的组织，如梅奥诊所[7]、国民保健制度[8]，疾病控制和预防中心[9]和世界卫生组织[4]，已经确定了与长COVID相关的不同症状列表，并总结如下。最近在推特上使用自我报告的长时间COVID症状进行的研究结果[10]．这些症状是通过手动阅读2020年7月20日至2020年7月29日的165条推文来确定的。

然而，社交媒体上正在进行的非常活跃的讨论可以支持人们对这种疾病及其长期影响的日益了解。这些讨论为访问推特上多个个人的公开数据提供了机会，以分析长期的COVID症状。然而，手动在大量非结构化文本中发现知识越来越成问题。因此，引入了自动自然语言处理(NLP)方法来有效而准确地完成这项任务[11，12]．近年来，人们越来越认识到在健康科学中使用NLP方法的重要性[13]．尽管之前的研究已经确定了一系列症状，但将推文中讨论的症状提取并分组为类别，可以更容易地分析和找到最常见症状之间的关系。手动处理这项任务是具有挑战性的;因此，NLP工具提供了从非结构化Twitter文本数据中提取隐藏信息的机会。

关联规则被认为是一种有用的工具，因为它们提供了进行智能诊断、提取宝贵信息和快速自动构建重要知识的可能性，同时识别变量内部和变量之间的关系[14]．因此，我们使用关联规则挖掘(ARM)来根据从文本数据中揭示的症状发现长COVID症状之间的关系[15]．关联规则的挖掘过程需要设置最小置信度和支持度阈值来描述有意义的关联规则。因此，我们基于10%的最小置信阈值和0.1%的最小支持阈值来识别关联规则。

这项研究试图实现这两个目标。第一个目标是确定推特社交媒体平台上讨论的与COVID相关的症状和医疗条件。第二个目标是确定症状的模式及其关联。通过完成这些目标，这项工作将最终帮助医生识别长COIVID患者的行为。本文为症状挖掘提供了新的思路，揭示了症状及其应用价值之间的内在联系。因此，本研究具有理论和实践意义。

数据收集

我们收集了2020年5月1日至2021年12月31日期间全球范围内与covid相关的长推文和英语推文，以创建约100万条推文的数据集。我们使用Snscrape模块(版本3.8;Python软件基金会)[16从匹配关键词“LongCovid”的推文中抓取基于网络的推文。从多语言推文中流化英语推文需要大量计算，因为大多数非英语母语国家在社交媒体上使用母语而不是英语来表达他们的感受;因此，如果我们想分析每条推文，就需要把它们翻译成英文。因此，我们将数据集限制为英语tweet。我们的数据集最有用的属性是ID (Number)、创建时间(DateTime)、原始文本(text)和语言(text)，我们用它们来过滤英语tweet。我们从数据集中删除了重复的tweet文本。这种处理必然会删除我们数据集中的任何转发，这与我们收集代表患者体验的数据集的目标是一致的。初始数据集的平均tweet长度为32.56 words。

我们通过将人口限制在COVID-19患者中，将数据集减少到127,848条推文。为此，我们改进了推文，以确保所有推文都反映了长期COVID的个人经历。我们首先考虑了包含代词“I”和“covid”的推文，因为我们想从患有covid -19或长covid的人那里提取推文。随后，我们删除了包含解释用户意见的文字的推文，因为许多人讨论长COVID而不一定患有COVID。我们考虑的单词或短语的集合列在表1使用包含特定单词的tweet的百分比。“我感觉”这个短语可能包括表达症状体验的推文;然而，为了消除意见的可能性，我们删除了这些推文。我们还观察到一些推文(3394/148,672,2.28%)讨论了类似的情况，尤其是慢性疲劳综合征。为了消除与慢性疲劳综合征相关的上下文，我们删除了包含关键字“cfs”的推文。我们的数据集进一步减少，仅确定讨论其症状经历的患者。首先，我们创建了一个在不同文献来源中讨论的长COVID症状列表，如下所示表2。然后，我们通过将它们与所示的预处理词语料库进行比较，发现了最常见的症状表3。

表1。解释用户意见而不是用户体验的单词列表。

单词或短语	Tweets (N=148,672)， N (%)
“意见”	641 (0.43)
“我相信”	1194 (0.8)
“我认为”	6861 (4.61)
“我感觉”	2006 (1.35)
" maybe " OR " maybe " OR " might "	7582 (5.1)
“也许”	750 (0.5)

表2。文献中不同来源确定的长COVID症状列表。

	症状	梅奥诊所	国民健康保险制度^一个	疾病预防控制中心^b	谁^c	辛格和雷迪[10]
1	极度疲劳(疲劳)	✓	✓	✓	✓	✓
2	呼吸短促或呼吸困难	✓	✓	✓	✓	✓
3.	咳嗽	✓	✓	✓	✓	✓
4	关节疼痛	✓	✓	✓	✓
5	胸痛或胸闷	✓	✓	✓	✓	✓
6	记忆力和注意力的问题(“脑雾”)	✓	✓	✓	✓	✓
7	难以入睡(失眠)		✓	✓	✓	✓
8	肌肉疼痛	✓		✓	✓	✓
9	头疼	✓	✓	✓	✓	✓
10	心跳过快或剧烈 (心悸)或心动过速	✓	✓	✓	✓	✓
11	嗅觉丧失	✓	✓	✓	✓	✓
12	味觉丧失	✓	✓	✓	✓	✓
13	抑郁或焦虑
14	发热	✓	✓		✓
15	头晕(头晕)	✓	✓	✓	✓	✓
16	身体或精神活动后症状加重	✓		✓
17	发麻的感觉		✓	✓	✓
18	耳鸣和耳痛		✓		✓	✓
19	腹泻		✓	✓	✓
20.	肚子疼		✓	✓
21	食欲不振		✓			✓
22	喉咙痛		✓
23	皮疹			✓
24	情绪变化			✓
25	月经周期的变化			✓	✓
26	腹部疼痛				✓	✓
27	神经痛				✓
28	过敏				✓
29	身体的疼痛					✓
30.	恶心想吐					✓
31	弱点					✓
32	麻木					✓

^一个国民保健服务。

^bCDC:美国疾病控制与预防中心。

^c卫生组织:世界卫生组织。

表3。有梗症状的预处理语料库。

集团	症状
脑雾	“脑雾”，“大脑”，“雾”，“记忆”，“精神”，“记住”，“集中”，“头脑”，“提醒”和“集中”
乏力	“fatigu”、“tire”和“exhaust”。
肺	" lung " " breathless "和" breath "
不能走路	“不能走”、“挣扎着走”、“不能走”、“不能走”、“光着走”、“独自走”和“走楼梯”。
抑制	"抑郁" "情绪" "压力"和"焦虑"
减肥	" lose weight "和" lose weight "
失眠	“睡不着”和“失眠”
腹泻	“腹泻”和“腹泻”
头晕	" dizz "和" lighthead "
心	“心脏”、“心悸”、“心动过速”、“自主神经异常”和“心律失常”
其他人	“头痛”、“脖子”、“手臂”、“肌肉痛”、“咳嗽”、“胸痛”、“感冒”、“关节痛”、“疼痛”、“皮疹”、“发烧”、“嗅觉减退”、“味觉减退”、“感冒”、“耳痛”、“呕吐”、“寒战”、“恶心”、“昏厥”、“体重增加”、“外伤”、“身体”、“出血”、“食欲”、“喉咙痛”、“针刺”、“麻木”、“耳鸣”、“嗡嗡声”、“毛发脱落”、“鼻子”、“胃”、“月经”、“腹部”。

数据预处理

数据预处理主要是按照特定的步骤对原始数据进行清理，以获得更好的结果，便于进一步的评价。通过开发用户自定义的预处理函数，对初始数据进行预处理以确保质量自然语言工具包（NLTK;用于NLP的Python库)[15]．

预处理方案如下:首先，我们从文本中删除了标签符号及其内容(例如COVID-19、@users和url)，因为标签符号和url对文本分析没有帮助。我们还删除了所有非英语字符(非美国信息交换标准代码字符)，因为研究的重点是分析英语tweet。然后，我们删除重复的单词和由识别的停止词NLTK。数据集中的特殊字符、标点符号和数字也被删除，因为它们无助于检测带有亵渎的评论。我们进行了情绪分析，以衡量患者对长冠状病毒相关话题的感受，结果将在下一节中讨论。该研究的主要焦点是症状挖掘;因此，我们使用一组预定义的关键字为具有症状信息的患者创建了一个数据集。图1显示了字云的一组关键字占初始tweets提取。

词干提取法将屈折词还原为词干、词根或词根形式，而标记化则用于将每个句子分成单词的更小部分。图2展示了如何进行数据收集、清理和预处理步骤，以及如何获得包含30,327条tweet的最终数据集，以便在研究中进行分析。在执行清理和预处理步骤后，tweet的平均长度从32.56字减少到19.07字。最初获得的数据(原始数据)和研究考虑的数据(过滤后的数据)已绘制在同一时间序列图(图3）.过滤后的数据恰当地表示了原始数据。

情绪分析

为了测量通过Twitter在long COVID上表达的情绪，我们使用了情绪分析、一种特定类型的NLP、计算语言学和文本分析[16，17]．对推文中的主观信息进行分析和提取，将文本分为正面、负面和中性3类。如果极性>0，则文本被归类为“正”，如果极性<0，则文本被归类为“负”。极性值为0的文本被归类为“中性”。饼状图表4显示了与长COVID相关的每个文本的情绪在2个阶段的分类-分别针对所有帖子和至少具有一个长COVID症状的帖子。如果只考虑有症状的推文，正面评价从53.1%(67,153/126,460)下降到49.8%(15,102/30,327)。

表4。情绪得分的分类。

	类
	积极的	负	中性
所有帖子的情绪得分，%	53.1	45.2	1.66
至少有一个长COVID症状的帖子的情绪得分，%	49.8	48.7	1.53

在这个阶段，我们计算了每个清理和预处理tweet的情感极性TextBlob图书馆。TextBlob是一个Python库，支持对文本数据的复杂分析和操作。它是建立在NLTK图书馆(15]并提供了一个简单的API来执行一些NLP任务，如情感分析、词性标注、名词短语提取、分类和翻译。

搭配

我们也知道症状通常在文本中出现不止一个词。因此，在这项研究中，仅用两个词就能找到有意义的症状是一项特殊的任务。许多有价值的文本分析是基于单词之间的关系，检查哪些单词倾向于立即跟随其他单词或共同出现。因此，我们分析了推文中每个双元组的两个单词之间的关系，并确定了哪些长COVID症状作为单词的组合出现。我们使用NLTKPython库[15]从文本中识别双字，并使用预先准备的症状列表对其进行过滤，以便只获得同时出现时可能是长COVID的有意义症状的双字。

为了识别有意义的双关语，我们使用搭配特征来揭示一个由多个单词组成的短语。尽管如此，这些词在给定的上下文中通常会同时出现，而不是单独出现。我们使用了几种重关联测量方法[18来过滤出最有意义的搭配。

1.point - twise mutual information (PMI): 2个单词的PMI得分，w¹和w²，如下:

主要的直觉是，它衡量单词共同出现的可能性比独立出现的可能性大多少。然而，这种方法的主要缺点是它对罕见的单词组合非常敏感。我们通过使用单词的频率过滤器来处理这个问题。

2.双尾t用频率滤波器测试:当导通a时t检验时，我们可以考虑用5%的显著性水平检验下面的假设。

H₀:单词(w¹w²)有概率发生µ：

与

H₁:单词(w¹w²)不会有概率地发生µ。

在哪里C表示每个单词和的计数N是语料库中单词的总数。

检验统计量如下:

在那里,为伯努利试验:

根据频率对双字进行过滤，避免了对罕见情况的敏感性。正态性假设是使用t测试。

3.卡方检验:卡方检验的零假设假设单词(w¹，w²)都是独立的，就像在t测试。卡方检验统计量计算如下:

观测到的频率(O_ij)及预期频率(E_ij)可使用双字母列联表计算表5和图4。

表5所示。重码列联表(x y):观测频率(O_ij）.z_*表示不存在的单词x也不y。C（w_我w_j)表示双字计数，其中w_我和w_j出现在一起。R_我和C_j分别为行总数和列总数。N显示文本中双字的总数。

	w¹=x	w¹! =x
w²=y	O₁₁=C（x y）	O₂₁=C（zy）	R₁
w²! =y	O₂₁=C（x z）	O₂₂=C（z₁z₂）	R₂
	C₁	C₂	N

图4。重码列联表(*x y*):估计频率(*E_ij*）.R_我和*C_j*分别为行总数和列总数。N显示文本中双字的总数。

关联规则挖掘

在许多应用程序中，自然会出现不同情况之间的含义。我们把这些暗示称为关联。可以使用关系知识发现和量化这些关联。“关系知识确定概念/实体如何相互关联，以及概念及其关系如何由模型定义或描述”[19]．例如，在推特症状分析中，可以确定一些症状规则，例如“2.7%的长冠状病毒丧失味觉的患者也会出现嗅觉丧失”或“肺部/呼吸问题和味觉丧失的患者可能会有77%的信心出现嗅觉丧失”。这些规则被称为关联规则，相关分析被称为关联挖掘。

臂(20.]已经成为数据挖掘领域的一个活跃研究领域，可以解决医疗保健领域的各种问题。近年来，人们提出了不同的增量算法来挖掘关联规则，以发现症状与疾病之间的隐藏关系。在这项分析中，ARM被用来通过展示推文中描述的症状之间的关系和模式来深入了解鲜为人知的LCS。我们使用基于Apriori规则的数据挖掘算法解决了在长COVID患者数据中自动识别新的和有用的症状模式的问题[16]．最近，其他基于规则的增量算法，如Eclat [21]，麦克克拉特[22]，直接哈希和剪枝[23]， AprioriTID [24]和MsApriori [25]，还引入了挖掘关联规则，以发现项目集之间的隐藏关系，并增强罕见频繁事件的收集。我们在本文中使用了Apriori算法，因为它是该类别中一个被很好地理解和使用的算法。使用Python进行了计算和相关实验。

通过描述这些症状之间的关系，我们可以帮助定义LCS，以用于未来的研究和患者护理。这些模式揭示了同时发生的症状的组合，因为它有助于了解一个症状或一组症状如何与其他症状相关联。一组症状X和一组症状Y之间的关联规则用X→Y的形式表示，解释为“有症状X的患者很可能有症状Y。”通常，发现的规则的有效性用支持度、信心度和提升度来衡量。

1.支持度:支持度表示项目集在数据集中出现的频率。

2.信心:信心是所有满足X又满足Y的交易的百分比。

3.Lift:如果Lift >1，我们就可以知道两个事件相互依赖的程度，从而使这些规则可能有助于预测未来数据集的结果。

因此，基于对COVID长症状的分析，我们可以挖掘症状之间的关联规则，并量化它们的特征，如置信度、支撑度和提升度。

推特上讨论的与长冠肺炎相关的症状和医疗条件

共提取了1,084,398条推文的信息，其中34,022条报告了较长的COVID症状(图1）.上一节讨论的每种搭配方法得到的前5个结果如下所示表6。观察结果后，我们确定t用过滤方法测试得到可接受的结果。我们还必须手动选择具有测试统计量>5且只有当它们在一起时才具有唯一含义的有意义的双字。我们确定了20个这样的双音词，它们经常一起出现，即“脑雾”、“失去味道”、“失去气味”、“胸痛”、“不能走路”、“不能走路”、“挣扎着走路”、“不能走路”、“走楼梯”、“关节痛”、“肌肉痛”、“腿痛”、“减肥”、“体重减轻”、“体重增加”、“睡不着”、“喉咙痛”、“针和针”和“心悸”。

表6所示。从每种方法中选择前5个双字。

排名	点间互信息	t滤镜测试	卡方检验
1	(runni鼻子)	(大脑,雾)	(大脑,雾)
2	(needl销)	(心理健康)	(腺体发烧)
3.	(短期memori)	(慢性疲劳)	(runni鼻子)
4	(腺体发烧)	(品味、气味)	(心理健康)
5	(干草发烧)	(病毒、疲劳)	(喉咙痛)

由于一些双关语有相似的医学意义，我们将相似的词分类进行分析(表3）.将症状分组后，待分析的症状总数从73个减少到44个。图5显示减少的症状集，词云的size参数表示每种症状在tweet中出现的频率。在30,327条推文中，脑雾(n=7812, 25.8%)是最常见的症状，其次是疲劳(n=5284, 17.4%)，呼吸/肺部问题(n=4750, 15.7%)，心脏问题(n=2900, 9.6%)，流感症状(n=2824, 9.3%)，抑郁(n=2256, 7.4%)，以及没有明确提到网站的疼痛(n=1786, 5.9%)。嗅觉和味觉丧失、感冒、咳嗽、胸痛、发烧、头痛和手臂疼痛各占1.6% (n=474;手臂疼痛)至5.3% (n=1616;失去嗅觉)的推特。1%的推文中报告了疼痛、虚弱、关节痛、行走困难、肌肉痛、创伤、过敏、症状恶化、耳鸣、失眠、鼻子相关问题、胃部和发冷等症状，而其余症状出现在不到1%的推文中(图6）.

图7显示每个症状随时间在讨论中出现的情况，该模式与中显示的tweet数量类似图3。因此，随着时间的推移，症状没有明显差异。

症状的规则

我们的研究将每条推文视为来自单个个体的单个交易。我们将1条tweet视为1个事务，对症状数据应用ARM算法，识别症状规则。使用症状事务的ARM算法旨在构建至少具有用户指定阈值的频繁项集。因此，我们将“置信度”阈值设置为0.1或10%。我们为正相关规则设置了大于0.001的最小支持阈值和大于1的“提升”。我们发现了57条重要的数据规则，这些规则包括仅限症状的信息，并将它们呈现在表7。

采用基于最高置信水平的检测来确定最显著的规则。在置信度>0.3的前12个规则中，嗅觉丧失和味觉丧失是最常见的随之而来症状，其次是肺部/呼吸问题和疲劳。如果一个病人有肺部/呼吸问题并且失去了味觉，那么有77%的人相信他们失去了嗅觉。同样，疲劳和味觉丧失的患者也会随之出现嗅觉丧失的症状。前12条规则可视化在图8。下面是规则11的描述，用黄色节点中的R11表示。有3个症状节点——“疲劳”、“咳嗽”和“肺”，以绿色节点表示。这三个节点形成了一个规则，其中前词是“疲劳”和“咳嗽”，后词是“肺”。前面的两个节点都有指向R11节点的传出链接。同样，在R11中也有一个向外的连接，指向随后的“肺”结。

表7所示。已识别的症状规则列表。

规则(右)	先行词	顺向	支持	信心	电梯
R0	(loss_taste、肺)	(loss_smell)	0.0028	0.7748	14.5400
R1	(loss_taste疲劳)	(loss_smell)	0.0028	0.7368	13.8281
R2	(loss_smell、肺)	(loss_taste)	0.0028	0.7107	15.3196
R3	(loss_smell疲劳)	(loss_taste)	0.0028	0.6614	14.2564
R4	(loss_taste brain_fog)	(loss_smell)	0.0018	0.5978	11.2192
R5	(loss_taste)	(loss_smell)	0.0272	0.5871	11.0173
R6	(loss_smell)	(loss_taste)	0.0272	0.5111	11.0173
R7	(loss_smell brain_fog)	(loss_taste)	0.0018	0.4911	10.5847
R8	(心脏疼痛)	(肺)	0.0012	0.3684	2.3522
R9机型	(心脏brain_fog)	(肺)	0.0032	0.3542	2.2617
R10	(疼痛)	(疲劳)	0.0047	0.3471	1.9921
R11	(疲劳、咳嗽)	(肺)	0.0012	0.3083	1.9686
R12	(心脏疲劳)	(肺)	0.0021	0.3014	1.9246
R13	(头痛)	(疲劳)	0.0062	0.2675	1.5354
R14	(brain_fog、肺)	(心)	0.0032	0.2574	2.6915
R15	(心)	(肺)	0.0223	0.2328	1.4861
R16	(肺、疼痛)	(疲劳)	0.0016	0.2308	1.3245
R17	(失眠)	(疲劳)	0.0013	0.2229	1.2791
R18	(muscle_pain)	(疲劳)	0.0019	0.2159	1.2392
R19	(muscle_pain)	(疼痛)	0.0019	0.2159	15.8929
R20	(咳嗽)	(肺)	0.0061	0.2126	1.3572
一下R21	(肺,咳嗽)	(疲劳)	0.0012	0.1989	1.1417
R22	(chest_pain)	(肺)	0.0053	0.1891	1.2075
R23	(热)	(疲劳)	0.0046	0.1871	1.0737
: R24	(痛苦)	(疲劳)	0.0102	0.1736	0.9962
R25	(冷)	(流感)	0.0064	0.1721	1.8483
R26	(肺、疼痛)	(心)	0.0012	0.1683	1.7597
R27	(muscle_pain)	(肺)	0.0015	0.1667	1.0641
R28	(弱)	(疲劳)	0.0019	0.1633	0.9374
R29	(创伤)	(brain_fog)	0.0012	0.1586	0.6157
R30	(疼痛)	(肺)	0.0021	0.1553	0.9918
R31	(疲劳、疼痛)	(肺)	0.0016	0.1548	0.9886
R32	(疼痛)	(痛苦)	0．002	0.1505	2.5553
R33	(心、肺)	(brain_fog)	0.0032	0.1422	0.5521
R34	(肺)	(心)	0.0223	0.1421	1.4861
R35	(brain_fog、肺)	(疲劳)	0.0017	0.1421	0.8155
R36	(joint_pain)	(brain_fog)	0.0016	0.142	0.5514
R37	(疼痛)	(头痛)	0.0019	0.1383	6.0025
R38	(疼痛)	(muscle_pain)	0.0019	0.1383	15.8929
R39	(咳嗽)	(疲劳)	0．004	0.1371	0.7871
R40	(arm_pain)	(疲劳)	0.0021	0.135	0.7749
R41	(muscle_pain)	(痛苦)	0.0012	0.1326	2.2512
R42	(brain_fog疲劳)	(肺)	0.0017	0.1274	0.8134
R43	(muscle_pain)	(弱)	0.0011	0.1212	10.533
R44机身内部	(弱)	(肺)	0.0014	0.1203	0.7684
R45	(疲劳、肺)	(心)	0.0021	0.1198	1.2525
R46	(痛苦)	(肺)	0.0069	0.1165	0.7436
R47	(疼痛)	(热)	0.0015	0.1141	4.6563
R48	(joint_pain)	(痛苦)	0.0013	0.113	1.9195
R49	(肺)	(疲劳)	0.0173	0.1107	0.6356
R50	(抑制)	(brain_fog)	0.0081	0.1095	0.425
R51	(头痛)	(肺)	0.0025	0.1087	0.6942
R52	(loss_smell loss_taste)	(肺)	0.0028	0.1041	0.6647
R53	(抑制)	(疲劳)	0.0076	0.1024	0.5877
R54	(loss_smell loss_taste)	(疲劳)	0.0028	0.1017	0.5837
R55	(joint_pain)	(疼痛)	0.0012	0.1014	7.4676
R56	(疲劳、肺)	(brain_fog)	0.0017	0.1008	0.3912

主要研究结果

与LCS相关的症状仍然知之甚少。分析长冠相关患者的社交媒体对话，可以了解症状之间的频率和关系。基于大量与LCS相关的Twitter社交媒体数据，我们在本文中完成了以下两个任务。首先，我们确定了推特社交媒体平台上讨论的与COVID相关的症状和医疗条件。其次，我们确定了症状的模式及其关联。

脑雾、疲劳和呼吸/肺部问题是分析中发现的3种最常见的症状。文献资料证实了这些报告的症状[3.，4]．如果关系密切，味觉丧失和嗅觉丧失是最常见的后续症状。我们还为预定义的置信度和支持度阈值确定了大量有意义的症状规则。通过设置升力大于1，只考虑正相关关系。根据不同的最小阈值，可以改变强关联规则的个数。通过发现长COVID症状之间的关联，这项工作将帮助医生识别长COVID患者的行为。本文为症状挖掘提供了新的思路，揭示了症状及其应用价值之间的关系。因此，本研究具有重要的理论和实践意义。

我们使用了一种新的数据源，Twitter，以及多种NLP和机器学习技术来探索大量未分化人群所描述的症状。不同的NLP方法，如情感分析、关键字提取和词序化，用于从非结构化文本数据中提取信息和症状。随后，我们使用了ARM概念[20.以揭示长时间的COVID症状之间有意义的关系。这一概念证明了这些技术在描述症状频率和更常见症状之间关系方面的价值。

未来的研究可以建立在这种方法的临床数据来源，如电子医疗记录，增加个体协变量，如性别、年龄、地点和合并症。本研究还可以进一步扩展到使用单词流行度检测方法检测和预测一组给定症状的后果。

限制

本研究基于基于网络的Twitter数据，具有有限的患者水平变量。没有关于推文作者的人口统计信息。此外，我们只考虑了用英语与公众分享经验的患者，因为从多语言推文中过滤英语推文需要大量的计算。该研究的另一个局限性是，结果可能受到推特平台上的错误信息或虚假对话的影响。

当两个集合之间存在负相关时，ARM技术中的置信度度量有一个警告，例如，~X→Y。在大多数情况下，当检查负相关规则时，较低的支持和信心是首选的。阳性症状通常很明显;然而，阴性症状更微妙，更难以识别和诊断。因此，我们没有研究负相关规则。此外，算法发现的规则需要临床验证和验证。

结论

在我们的研究中，最常见的症状包括脑雾、疲劳、呼吸/肺部问题、心脏问题、流感症状和抑郁。1.6%至5.3%的长期COVID患者出现全身疼痛、嗅觉和味觉丧失、感冒、咳嗽、胸痛、发烧、头痛和手臂疼痛。此外，10%最小置信度和0.01%最小支持度的基于最高置信度的检测成功地证明了关联分析和Apriori算法在建立模式以探索长COVID症状之间57个有意义的关系规则方面的潜力。在本研究中，为了确定正相关症状，我们只考虑lift大于1的规则。结果显示，患有肺部/呼吸问题和味觉丧失的患者很可能有77%的信心失去嗅觉。

致谢

本研究由加拿大卫生研究院运营基金资助:新出现的COVID-19研究差距和优先资助机会。

利益冲突

没有宣布。

刘建平，刘建平。中国生物医学工程学报(英文版);2009;33 (1):349 - 349 [j]免费全文] [CrossRef] [Medline]
新冠肺炎可持续数月。《大西洋月刊》2020年6月4日。URL:https://www.theatlantic.com/health/archive/2020/06/covid-19-coronavirus-longterm-symptoms-months/612679/[2022-03-05]访问
自然的社论。长COVID:让患者帮助定义长期的COVID症状。Nature 2020 Oct 07;586(7828):170-170。［CrossRef] [Medline]
Soriano JB, Murthy S, Marshall JC, Relan P, Diaz JV，世卫组织covid -19后症状临床病例定义工作组。基于德尔菲共识的新冠肺炎后临床病例定义中华传染病杂志;2009;22(4):882 - 887 [j]免费全文] [CrossRef] [Medline]
社交媒体的积极和消极影响。[J] .计算机应用学报，2016,25(2):71-75。［CrossRef]
A.社会媒体与研究可见性。中华神经科杂志;2015;36(4):637 [J]免费全文] [CrossRef] [Medline]
COVID-19:长期影响。梅奥诊所。URL:https://www.mayoclinic.org/diseases-conditions/coronavirus/in-depth/coronavirus-long-term-effects/art-20490351[2022-03-05]访问
COVID-19的长期影响(长COVID)。NHS通知。URL:https://www.nhsinform.scot/long-term-effects-of-covid-19-long-covid[2022-03-05]访问
长COVID或后COVID条件。疾病控制和预防中心。URL:https://www.cdc.gov/coronavirus/2019-ncov/long-term-effects/index.html[2022-03-05]访问
推特上自我报告的长期covid症状分析。medRxiv。2020年8月15日网上预印本[免费全文] [CrossRef]
自然语言理解。红木城，CA:本杰明/卡明斯酒吧。有限公司;1995.
Chowdhary KR.自然语言处理。参考:人工智能基础。新德里，印度:斯普林格出版社;04月05日:603-649。
陈旭，谢辉，王福林，刘志，徐军，郝涛。医学研究中自然语言处理的文献计量学分析。BMC Med Inform Decis ma2018年3月22日;18(增刊1):14 [免费全文] [CrossRef] [Medline]
刘建军，刘建军，刘建军，等。基于数据集的智能诊断方法研究。见:Patel VL, Rogers R, Haux R，编辑。卫生技术和信息学研究，第84卷。阿姆斯特丹，荷兰:IOS Press;2001:1339 - 1403。
李建平，李建平。自然语言工具集。2004年7月发表于:ACLdemo '04: acl2004会议纪要:互动海报和演示环节;2004年7月21日至26日;巴塞罗那，西班牙，第31- 5页。［CrossRef]
彭斌，李林。观点挖掘与情感分析。信息检索的基础与趋势2008;2(1-2):1-135。［CrossRef]
刘波。情感分析与意见挖掘。Cham，瑞士:Springer;2012年5月。
安德森·G，编辑。探索报纸语言 :使用网络创建和调查现代挪威语的大型语料库。阿姆斯特丹，荷兰:约翰·本杰明;2012年3月。
王志强，王志强。关系知识:高等认知的基础。科学进展，2010;14(11):497-505。［CrossRef] [Medline]
Agrawal R, Imieliński T, Swami A.挖掘大型数据库中项目集之间的关联规则。SIGMOD Rec 1993 Jun 01;22(2):207-216 [j]免费全文] [CrossRef]
Zaki MJ, Parthasarathy S, Ogihara M, Li W.关联规则发现的并行算法。计算机科学与技术，1997;1:343-373。［CrossRef]
李建军，李建军，李建军，等。基于多核处理器的可扩展频繁项集挖掘。2013年6月发表于:DaMoN '13:第九届新硬件数据管理国际研讨会论文集;2013年6月24日;纽约，第1-8页。［CrossRef]
朴俊，于鹏，陈敏。基于可调精度的关联规则挖掘。1997年1月发表于:CIKM '97:第六届信息与知识管理国际会议论文集;1997年11月10日至14日;拉斯维加斯，内华达州，第151- 1160页。［CrossRef]
李振成，何普立，雷明。一种高效的AprioriTid关联规则挖掘算法。2005年11月07日发表于2005年国际机器学习与控制论会议;2005年8月18日至21日;中国广州(1812-1815)［CrossRef]
李玉成，洪太恩，林奕奕。使用最大约束挖掘具有多个最小支持的关联规则。国际近似理性2005;40(1-2):44-54。［CrossRef]

‎

臂:关联规则挖掘

LCS:长冠状病毒综合征

NLP:自然语言处理

NLTK:自然语言工具包

采购经理人指数:点间互信息

编辑:A Mavragani;提交14.03.22;E Urtnasan, A Pal, H Alhoori的同行评审;对作者09.04.22的评论;修订版本收到27.04.22;接受18.08.22;发表07.09.22

©Surani Matharaarachchi, Mike Domaratzki, Alan Katz, Saman Muthukumarana。最初发表于JMIR Formative Research (https://formative.www.mybigtv.com)， 2022年9月7日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒体上不受限制地使用、分发和复制，前提是原始作品首次发表在JMIR Formative Research上，并适当引用。必须包括完整的书目信息，到https://formative.www.mybigtv.com上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

发现长COVID症状模式:社交媒体推文中的关联规则挖掘和情感分析