JMIR医疗信息学-第一次COVID-19封锁期间多发性硬化症患者的真实经验:自然语言处理的应用gydF4y2Ba

原始论文gydF4y2Ba

黛博拉ChiavigydF4y2Ba^1gydF4y2Ba^＊gydF4y2Ba,硕士gydF4y2Ba ；gydF4y2Ba
克里斯蒂娜HaaggydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba^＊gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
安德鲁•陈gydF4y2Ba^3.gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
克里斯蒂安·菲利普·卡姆gydF4y2Ba^3.gydF4y2Ba^4gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
克洛伊员工gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba,硕士gydF4y2Ba ；gydF4y2Ba
米娜StanikićgydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
斯蒂芬妮·罗杰斯gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
卡洛琳锅gydF4y2Ba^5gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
Jurg KesselringgydF4y2Ba^6gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
Anke SalmengydF4y2Ba^3.gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
艾琳RapoldgydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
Pasquale花茎甘蓝gydF4y2Ba^7gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
Zina-Mary ManjalygydF4y2Ba^{8，gydF4y2Ba}^9gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
克劳迪奥·米兰球迷gydF4y2Ba^{10，gydF4y2Ba}^11gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
奇亚拉ZeccagydF4y2Ba^{10，gydF4y2Ba}^11gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
塞巴斯蒂安•沃尔特gydF4y2Ba^12gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
凯瑟琳StegmayergydF4y2Ba^12gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
罗伯特HoepnergydF4y2Ba^3.gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
米洛PuhangydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
维克多·冯·韦尔gydF4y2Ba^{1，gydF4y2Ba}^2gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba瑞士苏黎世大学卫生保健实施科学研究所gydF4y2Ba

^2gydF4y2Ba瑞士苏黎世大学流行病学、生物统计和预防研究所gydF4y2Ba

^3.gydF4y2Ba伯尔尼大学医院和伯尔尼大学神经内科gydF4y2Ba

^4gydF4y2Ba神经中心，琉森州立医院，琉森，瑞士gydF4y2Ba

^5gydF4y2Ba瑞士洛桑大学附属洛桑大学临床神经科学部神经内科gydF4y2Ba

^6gydF4y2Ba瑞士瓦伦斯Kliniken Valens康复中心神经内科和神经康复科gydF4y2Ba

^7gydF4y2Ba瑞士巴塞尔大学分子与认知神经科学学部gydF4y2Ba

^8gydF4y2Ba神经内科，Schulthess Klinik，苏黎世，瑞士gydF4y2Ba

^9gydF4y2Ba瑞士苏黎世苏黎世联邦理工学院卫生科学和技术系gydF4y2Ba

^10gydF4y2Ba多发性硬化中心，神经内科，瑞士南部神经中心，Ente Ospedaliero Cantonale，卢加诺，瑞士gydF4y2Ba

^11gydF4y2Ba生物医学科学学院Università della Svizzera Italiana (USI)，卢加诺，瑞士gydF4y2Ba

^12gydF4y2Ba转化研究中心，伯尔尼大学精神病学和心理治疗医院，伯尔尼，瑞士gydF4y2Ba

*这些作者贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

维克多·冯·韦尔博士gydF4y2Ba

流行病学，生物统计和预防研究所gydF4y2Ba

苏黎世大学gydF4y2Ba

Hirschengraben 84gydF4y2Ba

苏黎世,8001gydF4y2Ba

瑞士gydF4y2Ba

电话:41 44 63 46380gydF4y2Ba

电子邮件:gydF4y2Baviktor.vonwyl@uzh.chgydF4y2Ba

背景:gydF4y2Ba越来越多的书面文本形式的“真实世界”数据有望加深我们对社会和健康相关挑战的理解。文本数据构成了丰富的信息来源，允许通过广泛的不同信息来源(例如，内容和情感基调)捕捉生活经验。面试是从个人经历和观点中获得定性见解的“黄金标准”。然而，大规模的访谈并不总是可行的，适合大规模应用的标准化量化评估可能会遗漏重要信息。包括开放文本评估的调查可以结合两种方法的优点，非常适合应用自然语言处理(NLP)方法。虽然NLP的创新使大规模文本分析变得更容易，但对现实文本数据的分析仍然很复杂，需要几个连续的步骤。gydF4y2Ba

摘要目的:gydF4y2Ba我们开发并随后检查了NLP管道的实用性和科学价值，用于从文本数据中提取真实世界的经验，为应用研究人员提供指导。gydF4y2Ba

方法:gydF4y2Ba我们将NLP管道应用于瑞士多发性硬化症(MS)登记处收集的大规模文本数据。这样的文本数据构成了研究真实世界文本数据的理想用例。具体而言，我们从ms患者的角度研究了639份关于第一次COVID-19封锁影响的文本报告。该管道已用Python实现，并辅以“语言查询和单词计数”软件的分析。它由以下5个相互关联的分析步骤组成:(1)文本预处理;(2)情绪分析;(3)描述性文本分析;(4)无监督学习主题建模;(5)结果解释与验证。gydF4y2Ba

结果:gydF4y2Ba主题建模分析根据参与者主要关心的主题确定了以下4个不同的组:“联系/沟通”、“社会环境”、“工作”和“差事/日常事务”。值得注意的是，情绪分析显示，“接触/交流”组的特点是在文本报告中隐含着明显的消极情绪基调。在报告的第一次与covid -19相关的封锁经历中，这种观察到的情绪调性异质性可能反映了情绪负担、个人情况和应对大流行方式的差异，这与之前关于这一问题的研究一致。gydF4y2Ba

结论:gydF4y2Ba这项研究说明了NLP管道的及时和有效的适用性，从而为应用研究人员提供了先例。因此，我们的研究既有助于应用健康科学中NLP技术的传播，也有助于确定大流行期间MS患者以前未知的经历和负担，这可能与未来的治疗有关。gydF4y2Ba

JMIR Med Inform 2022;10(11):e37945gydF4y2Ba

doi: 10.2196/37945gydF4y2Ba

关键字gydF4y2Ba

自然语言处理gydF4y2Ba；gydF4y2Ba 多发性硬化症gydF4y2Ba；gydF4y2Ba 新型冠状病毒肺炎gydF4y2Ba；gydF4y2Ba 神经系统疾病gydF4y2Ba；gydF4y2Ba 神经系统障碍gydF4y2Ba；gydF4y2Ba 文本数据gydF4y2Ba；gydF4y2Ba 健康数据gydF4y2Ba；gydF4y2Ba 患者数据gydF4y2Ba；gydF4y2Ba 主题建模gydF4y2Ba；gydF4y2Ba 情绪分析gydF4y2Ba；gydF4y2Ba 语言调查gydF4y2Ba；gydF4y2Ba 医学信息学gydF4y2Ba；gydF4y2Ba 临床信息学gydF4y2Ba

最近在自然语言处理(NLP)技术和软件方面的创新导致了许多方便访问和开源的分析工具的出现，用于对自由文本数据进行有效评估[gydF4y2Ba1gydF4y2Ba-gydF4y2Ba4gydF4y2Ba］．文本数据构成了丰富的信息来源，可以通过广泛的不同信息来源(例如与健康有关的内容和情感基调)捕捉独特的观点、经验和个人需求[gydF4y2Ba5gydF4y2Ba，gydF4y2Ba6gydF4y2Ba］．较多的积极情绪词汇量与心理健康和身体健康有关，而较多的消极情绪词汇量则与痛苦和身体健康下降有关。gydF4y2Ba7gydF4y2Ba］．gydF4y2Ba

在卫生研究中，越来越多的“真实世界数据”(例如书面文本)的可用性构成了对日常生活中与慢性病患者有关的主题获得有效见解的一个有前途的途径，因此是量身定制个人支持的关键[gydF4y2Ba8gydF4y2Ba-gydF4y2Ba10gydF4y2Ba］．许多研究都依赖访谈技术来获得这样的见解[gydF4y2Ba11gydF4y2Ba-gydF4y2Ba16gydF4y2Ba］．虽然进行访谈是获得对个人经历和观点的定性见解的“黄金标准”，但在大规模评估个人时并不总是可行的。可扩展的方法，非常适合标准化的定量评估，可能会错过重要的信息，因为它们由预定的项目组成。因此，包括开放式文本评估在内的调查可以是在现实世界环境中大规模地定性探索个人层面的经验和观点的适当方法。gydF4y2Ba

同时，对于应用研究人员来说，似乎缺乏关于手工分析不可行的文本资料的处理和评价程序的实际准则。鉴于NLP方法在健康研究领域的新颖性，我们希望在本文中分享我们的工作和经验，以支持应用研究人员在自己的研究中实施NLP方法。因此，本研究的高水平目标是调查在重大健康危机期间收集的大量多发性硬化症(MS)患者样本中应用于探索重要生活主题和主题的NLP管道的可行性、可用性和科学价值。本研究旨在为应用研究人员提供实用指导，并利用来自639名记录良好的MS患者的文本数据，这些人描述了他们在瑞士第一次COVID-19封锁期间的现场经历，以及易于使用的NLP开源工具的可用性。gydF4y2Ba

在内容层面，我们解决了几个具体的研究问题。我们的目标是:(1)根据报告的covid -19相关主题确定多发性硬化症患者的聚类群体;(2)确定参与者文本输入背后的情感基调;(3)描述分配到同一聚类组的人员。为了验证目的，我们的分析结果通过包括从同一数据库独立收集的信息和临床或流行病学研究领域的专家的批判性审查来补充。gydF4y2Ba

背景信息gydF4y2Ba

随着实验室确诊的SARS-CoV-2感染病例增加到每天近1500例(人口规模:860万居民)，瑞士政府在2020年3月16日至4月27日期间实施了初步封锁，以压平感染曲线。2020年4月27日，理发店、园艺中心、花店、建筑用品店、按摩和美容院将重新开放。此外，入学条件也有所放宽。2020年5月11日，商店、餐馆、市场、图书馆和中小学重新开放。政策的放松伴随着保护概念。2020年6月初，所有旅游设施均可按照保护措施开放。300人以下的活动可以再次举行，30人以下的聚会也可以再次举行。2020年6月15日，瑞士取消了对所有欧盟/欧洲自由贸易联盟成员国和英国的入境规定。2020年6月19日，瑞士联邦委员会解除紧急状态。自2020年6月22日起，大部分新冠肺炎防控措施已被取消(例外:在2020年8月底前仍禁止1000人以上的大型活动)。 All places open to the public needed to have a protection concept [17gydF4y2Ba，gydF4y2Ba18gydF4y2Ba］．这是瑞士因COVID-19大流行而实施的首次封锁，导致普通人群普遍感到高度痛苦和孤立。在大流行的早期阶段，多发性硬化症也被认为是导致更严重的COVID-19症状的一个风险因素，建议多发性硬化症患者严格遵守预防措施(即呆在家里并保持身体距离)。2020年4月底，封锁措施逐步解除。gydF4y2Ba

数据源gydF4y2Ba

为了评估封锁对多发性硬化症患者日常生活的影响，瑞士多发性硬化症登记处对2500多名参与者进行了一项以covid -19为重点的在线调查(gydF4y2Ba图1gydF4y2Ba)．瑞士多发性硬化症登记处是一个全国性的调查登记处，包括在瑞士居住或接受多发性硬化症相关护理的成年人。gydF4y2Ba

图1所示。流程图显示在线参与者的评估程序和随后的选择程序。只有那些用至少10个单词描述新冠疫情对个人生活影响的在线参与者才被纳入文本分析。gydF4y2Ba

“COVID-19调查”是瑞士医学登记处针对第一波封锁措施发布的一项简短在线调查，旨在评估COVID-19期间的心理健康状况和获得医疗服务的困难。完整的调查在gydF4y2Ba多媒体附件1gydF4y2Ba．COVID-19调查以简短的介绍开始，随后是关于心理健康的部分，其中使用贝克抑郁量表快速筛查问卷评估抑郁症状[gydF4y2Ba19gydF4y2Ba］．随后是对身体健康状况(即健康状况或多发性硬化症症状可能恶化)的评估，对除多发性硬化症外还存在严重疾病(如冠状病毒)的恐惧，以及感知到的孤独感。该调查最后评估了冠状病毒对个人生活状况的一般变化。目前分析的开放式问题涉及大流行对受访者日常生活的影响。具体来说，参与者被问及以下问题:“目前的冠状病毒情况如何影响你的个人生活(例如，在社会接触、日常任务和医疗保健方面)?”参与者被邀请用德语、法语或意大利语(即瑞士MS登记处的3种官方语言)记录他们的答案，字数不受限制。2019冠状病毒病调查于2020年4月10日在线发布，一直持续到2020年10月31日。目前的分析包括截至2020年9月7日收集的所有数据。gydF4y2Ba

在本研究中，COVID-19调查数据与社会人口学和健康相关数据相结合，这些数据是在COVID-19调查前每半年瑞士医学登记处评估的一部分。具体来说，我们采用自我报告残疾状态量表(SRDSS)来确定MS物理步态障碍。在这方面，SRDSS根据2个评估步行距离和辅助设备使用情况的自我报告问题对步态障碍进行分类[gydF4y2Ba20.gydF4y2Ba］．此外，我们使用EuroQol 5维量表(EQ-5D;指数及视觉模拟比例尺)[gydF4y2Ba21gydF4y2Ba］．gydF4y2Ba

伦理批准gydF4y2Ba

已获得苏黎世州伦理委员会(PB-2016-00894)的批准。在瑞士MS登记处注册的所有参与者都提供了书面(纸笔参与者)或电子(在线参与者)的知情同意[gydF4y2Ba22gydF4y2Ba，gydF4y2Ba23gydF4y2Ba］．gydF4y2Ba

描述性统计gydF4y2Ba

为了描述和比较来自瑞士MS登记处参与COVID-19调查的在线参与者与非参与者的特征，对分类数据采用N(%)，对连续数据采用中位数(IQR)，对社会人口学和健康特征进行了分析。描述性统计数据基于简短的入门问卷，该问卷对所有瑞士多发性硬化症注册参与者都是强制性的，包括年龄、性别、多发性硬化症类型、诊断日期和任何疾病缓解治疗等信息。gydF4y2Ba

自由文本条目的预处理和分析管道gydF4y2Ba

本研究实现并评估了一个预处理和分析管道来表征和聚类自由文本条目。为此，我们将这一管道应用于关于COVID-19对多发性硬化症患者日常生活影响的自由文本条目。这些条目是作为COVID-19调查的一部分收集的。本研究要考察的文本预处理与分析管道由以下5个相互关联的连续步骤组成:(1)文本预处理;(2)描述性文本分析;(3)情绪分析;(4)主题建模;(5)结果解释与验证。在NLP管道的每个步骤中使用的工具的概述可以在gydF4y2Ba多媒体附件2gydF4y2Ba．gydF4y2Ba

步骤1:文本预处理gydF4y2Ba

作为预处理程序的第一步，使用“DeepL Pro”将意大利语和法语文本翻译成德语[gydF4y2Ba24gydF4y2Ba，一个自动文本翻译的工具。最初，我们指定了在后续管道中考虑的文本条目的最小字数的截止值。由于在这方面没有适用于我们研究的普遍有效的指导方针，我们基于对文本条目的事先筛选做出了决定，并确定了10个单词作为截止日期，以确保我们感兴趣的研究问题有足够的信息内容。翻译的准确性是手动检查，发现非常高。此外，标点符号和停顿词(例如，没有特定含义的常用词，如“the”)被使用一个公开的德语停顿词列表删除[gydF4y2Ba25gydF4y2Ba］．剩下的单词被词根化了(即，改变了词根，如“studies”变成了“study”)。字典中没有列出的单词被转换为通用术语(例如，“Skype”变成了“视频通话”)。这部分管道是使用Python库" spaCy "(版本2.3.2)实现的[gydF4y2Ba26gydF4y2Ba］．gydF4y2Ba

第二步:描述性文本分析gydF4y2Ba

管道的第二步涉及描述性文本分析，涉及词频的确定及其可视化。对于词频可视化，使用Python库“Wordcloud”(版本1.7.0)编译了“词云”，将所有单词放置在一个图表中，其中它们的相对大小由它们的总体频率决定(即，频率较高的单词在图表中显示得更大)[gydF4y2Ba27gydF4y2Ba］．gydF4y2Ba

第三步:情感分析gydF4y2Ba

管道的下一步是通过情感分析确定整体文本情绪的语言指标。为此，我们使用了两种不同的文本分析资源:成熟的文本分析软件“语言查询和单词计数”(LIWC)和“SentimentWortschatz”(简称“SentiWS”)，这是一种用于情感分析的公开德语资源。在LIWC中实现的情感分析包括确定文本条目的整体“情感基调”。“(gydF4y2Ba28gydF4y2Ba“情感基调”是LIWC提供的一个总结变量，代表文本的整体情感色彩。得分范围从0(消极语气)到100(积极语气)，其中50分表示积极和消极情绪词汇之间的平衡。此外，我们使用SentimentWortschatz情感分析资源(“SentiWS”)，通过“极性分数”量化了基于文本的情绪[gydF4y2Ba29gydF4y2Ba］．由SentiWS计算的极性分数评估一个词是具有积极含义还是消极含义，范围在−1到1之间。它们是通过基于字典的评分算法计算出来的，该算法识别出反映消极或积极情绪的单词。SentiWS词典不包含任何极性“转移词”或“加强词”，即具有放大功能的单词，它们削弱、加强甚至逆转了一个情感词的含义(例如，“不高兴”或“非常高兴”)。由于这种放大词是准确确定句子极性的关键，因此使用了德语扩展词典。gydF4y2Ba

步骤4:无监督机器学习-主题建模gydF4y2Ba

管道的最后一步涉及到“主题建模”的实现，这是一种无监督的文本分类方法，旨在识别自由文本(即参与者的文本条目)下的公共主题的不同集群[gydF4y2Ba30.gydF4y2Ba］．为了确定不同的主题集群，我们实现了非负矩阵分解，这是一种基于降维的主题建模方法。这种降维模型是基于将文本语料库理解为术语频率的汇编。非负矩阵分解基于“词袋”模型，其中文本元素以无序方式表示。我们进一步研究了unigrams，这意味着每个单词对应一个文本元素(例如，与bigram相反，其中一个文本元素由2个连续的单词组成)。做出这种方法决定的原因是，目前数据中的大多数单词在共现和频率方面本身是有意义的。gydF4y2Ba

我们使用Python库" scikit-learn "和" gensim "实现了这一步[gydF4y2Ba31gydF4y2Ba，gydF4y2Ba32gydF4y2Ba］．为了根据不同主题的数量来确定最合适的解决方案，我们使用了常用的连贯评分“C_v”作为标准。“C_v”的范围从0(无主题连贯)到1(完全主题连贯)。对于具有1到30个不同主题的建模解决方案，“C_v”分数在gydF4y2Ba多媒体gydF4y2Ba．我们还计算了一致性评分“UMass”，但基于“C_v”的最终主题建模解决方案，因为它已被证明更适合由少数单词组成的文本数据[gydF4y2Ba33gydF4y2Ba］．出于灵敏度考虑，我们基于所有可用条目(即，没有字数限制)重复分析，以验证主题集群是稳定的。gydF4y2Ba

步骤5:结果解释和验证gydF4y2Ba

最后，我们用在特定主题集群中最常出现的术语标记每个不同的主题集群。为了进一步表征分配到不同主题集群的个体，我们通过描述性分析比较了各组间独立收集的社会人口学指标。鉴于本研究的描述性质，我们提出95%的ci而不是gydF4y2BaPgydF4y2Ba值。我们进一步将情绪语调与SRDSS评分和诊断后的年份联系起来，这两者都是以前两年一次的登记处调查的一部分。我们还计算了情绪语调与新症状的发生、旧症状的恶化、抑郁症状的存在和孤独感之间的关系。对于区间尺度变量之间的关联，我们计算了皮尔逊相关系数。对于与序数变量的关联，我们计算了斯皮尔曼相关系数。对于区间尺度变量与二元变量之间的相关性，我们计算了双列点相关系数。所有关联都使用R包“psych”计算[gydF4y2Ba34gydF4y2Ba］．使用R包“DescTools”计算斯皮尔曼相关系数的ci [gydF4y2Ba35gydF4y2Ba］．最后，联合撰写本研究的专家团队对研究结果进行了严格审查。专家的背景和专业知识包括神经学、神经心理学和流行病学，以及MS的个人健康史。gydF4y2Ba

样本特征gydF4y2Ba

共有885名瑞士MS登记处参与者(占所有参与者的44.5%)完成了与COVID-19有关的问卷调查(gydF4y2Ba图1gydF4y2Ba)．如在gydF4y2Ba表1gydF4y2Ba与covid -19相关的调查受访者的中位年龄为48岁，70.3%(622/885)为女性，67.9%(601/885)患有复发缓解型MS(即急性MS症状间歇性恢复，而不是持续恶化的原发性和继发性进展型MS)。总体而言，完成COVID-19调查的参与者在基线特征方面与非参与者(n=1149)相似(中位年龄47岁，72.6%[834/1149]为女性，66.9%[769/1149]为复发缓解型MS)。从可获得的调查回复的总体样本中(n=885;中提供的研究流程图gydF4y2Ba图1gydF4y2Ba)，这项研究集中在至少10个单词的条目(n=639;gydF4y2Ba图2gydF4y2BaA).由于我们在这方面的研究没有普遍有效的指导方针，我们基于对文本条目的事先筛选做出了决定，并确定了10个单词作为截止日期，以确保我们感兴趣的研究问题有足够的信息内容。从这个数据源中，本研究使用了639个条目进行文本分析。gydF4y2Ba

以下部分描述了文本预处理和分析管道获得的结果，该管道应用于瑞士MS Registry参与者提供的639个与covid -19相关的文本条目样本。本研究的方法决策的基本原理在方法部分提供。gydF4y2Ba

表1。瑞士多发性硬化症登记在线参与者和非参与者描述。gydF4y2Ba

特征gydF4y2Ba^{一个gydF4y2Ba}		非参与者(未完成COVID-19调查;N = 1149)gydF4y2Ba	参与者(完成COVID-19调查;N = 885)gydF4y2Ba
年龄gydF4y2Ba
	值(年)，中位数(IQR)gydF4y2Ba	47.0 (38-56)gydF4y2Ba	48.0 (39-56)gydF4y2Ba
	缺失信息，n (%)gydF4y2Ba	50 (4.4)gydF4y2Ba	25 (2.8)gydF4y2Ba
性别，n (%)gydF4y2Ba
	女gydF4y2Ba	834 (72.6)gydF4y2Ba	622 (70.3)gydF4y2Ba
	男性gydF4y2Ba	315 (27.4)gydF4y2Ba	262 (29.6)gydF4y2Ba
	缺失的信息gydF4y2Ba	0 (0)gydF4y2Ba	1 (0.1)gydF4y2Ba
语言，n (%)gydF4y2Ba
	德国gydF4y2Ba	903 (78.6)gydF4y2Ba	695 (78.5)gydF4y2Ba
	法国gydF4y2Ba	206 (17.9)gydF4y2Ba	153 (17.3)gydF4y2Ba
	意大利gydF4y2Ba	40 (3.5)gydF4y2Ba	37 (4.2)gydF4y2Ba
女士gydF4y2Ba^bgydF4y2Ba类型，n (%)gydF4y2Ba
	独联体gydF4y2Ba^cgydF4y2Ba	31 (2.7)gydF4y2Ba	16 (1.8)gydF4y2Ba
	项目组合管理系统gydF4y2Ba^dgydF4y2Ba	99 (8.6)gydF4y2Ba	94 (10.6)gydF4y2Ba
	名RRMSgydF4y2Ba^egydF4y2Ba	769 (66.9)gydF4y2Ba	601 (67.9)gydF4y2Ba
	spmgydF4y2Ba^fgydF4y2Ba	134 (11.7)gydF4y2Ba	142 (16.0)gydF4y2Ba
	在2种MS类型之间转换或未指定gydF4y2Ba	30 (2.6)gydF4y2Ba	27日(3.1)gydF4y2Ba
	缺失的信息gydF4y2Ba	86 (7.5)gydF4y2Ba	5 (0.6)gydF4y2Ba
改善疾病的MS药物(免疫疗法)，n (%)gydF4y2Ba
	是的gydF4y2Ba	285 (24.8)gydF4y2Ba	586 (66.2)gydF4y2Ba
	没有gydF4y2Ba	188 (16.4)gydF4y2Ba	222 (25.1)gydF4y2Ba
	缺失的信息gydF4y2Ba	676 (58.8)gydF4y2Ba	77 (8.7)gydF4y2Ba
疾病持续时间gydF4y2Ba
	值(年)，中位数(IQR)gydF4y2Ba	10.0(5日至18日期间召开)gydF4y2Ba	10.0 (4-17)gydF4y2Ba
	缺失信息，n (%)gydF4y2Ba	104 (9.1)gydF4y2Ba	34 (3.8)gydF4y2Ba
血管gydF4y2Ba^ggydF4y2Ba(健康qlgydF4y2Ba^hgydF4y2Ba）gydF4y2Ba
	值，中位数(IQR)gydF4y2Ba	77 (54 - 90)gydF4y2Ba	80 (60 - 90)gydF4y2Ba
	缺失的信息gydF4y2Ba	185 (16.1)gydF4y2Ba	121 (13.7)gydF4y2Ba
EQ-5DgydF4y2Ba^我gydF4y2Ba
	值，中位数(IQR)gydF4y2Ba	68.3 (49 - 88)gydF4y2Ba	69.1 (51 - 91)gydF4y2Ba
	缺失的信息gydF4y2Ba	185 (16.1)gydF4y2Ba	121 (13.7)gydF4y2Ba

^{一个gydF4y2Ba}百分比被四舍五入，因此加起来可能不等于100%。gydF4y2Ba

^bgydF4y2Ba多发性硬化症。gydF4y2Ba

^cgydF4y2BaCIS:临床孤立综合征。gydF4y2Ba

^dgydF4y2BaPPMS:原发性进展性MS。gydF4y2Ba

^egydF4y2BaRRMS:复发-缓解型MS。gydF4y2Ba

^fgydF4y2BaSPMS:继发性进展性MS。gydF4y2Ba

^ggydF4y2Ba视觉模拟量表。gydF4y2Ba

^hgydF4y2BaQLS:生活质量量表。gydF4y2Ba

^我gydF4y2BaEQ-5D: EuroQol五维量表。gydF4y2Ba

图2。调查回应包括在本研究中。(A)描述不同单词长度的文本条目对COVID-19自我报告的日常生活影响的柱状图(n=885)。每个文本条目的字数沿y轴绘制。(B)跨时间(2020年4月8日至2020年8月27日)完成的调查数量。总体而言，86.9%(555/639)的回复是在第一次封锁期间(即2020年4月27日之前)收集的。完成的调查数量显示在y轴上。时间(即天数)沿x轴绘制。gydF4y2Ba

描述性文本分析gydF4y2Ba

在本研究使用的所有文本回复中，86.9%(555/639)是在第一次封锁期间收集的(2020年4月27日之前;gydF4y2Ba图2gydF4y2BaB).总的来说，这些文本条目中80.1%(512/639)是德语，16.0%(102/639)是法语，3.9%(25/639)是意大利语。每个条目的中位数字数为26 (IQR 16-44;如有必要，翻译成德语)。gydF4y2Ba图3gydF4y2Ba可视化在本研究中检查的文本条目样本中15个最常见的关键字。出现频率最高的单词是“联系”(621个)、“差事”(364个)、“家庭”(307个)、“工作”(307个)和“家”(220个)。gydF4y2Ba

图3。关于参与者对COVID-19对其个人生活影响的自由文本描述中最常见的关键词。只考虑总共至少有10个单词的文本条目(n=639)。“停止词”(例如，“and”和“the”)在分析之前被删除。gydF4y2Ba

情绪分析gydF4y2Ba

文本条目可能的全部情感语调范围从0(消极)到50(中性)到100(积极)。参与者文本输入的平均情绪基调为34.7 (SD为37.7)，因此反映了整体的消极情绪基调。情绪音调四分位数的分布(第1四分位数:0-24;第二四分位数:25-49;第三四分位数:50-74;第四四分位数:75-100)显示，639个条目中的大多数都属于第一四分位数，因此总体质量为负(439/639,68.7%)。重要的是，大多数剩余的文本条目落在第4个四分位数，因此无疑是积极的质量(160/639,25.0%)，而只有少数文本条目分配到中间四分位数(第二四分位数:7/639,1.1%;第三四分位数:33/639,5.2%)。参与者文本输入的情绪语调的倾斜分布解释了大的标准偏差。gydF4y2Ba

就COVID-19措施的时间变化而言，在封锁期间(4月6日至27日;n = 555;均值35.32,SD 37.98;95%置信区间32.16-38.48)与逐步取消限制措施期间(2007年4月28日至9月;n = 84;mean 30.58, SD 35.68;95% ci 22.95-38.21)。gydF4y2Ba

基于文本的极性得分(范围从−1到1)与情绪语调相当。极性得分总体呈负效价(mean - 0.10, SD 0.65)， 38.8%(248/639)的条目极性得分低于0。基于第一次封锁期间收集的文本条目的极性得分与基于措施放松期间收集的文本条目的极性得分没有差异(封锁之后;mean−0.13,SD 0.62)。gydF4y2Ba

无监督学习主题建模gydF4y2Ba

最后，通过无监督主题建模过程，将639个文本条目分组到不同的集群中。结果表明，4组解决方案最适合于数据结构。在完整的研究样本中，可以看到与COVID-19对参与者个人生活影响相关的最常见关键词的词汇云gydF4y2Ba图4gydF4y2Ba．中提供了4个不同主题组的词云gydF4y2Ba多媒体附件4gydF4y2Ba．这4个不同的“话题组”被贴上了最常见的关键词标签(第1组:“联系/沟通”，第2组:“社会环境”，第3组:“工作”，第4组:“差事/日常事务”)。中提供了描述4个不同“主题组”的表格gydF4y2Ba多媒体gydF4y2Ba．分配给“联系人/通信”组的文本条目(组1;(占所有文本条目的14.6%[119/639])捕获了MS患者如何经历接触限制。重要的是，分配给这一组的文本条目越来越消极。另一方面，“社会环境”组的极性得分(组2;占所有条目的21.4%[174/639])和“工作”组(第3组;17.9%[146/639]的条目比较平衡。最后是“跑腿/日常事务”组(第4组;24.5%[200/639]的条目)包含反映日常生活的关键字(如“跑腿”和“散步”)。这一组包括最大比例的正极性评分(56.5%，113/200)。 Repetition of the topic modeling analyses using all available text entries consistently found modeling 4 topic clusters to be ideal.

图4。字云可视化了在整个研究样本中与COVID-19对参与者个人生活影响相关的最常见关键词。单词大小反映了特定单词相对于所分析单词总数的相对频率。只考虑总共至少有10个单词的文本条目(n=639)。gydF4y2Ba

社会人口学和健康特征概况gydF4y2Ba

此外，我们还研究了不同的社会人口学特征和健康特征是否与不同的主题组相关。“接触与沟通”主题组倾向于年龄较大(中位数年龄:49.5岁)，独居(27.7%，33/119)，有工作(第二多;63.9%， 76/119)，并且具有较低水平的行走残疾(即，根据自我报告残疾量表[SRDSS]测量，可以在没有助行器的情况下走动，得分在0到3.5之间;76.5%, 91/119)。该组还报告了与健康相关的生活质量第二高(视觉模拟量表得分中位数:80)。被分配到“社会环境”主题组的个体更有可能有孩子(最高百分比;50.6%， 88/174)，年龄在18岁以下(27.0%，47/174)。此外，明显的行动限制(即SRDSS得分大于3.5，因此需要拐杖或轮椅等助行工具)在该组中更为常见，而与健康相关的生活质量相对较低(EQ-5D中位数:0.65;视觉模拟量表得分中位数:75)。分配到“工作”主题组的个体与其他3个主题组的个体相比(87.0%，127/146)最常被雇用，SRDSS得分在0-3.5范围内(比例最高; 82.2%, 120/146), and had overall good quality of life (median EQ-5D index: 0.75; median visual analog scale score: 81). The “errands/daily routines” topic group had the most number of female research volunteers (79.0%, 158/200) and the highest proportion of persons on disability benefits (36.5%, 73/200). Quality of life in this group was higher as indicated by the visual analog scale (median score: 81). Finally, we examined the characteristics of online participants whose text entries had to be excluded as they were too short (n=176 entries). Individuals whose text entries had to be excluded were comparable to those of topic group 2 in terms of their sociodemographic characteristics (data not shown). Notably, the 3 most frequent keywords in the excluded entries (ie, “contacts,” n=64; “errands,” n=13; and “work,” n=10) were also present in the 4 topic groups.

我们进一步研究了情绪语调是否与身体或精神健康有关。情绪语调与SRDSS评分无关(rho=−0.02,95% CI为−0.09至0.06;S = 39575496,gydF4y2BaPgydF4y2Ba=.69)或自MS首次诊断以来的年数(gydF4y2BargydF4y2Ba=−0.03,95% CI−0.11 ~ 0.05;tgydF4y2Ba_628gydF4y2Ba=−0.68333;gydF4y2BaPgydF4y2Ba= 49)。它也与新症状的发生无关(gydF4y2BargydF4y2Ba=−0.04,95% CI−0.12 ~ 0.03;tgydF4y2Ba_633gydF4y2Ba=−1.121;gydF4y2BaPgydF4y2Ba=.26)或新症状恶化(gydF4y2BargydF4y2Ba=−0.07,95% CI−0.14 ~ 0.01;tgydF4y2Ba_636gydF4y2Ba=−1.67;gydF4y2BaPgydF4y2Ba= .09点)。然而，情绪语调与抑郁症状的存在显著相关(gydF4y2BargydF4y2Ba=−0.10,95% CI−0.19 ~−0.02;tgydF4y2Ba_627gydF4y2Ba=−2.49;gydF4y2BaPgydF4y2Ba=.01)和孤独感(gydF4y2BargydF4y2Ba=−0.12,95% CI−0.18至−0.02;tgydF4y2Ba_630gydF4y2Ba=−2.92;gydF4y2BaPgydF4y2Ba= 04)。在所有的测量中，缺失的数值不到4%。gydF4y2Ba

主要研究结果gydF4y2Ba

在这里，我们将演示用于分析自由文本数据的NLP管道的应用程序和后续评估。具体而言，我们从瑞士多发性硬化症登记处收集的多发性硬化症患者的角度，将这一管道应用于关于第一次COVID-19封锁影响的文本数据。因此，我们的研究揭示了弱势人群在首次COVID-19封锁期间的个人日常生活经历。gydF4y2Ba

在这项研究中，我们展示了基于现有的Python开源软件的自动化文本预处理和NLP分析管道的可行性和科学价值，该管道适用于大规模文本数据。该管道允许以高效的方式预处理现实世界的文本数据，并进行及时和创新的分析，包括无监督机器学习。鉴于缺乏适用于应用研究人员的现实文本数据预处理和分析程序的实际指导，这一渠道有可能有助于传播方法学知识，从而能够挖掘自由文本数据的潜力，以捕捉卫生研究中的个人观点和需求。这项研究被嵌入到瑞士MS登记处，这是一项大规模的有充分记录的纵向研究。因此，注册中心的数据构成了应用和评估这种管道的最佳用例，并且允许广泛的可用数据源根据特定特征来描述分配到不同主题集群组的个人。这项研究证明了开放式问题的潜力，可以补充传统的标准化评估方法，从个人自己的话中获取未开发的信息，从而可能引发健康研究的新假设和未来途径。这种类型的语言处理基本上是结构化数据收集和其他形式的定性评估之间的协同作用，而其他形式的定性评估在处理和分析方面往往更加耗时(例如，面谈)。现实世界的数据受到广泛的挑战(例如，拼写错误和方言)，需要通过文本预处理进行详细考虑，以确保后续复杂分析的有效性。因此，我们的研究在本质上是及时和创新的，因为它关注的是通过Python编程的高效管道利用来自现实世界的文本数据源时的关键挑战。gydF4y2Ba

就第一次COVID-19封锁的个人经历而言，第一次COVID-19封锁期间与多发性硬化患者最相关的主题在研究参与者之间存在很大差异。具体而言，我们的研究确定了以下4个不同的与covid -19相关的主题组，参与者可以根据他们的经验被分配到:“接触/沟通”(组1);“社会环境”(第二组);“工作”(第三组);和“跑腿/日常生活”(第4组)。值得一提的是，社会人口统计学和健康相关特征的组间比较证实了4个主题组的差异。这种新的基于主题的方法来表征多发性硬化症患者，为首次COVID-19封锁的个人经历提供了新的视角，并进一步强调了个人需求方面的异质性。据我们所知，目前还没有类似的深入研究，用参与者自己的话来研究COVID-19的个人感知影响。关于文本条目背后的整体情绪基调，我们的研究结果显示，大多数文本条目反映了消极的情绪状态。这增加了一项研究，强调了与covid -19相关的限制对MS患者的沉重负担，因为他们之前很容易受到伤害[gydF4y2Ba12gydF4y2Ba］．此外，从方法学的角度来看，我们的研究背景非常适合识别具有广泛相关性的独特主题共性，因为参与者所关注的主题范围有限。相反，研究MS患者日常生活状况的研究可能会确定相当多样化的主题(每个主题组的人口规模较小)，这导致需要更多的数据和参与者，正如正在对COVID-19大流行前从同一研究人群中收集的健康日记进行的分析所表明的那样(手稿正在准备中)。gydF4y2Ba

与这一发现并行的是，4个主题组在文本描述背后的情感基调方面也有所不同。值得一提的是，情感基调是通过独立的分析方法(情感分析)确定的。相关分析显示，情绪语调与MS特征或身体健康指标无关，但与抑郁症状和孤独感形式的心理健康有关。这一结果表明，本研究中的“情绪语调”主要反映的是与文本内容和个人处境直接相关的情绪。最消极的条目出现在文本条目主要涉及接触和沟通主题的主题组(组1)中。在涉及社会环境(组2)和工作(组3)的主题组中，潜在的情感基调更为平衡，而在涉及差事和日常事务的主题组(组4)中，条目的情感基调主要是积极的。在报告的第一次与covid -19相关的封锁经历中，这种观察到的情绪调性异质性可能反映了情绪负担、个人情况和应对大流行方式的差异，这与之前的研究一致。例如，美国在第一次封锁期间对多发性硬化症患者进行的一项电话调查发现，大流行对个人自我报告的心理健康的更高感知影响与多发性硬化症症状对个人日常生活的更高影响有关。此外，通过访谈，最近的一项研究发现，报告大流行对其生活没有或甚至有积极影响的人倾向于以积极的问题为重点的战略来应对大流行局势[gydF4y2Ba11gydF4y2Ba-gydF4y2Ba13gydF4y2Ba］．然而，就个人价值观而言，另一项针对MS年轻人的研究也报告了大流行疫情在个人、关系和存在成长方面的积极影响[gydF4y2Ba36gydF4y2Ba］．相应地，被分配到“接触和交流”主题组的参与者产生了最多的负面文本条目，并且报告了最低的生活质量(中位数)。综上所述，这些发现凸显了大流行在隔离、减少甚至丧失社会联系/活动和个人交流方面对脆弱个体(如多发性硬化症患者)的沉重影响。基于主题组1的社会人口学和疾病特征，在受损程度相对较轻或独自生活的多发性硬化症患者中，孤立感似乎加剧了。这一发现可能与疾病负担高的人比损伤较小的人更习惯于日常生活限制有关。gydF4y2Ba

限制gydF4y2Ba

尽管目前的研究有其显著的优势，但也有一些局限性，值得考虑。首先，考虑到卫生研究的特殊性的NLP缺乏完善的指导方针。因此，不同文本分类建模方法的实现可能会导致略有不同的聚类和总体主题。因此，为了检验我们发现的稳健性，我们使用公认的潜在狄利克雷分配方法重新分析了我们的数据，该方法与报道的模式相似(本文中没有显示)，从而证实了所述结果的稳健性。主题建模进一步将经常出现的单词分组为集群(即“主题”)。该方法适用于以数据驱动的方式识别大规模文本数据背后的主题，从而产生标准化定量评估可能错过的新见解。然而，我们的研究并没有提供专门针对个人需要的MS治疗的信息。情感基调表明了一个话题的整体价值的总体趋势，而在个人层面上可能会有变化。我们的研究结果揭示了MS患者在COVID-19大流行期间的经验和负担，这可能与未来的治疗有关，也可能为未来的研究提供见解。进一步的局限在于样本人群的调查结果对瑞士多发性硬化症患者总人口的普遍性。 Participants of this study constitute a subsample of the Swiss MS Registry’s participants. The registry itself covers the diversity of the Swiss population of persons with MS in terms of a broad range of characteristics [37gydF4y2Ba］．完成“COVID-19调查”的MS登记处子样本参与者相对较年轻，残疾程度较低，并且比非登记处参与者更多地居住在瑞士德语区。然而，我们没有发现语言区域之间系统差异的任何迹象。通过自动翻译软件将非德语文本条目翻译成德语，存在误译、误读和偏见的风险。然而，值得一提的是，对最常用关键词的探索性计数比较和手动抽查都没有表明语言之间存在任何系统性差异。gydF4y2Ba

结论gydF4y2Ba

我们展示了用于大规模文本数据的预处理和NLP分析管道的潜力，并将其应用于瑞士MS Registry收集的与covid -19相关的数据，这构成了管道的最佳用例。除了为应用研究人员提供实际指导外，我们的研究还对有效利用医疗保健环境中的大规模文本数据具有影响。电子健康档案及临床记录作为应用自然语言处理技术可取得的丰富资讯来源，日益受到重视[gydF4y2Ba38gydF4y2Ba-gydF4y2Ba40gydF4y2Ba］．gydF4y2Ba

我们的研究进一步证明了一种方法，通过个人参与者的角度补充结构化和标准化的评估，从而提供生态有效的信息。我们为希望遵循类似方法的应用卫生研究人员提供实用指导:(1)使用大规模真实数据演示处理和分析过程;(2)提供基于(除LIWC外)免费可用的开源软件的管道详细描述。感兴趣的研究人员可以跟踪整个过程和我们使用的软件。鉴于新兴NLP领域的新新性，我们正在以这种方式为建立良好的实践标准和在应用研究人员，特别是来自健康科学的研究人员中传播NLP方法的知识做出贡献。gydF4y2Ba

致谢gydF4y2Ba

我们感谢开发了自然语言处理管道初始版本的Oliver Widler。我们进一步感谢瑞士多发性硬化症(MS)登记处“Begleitgruppe”的成员，他们为文本分析验证做出了贡献。我们也非常感谢瑞士MS注册中心的所有参与者，他们奉献了他们的时间，从而为这项研究做出了重要贡献。此外，我们还要感谢瑞士医学学会对瑞士医学注册中心的资助和持续的支持。我们也非常感谢那些研究参与者，他们除了提供数据外，还为瑞士多发性硬化症注册中心的各个方面做出了基本贡献，包括研究设计和实施。最后，我们要感谢苏黎世大学流行病学、生物统计和预防研究所瑞士MS注册数据中心的成员。瑞士MS注册中心的成员如下:Bernd Anderseck, Pasquale Calabrese, Andrew Chan, Claudio Gobbi, Roger Häussler, Christian P Kamm, Jürg Kesselring(主席)，Jens Kuhle(临床和实验室研究委员会主席)，Roland Kurmann, Christoph Lotter, Marc Lutz, Kurt Luyckx, Patricia Monin, Stefanie Müller, Krassen Nedeltchev, Caroline Pot, Milo A Puhan, Irene Rapold, Anke Salmen, Klaas Enno Stephan, Zina-Mary Manjaly, Claude Vaney(患者和人口研究委员会主席)，Viktor von Wyl (IT和数据委员会主席)和Chiara Zecca。瑞士医学注册中心由瑞士医学学会的科学顾问委员会提供支持。gydF4y2Ba

这项研究由瑞士多发性硬化症协会和数字社会倡议和苏黎世大学参与科学学院的种子基金资助。gydF4y2Ba

利益冲突gydF4y2Ba

CPK获得了来自Biogen, Novartis, Almirall, Bayer Schweiz AG, Teva, Merck, Sanofi Genzyme, Roche, Eli Lilly, Celgene和瑞士多发性硬化症(MS)协会(SMSG)的讲座和研究支持。AS获得了与Almirall Hermal GmbH、Biogen、Merck、Novartis、Roche和Sanofi Genzyme合作活动的演讲者酬金和/或差旅费补偿，以及来自瑞士MS协会的研究支持，与此工作无关。位于瑞士卢加诺的卢加诺地区医院(EOC)神经病学部门获得了艾伯维、Almirall、Biogen Idec、Celgene、赛诺菲、默克、诺华、梯瓦制药和罗氏的资助，用于CZ和CG的演讲和教育、研究或旅行。AC已经获得Actelion (Janssen/J&J)、Almirall、拜耳、Biogen、Celgene (BMS)、Genzyme、Merck KGaA (Darmstadt, Germany)、Novartis、Roche和Teva的演讲/董事会荣誉，所有这些都是医院研究基金。他得到了Biogen, Genzyme, UCB，欧盟和瑞士国家基金会的研究支持。他担任《欧洲神经病学杂志》的副主编，是《临床和转化神经科学》的编委会成员，并担任《国际医学研究杂志》的专题编辑。RH获得了Janssen, Lundbeck, Mepha和Neurolite的荣誉奖金。SW获得了来自Janssen, Lundbeck, Mepha, Neurolite和Sunovion的荣誉奖金。MS报告了罗氏从2019年2月到2020年2月的就业情况。KS获得了来自Janssen, Lundbeck和Mepha的荣誉。gydF4y2Ba

‎gydF4y2Ba

多媒体附件1gydF4y2Ba

瑞士多发性硬化症登记处COVID-19调查。gydF4y2Ba

PDF档案(adobepdf档案)，38kbgydF4y2Ba

‎gydF4y2Ba

多媒体附件2gydF4y2Ba

自然语言处理管道的每个步骤中使用的工具的概述。gydF4y2Ba

PNG文件，180kbgydF4y2Ba

‎gydF4y2Ba

多媒体gydF4y2Ba

显示多发性硬化症患者在第一次COVID-19封锁期间经历的主题模型的主题连贯性得分(蓝点)的图表，有1至30个不同的主题。建模主题的数量沿x轴绘制。一致性分数沿y轴绘制。主题一致性是指分配到不同主题的单词的语义相似性，是主题模型的关键拟合优度度量。连贯分数的全部可能范围在0(无主题连贯)和1(完全主题连贯)之间。4主题模型为数据提供了最优的建模解决方案，一致性得分最高。gydF4y2Ba

PNG文件，966 KBgydF4y2Ba

‎gydF4y2Ba

多媒体附件4gydF4y2Ba

单词云可视化了与COVID-19对志愿者个人生活影响相关的最常见关键词，分别为4个主题聚类组呈现。单词大小反映了特定单词与主题组中被分析单词总数的相对频率。只有总共至少有10个单词的文本条目才被考虑。gydF4y2Ba

PNG文件，1188 KBgydF4y2Ba

‎gydF4y2Ba

多媒体gydF4y2Ba

研究参与者的特征被分配到4个主题组“联系/沟通”、“社会环境”、“工作”和“差事/日常事务”。gydF4y2Ba

DOCX文件，34 KBgydF4y2Ba

Cammel SA, De Vos MS, van Soest D, Hettne KM, Boer F, Steyerberg EW，等。如何自动将患者体验的自由文本反馈转化为可操作的见解:自然语言编程(NLP)方法。BMC Med Inform Decis Mak 2020年5月27日;20(1):97 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Dreisbach C, Koleck TA, Bourne PE, Bakken S.从患者撰写的电子文本数据中对症状进行自然语言处理和文本挖掘的系统综述。国际医学杂志2019年5月;125:37-46 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Koleck TA, Dreisbach C, Bourne PE, Bakken S.电子健康记录的自由文本叙述中记录的症状的自然语言处理:系统综述。J Am Med Inform association 2019 april 01;26(4):364-379 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Mascio A, Kraljevic Z, Bean D, Dobson R, Stewart R, Bendayan R，等。电子健康档案文本分类方法的比较分析。出来了。2005.URL:gydF4y2Bahttp://arxiv.org/abs/2005.06624gydF4y2Ba[2021-11-18]访问gydF4y2Ba
Calvo RA, Milne DN, Hussain MS, Christensen H.使用非临床文本在心理健康应用中的自然语言处理。Nat,朗。2017年1月30日;23(5):649-685。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李志强，李志强，李志强，等。使用人工智能与自然语言处理结合电子健康记录的结构化和自由文本数据来识别非瓣膜性心房颤动以减少中风和死亡:评估和病例对照研究J Med Internet Res 2021 11月09;23(11):e28946 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Vine V, Boyd RL, Pennebaker JW。自然情感词汇是痛苦和幸福的窗口。Nat Commun 2020 9月10日;11(1):4525 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Rivas R, Montazeri N, Le NX, Hristidis V.在线医生评论的自动分类:文本分类器算法的评价。J Med Internet Res 2018年11月12日;20(11):e11141 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Ferrario A, Demiray B, Yordanova K, Luo M, Martin M.老年人日常对话中的社会回忆:使用自然语言处理和机器学习的自动检测。J Med Internet Res 2020年9月15日;22(9):e19133 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Le Glaz A, Haralambous Y, Kim-Dufor D, Lenca P, Billot R, Ryan TC，等。心理健康中的机器学习和自然语言处理:系统回顾。J Med Internet Res 2021 May 04;23(5):e15708 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Donisi V, Gajofatto A, Mazzi MA, Gobbin F, Busch IM, ghelere A，等。在COVID-19紧急情况后，培养患有多发性硬化症的年轻成年人的恢复力的见解:一项意大利调查前沿精神病学2020年2月22日;11:588275 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
莫里斯-班科勒H，何AK。COVID-19大流行在多发性硬化症中的经验:好的，坏的和中性的。Neurol Ther 2021 6月15日;10(1):279-291 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Talaat F, Ramadan I, Aly S, Hamdy E.多发性硬化症患者及其护理人员在COVID-19大流行期间是否更焦虑，更致力于遵循基本预防措施?多scer相关失调2020年11月;46:102580 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
沃格尔AC，施密特H，娄德S，麦克伯尼R，马廷FJ。COVID-19大流行对100 000名多发性硬化症患者医疗保健的影响:一项横断面研究多巩膜相关失调2020年11月;46:102512 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
马纳科达，班迪拉，特佐奥利，庞齐奥，布里切托，扎拉廷，等。COVID-19大流行对多发性硬化症患者的影响:一项关于护理中断和自我报告结果的调查的早期结果。J卫生服务Res政策2021年7月18日;26(3):189-197 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
科莱P, Cascini S, Balducci M, Agabiti N, Davoli M, Fusco D，等。COVID-19大流行对意大利拉齐奥地区多发性硬化症患者获得医疗服务的影响欧洲神经病学杂志2021年10月14日;28(10):3403-3410 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
放宽和收紧全国性措施。联邦公共卫生办公室，2020年11月2日。URL:gydF4y2Bahttps://www.bag.admin.ch/dam/bag/en/dokumente/mt/k-und-i/aktuelle-ausbrueche-pandemien/2019-nCoV/covid-19-tabelle-lockerung.pdf.download.pdf/Easing_of_measures_and_possible_next_steps.pdfgydF4y2Ba[2022-10-19]访问gydF4y2Ba
冠状病毒:措施和条例。联邦公共卫生办公室，2022年5月4日。URL:gydF4y2Bahttps://www.bag.admin.ch/bag/en/home/krankheiten/ausbrueche-epidemien-pandemien/aktuelle-ausbrueche-epidemien/novel-cov/massnahmen-des-bundes.htmlgydF4y2Ba[2022-10-19]访问gydF4y2Ba
Kliem S, Mößle T, Zenger M, Brähler E.德国普通人群医疗患者贝克抑郁量表-快速筛查的信度和效度。《情感失调》2014年3月;156:236-239。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Kaufmann M, Salmen A, Barin L, Puhan MA, Calabrese P, Kamm CP，瑞士多发性硬化症登记处(SMSR)开发和验证自我报告残疾状态量表(SRDSS)，以估计edss类别。多scer相关失调2020年7月;42:102148 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Hinz A, Klaiberg A, Brähler E, König HH。[生活质量问卷EQ-5D:一般人群的建模和常模值]。2006年2月10日;56(2):42-48。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Puhan MA, Steinemann N, Kamm CP, Müller S, Kuhle J, Kurmann R，瑞士多发性硬化症登记处(SMSR)。数字化促进的公民科学驱动方法加速了参与者招募并增加了研究人群的多样性。瑞士医学Wkly 2018年5月16日;148:w14623 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Steinemann N, Kuhle J, Calabrese P, Kesselring J, Disanto G, Merkler D，瑞士多发性硬化症登记处(SMSR)瑞士多发性硬化症注册中心(SMSR):一个参与性、全国性注册中心的研究方案，以促进流行病学和以患者为中心的多发性硬化症研究。BMC Neurol 2018 Aug 13;18(1):111 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
DeepL翻译。DeepL。URL:gydF4y2Bahttps://www.deepl.com/translatorgydF4y2Ba[2022-10-19]访问gydF4y2Ba
Stopwords ISO。吉恩·迪亚兹，2020。URL:gydF4y2Bahttps://github.com/stopwords-iso/stopwords-degydF4y2Ba[2022-10-19]访问gydF4y2Ba
Python中的工业级自然语言处理。宽大的。2022.URL:gydF4y2Bahttps://spacy.io/gydF4y2Ba[2022-10-19]访问gydF4y2Ba
Oesper L, Merico D, Isserlin R, Bader GD。WordCloud:一个创建网络可视化语义摘要的Cytoscape插件。源代码生物医学2011 Apr 07;6(1):7 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Meier T, Boyd RL, Pennebaker JW, Mehl MR, Martin M, Wolf M，等。“LIWC auf Deutsch”:DE- LIWC2015的发展、心理测量学和介绍。PsyArXiv预印本。URL:gydF4y2Bahttps://psyarxiv.com/uq8zt/gydF4y2Ba[2022-10-19]访问gydF4y2Ba
Remus R, Quasthoff U, Heyer G. SentiWS -情感分析的公开可用德语资源。见:第七届国际语言资源与评估会议论文集(LREC'10)。2010年发表于:第七届国际语言资源与评价会议;2010年5月;马耳他，瓦莱塔gydF4y2Bahttp://www.lrec-conf.org/proceedings/lrec2010/pdf/490_Paper.pdfgydF4y2Ba
bli D, Carin L, Dunson D.概率主题模型:关注图形模型设计和文档和图像分析的应用。IEEE信号处理2010年11月01日;27(6):55-65 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O，等。Scikit-learn: Python中的机器学习。计算机科学进展，2011;(12):2825-2830。gydF4y2Ba
李志强，李志强。大型语料库主题建模软件框架。见:LREC 2010年NLP框架新挑战研讨会论文集。马耳他瓦莱塔:ELRA;2010年5月22日出席:LREC 2010;2010年5月17日至23日;马耳他瓦莱塔p. 45-50网址:gydF4y2Bahttp://is.muni.cz/publication/884893/engydF4y2Ba
Röder M, Both A, Hinneburg A.探索主题连贯测量的空间。在:WSDM '15:第八届ACM网络搜索和数据挖掘国际会议论文集。2015发表于:第八届ACM网络搜索和数据挖掘国际会议;2015年2月2日至6日;中国上海，第399-408页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
心理学:心理学、心理测量学和人格研究程序。R项目主页。2022.URL:gydF4y2Bahttps://CRAN.R-project.org/package=psychgydF4y2Ba[2022-10-19]访问gydF4y2Ba
Signorell A, Aho K, Alfons A, Anderegg N, Aragon T, Arachchige C，等。描述统计工具。R项目。2022年9月1日URL:gydF4y2Bahttps://cran.r-project.org/package=DescToolsgydF4y2Ba[2022-10-19]访问gydF4y2Ba
波利S, Rimondini M, Gajofatto A, Mazzi MA, Busch IM, Gobbin F，等。“如果你不能控制风，调整你的帆”:从患有多发性硬化症的年轻人那里发现大流行后的益处的提示。定性研究。国际环境与公共卫生杂志2021年4月14日;18(8):4156 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
M Kaufmann, MA Puhan, Kuhle J, Yaldizli Ö， Magnusson T, Kamm CP，等。估算慢性病负担的框架:多发性硬化症背景下的设计和应用。Front Neurol 2019 9月4日;10:953 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Sheikhalishahi S, Miotto R, Dudley JT, Lavelli A, Rinaldi F, Osmani V.慢性疾病临床记录的自然语言处理:系统综述。JMIR Med Inform 2019 4月27日;7(2):e12239 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
杨霞，张宏，何霞，边娟，吴艳。从临床叙述中提取患者家族史:基于深度学习模型的端到端解决方案。JMIR Med Inform 2020年12月15日;8(12):e22982 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
spic I, Nenadic G.机器学习中的临床文本数据:系统回顾。JMIR Med Inform 2020年3月31日;8(3):e17984 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

EQ-5D:gydF4y2BaEuroQol五维量表gydF4y2Ba

LIWC:gydF4y2Ba语言探究与字数统计gydF4y2Ba

女士:gydF4y2Ba多发性硬化症gydF4y2Ba

NLP:gydF4y2Ba自然语言处理gydF4y2Ba

SentiWS:gydF4y2BaSentimentWortschatzgydF4y2Ba

SRDSS:gydF4y2Ba自我报告残疾状况量表gydF4y2Ba

C·洛维斯编辑;提交17.03.22;同行评议:U Scholz，戴海杰;作者评论07.09.22;接受02.10.22;发表10.11.22gydF4y2Ba

©Deborah Chiavi, Christina Haag, Andrew Chan, Christian Philipp Kamm, Chloé Sieber, Mina stanikiic, Stephanie Rodgers, Caroline Pot, Jürg Kesselring, Anke Salmen, Irene Rapold, Pasquale Calabrese, Zina-Mary Manjaly, Claudio Gobbi, Chiara Zecca, Sebastian Walther, Katharina Stegmayer, Robert Hoepner, Milo Puhan, Viktor von Wyl。最初发表在JMIR医学信息学(https://medinform.www.mybigtv.com)， 10.11.2022。gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

第一次COVID-19封锁期间多发性硬化症患者的真实经历:自然语言处理的应用gydF4y2Ba

第一次COVID-19封锁期间多发性硬化症患者的真实经历:自然语言处理的应用gydF4y2Ba

原始论文gydF4y2Ba

通讯作者:gydF4y2Ba

摘要gydF4y2Ba

关键字gydF4y2Ba

简介gydF4y2Ba

方法gydF4y2Ba

背景信息gydF4y2Ba

数据源gydF4y2Ba

伦理批准gydF4y2Ba

描述性统计gydF4y2Ba

自由文本条目的预处理和分析管道gydF4y2Ba

步骤1:文本预处理gydF4y2Ba

第二步:描述性文本分析gydF4y2Ba

第三步:情感分析gydF4y2Ba

步骤4:无监督机器学习-主题建模gydF4y2Ba

步骤5:结果解释和验证gydF4y2Ba

结果gydF4y2Ba

样本特征gydF4y2Ba

描述性文本分析gydF4y2Ba

情绪分析gydF4y2Ba

无监督学习主题建模gydF4y2Ba

社会人口学和健康特征概况gydF4y2Ba

讨论gydF4y2Ba

主要研究结果gydF4y2Ba

限制gydF4y2Ba

结论gydF4y2Ba

致谢gydF4y2Ba

利益冲突gydF4y2Ba

参考文献gydF4y2Ba

缩写gydF4y2Ba