卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

晶澳

JMIR老化

2561 - 7605

卡塔尔世界杯8强波胆分析

加拿大多伦多

v5i3e39547

36112408

10.2196/39547

短论文

自动识别Twitter用户干预支持痴呆家庭照顾者:注释数据集和基准分类模型

王

京

梁

蒂芙尼

Verspoor

卡琳

Kwon

进得了

克莱因

Ari Z

博士学位 1

生物统计、流行病学和信息学系“，佩雷尔曼医学院宾夕法尼亚大学

布洛克利厅，四楼。

423监护人Dr。

宾夕法尼亚州费城(19104年

美国 1 310 423 3521 ariklein@pennmedicine.upenn.edu

https://orcid.org/0000-0002-8281-3464

玛吉医生

Arjun

博士学位 1

https://orcid.org/0000-0002-4109-1346

奥康纳

凯伦

女士 1

https://orcid.org/0000-0001-7709-3813

Gonzalez-Hernandez

著

博士学位 2

https://orcid.org/0000-0002-6416-9556

1 生物统计、流行病学和信息学系“，佩雷尔曼医学院宾夕法尼亚大学

费城,宾夕法尼亚州

美国 2 计算生物医学系“，西达斯西奈医疗中心

洛杉矶，加州

美国

通讯作者:Ari Z Klein ariklein@pennmedicine.upenn.edu

Jul-Sep 2022

16 9 2022

5 3.

e39547

16 5 2022 27 6 2022 8 7 2022 8 7 2022

©Ari Z Klein, Arjun Magge, Karen O'Connor, Graciela Gonzalez-Hernandez。最初发表于JMIR Aging (https://aging.www.mybigtv.com)， 16.09.2022。

2022

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR Aging上的原创作品。必须包括完整的书目信息，https://aging.www.mybigtv.com上的原始出版物的链接，以及此版权和许可信息。

背景

在美国，有600多万人患有阿尔茨海默病和相关的痴呆症，他们从1100多万家庭或其他非正式护理人员那里得到帮助。制定了一系列传统干预措施，以支持家庭照顾者;然而，其中大多数尚未在实践中得到实施，而且在很大程度上仍然无法实现。虽然最近的研究表明，痴呆症患者的家庭照顾者使用Twitter讨论他们的经历，但还没有开发出能够使用Twitter进行干预的方法。

客观的

本研究的目的是开发一个带注释的数据集和基准分类模型，用于自动识别家庭成员患有痴呆症的Twitter用户队列。

方法

在2021年5月4日至5月20日期间，我们收集了8846名用户发布的10733条推文，这些推文提到了一个与痴呆症相关的关键词、一种可能表明诊断的语言标记，以及一种选定的家庭关系。三名注释人员为每个用户随机注释一条推文，以区分那些表明家庭成员患有痴呆症的人。注释者间的一致性为0.82 (Fleiss kappa)。我们使用带注释的推文来训练和评估支持向量机和深度神经网络分类器。为了评估我们方法的可扩展性，我们随后对在2021年5月4日至2022年3月9日期间连续收集的未标记推文部署了自动分类。

结果

基于BERT(来自变压器的双向编码器表示)模型的深度神经网络分类器在推特上得到了最高的训练 F₁这类推文的得分为0.962(精度=0.946，召回率=0.979)，表明用户的家庭成员患有痴呆症。分类器检测到在2021年5月4日至2022年3月9日期间，74290名用户发布了128,838条表明家庭成员患有痴呆症的推文，即每月约7500名用户。

结论

我们的注释数据集可以用来自动识别有痴呆症家庭成员的Twitter用户，使Twitter的大规模使用不仅可以探索家庭照顾者的经历，还可以直接针对这些用户进行干预。

自然语言处理社交媒体数据挖掘痴呆阿尔茨海默病护理人员

简介

美国有超过600万人患有阿尔茨海默病和相关痴呆症，预计到2060年，这一负担将翻一番[ 1］．阿尔茨海默病是美国第六大死亡原因[ 2]，只有8%的痴呆症患者没有得到家庭成员或其他非正式护理提供者的帮助[ 3.]，到2020年将有1100多万家庭或其他无偿照护者[ 4］．痴呆症患者的照顾者在身体、认知、社会、精神和经济上都受到影响。例如，与不照顾他们的人相比，他们由于长期的压力更容易生病[ 5]而且睡眠时间和质量都较低[ 6］．与未患痴呆症的护理人员相比，他们更有可能经历认知能力下降[ 7]和社交网络规模[ 8］．与不照顾他们的人相比，他们也更有可能患上抑郁症。 9]及非失智症照顾者[ 10]，痴呆症照顾者的抑郁症状与医疗保健使用和成本增加有关[ 11］．除了个人医疗保健费用增加外，痴呆症患者的家庭照顾者还支付接受者总护理费用的大部分，痴呆症患者的费用明显高于非痴呆症患者[ 12］．

已制定了一系列传统干预措施，以支持痴呆症患者的家庭照顾者[ 13];然而，其中大多数尚未在实践中得到实施，而且在很大程度上仍然无法实现[ 14］．最近的系统综述得出结论，基于互联网的干预措施因其易于获取而受到痴呆症患者家庭照顾者的重视[ 15]并可对照顾者的健康产生有益影响[ 16］．而最近的研究[ 17- 23]的研究表明，痴呆症患者的家庭照顾者使用Twitter来讨论他们的经历，据我们所知，还没有开发出方法来使用Twitter作为基于互联网的干预平台。考虑到美国每4个成年人中就有1个在使用推特[ 24]， Twitter可能提供了一个大规模接触家庭护理人员的新机会，例如通过针对用户的广告提供有关痴呆症、护理、资源或服务的信息。本研究的目的是开发一个带注释的数据集和基准分类模型，用于自动识别家庭成员患有痴呆症的Twitter用户队列。

方法道德的考虑

本研究中使用的数据是根据Twitter服务条款收集的。宾夕法尼亚大学机构审查委员会审查了这项研究(协议号:828972)，并认为它豁免了45 CFR§46.101(b)(4)对公开数据来源的人类受试者研究。

数据收集和注释

在2021年5月4日至5月20日期间，我们从推特流媒体应用程序编程接口(API)收集了67060条公开的推文，这些推文是英文的，不是转发，包括与痴呆症相关的关键词(例如，痴呆， youngdementia， # yod， # ftd，阿尔茨海默氏症， alz， alzheimersdisease，轻度认知障碍)和一种可能表明诊断的语言标记(例如，诊断，诊断，有，得到了，发达，与，从)．API搜索词的完整列表可在多媒体附件1．然后我们搜索这些推文，以选择家庭关系( 多媒体附件2)，识别出67060条推文中的10733条(16%)。我们从每个用户的10733条推文中随机抽取一条(8846条(82%))，并制定了注释指南( 多媒体)，以帮助注释人员区分表明家庭成员患有痴呆症的推文和那些没有的推文。在这8846条被注释的推文中，有8346条(94%)是双重注释，500条(6%)是由3个注释者共同注释的。基于所有3名注释者注释的500条推文，注释者之间的一致性为0.82 (Fleiss kappa)。在解决分歧后，确定5946(67%)的推文表明用户有患有痴呆症的家庭成员，2900(33%)的推文没有。

自动分类

我们进行了基准监督机器学习实验，以评估带注释的数据集在自动识别家庭成员患有痴呆症的Twitter用户方面的效用。对于分类器，我们使用LibSVM [ 25支持向量机(SVM)在Weka中的实现，SVM和6个基于BERT(变压器双向编码器表示)的深度神经网络分类器:BERT- base - un[ 26]，蒸馏酒基无套管[ 27，罗伯塔-拉吉[ 28]， biobert - large - cases [ 29， Bio+ClinicalBERT [ 30.]，和bertwitter - large [ 31的预训练模型天赋Python库。我们将8846条推文分为80%(7077条推文)和20%(1769条推文)随机集作为训练数据( 多媒体附件4)和持有的测试数据，分别基于二进制注释类的分布进行分层。对于SVM分类器，我们通过规范化url、用户名、数字和与痴呆症相关的关键字来预处理推文( 多媒体附件1)和家庭关系( 多媒体附件2)，删除非字母数字字符和多余的空格，以及降低大小写和词干[ 32文本。我们使用Weka NGram Tokenizer提取n-gram (n=1-3)作为词袋表示中的特征。我们使用径向基函数核并设置成本在 c= 32。对于基于bert的分类器，我们通过规范化url和用户名并将文本小写来预处理推文。对于训练，我们使用随机梯度下降优化，批次大小为8,15个epoch，学习率为0.001。在训练期间，我们使用带注释的tweet对transformer模型的所有层进行了微调。为了优化性能，在每个epoch之后，在训练集的5%分割上对模型进行评估。为了评估我们方法的可扩展性，我们随后对198,674条未标记的推文进行了自动分类，这些推文由119,640名用户发布，这些推文是从Twitter流API ( 多媒体附件1)在2021年5月4日至2022年3月9日之间，并提到了一种选定的家庭关系( 多媒体附件2)．

结果

表1给出了精度、召回率和 F₁-支持向量机和6个深度神经网络分类器对表明用户有痴呆症家庭成员的推文类别的得分，在8846条手动注释推文中的1769条(20%)的测试集上进行评估。基于推文预训练模型(BERTweet-Large)的分类器达到最高 F₁-得分:0.962(精密度=0.946，召回率=0.979)。当部署在2021年5月4日至2022年3月9日期间由119,640名用户发布的198,674条未标记的推文上时，BERTweet分类器检测到128,838条推文表明用户有患有痴呆症的家庭成员，由74290名用户发布，即每月约7500名用户。

表2给出了BERTweet分类器在测试集中的假阳性和假阴性的例子。在68个假阳性中，36个(47%)指的是不是或可能不是选定家庭成员的痴呆症患者(推文1)，8个(12%)报告家庭成员患有痴呆症以外的疾病(推文2)，5个(7%)只是推测家庭成员患有痴呆症(推文3)。68个假阳性中还有8个(12%)是人工注释错误的结果。在25个假阴性中，14个(56%)使用指示语或回指，需要在推文中添加上下文来理解非第一人称限定词(例如推文4中的“their”)实际上指的是用户，或者人称代词(例如推文5中的“she”)指的是患有痴呆症的特定家庭成员。此外，这14条推文中有12条(86%)还提到了不是家庭成员或没有患痴呆症的人。25例假阴性中有4例(16%)是人工标注错误的结果。

表1

精确度，召回率，以及 F₁-用于检测显示用户有痴呆症家庭成员的推文的分类器的分数。

分类器	精度	回忆	F₁分数
支持向量机^一个	0.884	0.939	0.910
伯特^b-Base-Uncased	0.924	0.954	0.938
DistilBERT-Base-Uncased	0.930	0.942	0.936
RoBERTa-Large	0.918	0.982	0.949
BioBERT-Large-Cased	0.907	0.978	0.941
生物+ ClinicalBERT	0.903	0.958	0.930
BERTweet-Large	0.946	0.979	0.962

^一个支持向量机:支持向量机。

^b来自变压器的双向编码器表示。

表2

BERTweet分类器的假阳性和假阴性样本，用于检测表明用户有患有痴呆症的选定家庭成员的推文。

微博数量	推特	实际	预测
1	伊芙琳有痴呆，我知道。但是当她今天问我爸爸怎么样时…还是很疼。	- - - - - -	+
2	我们真的不知道阿尔茨海默氏症的病因。我们对帕金森氏症一无所知，我父亲也得了这种病。	- - - - - -	+
3.	我听了the Caretaker乐队的《Everywhere at the End of Time》，想起了我的祖母。这些歌是关于痴呆症的，我奶奶没有被明确诊断出患有这种疾病，但它对我打击很大。	- - - - - -	+
4	如果有人告诉你他们的父母患有老年痴呆症，请不要说你的祖父母或曾祖母也患有老年痴呆症。我很感激你能体会到这种经历，但它是如此不同。告诉我一个不同的时间。	+	- - - - - -
5	我有一个很脆弱的家庭成员，还有两个快30岁的孩子。我不想冒险把病毒传染给她或从她传染给我的家人。我姐姐跟她和她的护工们闹得沸沸扬扬闹。她有老年痴呆症，所以她可能没有想我!	+	- - - - - -

讨论主要研究结果

自动分类的基准性能表明，我们带注释的数据集对于准确识别家庭成员患有痴呆症的Twitter用户具有实用价值，并且对未标记的推文部署自动分类表明可以识别出大量用户。因此，我们的带注释的数据集使Twitter的使用能够扩大直接针对痴呆症患者家庭照顾者的可访问的、基于互联网的干预措施。因为我们的方法涉及识别提到家庭关系的推文，这也将使干预措施能够为护理接受者量身定制。

限制

我们识别家庭照顾者的方法假设有患有痴呆症的“近亲”可能意味着使用者参与照顾;然而，在这项研究中确定的用户可能不一定是护理人员，或者可能曾经是护理人员，但现在不再是。我们采用这种方法是因为我们相信，将我们的护理人员识别限制在那些明确表示他们正在提供持续护理的用户上，将无法充分利用Twitter大规模接触护理人员的潜力。

结论

本文提出了一种带有注释的数据集和基准分类模型，用于自动识别有痴呆症家庭成员的Twitter用户，使Twitter的大规模使用不仅可以探索家庭护理人员在推文中的经历，而且可以直接针对这些用户进行干预。

多媒体附件1

Twitter流媒体应用程序编程接口搜索词。

多媒体附件2

家庭成员关键字。

多媒体

注释的指导方针。

多媒体附件4

训练数据。

缩写

API

应用程序编程接口

伯特

来自变压器的双向编码器表示

支持向量机

这项工作得到了国家医学图书馆的支持(R01LM011176)。作者感谢Ivan Flores对软件应用程序的贡献，以及Alexis Upshur和Aiden mcrobie - johnson对Twitter数据注释的贡献。

AZK设计数据收集，编辑注释指南，进行支持向量机分类实验，进行误差分析，撰写稿件。AM进行了深度学习分类实验，部署了BERTweet分类器，并编辑了手稿。KO开发了注释指南，注释了Twitter数据，并编辑了手稿。GGH对研究进行了概念化和指导，并编辑了手稿。

没有宣布。

马修斯

卡

徐

Gaglioti

啊

霍尔特

简森-巴顿

克罗夫特

简森-巴顿

麦克

McGuire

信用证

美国≥65岁成年人阿尔茨海默病和相关痴呆的种族和民族估计(2015-2060年

预防老年痴呆症 2019 01 19 15 1 17 24

10.1016 / j.jalz.2018.06.3063

30243772

s1552 - 5260 (18) 33252 - 7

PMC6333531

Kochanek

徐

阿里亚斯

2019年美国死亡率

美国国家卫生统计中心数据概要 2020 12 395 1 8

33395387

卡斯帕

弗里德曼

弗吉尼亚州

斯皮尔曼家的男人

公元前

沃尔夫

莱托

痴呆症对家庭和老年人无偿护理的不成比例的影响

卫生助理(米尔伍德) 2015 10 34 10 1642 9

10.1377 / hlthaff.2015.0536

26438739

34/10/1642

PMC4635557

阿尔茨海默氏症协会

2021年阿尔茨海默病事实和数据

预防老年痴呆症 2021 03 17 3. 327 406

10.1002 / alz.12328

33756057

Fonareva

我

奥肯

废话

照顾痴呆症患者亲属的生理和功能后果

Int Psychogeriatr 2014 05 26 5 725 47

10.1017 / S1041610214000039

24507463

S1041610214000039

PMC3975665

高

Chapagain

纽约

Scullin

可

痴呆症患者护理人员的睡眠时间和睡眠质量:系统回顾和荟萃分析

美国医学会网络公开赛 2019 08 02 2 8 e199891

10.1001 / jamanetworkopen.2019.9891

31441938

2748661

PMC6714015

Dassel

卡尔

Vitaliano

照顾患有痴呆症的配偶会加速认知能力下降吗?健康和退休研究的结果

老年病学家 2017 04 01 57 2 319 328

10.1093 / / gnv148表示“老人”

26582383

gnv148

刘

费比乌斯

霍华德

哈雷

我们

罗斯

戴斯。莱纳姆:

事件照顾者和对照组之间社会参与的变化:来自照顾过渡研究的发现

J老年健康 2021 01 23 33 1 - 2 114 124

10.1177 / 0898264320961946

32962491

妈

米

Dorstyn

病房

普伦蒂斯

年代

阿尔茨海默病和护理:一项比较初级护理人员与对照组心理健康的荟萃分析综述

老龄化与健康 2018 11 05 22 11 1395 1405

10.1080 / 13607863.2017.1370689

28871796

希恩

哈雷

霍华德

黄

罗兹

罗斯

痴呆症和非痴呆症照顾者的压力、负担和幸福:来自护理过渡研究的见解

老年病学家 2021 07 13 61 5 670 679

10.1093 / / gnaa108表示“老人”

32816014

5894888

PMC8276607

朱

连续波

斯卡尔米斯

奥恩斯坦

艾伯特

米

布兰德

黑

佐野

米

斯特恩

痴呆症照顾者的医疗保健使用和成本:来自预测者照顾者研究的纵向结果

预防老年痴呆症 2015 04 17 11 4 444 54

10.1016 / j.jalz.2013.12.018

24637299

s1552 - 5260 (14) 00007 - 7

PMC4164583

凯利

作为

McGarry

Bollens-Lund

拉赫曼

侯赛因

米

费雷拉

斯金纳

居住环境和痴呆在死亡前7年的累积经济负担

美国老年医学会 2020 06 18 68 6 1319 1324

10.1111 / jgs.16414

32187655

PMC7957824

Gaugler

我

波特

Pruinelli

与护理人员合作

临床老年医学 2014 08 30. 3. 493 515

10.1016 / j.cger.2014.04.003

25037292

s0749 - 0690 (14) 00038 - x

Gitlin

马克思

斯坦利

我

霍奇森

将基于证据的痴呆症护理干预措施转化为实践:科学状况和下一步

老年病学家 2015 04 55 2 210 26

10.1093 / / gnu123表示“老人”

26035597

gnu123

PMC4542834

霍普伍德

沃克

麦多纳

Rait

沃尔特斯

Iliffe

年代

罗斯

戴维斯

旨在支持痴呆症患者家庭照顾者的基于互联网的干预措施:系统审查

J医疗互联网服务 2018 06 12 20. 6 e216

10.2196 / jmir.9548

29895512

v20i6e216

PMC6019848

愣

米

赵

肖

李

王

痴呆症患者家庭照顾者基于互联网的支持性干预:系统回顾和元分析

J医疗互联网服务 2020 09 09 22 9 e19468

10.2196/19468

32902388

v22i9e19468

PMC7511858

尹

年代

从世界阿尔茨海默病日提到痴呆症的推文中，我们能了解到哪些心理健康需求?

精神科护士协会 2016 11 01 22 6 498 503

10.1177 / 1078390316663690

27803262

22/6/498

PMC5337405

丹尼洛维奇

米

-蔡

Al-Bahrani

超

一个

Agrawal

一个

#阿尔茨海默氏症和痴呆症:推特上失忆的表达

老年康复专题 2018 34 1 48 53

10.1097 / TGR.0000000000000173

程

泰

刘

吸引

汉堡王

分析Twitter作为阿尔茨海默相关痴呆症意识的平台:推文的专题分析

JMIR老化 2018 12 10 1 2 e11542

10.2196/11542

31518232

v1i2e11542

PMC6715397

20.

尹

年代

Lucero

Mittelman

女士

Luchsinger

晶澳

巴肯

年代

挖掘Twitter，为西班牙阿尔茨海默病和相关痴呆症护理人员的在线干预设计提供信息

Hisp保健中心 2020 09 24 18 3. 138 143

10.1177 / 1540415319882777

31646904

梅塔

朱

林

摊位

纳米

野蛮人

读

上海

吴

流行

福克纳

Bronskill

罗森

巴勒斯坦权力机构

痴呆症研究的健康论坛和Twitter:机会和考虑因素

美国老年医学会 2020 12 07 68 12 2881 2889

10.1111 / jgs.16790

32894780

Bacsu

奥康奈尔

我

凸轮

一个

阿齐兹

米

Grewal编写

普尔

绿色

年代

Sivananthan

年代

Spiteri

使用Twitter了解痴呆症患者的COVID-19经历:信息流行病学研究

J医疗互联网服务 2021 02 03 23 2 e26254

10.2196/26254

33468449

v23i2e26254

PMC7861035

尹

年代

Broadwell

阿尔坎塔拉

戴维斯

李

布里斯托尔

一个

Tipiani

Nho

Mittelman

米

分析来自Twitter的话题和情绪，以获得见解，以改进COVID-19大流行期间阿尔茨海默病和相关痴呆症(ADRD)患者家庭护理人员的干预措施

种马健康技术通知 2022 01 14 289 170 173

10.3233 / SHTI210886

35062119

SHTI210886

PMC8830611

Auxier

安德森

米

2021年社交媒体的使用情况

皮尤研究中心 2021 04 07

2022-02-25

https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/

常

林

LIBSVM:支持向量机的库

ACM Trans Intell系统技术 2011 04 2 3. 1 27

10.1145/1961189.1961199

Devlin

程

米

李

Toutanova

BERT:深度双向转换器的预训练，用于语言理解

2019

2019年计算语言学协会北美分会会议记录:人类语言技术，第1卷(长论文和短论文)

2019年6月2日至7日

明尼阿波利斯，明尼苏达州，美国

4171 4186

10.18653 / v1 / n19 - 1423

山

首次亮相

Chaumond

狼

蒸馏酒，蒸馏版的BERTmaller，更快，更便宜，更轻

2019

第五届节能机器学习与认知计算研讨会

2019年12月13日

加拿大温哥华

刘

奥特

米

Goyal

杜

Joshi

米

程ydF4y2Ba

莱维

刘易斯

米

Zettlemoyer

米

Stoyanov

RoBERTa:一种稳健优化的BERT预训练方法

arXiv 预印本于2019年7月26日在线发布。

李

尹

金

年代

金

年代

所以

康

BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型

生物信息学 2020 02 15 36 4 1234 1240

10.1093 /生物信息学/ btz682

31501885

5566506

PMC7703786

30.

Alsentzer

墨菲

Boag

翁

Jindi

瑙曼

麦克德莫特

米

公开的临床BERT嵌入

2019

第二届临床自然语言处理研讨会论文集

2019年6月7日

明尼阿波利斯，明尼苏达州，美国

72 78

10.18653 / v1 / w19 - 1909

阮

一个

BERTweet:一个预先训练的英语推文语言模型

2020

2020年自然语言处理经验方法会议论文集:系统演示

2020年11月16日至20日

在线

9 14

10.18653 / v1/2020.emnlp-demos.2

行李搬运工人

曼氏金融

后缀剥离算法

程序:电子图书馆和信息系统 1980 14 3. 130 137

10.1108 / eb046814