晶澳
JMIR老化
JMIR老化
2561 - 7605
卡塔尔世界杯8强波胆分析
加拿大多伦多
v5i3e39547
36112408
10.2196/39547
短论文
短论文
自动识别Twitter用户干预支持痴呆家庭照顾者:注释数据集和基准分类模型
王
京
梁
蒂芙尼
Verspoor
卡琳
Kwon
进得了
克莱因
Ari Z
博士学位
1
生物统计、流行病学和信息学系“,
佩雷尔曼医学院
宾夕法尼亚大学
布洛克利厅,四楼。
423监护人Dr。
宾夕法尼亚州费城(19104年
美国
1 310 423 3521
ariklein@pennmedicine.upenn.edu
https://orcid.org/0000-0002-8281-3464
玛吉医生
Arjun
博士学位
1
https://orcid.org/0000-0002-4109-1346
奥康纳
凯伦
女士
1
https://orcid.org/0000-0001-7709-3813
Gonzalez-Hernandez
著
博士学位
2
https://orcid.org/0000-0002-6416-9556
1
生物统计、流行病学和信息学系“,
佩雷尔曼医学院
宾夕法尼亚大学
费城,宾夕法尼亚州
美国
2
计算生物医学系“,
西达斯西奈医疗中心
洛杉矶,加州
美国
通讯作者:Ari Z Klein
ariklein@pennmedicine.upenn.edu
Jul-Sep
2022
16
9
2022
5
3.
e39547
16
5
2022
27
6
2022
8
7
2022
8
7
2022
©Ari Z Klein, Arjun Magge, Karen O'Connor, Graciela Gonzalez-Hernandez。最初发表于JMIR Aging (https://aging.www.mybigtv.com), 16.09.2022。
2022
这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Aging上的原创作品。必须包括完整的书目信息,https://aging.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
背景
在美国,有600多万人患有阿尔茨海默病和相关的痴呆症,他们从1100多万家庭或其他非正式护理人员那里得到帮助。制定了一系列传统干预措施,以支持家庭照顾者;然而,其中大多数尚未在实践中得到实施,而且在很大程度上仍然无法实现。虽然最近的研究表明,痴呆症患者的家庭照顾者使用Twitter讨论他们的经历,但还没有开发出能够使用Twitter进行干预的方法。
客观的
本研究的目的是开发一个带注释的数据集和基准分类模型,用于自动识别家庭成员患有痴呆症的Twitter用户队列。
方法
在2021年5月4日至5月20日期间,我们收集了8846名用户发布的10733条推文,这些推文提到了一个与痴呆症相关的关键词、一种可能表明诊断的语言标记,以及一种选定的家庭关系。三名注释人员为每个用户随机注释一条推文,以区分那些表明家庭成员患有痴呆症的人。注释者间的一致性为0.82 (Fleiss kappa)。我们使用带注释的推文来训练和评估支持向量机和深度神经网络分类器。为了评估我们方法的可扩展性,我们随后对在2021年5月4日至2022年3月9日期间连续收集的未标记推文部署了自动分类。
结果
基于BERT(来自变压器的双向编码器表示)模型的深度神经网络分类器在推特上得到了最高的训练
F 1 这类推文的得分为0.962(精度=0.946,召回率=0.979),表明用户的家庭成员患有痴呆症。分类器检测到在2021年5月4日至2022年3月9日期间,74290名用户发布了128,838条表明家庭成员患有痴呆症的推文,即每月约7500名用户。
结论
我们的注释数据集可以用来自动识别有痴呆症家庭成员的Twitter用户,使Twitter的大规模使用不仅可以探索家庭照顾者的经历,还可以直接针对这些用户进行干预。
自然语言处理
社交媒体
数据挖掘
痴呆
阿尔茨海默病
护理人员
简介
美国有超过600万人患有阿尔茨海默病和相关痴呆症,预计到2060年,这一负担将翻一番[
1 ].阿尔茨海默病是美国第六大死亡原因[
2 ],只有8%的痴呆症患者没有得到家庭成员或其他非正式护理提供者的帮助[
3. ],到2020年将有1100多万家庭或其他无偿照护者[
4 ].痴呆症患者的照顾者在身体、认知、社会、精神和经济上都受到影响。例如,与不照顾他们的人相比,他们由于长期的压力更容易生病[
5 ]而且睡眠时间和质量都较低[
6 ].与未患痴呆症的护理人员相比,他们更有可能经历认知能力下降[
7 ]和社交网络规模[
8 ].与不照顾他们的人相比,他们也更有可能患上抑郁症。
9 ]及非失智症照顾者[
10 ],痴呆症照顾者的抑郁症状与医疗保健使用和成本增加有关[
11 ].除了个人医疗保健费用增加外,痴呆症患者的家庭照顾者还支付接受者总护理费用的大部分,痴呆症患者的费用明显高于非痴呆症患者[
12 ].
已制定了一系列传统干预措施,以支持痴呆症患者的家庭照顾者[
13 ];然而,其中大多数尚未在实践中得到实施,而且在很大程度上仍然无法实现[
14 ].最近的系统综述得出结论,基于互联网的干预措施因其易于获取而受到痴呆症患者家庭照顾者的重视[
15 ]并可对照顾者的健康产生有益影响[
16 ].而最近的研究[
17 -
23 ]的研究表明,痴呆症患者的家庭照顾者使用Twitter来讨论他们的经历,据我们所知,还没有开发出方法来使用Twitter作为基于互联网的干预平台。考虑到美国每4个成年人中就有1个在使用推特[
24 ], Twitter可能提供了一个大规模接触家庭护理人员的新机会,例如通过针对用户的广告提供有关痴呆症、护理、资源或服务的信息。本研究的目的是开发一个带注释的数据集和基准分类模型,用于自动识别家庭成员患有痴呆症的Twitter用户队列。
方法
道德的考虑
本研究中使用的数据是根据Twitter服务条款收集的。宾夕法尼亚大学机构审查委员会审查了这项研究(协议号:828972),并认为它豁免了45 CFR§46.101(b)(4)对公开数据来源的人类受试者研究。
数据收集和注释
在2021年5月4日至5月20日期间,我们从推特流媒体应用程序编程接口(API)收集了67060条公开的推文,这些推文是英文的,不是转发,包括与痴呆症相关的关键词(例如,
痴呆 ,
youngdementia ,
# yod ,
# ftd ,
阿尔茨海默氏症 ,
alz ,
alzheimersdisease ,
轻度认知障碍 )和一种可能表明诊断的语言标记(例如,
诊断 ,
诊断 ,
有 ,
得到了 ,
发达 ,
与 ,
从 ).API搜索词的完整列表可在
多媒体附件1 .然后我们搜索这些推文,以选择家庭关系(
多媒体附件2 ),识别出67060条推文中的10733条(16%)。我们从每个用户的10733条推文中随机抽取一条(8846条(82%)),并制定了注释指南(
多媒体 ),以帮助注释人员区分表明家庭成员患有痴呆症的推文和那些没有的推文。在这8846条被注释的推文中,有8346条(94%)是双重注释,500条(6%)是由3个注释者共同注释的。基于所有3名注释者注释的500条推文,注释者之间的一致性为0.82 (Fleiss kappa)。在解决分歧后,确定5946(67%)的推文表明用户有患有痴呆症的家庭成员,2900(33%)的推文没有。
自动分类
我们进行了基准监督机器学习实验,以评估带注释的数据集在自动识别家庭成员患有痴呆症的Twitter用户方面的效用。对于分类器,我们使用LibSVM [
25 支持向量机(SVM)在Weka中的实现,SVM和6个基于BERT(变压器双向编码器表示)的深度神经网络分类器:BERT- base - un[
26 ],蒸馏酒基无套管[
27 ,罗伯塔-拉吉[
28 ], biobert - large - cases [
29 , Bio+ClinicalBERT [
30. ],和bertwitter - large [
31 的预训练模型
天赋 Python库。我们将8846条推文分为80%(7077条推文)和20%(1769条推文)随机集作为训练数据(
多媒体附件4 )和持有的测试数据,分别基于二进制注释类的分布进行分层。对于SVM分类器,我们通过规范化url、用户名、数字和与痴呆症相关的关键字来预处理推文(
多媒体附件1 )和家庭关系(
多媒体附件2 ),删除非字母数字字符和多余的空格,以及降低大小写和词干[
32 文本。我们使用Weka NGram Tokenizer提取n-gram (n=1-3)作为词袋表示中的特征。我们使用径向基函数核并设置
成本 在
c = 32。对于基于bert的分类器,我们通过规范化url和用户名并将文本小写来预处理推文。对于训练,我们使用随机梯度下降优化,批次大小为8,15个epoch,学习率为0.001。在训练期间,我们使用带注释的tweet对transformer模型的所有层进行了微调。为了优化性能,在每个epoch之后,在训练集的5%分割上对模型进行评估。为了评估我们方法的可扩展性,我们随后对198,674条未标记的推文进行了自动分类,这些推文由119,640名用户发布,这些推文是从Twitter流API (
多媒体附件1 )在2021年5月4日至2022年3月9日之间,并提到了一种选定的家庭关系(
多媒体附件2 ).
结果
表1 给出了精度、召回率和
F 1 -支持向量机和6个深度神经网络分类器对表明用户有痴呆症家庭成员的推文类别的得分,在8846条手动注释推文中的1769条(20%)的测试集上进行评估。基于推文预训练模型(BERTweet-Large)的分类器达到最高
F 1 -得分:0.962(精密度=0.946,召回率=0.979)。当部署在2021年5月4日至2022年3月9日期间由119,640名用户发布的198,674条未标记的推文上时,BERTweet分类器检测到128,838条推文表明用户有患有痴呆症的家庭成员,由74290名用户发布,即每月约7500名用户。
表2 给出了BERTweet分类器在测试集中的假阳性和假阴性的例子。在68个假阳性中,36个(47%)指的是不是或可能不是选定家庭成员的痴呆症患者(推文1),8个(12%)报告家庭成员患有痴呆症以外的疾病(推文2),5个(7%)只是推测家庭成员患有痴呆症(推文3)。68个假阳性中还有8个(12%)是人工注释错误的结果。在25个假阴性中,14个(56%)使用指示语或回指,需要在推文中添加上下文来理解非第一人称限定词(例如推文4中的“their”)实际上指的是用户,或者人称代词(例如推文5中的“she”)指的是患有痴呆症的特定家庭成员。此外,这14条推文中有12条(86%)还提到了不是家庭成员或没有患痴呆症的人。25例假阴性中有4例(16%)是人工标注错误的结果。
表1
精确度,召回率,以及
F 1 -用于检测显示用户有痴呆症家庭成员的推文的分类器的分数。
分类器
精度
回忆
F 1 分数
支持向量机一个
0.884
0.939
0.910
伯特b -Base-Uncased
0.924
0.954
0.938
DistilBERT-Base-Uncased
0.930
0.942
0.936
RoBERTa-Large
0.918
0.982
0.949
BioBERT-Large-Cased
0.907
0.978
0.941
生物+ ClinicalBERT
0.903
0.958
0.930
BERTweet-Large
0.946
0.979
0.962
一个 支持向量机:支持向量机。
b 来自变压器的双向编码器表示。
表2
BERTweet分类器的假阳性和假阴性样本,用于检测表明用户有患有痴呆症的选定家庭成员的推文。
微博数量
推特
实际
预测
1
伊芙琳有痴呆,我知道。但是当她今天问我爸爸怎么样时…还是很疼。
- - - - - -
+
2
我们真的不知道阿尔茨海默氏症的病因。我们对帕金森氏症一无所知,我父亲也得了这种病。
- - - - - -
+
3.
我听了the Caretaker乐队的《Everywhere at the End of Time》,想起了我的祖母。这些歌是关于痴呆症的,我奶奶没有被明确诊断出患有这种疾病,但它对我打击很大。
- - - - - -
+
4
如果有人告诉你他们的父母患有老年痴呆症,请不要说你的祖父母或曾祖母也患有老年痴呆症。我很感激你能体会到这种经历,但它是如此不同。告诉我一个不同的时间。
+
- - - - - -
5
我有一个很脆弱的家庭成员,还有两个快30岁的孩子。我不想冒险把病毒传染给她或从她传染给我的家人。我姐姐跟她和她的护工们闹得沸沸扬扬闹。她有老年痴呆症,所以她可能没有想我!
+
- - - - - -
讨论
主要研究结果
自动分类的基准性能表明,我们带注释的数据集对于准确识别家庭成员患有痴呆症的Twitter用户具有实用价值,并且对未标记的推文部署自动分类表明可以识别出大量用户。因此,我们的带注释的数据集使Twitter的使用能够扩大直接针对痴呆症患者家庭照顾者的可访问的、基于互联网的干预措施。因为我们的方法涉及识别提到家庭关系的推文,这也将使干预措施能够为护理接受者量身定制。
限制
我们识别家庭照顾者的方法假设有患有痴呆症的“近亲”可能意味着使用者参与照顾;然而,在这项研究中确定的用户可能不一定是护理人员,或者可能曾经是护理人员,但现在不再是。我们采用这种方法是因为我们相信,将我们的护理人员识别限制在那些明确表示他们正在提供持续护理的用户上,将无法充分利用Twitter大规模接触护理人员的潜力。
结论
本文提出了一种带有注释的数据集和基准分类模型,用于自动识别有痴呆症家庭成员的Twitter用户,使Twitter的大规模使用不仅可以探索家庭护理人员在推文中的经历,而且可以直接针对这些用户进行干预。
多媒体附件1
Twitter流媒体应用程序编程接口搜索词。
多媒体附件2
家庭成员关键字。
多媒体
注释的指导方针。
多媒体附件4
训练数据。
缩写
API
应用程序编程接口
伯特
来自变压器的双向编码器表示
支持向量机
支持向量机
这项工作得到了国家医学图书馆的支持(R01LM011176)。作者感谢Ivan Flores对软件应用程序的贡献,以及Alexis Upshur和Aiden mcrobie - johnson对Twitter数据注释的贡献。
AZK设计数据收集,编辑注释指南,进行支持向量机分类实验,进行误差分析,撰写稿件。AM进行了深度学习分类实验,部署了BERTweet分类器,并编辑了手稿。KO开发了注释指南,注释了Twitter数据,并编辑了手稿。GGH对研究进行了概念化和指导,并编辑了手稿。
没有宣布。
[
]1
马修斯
卡
徐
W
Gaglioti
啊
霍尔特
简森-巴顿
克罗夫特
简森-巴顿
麦克
D
McGuire
信用证
美国≥65岁成年人阿尔茨海默病和相关痴呆的种族和民族估计(2015-2060年
预防老年痴呆症
2019
01
19
15
1
17
24
10.1016 / j.jalz.2018.06.3063
30243772
s1552 - 5260 (18) 33252 - 7
PMC6333531
[
]2
Kochanek
K
徐
J
阿里亚斯
E
2019年美国死亡率
美国国家卫生统计中心数据概要
2020
12
395
1
8
33395387
[
]3.
卡斯帕
JD
弗里德曼
弗吉尼亚州
斯皮尔曼家的男人
公元前
沃尔夫
莱托
痴呆症对家庭和老年人无偿护理的不成比例的影响
卫生助理(米尔伍德)
2015
10
34
10
1642
9
10.1377 / hlthaff.2015.0536
26438739
34/10/1642
PMC4635557
[
]4
阿尔茨海默氏症协会
2021年阿尔茨海默病事实和数据
预防老年痴呆症
2021
03
17
3.
327
406
10.1002 / alz.12328
33756057
[
]5
Fonareva
我
奥肯
废话
照顾痴呆症患者亲属的生理和功能后果
Int Psychogeriatr
2014
05
26
5
725
47
10.1017 / S1041610214000039
24507463
S1041610214000039
PMC3975665
[
]6
高
C
Chapagain
纽约
Scullin
可
痴呆症患者护理人员的睡眠时间和睡眠质量:系统回顾和荟萃分析
美国医学会网络公开赛
2019
08
02
2
8
e199891
10.1001 / jamanetworkopen.2019.9891
31441938
2748661
PMC6714015
[
]7
Dassel
K
卡尔
D
Vitaliano
P
照顾患有痴呆症的配偶会加速认知能力下降吗?健康和退休研究的结果
老年病学家
2017
04
01
57
2
319
328
10.1093 / / gnv148表示“老人”
26582383
gnv148
[
]8
刘
C
费比乌斯
CD
霍华德
VJ
哈雷
我们
罗斯
戴斯。莱纳姆:
事件照顾者和对照组之间社会参与的变化:来自照顾过渡研究的发现
J老年健康
2021
01
23
33
1 - 2
114
124
10.1177 / 0898264320961946
32962491
[
]9
妈
米
Dorstyn
D
病房
l
普伦蒂斯
年代
阿尔茨海默病和护理:一项比较初级护理人员与对照组心理健康的荟萃分析综述
老龄化与健康
2018
11
05
22
11
1395
1405
10.1080 / 13607863.2017.1370689
28871796
[
]10
希恩
O
哈雷
W
霍华德
V
黄
J
罗兹
J
罗斯
D
痴呆症和非痴呆症照顾者的压力、负担和幸福:来自护理过渡研究的见解
老年病学家
2021
07
13
61
5
670
679
10.1093 / / gnaa108表示“老人”
32816014
5894888
PMC8276607
[
]11
朱
连续波
斯卡尔米斯
N
奥恩斯坦
K
艾伯特
米
布兰德
J
黑
D
佐野
米
斯特恩
Y
痴呆症照顾者的医疗保健使用和成本:来自预测者照顾者研究的纵向结果
预防老年痴呆症
2015
04
17
11
4
444
54
10.1016 / j.jalz.2013.12.018
24637299
s1552 - 5260 (14) 00007 - 7
PMC4164583
[
]12
凯利
作为
McGarry
K
Bollens-Lund
E
拉赫曼
O
侯赛因
米
费雷拉
KB
斯金纳
JS
居住环境和痴呆在死亡前7年的累积经济负担
美国老年医学会
2020
06
18
68
6
1319
1324
10.1111 / jgs.16414
32187655
PMC7957824
[
]13
Gaugler
我
波特
T
Pruinelli
l
与护理人员合作
临床老年医学
2014
08
30.
3.
493
515
10.1016 / j.cger.2014.04.003
25037292
s0749 - 0690 (14) 00038 - x
[
]14
Gitlin
l
马克思
K
斯坦利
我
霍奇森
N
将基于证据的痴呆症护理干预措施转化为实践:科学状况和下一步
老年病学家
2015
04
55
2
210
26
10.1093 / / gnu123表示“老人”
26035597
gnu123
PMC4542834
[
]15
霍普伍德
J
沃克
N
麦多纳
l
Rait
G
沃尔特斯
K
Iliffe
年代
罗斯
J
戴维斯
N
旨在支持痴呆症患者家庭照顾者的基于互联网的干预措施:系统审查
J医疗互联网服务
2018
06
12
20.
6
e216
10.2196 / jmir.9548
29895512
v20i6e216
PMC6019848
[
]16
愣
米
赵
Y
肖
H
李
C
王
Z
痴呆症患者家庭照顾者基于互联网的支持性干预:系统回顾和元分析
J医疗互联网服务
2020
09
09
22
9
e19468
10.2196/19468
32902388
v22i9e19468
PMC7511858
[
]17
尹
年代
从世界阿尔茨海默病日提到痴呆症的推文中,我们能了解到哪些心理健康需求?
精神科护士协会
2016
11
01
22
6
498
503
10.1177 / 1078390316663690
27803262
22/6/498
PMC5337405
[
]18
丹尼洛维奇
米
-蔡
J
Al-Bahrani
R
超
一个
Agrawal
一个
#阿尔茨海默氏症和痴呆症:推特上失忆的表达
老年康复专题
2018
34
1
48
53
10.1097 / TGR.0000000000000173
[
]19
程
泰
刘
l
吸引
汉堡王
分析Twitter作为阿尔茨海默相关痴呆症意识的平台:推文的专题分析
JMIR老化
2018
12
10
1
2
e11542
10.2196/11542
31518232
v1i2e11542
PMC6715397
[
]20.
尹
年代
Lucero
R
Mittelman
女士
Luchsinger
晶澳
巴肯
年代
挖掘Twitter,为西班牙阿尔茨海默病和相关痴呆症护理人员的在线干预设计提供信息
Hisp保健中心
2020
09
24
18
3.
138
143
10.1177 / 1540415319882777
31646904
[
]21
梅塔
N
朱
l
林
K
摊位
纳米
野蛮人
R
读
上海
吴
W
流行
P
福克纳
C
Bronskill
SE
罗森
巴勒斯坦权力机构
痴呆症研究的健康论坛和Twitter:机会和考虑因素
美国老年医学会
2020
12
07
68
12
2881
2889
10.1111 / jgs.16790
32894780
[
]22
Bacsu
J
奥康奈尔
我
凸轮
一个
阿齐兹
米
Grewal编写
K
普尔
l
绿色
年代
Sivananthan
年代
Spiteri
RJ
使用Twitter了解痴呆症患者的COVID-19经历:信息流行病学研究
J医疗互联网服务
2021
02
03
23
2
e26254
10.2196/26254
33468449
v23i2e26254
PMC7861035
[
]23
尹
年代
Broadwell
P
阿尔坎塔拉
C
戴维斯
N
李
H
布里斯托尔
一个
Tipiani
D
Nho
J
Mittelman
米
分析来自Twitter的话题和情绪,以获得见解,以改进COVID-19大流行期间阿尔茨海默病和相关痴呆症(ADRD)患者家庭护理人员的干预措施
种马健康技术通知
2022
01
14
289
170
173
10.3233 / SHTI210886
35062119
SHTI210886
PMC8830611
[
]24
Auxier
B
安德森
米
2021年社交媒体的使用情况
皮尤研究中心
2021
04
07
2022-02-25
https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/
[
]25
常
CC
林
CJ
LIBSVM:支持向量机的库
ACM Trans Intell系统技术
2011
04
2
3.
1
27
10.1145/1961189.1961199
[
]26
Devlin
J
程
米
李
K
Toutanova
K
BERT:深度双向转换器的预训练,用于语言理解
2019
2019年计算语言学协会北美分会会议记录:人类语言技术,第1卷(长论文和短论文)
2019年6月2日至7日
明尼阿波利斯,明尼苏达州,美国
4171
4186
10.18653 / v1 / n19 - 1423
[
]27
山
V
首次亮相
l
Chaumond
J
狼
T
蒸馏酒,蒸馏版的BERTmaller,更快,更便宜,更轻
2019
第五届节能机器学习与认知计算研讨会
2019年12月13日
加拿大温哥华
[
]28
刘
Y
奥特
米
Goyal
N
杜
J
Joshi
米
程ydF4y2Ba
D
莱维
O
刘易斯
米
Zettlemoyer
米
Stoyanov
V
RoBERTa:一种稳健优化的BERT预训练方法
arXiv
预印本于2019年7月26日在线发布。
[
]29
李
J
尹
W
金
年代
金
D
金
年代
所以
C
康
J
BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型
生物信息学
2020
02
15
36
4
1234
1240
10.1093 /生物信息学/ btz682
31501885
5566506
PMC7703786
[
]30.
Alsentzer
E
墨菲
J
Boag
W
翁
W
Jindi
D
瑙曼
T
麦克德莫特
米
公开的临床BERT嵌入
2019
第二届临床自然语言处理研讨会论文集
2019年6月7日
明尼阿波利斯,明尼苏达州,美国
72
78
10.18653 / v1 / w19 - 1909
[
]31
阮
D
Vu
T
阮
一个
BERTweet:一个预先训练的英语推文语言模型
2020
2020年自然语言处理经验方法会议论文集:系统演示
2020年11月16日至20日
在线
9
14
10.18653 / v1/2020.emnlp-demos.2
[
]32
行李搬运工人
曼氏金融
后缀剥离算法
程序:电子图书馆和信息系统
1980
14
3.
130
137
10.1108 / eb046814