发表在第5卷第3期(2022):7月至9月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/39547,首次出版
自动识别Twitter用户干预支持痴呆家庭照顾者:注释数据集和基准分类模型

自动识别Twitter用户干预支持痴呆家庭照顾者:注释数据集和基准分类模型

自动识别Twitter用户干预支持痴呆家庭照顾者:注释数据集和基准分类模型

短论文

1美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院生物统计学、流行病学和信息学系

2美国加州洛杉矶雪松西奈医学中心计算生物医学系

通讯作者:

阿里·Z·克莱因博士

生物统计、流行病学和信息学系“,

佩雷尔曼医学院

宾夕法尼亚大学

布洛克利厅,四楼。

423监护人Dr。

宾夕法尼亚州费城(19104年

美国

电话:1 310 423 3521

电子邮件:ariklein@pennmedicine.upenn.edu


背景:在美国,有600多万人患有阿尔茨海默病和相关的痴呆症,他们从1100多万家庭或其他非正式护理人员那里得到帮助。制定了一系列传统干预措施,以支持家庭照顾者;然而,其中大多数尚未在实践中得到实施,而且在很大程度上仍然无法实现。虽然最近的研究表明,痴呆症患者的家庭照顾者使用Twitter讨论他们的经历,但还没有开发出能够使用Twitter进行干预的方法。

摘要目的:本研究的目的是开发一个带注释的数据集和基准分类模型,用于自动识别家庭成员患有痴呆症的Twitter用户队列。

方法:在2021年5月4日至5月20日期间,我们收集了8846名用户发布的10733条推文,这些推文提到了一个与痴呆症相关的关键词、一种可能表明诊断的语言标记,以及一种选定的家庭关系。三名注释人员为每个用户随机注释一条推文,以区分那些表明家庭成员患有痴呆症的人。注释者间的一致性为0.82 (Fleiss kappa)。我们使用带注释的推文来训练和评估支持向量机和深度神经网络分类器。为了评估我们方法的可扩展性,我们随后对在2021年5月4日至2022年3月9日期间连续收集的未标记推文部署了自动分类。

结果:基于BERT(来自变压器的双向编码器表示)模型的深度神经网络分类器在推特上得到了最高的训练F1这类推文的得分为0.962(精度=0.946,召回率=0.979),表明用户的家庭成员患有痴呆症。分类器检测到在2021年5月4日至2022年3月9日期间,74290名用户发布了128,838条表明家庭成员患有痴呆症的推文,即每月约7500名用户。

结论:我们的注释数据集可以用来自动识别有痴呆症家庭成员的Twitter用户,使Twitter的大规模使用不仅可以探索家庭照顾者的经历,还可以直接针对这些用户进行干预。

JMIR Aging 2022;5(3):e39547

doi: 10.2196/39547

关键字



美国有超过600万人患有阿尔茨海默病和相关痴呆症,预计到2060年,这一负担将翻一番[1].阿尔茨海默病是美国第六大死亡原因[2],只有8%的痴呆症患者没有得到家庭成员或其他非正式护理提供者的帮助[3.],到2020年将有1100多万家庭或其他无偿照护者[4].痴呆症患者的照顾者在身体、认知、社会、精神和经济上都受到影响。例如,与不照顾他们的人相比,他们由于长期的压力更容易生病[5]而且睡眠时间和质量都较低[6].与未患痴呆症的护理人员相比,他们更有可能经历认知能力下降[7]和社交网络规模[8].与不照顾他们的人相比,他们也更有可能患上抑郁症。9]及非失智症照顾者[10],痴呆症照顾者的抑郁症状与医疗保健使用和成本增加有关[11].除了个人医疗保健费用增加外,痴呆症患者的家庭照顾者还支付接受者总护理费用的大部分,痴呆症患者的费用明显高于非痴呆症患者[12].

已制定了一系列传统干预措施,以支持痴呆症患者的家庭照顾者[13];然而,其中大多数尚未在实践中得到实施,而且在很大程度上仍然无法实现[14].最近的系统综述得出结论,基于互联网的干预措施因其易于获取而受到痴呆症患者家庭照顾者的重视[15]并可对照顾者的健康产生有益影响[16].而最近的研究[17-23]的研究表明,痴呆症患者的家庭照顾者使用Twitter来讨论他们的经历,据我们所知,还没有开发出方法来使用Twitter作为基于互联网的干预平台。考虑到美国每4个成年人中就有1个在使用推特[24], Twitter可能提供了一个大规模接触家庭护理人员的新机会,例如通过针对用户的广告提供有关痴呆症、护理、资源或服务的信息。本研究的目的是开发一个带注释的数据集和基准分类模型,用于自动识别家庭成员患有痴呆症的Twitter用户队列。


道德的考虑

本研究中使用的数据是根据Twitter服务条款收集的。宾夕法尼亚大学机构审查委员会审查了这项研究(协议号:828972),并认为它豁免了45 CFR§46.101(b)(4)对公开数据来源的人类受试者研究。

数据收集和注释

在2021年5月4日至5月20日期间,我们从推特流媒体应用程序编程接口(API)收集了67060条公开的推文,这些推文是英文的,不是转发,包括与痴呆症相关的关键词(例如,痴呆youngdementia# yod# ftd阿尔茨海默氏症alzalzheimersdisease轻度认知障碍)和一种可能表明诊断的语言标记(例如,诊断诊断得到了发达).API搜索词的完整列表可在多媒体附件1.然后我们搜索这些推文,以选择家庭关系(多媒体附件2),识别出67060条推文中的10733条(16%)。我们从每个用户的10733条推文中随机抽取一条(8846条(82%)),并制定了注释指南(多媒体),以帮助注释人员区分表明家庭成员患有痴呆症的推文和那些没有的推文。在这8846条被注释的推文中,有8346条(94%)是双重注释,500条(6%)是由3个注释者共同注释的。基于所有3名注释者注释的500条推文,注释者之间的一致性为0.82 (Fleiss kappa)。在解决分歧后,确定5946(67%)的推文表明用户有患有痴呆症的家庭成员,2900(33%)的推文没有。

自动分类

我们进行了基准监督机器学习实验,以评估带注释的数据集在自动识别家庭成员患有痴呆症的Twitter用户方面的效用。对于分类器,我们使用LibSVM [25支持向量机(SVM)在Weka中的实现,SVM和6个基于BERT(变压器双向编码器表示)的深度神经网络分类器:BERT- base - un[26],蒸馏酒基无套管[27,罗伯塔-拉吉[28], biobert - large - cases [29, Bio+ClinicalBERT [30.],和bertwitter - large [31的预训练模型天赋Python库。我们将8846条推文分为80%(7077条推文)和20%(1769条推文)随机集作为训练数据(多媒体附件4)和持有的测试数据,分别基于二进制注释类的分布进行分层。对于SVM分类器,我们通过规范化url、用户名、数字和与痴呆症相关的关键字来预处理推文(多媒体附件1)和家庭关系(多媒体附件2),删除非字母数字字符和多余的空格,以及降低大小写和词干[32文本。我们使用Weka NGram Tokenizer提取n-gram (n=1-3)作为词袋表示中的特征。我们使用径向基函数核并设置成本c= 32。对于基于bert的分类器,我们通过规范化url和用户名并将文本小写来预处理推文。对于训练,我们使用随机梯度下降优化,批次大小为8,15个epoch,学习率为0.001。在训练期间,我们使用带注释的tweet对transformer模型的所有层进行了微调。为了优化性能,在每个epoch之后,在训练集的5%分割上对模型进行评估。为了评估我们方法的可扩展性,我们随后对198,674条未标记的推文进行了自动分类,这些推文由119,640名用户发布,这些推文是从Twitter流API (多媒体附件1)在2021年5月4日至2022年3月9日之间,并提到了一种选定的家庭关系(多媒体附件2).


表1给出了精度、召回率和F1-支持向量机和6个深度神经网络分类器对表明用户有痴呆症家庭成员的推文类别的得分,在8846条手动注释推文中的1769条(20%)的测试集上进行评估。基于推文预训练模型(BERTweet-Large)的分类器达到最高F1-得分:0.962(精密度=0.946,召回率=0.979)。当部署在2021年5月4日至2022年3月9日期间由119,640名用户发布的198,674条未标记的推文上时,BERTweet分类器检测到128,838条推文表明用户有患有痴呆症的家庭成员,由74290名用户发布,即每月约7500名用户。

表2给出了BERTweet分类器在测试集中的假阳性和假阴性的例子。在68个假阳性中,36个(47%)指的是不是或可能不是选定家庭成员的痴呆症患者(推文1),8个(12%)报告家庭成员患有痴呆症以外的疾病(推文2),5个(7%)只是推测家庭成员患有痴呆症(推文3)。68个假阳性中还有8个(12%)是人工注释错误的结果。在25个假阴性中,14个(56%)使用指示语或回指,需要在推文中添加上下文来理解非第一人称限定词(例如推文4中的“their”)实际上指的是用户,或者人称代词(例如推文5中的“she”)指的是患有痴呆症的特定家庭成员。此外,这14条推文中有12条(86%)还提到了不是家庭成员或没有患痴呆症的人。25例假阴性中有4例(16%)是人工标注错误的结果。

表1。精确度,召回率,以及F 1-用于检测显示用户有痴呆症家庭成员的推文的分类器的分数。
分类器 精度 回忆 F1分数
支持向量机一个 0.884 0.939 0.910
伯特b-Base-Uncased 0.924 0.954 0.938
DistilBERT-Base-Uncased 0.930 0.942 0.936
RoBERTa-Large 0.918 0.982 0.949
BioBERT-Large-Cased 0.907 0.978 0.941
生物+ ClinicalBERT 0.903 0.958 0.930
BERTweet-Large 0.946 0.979 0.962

一个支持向量机:支持向量机。

b来自变压器的双向编码器表示。

表2。BERTweet分类器的假阳性和假阴性样本,用于检测表明用户有患有痴呆症的选定家庭成员的推文。
微博数量 推特 实际 预测
1 伊芙琳有痴呆,我知道。但是当她今天问我爸爸怎么样时…还是很疼。 - - - - - - +
2 我们真的对阿尔茨海默病的病因一无所知。我们对帕金森氏症一无所知,而我父亲也得了这种病。 - - - - - - +
3. 我听了the Caretaker乐队的《Everywhere at the End of Time》,想起了我的祖母。这些歌是关于老年痴呆症的,我奶奶没有被明确诊断出患有这种疾病,但它对我打击很大。 - - - - - - +
4 如果有人告诉你他们的父母患有老年痴呆症,请不要说你的祖父母或曾祖母也患有老年痴呆症。我很感激你能体会到这种经历,但它是如此不同。告诉我一个不同的时间。 + - - - - - -
5 我有一个很脆弱的家庭成员,还有两个快30岁的孩子。我不想冒险把病毒传染给她或从她传染给我的家人。我姐姐跟她和她的护工们闹得沸沸扬扬闹。她有老年痴呆症,所以她可能没有想我! + - - - - - -

主要研究结果

自动分类的基准性能表明,我们带注释的数据集对于准确识别家庭成员患有痴呆症的Twitter用户具有实用价值,并且对未标记的推文部署自动分类表明可以识别出大量用户。因此,我们的带注释的数据集使Twitter的使用能够扩大直接针对痴呆症患者家庭照顾者的可访问的、基于互联网的干预措施。因为我们的方法涉及识别提到家庭关系的推文,这也将使干预措施能够为护理接受者量身定制。

限制

我们识别家庭照顾者的方法假设有患有痴呆症的“近亲”可能意味着使用者参与照顾;然而,在这项研究中确定的用户可能不一定是护理人员,或者可能曾经是护理人员,但现在不再是。我们采用这种方法是因为我们相信,将我们的护理人员识别限制在那些明确表示他们正在提供持续护理的用户上,将无法充分利用Twitter大规模接触护理人员的潜力。

结论

本文提出了一种带有注释的数据集和基准分类模型,用于自动识别有痴呆症家庭成员的Twitter用户,使Twitter的大规模使用不仅可以探索家庭护理人员在推文中的经历,而且可以直接针对这些用户进行干预。

致谢

这项工作得到了国家医学图书馆的支持(R01LM011176)。作者感谢Ivan Flores对软件应用程序的贡献,以及Alexis Upshur和Aiden mcrobie - johnson对Twitter数据注释的贡献。

作者的贡献

AZK设计数据收集,编辑注释指南,进行支持向量机分类实验,进行误差分析,撰写稿件。AM进行了深度学习分类实验,部署了BERTweet分类器,并编辑了手稿。KO开发了注释指南,注释了Twitter数据,并编辑了手稿。GGH对研究进行了概念化和指导,并编辑了手稿。

利益冲突

没有宣布。

多媒体附件1

Twitter流媒体应用程序编程接口搜索词。

TXT文件,3kb

多媒体附件2

家庭成员关键字。

TXT文件,0 KB

多媒体

注释的指导方针。

PDF档案(adobepdf档案),119kb

多媒体附件4

训练数据。

TXT文件,159 KB

  1. 徐伟,许文杰,李志强,李志强,等。美国≥65岁成年人阿尔茨海默病和相关痴呆的种族和民族估计(2015-2060年)老年痴呆症2019年1月19日;15(1):17-24 [免费全文] [CrossRef] [Medline
  2. 徐娟,张晓明,张晓明。2019年美国人口死亡率调查报告。NCHS数据简报2020年12月(395):1-8。[Medline
  3. 卡斯珀JD,弗里德曼VA,斯皮尔曼BC,沃尔夫JL。痴呆症对家庭和老年人无偿护理的不成比例的影响。卫生Aff (Millwood) 2015年10月;34(10):1642-1649 [免费全文] [CrossRef] [Medline
  4. 阿尔茨海默病协会。2021年阿尔茨海默病事实和数据。老年痴呆症2021年3月17日(3):327-406。[CrossRef] [Medline
  5. Fonareva I, Oken BS。照顾痴呆症患者亲属的生理和功能后果。国际老年精神病学2014年5月;26(5):725-747 [免费全文] [CrossRef] [Medline
  6. 高C, Chapagain NY, Scullin MK.痴呆症患者护理人员的睡眠时间和睡眠质量:系统综述和荟萃分析。美国医学会网络公开赛2019年8月2日;2(8):e199891 [免费全文] [CrossRef] [Medline
  7. 达塞尔K,卡尔D,维塔利亚诺P.照顾患有痴呆症的配偶会加速认知能力下降吗?健康和退休研究的结果。老年病学2017年4月01日;57(2):319-328。[CrossRef] [Medline
  8. 刘晨,法比尤斯CD,霍华德VJ,海莉WE,罗斯DL。事件照顾者和对照组之间社会参与的变化:来自照顾过渡研究的发现。中国老年健康杂志2021年1月23日;33(1-2):114-124。[CrossRef] [Medline
  9. Ma M, Dorstyn D, Ward L, Prentice S.阿尔茨海默病和护理:一项比较初级护理人员与对照组心理健康的荟萃分析综述。老年医学健康2018年11月05日;22(11):1395-1405。[CrossRef] [Medline
  10. Sheehan O, Haley W, Howard V, Huang J, Rhodes J, Roth D.痴呆症和非痴呆症护理人员的压力、负担和幸福感:来自护理过渡研究的见解。老年学家2021年7月13日;61(5):670-679 [免费全文] [CrossRef] [Medline
  11. 朱长青,斯卡梅亚斯,Ornstein K, Albert M, Brandt J, Blacker D,等。痴呆症照顾者的医疗保健使用和成本:来自预测者照顾者研究的纵向结果。老年痴呆症2015 Apr 17;11(4):444-454 [免费全文] [CrossRef] [Medline
  12. 陈晓峰,王晓峰,王晓峰,等。居住环境和痴呆在死亡前7年的累积经济负担。中国老年医学杂志2020年6月18日;68(6):1319-1324 [免费全文] [CrossRef] [Medline
  13. Gaugler JE, Potter T, Pruinelli L.与护理人员合作。临床老年医学2014年8月30日(3):493-515。[CrossRef] [Medline
  14. Gitlin L, Marx K, Stanley I, Hodgson N.将基于证据的痴呆症护理干预转化为实践:科学状况和下一步。老年学家2015 Apr;55(2):210-226 [免费全文] [CrossRef] [Medline
  15. 李志强,李志强,李志强,等。旨在支持痴呆症患者家庭照顾者的基于互联网的干预措施:系统审查。J Med Internet Res 2018年6月12日;20(6):e216 [免费全文] [CrossRef] [Medline
  16. 冷梅,赵颖,肖华,李超,王哲。基于互联网的痴呆患者家庭照顾者支持性干预:系统综述与元分析。J Med Internet Res 2020年9月09日;22(9):e19468 [免费全文] [CrossRef] [Medline
  17. 从世界阿尔茨海默氏症日提到痴呆症的推文中,我们能了解到什么心理健康需求?J Am精神科护士协会2016年11月01日;22(6):498-503 [免费全文] [CrossRef] [Medline
  18. 丹尼洛维奇M, Tsay J, Al-Bahrani R, Choudhary A, Agrawal A. #阿尔茨海默氏症和痴呆症:推特上记忆丧失的表达。老年康复主题2018;34(1):48-53。[CrossRef
  19. 程泰,刘玲,吴伯凯。推特作为阿尔茨海默相关痴呆症认知平台的分析:推特主题分析。JMIR老化2018年12月10日;1(2):e11542 [免费全文] [CrossRef] [Medline
  20. Yoon S, Lucero R, Mittelman MS, Luchsinger JA, Bakken S.挖掘Twitter,为西班牙阿尔茨海默病和相关痴呆症护理人员的在线干预设计提供信息。Hisp Health Care Int 2020年9月24日;18(3):138-143。[CrossRef] [Medline
  21. 梅赫塔,朱林,林凯,史道明,孙文杰,等。痴呆症研究的健康论坛和Twitter:机会和考虑因素。中国老年医学杂志2020年12月07;68(12):2881-2889。[CrossRef] [Medline
  22. 巴苏J,欧康奈尔ME, Cammer A, Azizi M, Grewal K, Poole L,等。使用Twitter了解痴呆症患者的COVID-19经历:信息流行病学研究J medical Internet Res 2021 Feb 03;23(2):e26254 [免费全文] [CrossRef] [Medline
  23. 尹S, Broadwell P, Alcantara C, Davis N, Lee H, Bristol A,等。分析来自Twitter的话题和情绪,以获得见解,以改进COVID-19大流行期间阿尔茨海默病和相关痴呆症(ADRD)患者家庭护理人员的干预措施。种马健康技术通告2022年1月14日;289:170-173 [免费全文] [CrossRef] [Medline
  24. Auxier B, Anderson M. 2021年社交媒体使用情况。皮尤研究中心,2021年4月7日。URL:https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/[2022-02-25]访问
  25. 张成昌,林志杰。LIBSVM:支持向量机的库。ACM集成电路系统技术2011年4月;2(3):1-27。[CrossRef
  26. 程明,李凯,杜德林。伯特:基于深度双向转换器的语言理解预训练。2019发表于:计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文);2019年6月2日至7日;明尼阿波利斯,明尼苏达州,美国,第4171-4186页。[CrossRef
  27. Sanh V, Debut L, Chaumond J, Wolf T. DistilBERT,蒸馏版的BERTmaller,更快,更便宜,更轻。2019年发表于:第五届节能机器学习与认知计算研讨会;2019年12月13日;加拿大温哥华。
  28. 刘勇,Ott M, Goyal N,杜杰,Joshi M,陈东,等。RoBERTa:一种稳健优化的BERT预训练方法。arXiv预印本于2019年7月26日在线发布。[免费全文
  29. 李俊,尹伟,金松,金丁,金松,苏c,等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [免费全文] [CrossRef] [Medline
  30. 李文杰,李文杰,李文杰,等。公开的临床BERT嵌入。2019年发表于:第二届临床自然语言处理研讨会论文集;2019年6月7日;明尼阿波利斯,明尼苏达州,美国,第72-78页。[CrossRef
  31. Nguyen D, Vu T, Nguyen a . BERTweet:英语推文的预训练语言模型。2020年发表于:2020年自然语言处理经验方法会议论文集:系统演示;2020年11月16日至20日;在线第9-14页。[CrossRef
  32. 波特MF。后缀剥离算法。程序:电子图书馆与信息系统1980;14(3):130-137。[CrossRef


API:应用程序编程接口
伯特:来自变压器的双向编码器表示
支持向量机:支持向量机


编辑:王杰、梁涛;提交16.05.22;同行评议:K Verspoor, JW Kwon;对作者27.06.22的评论;修订版本收到08.07.22;接受08.07.22;发表16.09.22

版权

©Ari Z Klein, Arjun Magge, Karen O'Connor, Graciela Gonzalez-Hernandez。最初发表于JMIR Aging (https://aging.www.mybigtv.com), 16.09.2022。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Aging上的原创作品。必须包括完整的书目信息,https://aging.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map