本文的预印本(早期版本)可在以下网站获得https://preprints.www.mybigtv.com/preprint/39547,第一次出版
自动识别推特用户以支持痴呆家庭照顾者的干预:注释数据集和基准分类模型

自动识别推特用户以支持痴呆家庭照顾者的干预:注释数据集和基准分类模型

自动识别推特用户以支持痴呆家庭照顾者的干预:注释数据集和基准分类模型

短论文

1美国宾夕法尼亚州费城宾夕法尼亚大学佩雷尔曼医学院生物统计、流行病学和信息学学系

2计算生物医学系,Cedars-Sinai医疗中心,洛杉矶,加利福尼亚州,美国

通讯作者:

阿里·Z·克莱因博士

生物统计、流行病学和信息学学系

佩雷尔曼医学院

宾夕法尼亚大学

布洛克利大厅,四楼

423守护博士。

19104年费城,宾夕法尼亚州

美国

电话:1 310 423 3521

电子邮件:ariklein@pennmedicine.upenn.edu


背景:在美国,有600多万人患有阿尔茨海默病和相关的痴呆,他们得到了1100多万家庭或其他非正式护理人员的帮助。已经制定了一系列传统干预措施,以支持家庭照顾者;然而,其中大多数没有在实践中得到执行,基本上仍然无法实现。虽然最近的研究表明,痴呆症患者的家庭照顾者使用Twitter讨论他们的经历,但还没有开发出能够使用Twitter进行干预的方法。

摘要目的:本研究的目的是开发一个带注释的数据集和基准分类模型,用于自动识别家庭成员患有痴呆症的Twitter用户队列。

方法:在2021年5月4日至5月20日期间,我们收集了8846名用户发布的10733条推文,这些推文提到了与痴呆症相关的关键词、可能表明诊断的语言标记和特定的家庭关系。三个注释员对每个用户的一条随机推文进行注释,以区分哪些人的家庭成员患有痴呆症,哪些人没有。注释者间一致性为0.82 (Fleiss kappa)。我们使用注释推文训练和评估支持向量机和深度神经网络分类器。为了评估我们方法的可扩展性,我们对2021年5月4日至2022年3月9日期间连续收集的无标签推文部署了自动分类。

结果:基于BERT(来自变压器的双向编码器表示)模型预训练的深度神经网络分类器取得了最高的成绩F1-对于表明用户有家庭成员患有痴呆症的推文类别,其得分为0.962(精确度为0.946,召回率为0.979)。分类器检测到,在2021年5月4日至2022年3月9日期间,有74290名用户发布了128838条表明有家庭成员患有痴呆症的推文——也就是说,大约每个月有7500名用户。

结论:我们的带注释的数据集可以用来自动识别有痴呆症家庭成员的Twitter用户,使Twitter的大规模使用不仅可以探索家庭护理人员的经历,还可以直接针对这些用户进行干预。

JMIR老化2022;5 (3):e39547

doi: 10.2196/39547

关键字



美国有600多万人患有阿尔茨海默病和相关痴呆,预计到2060年,这一负担将翻一番[1].阿尔茨海默病是美国第六大死因[2],只有8%的痴呆症患者没有得到家庭成员或其他非正式护理提供者的帮助[3.],相当于2020年超过1100万家庭或其他无酬照护者[4].照顾痴呆症患者的人在身体、认知、社会、精神和经济上都受到影响。例如,与不照顾他人的人相比,他们更容易因长期压力而患病[5睡眠时间和质量都较低[6].与没有患痴呆症的照顾者相比,他们更容易经历认知能力下降[7和社交网络规模[8].与不照顾病人的人相比,他们也更有可能患上抑郁症[9]及非失智症照顾者[10痴呆护理人员的抑郁症状与卫生保健使用和费用增加有关[11].除了个人卫生保健费用增加外,老年痴呆症患者的家庭护理人员还要支付接受者的大部分护理总费用,老年痴呆症患者的费用明显高于非老年痴呆症患者[12].

已制定了一系列传统干预措施,以支持痴呆症患者的家庭照顾者[13];然而,它们中的大多数并未在实践中得到实施,在很大程度上仍然无法实现[14].最近的系统性综述得出结论,基于互联网的干预措施因其易于获取而受到痴呆症患者家庭护理人员的重视[15,对照顾者的健康有有益的影响[16].而最近的研究[17-23的研究表明,痴呆症患者的家庭照顾者使用Twitter来讨论他们的经历,但就我们所知,还没有开发出能够将Twitter用作基于互联网的干预平台的方法。鉴于在美国,每4个成年人中就有1个使用Twitter [24], Twitter可能提供了一个大规模接触家庭护理人员的新机会,例如通过针对用户的广告提供有关痴呆症、护理、资源或服务的信息。本研究的目的是开发一个带注释的数据集和基准分类模型,用于自动识别家庭成员患有痴呆症的Twitter用户队列。


道德的考虑

本研究中使用的数据是根据Twitter的服务条款收集的。宾夕法尼亚大学机构审查委员会审查了该研究(协议号:828972),认为根据45 CFR§46.101(b)(4)对公开数据来源的人体受试者研究豁免。

数据收集和标注

在2021年5月4日至5月20日期间,我们从Twitter流媒体应用程序编程接口(API)收集了67060条公开可用的推文,这些推文是英文的,不是转发的,同时包含与痴呆症相关的关键词(例如,痴呆youngdementia# yod# ftd阿尔茨海默氏症alzalzheimersdisease轻度认知障碍)和可能表明诊断的语言标记(例如,诊断诊断得到了发达).API搜索词的完整列表可在多媒体附录1.然后我们搜索这些推文,以选择家庭关系(多媒体附录2),识别出67060条推文中的10733条(16%)。我们从10,733条推文中随机抽取每个用户一条推文(8846条,82%),并制定了注释指南(多媒体附录3)来帮助3个注释者区分那些表明有家庭成员患有痴呆症的推文和那些没有的。在8846条注释推文中,8346条(94%)是双注释,500条(6%)是由3个注释者共同注释的。基于所有3个注释者注释的500条推文,注释者之间的协议为0.82 (Fleiss kappa)。在解决分歧后,确定5946条(67%)的推文表明用户的家庭成员患有痴呆症,2900条(33%)的推文没有。

自动分类

我们进行了基准监督机器学习实验,以评估带注释的数据集在自动识别家庭成员患有痴呆症的Twitter用户方面的效用。对于分类器,我们使用LibSVM [25支持向量机(SVM)在Weka中的实现,支持向量机和6个基于BERT(双向编码器表示来自变压器)的深度神经网络分类器:26], DistilBERT-Base-Uncased [27], RoBERTa-Large [28], BioBERT-Large-Cased [29],生物+ ClinicalBERT [30.和BERTweet-Large [31预先训练的模型天赋Python库。我们将8846条推文分为80%(7077条)和20%(1769条)随机集作为训练数据(多媒体附录4)和helout测试数据,分别基于二进制注释类的分布进行分层。对于支持向量机分类器,我们通过规范化url、用户名、数字和与痴呆相关的关键字来预处理推文(多媒体附录1)和家庭关系(多媒体附录2),删除非字母数字字符和额外的空格,并降低大小写和词干[32的文本。我们使用Weka NGram Tokenizer提取n-gram (n=1-3)作为单词包表示中的特征。我们使用径向基函数核,并设置成本c= 32。对于基于bert的分类器,我们通过规范化url和用户名并降低文本的大小写来预处理tweet。对于训练,我们使用了随机梯度下降优化,批次大小为8,15个周期,学习率为0.001。在训练期间,我们用注释的tweet对变压器模型的所有层进行了微调。为了优化性能,在训练集的5%分割上每个历元之后对模型进行评估。为了评估我们方法的可伸缩性,我们对119,640名用户发布的198,674条未标记tweet部署了自动分类,这些tweet是从Twitter流媒体API (多媒体附录1),并提到了一种特定的家庭关系(多媒体附录2).


表1给出了精度、召回率和F1-支持向量机(SVM)和6个深度神经网络分类器对表明用户的家庭成员患有痴呆症的推文类别的评分,通过对8846个手动注释推文中的1769个(20%)的保留测试集进行评估。基于推文预训练模型(BERTweet-Large)的分类器取得了最高的成绩F1-score: 0.962(精确度=0.946,召回率=0.979)。在2021年5月4日至2022年3月9日期间,BERTweet分类器被部署在119,640名用户发布的198,674条无标签推文上,发现有128,838条推文表明该用户的家庭成员患有痴呆症,由74290名用户发布,即大约7500名用户每月发布。

表2给出了测试集中BERTweet分类器的假阳性和假阴性的例子。在68个假阳性中,36个(47%)指的是患有痴呆症的人,他们不是或可能不是特定的家庭成员(推文1),8个(12%)报告说家庭成员患有痴呆症以外的疾病(推文2),5个(7%)只是推测家庭成员患有痴呆症(推文3)。另外8个(12%)的假阳性是手工注释错误的结果。在25个错误否定中,14个(56%)使用指示语或回指,需要在推特中添加额外的上下文来理解非第一人称限定词(如推特4中的“their”)实际上指的是用户,或人称代词(如推特5中的“she”)指的是选择的患有痴呆症的家庭成员。此外,14条推文中有12条(86%)提到了非家庭成员或没有患痴呆症的人。另外4例(16%)假阴性是人工注释错误的结果。

表1。精度、召回和F 1-用于检测用户是否有家庭成员患有痴呆症的推文的分类器的分数。
分类器 精度 回忆 F1分数
支持向量机一个 0.884 0.939 0.910
伯特b-Base-Uncased 0.924 0.954 0.938
DistilBERT-Base-Uncased 0.930 0.942 0.936
RoBERTa-Large 0.918 0.982 0.949
BioBERT-Large-Cased 0.907 0.978 0.941
生物+ ClinicalBERT 0.903 0.958 0.930
BERTweet-Large 0.946 0.979 0.962

一个支持向量机:支持向量机。

bBERT:来自变压器的双向编码器表示。

表2。BERTweet分类器的假阳性和假阴性样本,用于检测表明用户有选定的家庭成员患有痴呆症的tweet。
微博数量 推特 实际 预测
1 伊芙琳有痴呆,我知道。但是当她今天问我爸爸怎么样的时候…还疼。 - - - - - - +
2 我们真的不知道是什么导致了阿尔茨海默症。我们对帕金森氏症一无所知,这也是我父亲的死因。 - - - - - - +
3. 我听着看守人乐队的《天涯海角》,想起了我的祖母。这些歌是关于痴呆症的,我的祖母没有被明确诊断出患有这种疾病,但它给我带来了沉重的打击。 - - - - - - +
4 如果有人告诉你他们的父母患有老年痴呆症,请不要说你的祖父母或曾祖母也患有老年痴呆症。我很感激你能体会到这种经历,但它是如此的不同。告诉我另一个时间。 + - - - - - -
5 我有一个很脆弱的家庭成员和两个快30岁的孩子。我不想冒险把病毒传染给她或从她传染给我的家人。我姐姐跟她和她的护工们闹了个大闹。她有痴呆,所以她可能不会想我! + - - - - - -

主要研究结果

自动分类的基准性能表明,我们的注释数据集在准确识别家庭成员患有痴呆症的Twitter用户方面具有实用价值,在未标记的tweet上部署自动分类表明,可以识别大量用户。因此,我们的带注释的数据集能够使用Twitter扩大可访问的、基于互联网的干预,直接针对痴呆症患者的家庭护理人员。因为我们的方法涉及识别提及家庭关系的推文,这也将使干预措施能够针对护理接受者量身定制。

限制

我们识别家庭护理人员的方法假设,有“近”亲属患有痴呆症可能意味着用户参与了护理;然而,在这项研究中确定的使用者可能不一定是照顾者,或者可能曾经是照顾者但不再是。我们采用这种方法是因为我们相信,将我们对护理人员的识别限制在那些明确表示他们正在提供持续护理的用户上,将无法充分利用Twitter在大规模接触护理人员方面的潜力。

结论

本文提出了一个带注释的数据集和基准分类模型,用于自动识别家庭成员患有痴呆症的Twitter用户,使Twitter的大规模使用不仅可以探索推文中的家庭照顾者的经历,而且可以直接针对这些用户进行干预。

致谢

该研究得到了美国国家医学图书馆(R01LM011176)的支持。作者感谢Ivan Flores对软件应用的贡献,感谢Alexis Upshur和Aiden mcrorobbie - johnson对Twitter数据注释的贡献。

作者的贡献

AZK设计数据收集,编辑注释指南,进行支持向量机分类实验,进行错误分析,并撰写稿件。AM进行深度学习分类实验,部署BERTweet分类器,并编辑稿件。KO制定了注释指南,注释了Twitter数据,并编辑了手稿。GGH构思并指导了这项研究并编辑了手稿。

的利益冲突

没有宣布。

多媒体附录1

Twitter流媒体应用程序编程接口搜索词条。

TXT文件,3kb

多媒体附录2

家庭成员的关键词。

TXT文件,0 KB

多媒体附录3

注释的指导方针。

PDF档案(adobepdf档案),119kb

多媒体附录4

训练数据。

TXT文件,159 KB

  1. Matthews KA, Xu W, Gaglioti AH, Holt JB, Croft JB, Mack D,等。美国(2015-2060年)65岁以上成人中阿尔茨海默病和相关痴呆的种族和民族估计。老年痴呆症2019年1月19日;15(1):17-24 [免费的全文] [CrossRef] [Medline
  2. Kochanek K, Xu J, Arias . 2019年美国死亡率。2020年12月(395):1-8。[Medline
  3. Kasper JD, Freedman VA, Spillman BC, Wolff JL。痴呆症对家庭和老年人无偿照料的不成比例的影响。2015年10月;34(10):1642-1649 [免费的全文] [CrossRef] [Medline
  4. 阿尔茨海默病的事实和数据。老年痴呆症2021年3月17日(3):327-406。[CrossRef] [Medline
  5. Fonareva I, Oken BS。照顾痴呆症亲属的生理和功能后果。Int psychogiatr 2014 5;26(5):725-747 [免费的全文] [CrossRef] [Medline
  6. Gao C, Chapagain NY, Scullin MK.痴呆症患者护理人员的睡眠时间和睡眠质量:一项系统综述和荟萃分析。JAMA Netw Open 2019 Aug 02;2(8):e199891 [免费的全文] [CrossRef] [Medline
  7. 照顾患有痴呆的配偶会加速认知能力的下降吗?健康与退休研究的发现。老年医学2017年04月01;57(2):319-328。[CrossRef] [Medline
  8. 刘C,法比尤斯CD,霍华德VJ,海莉WE,罗斯DL。事件照护者和控制者的社会参与变化:照护过渡研究的发现。《老龄化健康杂志》2021年1月23日;33(1-2):114-124。[CrossRef] [Medline
  9. Ma M, Dorstyn D, Ward L, Prentice S.阿尔茨海默病与护理:一项比较初级护理人员与对照组心理健康的元分析综述。老龄化与健康2018年11月05;22(11):1395-1405。[CrossRef] [Medline
  10. Sheehan O, Haley W, Howard V, Huang J, Rhodes J, Roth D.痴呆症和非痴呆症照顾者的压力、负担和幸福感:来自照顾过渡研究的见解。2021年7月13日;61(5):670-679 [免费的全文] [CrossRef] [Medline
  11. 朱长武,Scarmeas N, Ornstein K, Albert M, Brandt J, Blacker D,等。痴呆症照顾者的医疗保健使用和费用:来自预测者照顾者研究的纵向结果。阿尔茨海默痴呆2015 Apr 17;11(4):444-454 [免费的全文] [CrossRef] [Medline
  12. Kelley AS, McGarry K, Bollens-Lund E, Rahman O, Husain M, Ferreira KB,等。死亡前7年的居住环境与痴呆的累积经济负担J Am Geriatr Soc 2020 Jun 18;68(6):1319-1324 [免费的全文] [CrossRef] [Medline
  13. Gaugler JE, Potter T, Pruinelli L.与护理人员合作。临床老年医学2014 Aug;30(3):493-515。[CrossRef] [Medline
  14. Gitlin L, Marx K, Stanley I, Hodgson N.将基于证据的痴呆护理干预转化为实践:科学状态和下一步。老年医学2015 Apr;55(2):210-226 [免费的全文] [CrossRef] [Medline
  15. Hopwood J, Walker N, McDonagh L, Rait G, Walters K, Iliffe S,等。旨在支持痴呆症患者家庭照顾者的基于互联网的干预措施:系统综述。J Med Internet Res 2018年6月12日;20(6):e216 [免费的全文] [CrossRef] [Medline
  16. 冷梅,赵颖,肖华,李超,王铮。基于互联网的痴呆患者家庭照顾者支持性干预:系统综述与meta分析。J Med Internet Res 2020年9月09日;22(9):e19468 [免费的全文] [CrossRef] [Medline
  17. 在世界阿尔茨海默氏症日,我们能从提到痴呆症的推特上了解到什么心理健康需求?J Am精神科护士协会2016年11月01;22(6):498-503 [免费的全文] [CrossRef] [Medline
  18. Danilovich M, Tsay J, Al-Bahrani R, Choudhary A, Agrawal A. #阿兹海默症和痴呆:推特上记忆丧失的表达。2018;34(1):48-53。[CrossRef
  19. 程泰,刘亮,吴宝凯。推特作为阿尔茨海默相关痴呆认知平台的分析:推特的专题分析。JMIR Aging 2018年12月10日;1(2):e11542 [免费的全文] [CrossRef] [Medline
  20. Yoon S, Lucero R, Mittelman MS, Luchsinger JA, Bakken S挖掘Twitter,为西班牙阿尔茨海默病和相关痴呆护理人员的在线干预设计提供信息。Hisp Health Care Int 2020年9月24日;18(3):138-143。[CrossRef] [Medline
  21. Mehta N, Zhu L, Lam K, Stall NM, Savage R, Read SH,等。痴呆症研究的健康论坛和Twitter:机会和考虑。J Am Geriatr Soc 2020 Dec 07;68(12):2881-2889。[CrossRef] [Medline
  22. Bacsu J, O'Connell ME, Cammer A, Azizi M, Grewal K, Poole L,等。使用Twitter了解痴呆症患者的COVID-19经历:信息流行病学研究。J Med Internet Res 2021 Feb 03;23(2):e26254 [免费的全文] [CrossRef] [Medline
  23. 尹s, Broadwell P, Alcantara C, Davis N, Lee H, Bristol A,等。分析推特上的话题和情绪,以获得洞见,为COVID-19大流行期间阿尔茨海默氏症和相关痴呆(ADRD)患者的家庭护理人员改进干预措施。种马健康技术通知2022年1月14日;289:170-173 [免费的全文] [CrossRef] [Medline
  24. 奥克斯尔B,安德森M. 2021年的社交媒体使用。皮尤研究中心2021年4月7日。URL:https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/[2022-02-25]访问
  25. Chang CC, Lin CJ。LIBSVM:支持向量机库。ACM系统技术会议2011年4月2(3):1-27。[CrossRef
  26. 戴福林,郑敏,李凯,Toutanova K. BERT:深度双向转换语言理解的预训练。2019年发表于:计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长短论文);2019年6月2 - 7日;美国明尼苏达州明尼阿波利斯市,第4171-4186页。[CrossRef
  27. Sanh V,登场L, Chaumond J, Wolf T. DistilBERT,蒸馏版BERTmaller,更快,更便宜,更轻。2019年出席:第五届能效机器学习与认知计算研讨会;2019年12月13日;加拿大温哥华。
  28. 刘勇,Ott M, Goyal N,杜杰,Joshi M,陈东,等。RoBERTa:一种稳健优化的BERT预训练方法。arXiv 2019年7月26日在线预印本。[免费的全文
  29. 李J, Yoon W,金,金D,金正日的年代,所以C等。BioBERT:一种预训练的生物医学语言表示模型,用于生物医学文本挖掘。生物信息学2020 Feb 15;36(4):1234-1240 [免费的全文] [CrossRef] [Medline
  30. Alsentzer E, Murphy J, Boag W,翁玮,Jindi D, Naumann T,等。公开的临床BERT嵌入。2019年发表于:第二届临床自然语言处理研讨会论文集;2019年6月7日;明尼阿波利斯,明尼苏达州,美国第72-78页。[CrossRef
  31. Nguyen D, Vu T, Nguyen a . BERTweet:预训练的英语tweet语言模型。2020年自然语言处理经验方法会议论文集:系统演示;2020年11月16 - 20日;在线9-14页。[CrossRef
  32. 波特MF。后缀剥离算法。电子图书馆与信息系统1980;14(3):130-137。[CrossRef


API:应用程序编程接口
伯特:来自变压器的双向编码器表示
支持向量机:支持向量机


王俊杰、梁涛编辑;提交16.05.22;同行评议K Verspoor, JW Kwon;对作者27.06.22的评论;修订版收到08.07.22;接受08.07.22;发表16.09.22

版权

©Ari Z Klein, Arjun Magge, Karen O'Connor, Graciela Gonzalez-Hernandez。最初发表于JMIR Aging (https://aging.www.mybigtv.com), 16.09.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是原始作品首次发表在《JMIR Aging》上,并被适当引用。必须包括完整的书目信息,https://aging.www.mybigtv.com上的原始出版物链接,以及版权和许可信息。


Baidu
map