这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息,到https://medinform.www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。
活体肾脏捐赠目前约占所有肾脏捐赠的四分之一。存在一些阻碍潜在捐赠者捐赠的障碍,例如医疗上的不合格和与捐赠相关的费用。更好地了解活体捐赠的观念和障碍,可以促进制定有效的政策、教育机会和外展战略,并可能导致活体肾脏捐赠数量的增加。先前的研究主要集中在对捐赠过程有过接触的一小部分人的看法和障碍上。在以往的研究中,公众的观点很少得到体现。
目前的研究设计了一种网络抓取方法和机器学习算法,用于从各种在线来源收集和分类评论。结果数据集已在公共领域提供,以促进对这一主题的进一步调查。
我们使用基于python的网络抓取工具从《纽约时报》、YouTube、Twitter和Reddit上收集评论。我们开发了一套指导方针,用于创建训练数据和手动分类评论,无论是否与活体器官捐赠有关。然后,我们使用深度学习对剩余的评论进行分类。
从上述来源共收集了203,219条独特评论。深度神经网络模型对测试数据的准确率为84%。进一步验证预测发现实际准确率为63%。最终的数据库包含11027条被归类为与活体肾脏捐赠有关的评论。
目前的研究为更全面地分析关于活体肾脏捐赠的认知、误解和感受奠定了基础。网络抓取和机器学习分类器是收集和审查公众对活体肾脏捐赠意见的有效方法。
肾移植是终末期肾病(ESRD)患者的金标准治疗方法[
一些研究使用定性方法来确定肾脏捐赠的可能障碍。这些研究已经确定了几个可以影响生前和死者捐赠决策的因素,包括卫生保健专业人员(HCPs)的社会影响[
此外,这些数据通常来自已经参与捐赠过程的受访者的小样本,或者来自单个移植中心的数据分析。因此,提取的数据主要仅代表那些有直接活体捐赠经验的人。公众对捐赠可能感到好奇或有误解,但没有直接的捐赠经验,因此很少有代表。通过利用网上大量的意见和评论,这项研究向更好地了解公众对活体捐赠的看法迈出了一步。至少还有一项研究利用社交媒体上的评论来调查人们对器官捐赠的态度。Jiang等[
本研究的具体贡献是探索一种机器学习分类器,用于收集和分析由互联网用户编写并从多个公共来源收集的标记评论的大型数据库。这些评论反映了用户对活体肾脏捐赠(LKD)的想法、感受和关注。作者根据要求提供了这个数据库,以便研究这个主题的研究人员可以使用这些信息进行进一步的分析。目前的研究还检查和讨论了预测的质量,突出了关于机器分类的特定困难领域,以进一步改进。
首先收集和处理评论(数据处理阶段)。然后对一小部分进行手动分类(注释和标记)以用作训练数据(注释阶段)。然后将训练数据用于开发机器学习模型,该模型可以自动完成大量数据的分类过程(建模阶段)。
我们通过收集、过滤和清理数据的过程来创建数据集[
训练和测试数据的特点。
源 | 训练数据(N=934) | 检验数据(N=240) |
《纽约时报》评论,n (%) | 312 (33.5) | 83 (34.5) |
推文,n (%) | 622 (66.5) | 157 (65.4) |
每条评论平均字数,n | 63.2 | 64.4 |
每条评论的最大字数,n | 380 | 381 |
每条评论的最小字数,n | 2 | 3. |
训练数据的词频和分布。
测试数据的词频和分布。
为了使从网络下载评论的过程自动化,我们使用了Pushshift。Reddit的io服务,YouTube的Selenium,以及Twitter和《纽约时报》的应用程序编程接口(api)。对于每个网络资源,我们使用的搜索词旨在捕获与LKD相关的内容,同时也排除了不需要的内容(如政治筹款,否则会出现在搜索词“捐赠”中)。有关此排除过程的更多详细信息,请参见
日期范围和评论数量的摘要(N=203,219)。
源 | 日期范围 | 独特评论,n |
推特 | 2020年10月- 2021年4月 | 148662年 |
2010年1月- 2021年4月 | 43382年 | |
纽约时报 | 2008年1月至2021年4月 | 6559 |
YouTube | 2005年2月- 2021年4月 | 4616 |
训练数据的人工标注是本研究的重要任务之一。这个分类标签的目的是确定一个给定的评论是否与活体器官捐赠有关。注释团队处理了1174个随机选择的注释,并确定了每个注释应该如何分类。在这个阶段,我们假设来自每个来源的每条评论都具有相同的权重。这个过程开始于3个注释者合作对一组403条评论进行分类,目的是就如何对评论进行分类达成一致。剩下的771条评论在决策标准更彻底地建立之后进行分类(最终标准将在下一节中描述)。
注释从一个简单的想法开始:捕获提到LKD的注释。但是,人类语言的复杂现实很少简单到可以轻易分类,而且存在很多细微差别。例如,我们是否可以假设一个人对死者捐赠的看法会延续到他们对活体捐赠的看法上?对与LKD相关的政策发表意见的人,即使没有说自己是否会捐款,应该如何分类呢?为了克服这个障碍,每个注释者都获得了一组分类标准,以确定是否应该将注释分类为“相关”。
即使有了明确定义的分类标准,注释团队在对许多注释达成一致意见时仍然遇到了很大的困难。在第一阶段的注释中,需要注释的403条评论中,有124条没有被一致分类。在团队讨论不同意见时,出现了一些指导原则。首先,虽然明确提到器官销售和非法器官交易的评论被排除在外,但标准扩大到允许大多数涉及器官捐赠成本或财务相关政策的其他评论。
第二个原则是改变最初鼓励注释者在不确定和含糊的情况下选择“yes”的立场,而只在他们有信心这样做时选择“yes”。最后一个标准是澄清每个注释必须被视为独立于所有其他数据,并且人类注释者不应该考虑更大的上下文(即讨论中的其他注释)或进行推断。最后的调整代表了人类学习方式与机器学习方式的重要区别。重要的是要注意,这些标准迫使我们排除最终可能有意义的数据,以便为整个模型获得更好的性能。说明决策标准过程的流程图见
训练数据人工标注的分类标准。LKD:活体肾脏捐赠。
我们开发了一个深度神经网络来对剩余的评论进行自动分类(
神经网络架构。NYT:纽约时报;RNN:循环神经网络。
神经网络参数及相应的实验值。
参数 | 范围 |
断层面 | 字,字符 |
嵌入层尺寸 | 500、600、700、1204、2048 |
隐藏层尺寸 | 20、30、50、100、150、200、400、500、600 |
学习速率 | 0.01, 0.001, 0.0001, 0.00001, 0.000001 |
批量大小 | 8、16、32、64、128 |
在分析文本之前,对文档进行清理和规范化。这种文本处理的目的是将有意义的词从噪声中分离出来。这包括删除奇怪的字符(例如,¬和±),HTML标签,url,不必要的重复字符(“please”到“please”),数字字符组合(“401k”),调整缩写(“I 've”到“I have”)和表情符号。单词也被移除,这样词根相同但后缀不同的单词(如“donate”、“donation”和“donation”)将被视为同一个单词(变成“donat”)。
在此阶段还执行了标记化。标记化是将句子分成更小的部分(如单词和字符)的过程。单词级标记是由单词之间的空格决定的分割,字符级标记是根据字符长度将单词划分为不同部分的过程。例如,我们从单词“Medicare”创建了8个额外的令牌,如下所示
由于神经网络不能处理文本,我们需要一个层将词汇层转换为数字,这个过程称为嵌入。有几种技术可以实现这种转换,例如Google的Word2Vec [
我们将神经网络架构定义为两层:隐藏层(发生转换的地方)和输出层(决定最终分类的地方)。隐藏层由由长短期记忆单元构建的递归神经网络节点组成[
单词和字符标记化的说明。
我们使用嵌套的K-fold验证过程来保证必要的模型通用性[
数据训练实验的结构。
用于评价分类模型性能的指标是精度(P)、召回率(R)和F1分数。这些指标的计算在等式1、2和3中得到了解释,其中相关的评论被视为正评论,而不相关的评论被视为负评论。使用以下符号:真阳性(TP),真阴性(TN),假阳性(FP),假阴性(FN)。
精确度度量度量在所有被模型分类为相关的评论中,有多少相关评论被正确分类。另一方面,召回度量表明在标注过程标记为相关的所有注释中,有多少注释被正确分类。要选择一个获胜的模型,precision和recall的值都应该接近1。F1分数是准确率和召回率的调和平均值;这种度量提供了一种模型泛化的感觉。准确率(公式4)是所有分类中正确分类的数量。
在为模型识别出满意的超参数后,使用该模型对完整的数据集进行自动分类。为了验证自动结果的质量,对每个预测结果(即“相关”和“不相关”)随机阅读912条评论(纽约时报219条,Reddit 222条,Twitter 187条,YouTube 284条),并给出一个指标,以根据“处理歧义和其他复杂性”一节中描述的分类标准确定分类是否正确。假阳性(即错误预测相关的评论)被进一步标记,以识别分类器使用中描述的类别所犯的错误
对误报错误类型的描述。
分类器错误类型 | 描述 |
已故的捐赠 | 评论集中在已故肾脏捐赠而不是生前肾脏捐赠上 |
修辞格 | 评论使用诸如“我愿意捐一个肾”之类的短语作为修辞或开玩笑的方式 |
信息不足 | 评论的语言过于模糊,无法清楚地确定其与活体肾脏捐赠的关系 |
无关紧要的 | 评论完全与活体肾脏捐赠无关(更多信息见讨论部分) |
肾结石 | 评论提到了肾结石,但没有提到活体肾脏捐献 |
非生前肾脏捐赠政策 | 评论表达了对肾脏捐赠相关政策的意见,如选择退出与选择加入或肾脏销售合法化,但没有说明这些政策如何影响评论者的个人捐赠决定 |
受体,透析,或肾衰竭 | 评论讨论了潜在肾脏受体的具体挑战(或从角度来看),如肾衰竭和透析;没有关于活体肾脏捐赠的信息 |
卖或钱 | 评论讨论了肾脏的货币价值(特别不要用作比喻或开玩笑)。 |
路易斯维尔大学机构审查委员会为这项研究提供了批准豁免(22.0458)。
在本节中,我们将展示分析的定量结果。使用以下模型超参数实现了84%的测试准确率:10个字符图标记化,700个嵌入层,8个批次大小,50个隐藏层,学习率为0.00001。此外,在测试数据中,准确率、召回率和F1得分均达到84%。一旦神经网络被训练到达到上述结果,它就被用来对剩余的评论进行自动分类。这产生了11027条相关评论和192192条不相关评论。进一步评估预测值的结果,如“机器分类评论的评估”一节所讨论的,显示在
分类后数据敏感性和特异性的总结结果。
来源 | 假阳性(N=576) | 真阳性(N=336) | 假阴性(N=100) | 真阴性(N=812) |
《纽约时报》,n (%) | 107 (18.6) | 112 (33.3) | 19 (19) | 200 (24.6) |
Reddit, n (%) | 146 (25.3) | 76 (22.6) | 27日(27) | 195 (24) |
推特,n (%) | 159 (27.6) | 28日(8.3) | 7 (7) | 180 (22.2) |
YouTube, n (%) | 164 (28.5) | 120 (35.7) | 47 (47) | 237 (29.2) |
F1宏、精度、召回率和分类后数据准确性的总结结果。
来源 | F1宏观(评论总分60.2%),% | 准确率(评论总分36.8%),% | 召回率(评论总分77.1%),% | 正确率(评论总分62.9%),% |
纽约时报 | 70 | 51.1 | 85.5 | 60.7 |
58 | 34.2 | 73.8 | 47.1 | |
推特 | 46.8 | 46.8 | 15 | 46.8 |
YouTube | 61.2 | 61.2 | 42.3 | 46.2 |
按来源统计错误类型。
假阳性 | 纽约时报(N=107) | Reddit (N = 146) | Twitter (N = 159) | YouTube (N = 164) | 总(N = 576) |
死者捐赠,n | 16 | 10 | 0 | 10 | 27 |
修辞格,名词 | 0 | 2 | 43 | 3. | 48 |
信息不足,n | 9 | 39 | 6 | 15 | 69 |
无关紧要,n | 39 | 80 | 60 | 114 | 293 |
肾结石,n | 0 | 0 | 15 | 0 | 15 |
非生前肾脏捐赠政策 | 25 | 4 | 0 | 2 | 31 |
受体,透析或肾衰竭,名词 | 17 | 9 | 23 | 27 | 76 |
卖或钱,名词 | 1 | 2 | 12 | 2 | 17 |
我们观察到,在相关类别的336条评论中,有107条(32.3%)是关于个人关系的主题
纽约时报、Reddit、YouTube、Twitter和聚合评论的混淆矩阵。从左上角开始顺时针,混淆矩阵的每个象限显示真阴性、假阳性、真阳性和假阴性。理想的模型将产生左上角和右下角的象限,其颜色与高值(亮黄色)相关联,而右上角和左下角的象限的颜色与低值(非常深的紫色)相关联。纽约时报:纽约时报。
最常见的两类错误分类,并附有示例评论。经过预处理后,注释“按原样”显示。
来源/类别 | 例子的评论 | |
|
||
|
非活体肾脏捐赠政策(25/107错误分类评论) | "让器官捐赠成为一个选择退出的过程而不是选择加入怎么样每个人都自动成为器官捐赠者除非他们选择退出一些欧洲国家在这方面做得很成功" |
|
接受者、透析或肾衰竭(17/107错误分类评论) | "我妈妈做了多年的透析在我18岁的时候去世了我看到她经历了什么我永远不会做透析我会处理好我的事情让我和上帝和平相处然后慢慢消失" |
|
||
|
信息不足(39/146错误分类评论) | “这真的很糟糕,但在那个年龄,我甚至不会给我奶奶买一个,甚至可能不会被推荐。” |
|
死者捐赠(10/146错误分类评论) | "重点是,当你死了你就死了无论如何都要在捐献名单上做一件正确的事任何人都无法改变这一点在我看来没有理由不成为捐献者" |
|
||
|
修辞(43/159错误分类的评论) | “即使要卖掉我的肾,我也要去” |
|
接受者、透析或肾衰竭(23/159错误分类评论) | “当好事发生在好人身上时,我朋友的丈夫终于得到了一个肾脏。” |
|
肾结石(15/159);这个类别是Twitter独有的) | “我不知道是不是肾结石,我所知道的是,我已经好几天没有好转了,我以为我可能拉伤了肌肉,但这肯定不是肌肉痛。” |
|
||
|
接受者,透析或肾衰竭(27/164错误分类评论) | “我已经做了将近一年的透析了,我下周要去做评估,这个过程让我很害怕,很难,但我非常想做,我愿意做任何事情来恢复正常。” |
|
信息不足(15/164错误分类的评论) | “对这个人的敬意,我希望有一天我能有勇气做这样的事情。” |
这项研究证实,从互联网上获得的评论可以提供对活体捐赠的普遍看法的数据。我们训练的模型识别了11027条与LKD相关的评论和192192条与LKD无关的评论。上面,我们给出了错误分类的注释的示例分布及其相关的错误类型。评论中有大量的细微差别和微妙之处,可能会导致人类分类器的混淆,进一步增加机器分类器的难度。
许多用户发表评论,表达了他们对当前政策的看法。尽管在如何做到这一点上存在分歧,但几乎所有的用户都支持让器官和移植更容易获得。当指定的或过去的器官捐赠者面临器官需求时,他们明显支持一项政策,给予优先或优先。在赔偿捐赠费用方面,也经常看到有关器官买卖合法化的谈话。这两个方面主要是关于利用弱势群体和对道德市场自我监管的信心。从中检索评论的各种来源提供了不同类型的评论。包含政策观点的评论最有可能从《纽约时报》上检索到,尽管它们在Reddit上也很常见。在《纽约时报》和YouTube的评论中,也有一些人或他们的配偶曾经是活体捐赠者。
Twitter的字符限制特性意味着全面的想法不太可能被捕捉到。推特上也更有可能出现人们要求捐赠或为需要器官的亲人提供支持的评论。YouTube上有意义的评论往往来自以前有过移植经验的人,无论是作为患者还是捐赠者。虽然Reddit上的许多评论没什么用处,但Reddit上的“问我任何问题”(AMA)版块提供了名副其实的信息宝库。有些帖子是由无私捐赠的人写的,他们邀请人们参加“AMA”。与我们遇到的任何其他形式相比,这种形式似乎产生了最深思熟虑的问题、担忧,甚至是对这些担忧的解决方案(套用一位这样的人在了解到为捐赠者所爱的人提供代金券系统时的说法:“我以前考虑过这样做,但实际上从未[做过]任何事情。这激发了我报名参加。谢谢!”)。
尽管许多用户对此表示肯定,但也有一些用户持怀疑态度。一位这样的用户表示:“活体捐献者的风险也被低估了……人们对充当活体捐赠者感到内疚,结果却发现自己面临着更大的风险。”其他人写了关于医疗系统令人沮丧的经历或其他担忧,但我们没有在评论中发现任何明显的错误观点。缺乏信息比拥有错误信息更为常见。
为了有效地从网络上的评论和意见中编译相关信息,我们使用了经过特定标准驱动分类标签训练的深度神经网络。通过这种方法,我们能够开发出一个模型,该模型可以识别与LKD相关的评论,预期准确率为84%。虽然还需要进一步的工作来完善这些结果,并根据相关因素对这些相关评论进行分类,但第一阶段的分类表明,该方法可能成为提取与活体捐赠障碍和动机相关主题的有价值的工具。由于这个主题是如此微妙,训练数据的良好定义的分类标准将是开发成功模型的重要组成部分。让多人协作进行训练数据注释以确保一致性是至关重要的。如果没有这些措施,这种方法的可行性就变得不那么确定。
我们注意到,在某种程度上,被归类为不相关的大量评论是意料之中的。我们提出以下原因来解释为什么我们的模型错误地将不相关的评论分类为与LKD相关:首先,与分类的评论总数(1174/203,219)相比,训练数据的大小相对较小。我们预计,有了更多(和更多正确标记的)训练数据,该模型将产生更好的预测。其次,基于神经网络的模型往往有泛化误差,有时被识别为间隙[
对于死者的肾脏捐赠,有一些研究利用现代计算机科学方法来分析与肾脏捐赠相关的动机和挑战。最近的一项研究[
通过对训练数据进行人工分类的过程,我们观察到几乎所有上述文献中提到的障碍,以及模式的早期指标。例如,数据表明,评论中最常见的因素与对潜在捐助者的潜在影响直接相关:考虑到捐赠的直接成本和风险,以及这种决定对与捐助者关系密切的人的后果。更广泛的影响,如文化和信仰体系,家庭成员的影响,以及对医疗系统的看法,与生前捐赠相关的决定关系不大,而与死者捐赠相关的决定关系更大。在我们手工标记的数据中,我们没有观察到HCPs作为影响潜在捐赠者决定捐赠的因素的影响。先前的研究表明,HCPs导致的捐献障碍包括,例如,移植和透析团队之间缺乏沟通,HCPs之间缺乏培训和信息,以及一些HCPs对LKD持消极态度[
我们的研究还认识到,评论的内容和质量在很大程度上取决于它们被检索的位置。Reddit的ama邀请人们提出任何问题,由亲身经历过这个过程的人来回答。这种特殊资源的不足之处在于,只有少数来自活体肾脏捐赠者的ama。《纽约时报》的评论更依赖于所附文章的内容,没有与作者对话,更有利于政策辩论,而不是回答好奇的潜在捐助者的问题。进一步的分析可能会让我们更深入地了解什么样的互联网资源能产生最有意义的信息。
这些收集到的数据为LKD的研究提供了一些机会。这些数据可以用于更复杂的分析,例如主题建模和聚类,目的是检测多源数据集中的障碍和动机。未来的工作可能会考虑以下方面:代替第一阶段的二元分类,考虑4种分类可能是有益的,例如“不相关的”、“与接受者相关的”、“死者捐赠”和“与lkd相关的”。由于死者捐赠和接受者相关的问题通常与有关政策的对话交织在一起,这种识别也可能有助于减轻这些主题的错误分类,并减少完全无关的评论的数量,这些评论被错误地归类为相关的。其他方法,如多任务学习模型,可以根据媒体来源对评论进行预测,而不需要为每个来源建立独立的模型。
此外,我们假设每个评论都应该独立阅读,以帮助模型分类。然而,有时在注释之间保持关联是可能的。例如,在Reddit中,每个评论都有一个ID,如果它是一个回复,则有一个父ID将其连接到用户正在回复的原始评论。通过使用这种关联,独立性的假设可能就没有必要了,因为可以更好地理解评论是在LKD上下文中写的(或没有写的)。这可能有助于减少评论的数量,这些评论本身没有足够的信息来确定它们与LKD的相关性(“信息不足”)。
我们观察到很少有神话或明显错误的想法的传播。在讨论死者捐赠(即与LKD无关)的评论中,有一些愤世嫉俗的评论认为,医生可能会减少对垂死病人的拯救努力,以便尽快获得器官。虽然在一些相关评论中出现了对个人经历的玩世不恭或沮丧,但对LKD的误解通常嵌套在恐惧或担忧的表达中(例如,“捐赠风险”类别)。我们认为,用户更有可能没有(或很少)关于LKD的信息,而不是有不正确的信息。这些评论普遍表明,人们对LKD很好奇,很容易提出问题,并希望就如何增加活体捐赠者的数量提出建议。
我们也承认可以向训练数据中添加更多的注释,因为标注注释过程的耗时特性导致了标注注释的给定数量。在这项探索性研究中,我们的重点是通过人工注释过程估计必要的样本量,并首次定义可能的标签。有标签的评论可根据作者的要求提供。最后,我们承认这些数据不一定代表所有人群。虽然互联网接入在全球范围内不断扩大,但用户的分布并不均匀,每个来源都有不同的用户基础。例如,根据《2022年全球数字概览报告》[
我们非常需要了解人们选择或不选择活体肾脏捐献者的原因。尽管先前的文献对理解捐赠的背景做出了贡献,但没有公开的数据集,其中包含有关更广泛人群对此事的想法的信息。该项目通过抓取203219条独特的互联网用户评论和推文,并开发一个机器学习分类模型来识别与LKD相关的评论,为填补这一空白迈出了一步。归类为与LKD相关的文件被汇编成一个单一的数据库,并可应作者的要求提供。有了这个数据库,为更全面地分析人们对LKD的感受和想法奠定了基础。这些数据还可以用来识别关于捐赠的常见误解或可能导致改变想法的信息。虽然对决策因素的严格分类仍有待执行,但本研究的结果表明,机器学习是捕获和分类与LKD相关的互联网评论的有前途的工具。
有关数据收集过程的其他详细信息。
关于使用神经网络分类器的附加信息。
关于预测数据评估的附加信息。
人工智能
问我任何问题
应用程序编程接口
终末期肾病
假阴性
假阳性
卫生保健专业人员
活体肾脏捐赠
纽约时报
精度
回忆
真正的负
真阳性
这项研究的资金来自路易斯维尔大学研究与创新执行副校长办公室的内部拨款,跨学科/多学科合作研究计划拨款(拨款54152)。这项研究也得到了美国国家科学基金会(EAGER: ISN:/1838306)和路易斯维尔大学物流与配送研究所的部分资助。
没有宣布。