发表在gydF4y2Ba在gydF4y2Ba24卷gydF4y2Ba第12名gydF4y2Ba(2022)gydF4y2Ba: 12月gydF4y2Ba

本文的预印本(早期版本)可在gydF4y2Bahttps://preprints.www.mybigtv.com/preprint/38859gydF4y2Ba,首次出版gydF4y2Ba.gydF4y2Ba
使用结构化和非结构化数据预测临床试验的发表:模型开发和验证研究gydF4y2Ba

使用结构化和非结构化数据预测临床试验的发表:模型开发和验证研究gydF4y2Ba

使用结构化和非结构化数据预测临床试验的发表:模型开发和验证研究gydF4y2Ba

原始论文gydF4y2Ba

1gydF4y2Ba墨尔本大学计算与信息系统学院,墨尔本,澳大利亚gydF4y2Ba

2gydF4y2Ba穆罕默德·本·扎耶德人工智能大学,阿拉伯联合酋长国阿布扎比gydF4y2Ba

3.gydF4y2BaRMIT大学计算技术学院,墨尔本,澳大利亚gydF4y2Ba

*这些作者贡献相同gydF4y2Ba

通讯作者:gydF4y2Ba

西蒙Šuster,博士gydF4y2Ba

计算机与信息系统学院“,gydF4y2Ba

墨尔本大学gydF4y2Ba

ParkvillegydF4y2Ba

墨尔本,3000gydF4y2Ba

澳大利亚gydF4y2Ba

电话:61 40834491gydF4y2Ba

电子邮件:gydF4y2Basimon.suster@unimelb.edu.augydF4y2Ba


背景:gydF4y2Ba发表已注册的临床试验是及时传播试验结果的关键步骤。然而,很大一部分已完成的临床试验从未发表,这促使人们需要分析成功或失败背后的因素。这可以为研究设计提供信息,帮助监管决策,并改善资源配置。它还可以增强我们对试验发表偏倚的理解,以及基于研究方向或结果强度的发表趋势。虽然临床试验的发表在一些描述性研究中已经在总体水平上得到了解决,但在给出单个(计划的)临床试验描述时,缺乏对试验可发表性的预测分析的研究。gydF4y2Ba

摘要目的:gydF4y2Ba我们的目标是进行一项研究,将与出版状态相关的结构化和非结构化特征结合在一个单一的预测方法中。现有的自然语言处理技术以及最近预训练的语言模型使我们能够将临床试验的文本描述中的信息合并到机器学习方法中。我们特别感兴趣的是,哪些文本特征可以提高出版结果的分类精度。gydF4y2Ba

方法:gydF4y2Ba在本研究中,我们使用来自ClinicalTrials.gov(临床试验注册库)和MEDLINE(学术期刊文章数据库)的元数据构建了一个临床试验数据集(N=76,950),其中包含已注册试验的描述及其发表结果(27,702/76,950,36%已发表,49248 /76,950,64%未发表)。这是同类中最大的数据集,我们将其作为这项工作的一部分发布。数据集中的发表结果是根据临床试验标识符从MEDLINE确定的。我们进行了描述性分析,并使用两种方法预测出版结果:具有大型领域特定语言模型的神经网络和使用文本加权词袋表示的随机森林分类器。gydF4y2Ba

结果:gydF4y2Ba首先,我们对新创建的数据集的分析证实了现有文献中关于与较高发表率相关的属性的几个发现。其次,从我们的预测模型中观察到的一个关键现象是,添加文本特征(例如,资格标准)比仅使用结构化数据提供了一致的改进(gydF4y2BaFgydF4y2Ba1gydF4y2Ba分数= 0.62 - -0.64 vsgydF4y2BaFgydF4y2Ba1gydF4y2Ba-score=0.61,无文本特征)。预训练的语言模型和更基本的基于单词的表示都提供了高效用的文本表示,两者之间没有显著的经验差异。gydF4y2Ba

结论:gydF4y2Ba不同的因素会影响已注册临床试验的发表。我们的预测建模方法结合了异构特征,包括结构化和非结构化。我们表明,来自自然语言处理的方法可以提供有效的文本特征,从而更准确地预测出版成功,这在以前的这项任务中没有被探索过。gydF4y2Ba

中国医学杂志,2018;24(12):e38859gydF4y2Ba

doi: 10.2196/38859gydF4y2Ba

关键字gydF4y2Ba



背景gydF4y2Ba

严格进行的随机对照试验提供了最高水平的科学证据,使医疗从业人员能够为患者提供更好的护理,并最终改善公共卫生。可用的、可发现的和可获取的临床研究结果对于成功地将发现转化为循证实践和进一步研究是必要的[gydF4y2Ba1gydF4y2Ba].近年来,临床试验注册的改进意味着根据各种元数据可以发现和搜索的试验比以往任何时候都要多。然而,注册并没有提供有关研究执行和结果的重要方面的详细信息,例如结果的说明和所有结果出版物的指针[gydF4y2Ba2gydF4y2Ba].由完成的临床试验产生的科学出版物提供了一种全面传播研究结果的手段,这对于支持后续的临床试验、增加研究合作的可能性以及推进医疗实践和研究至关重要[gydF4y2Ba3.gydF4y2Ba].除了研究结果外,在出版物中提供的关于研究方法的详细信息对于临床实践中评估临床证据的有效性、可靠性和适用性也至关重要[gydF4y2Ba4gydF4y2Ba].gydF4y2Ba

尽管发表很重要,但许多临床试验从未发表。试验发表率的估计值因医学领域和随访时间长短而异。总体而言,发表率在52%至77%之间[gydF4y2Ba5gydF4y2Ba-gydF4y2Ba8gydF4y2Ba].在临床试验完成后30个月的较短随访期的基础上,该比率往往较低,约为11%至46% [gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba6gydF4y2Ba,gydF4y2Ba9gydF4y2Ba].如果结果不公布、大大推迟,或根据研究结果的方向或强度有选择地公布,则卫生保健专业人员和消费者根据现有全部证据作出知情决定的能力就会受到阻碍[gydF4y2Ba10gydF4y2Ba,gydF4y2Ba11gydF4y2Ba].证据基础上的这种差距可能导致使用无效或有害的干预措施,并可能浪费稀缺的卫生保健资源。Eyding等人的一项研究[gydF4y2Ba12gydF4y2Ba研究人员发现,当荟萃分析纳入未发表的研究时,抗抑郁药瑞波西汀在治疗重度抑郁症方面的不良反应更多,但疗效并不比安慰剂更好,这与只纳入已发表的研究时的结果不同。一些研究人员也提出了更多的伦理问题[gydF4y2Ba7gydF4y2Ba,gydF4y2Ba13gydF4y2Ba],强调在不发表的情况下,试验参与者仍然面临参与的风险,但没有研究结果传播带来的社会效益。gydF4y2Ba

在这项工作中,我们通过基于大量临床试验数据集和相关文献的临床试验发表结果预测建模工具,探索影响单个临床试验结果发表的因素。采用这种方法提供了一种机制,既可以预测给定试验的发表结果,也可以确定驱动这些结果的关键因素。gydF4y2Ba

现有工作及贡献gydF4y2Ba

出版成果研究gydF4y2Ba

许多研究讨论了临床试验的发表率及其影响因素。然而,以往的研究采用不同的统计分析方法来检验研究特征与临床试验发表结果之间的关系。现有的研究分析了少量的临床试验(以数百为数量级)[gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba7gydF4y2Ba,gydF4y2Ba14gydF4y2Ba]或只纳入特定人群的临床试验(如儿童或癌症患者[gydF4y2Ba5gydF4y2Ba,gydF4y2Ba15gydF4y2Ba,gydF4y2Ba16gydF4y2Ba])。相反,在我们的工作中,我们专注于接近出版结果的建模gydF4y2Ba通过预测镜头gydF4y2Ba,尽管我们也提供了描述性分析,以更好地描述我们开发的数据集。我们的分析检查了可能影响出版结果的因素,没有任何关于人群或医学专业的限制,因此更普遍。gydF4y2Ba

许多研究集中在分析和纠正ClinicalTrials.gov和PubMed之间的链接质量[gydF4y2Ba17gydF4y2Ba-gydF4y2Ba22gydF4y2Ba].不完整链接的存在可能会阻碍测量发表和结果报告偏差的努力,并确定相关试验进行系统评价。因此,使用自然语言处理(NLP)技术对文章进行排名并允许人类扫描排名靠前的文档的半自动方法在支持有效识别临床试验出版物方面很有价值[gydF4y2Ba17gydF4y2Ba,gydF4y2Ba18gydF4y2Ba].gydF4y2Ba

影响出版的因素gydF4y2Ba

已有多种因素被确定为影响发表结果的因素,可总结如下:(1)大型临床试验和由非商业资助的临床试验更有可能被发表[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba13gydF4y2Ba,gydF4y2Ba23gydF4y2Ba];(2)行业资助的临床试验不太可能以出版物的形式出现[gydF4y2Ba7gydF4y2Ba];(3)发表可能性与研究结果的方向和意义相关[gydF4y2Ba11gydF4y2Ba,gydF4y2Ba24gydF4y2Ba],尽管将这种发表偏倚归因于期刊拒绝还是研究者缺乏时间和兴趣一直存在争议[gydF4y2Ba7gydF4y2Ba];(4)研究的进行地点可能会影响发表的机会[gydF4y2Ba23gydF4y2Ba];(5)某些领域的发表率较高,如神经病学和精神病学[gydF4y2Ba13gydF4y2Ba(在某些情况下,这可能与子领域的存在有关,例如血管神经学,小众期刊允许更容易传播[gydF4y2Ba25gydF4y2Ba]);(6)作者缺乏时间和资源,甚至合作者之间的分歧,在文献中被提到是潜在的因素[gydF4y2Ba26gydF4y2Ba]但在临床试验的描述中没有直接捕捉到,因此很难量化。gydF4y2Ba

完成状态和药物批准研究gydF4y2Ba

虽然我们不知道有任何工作在预测框架内分析可发布性,但几个相关问题已被视为分类问题[gydF4y2Ba27gydF4y2Ba-gydF4y2Ba29gydF4y2Ba].其中一项任务就是预测临床试验的完成情况。就不希望出现的后果而言,未完成可以被视为与未发表类似。一项未完成的临床试验通常仍涉及大量的财政资源,因此确保决策者在临床试验的早期阶段意识到终止或不发表的可能性是有意义的,这可能会改变研究设计。不可否认,拥有这样的预测能力意味着决策者肩负着额外的责任,考虑潜在的非发表性,并有能力解释这种预测模型的输出。还需要持续注意,以减轻模型及其使用中的潜在偏差[gydF4y2Ba30.gydF4y2Ba,gydF4y2Ba31gydF4y2Ba].gydF4y2Ba

与发表结果预测相关的另一项任务是,在临床试验中研究的药物干预是否会导致该药物获得批准。结构化数据上的机器学习(ML)已经在这种情况下进行了探索[gydF4y2Ba32gydF4y2Ba-gydF4y2Ba34gydF4y2Ba],依据与药物和试验特征有关的特征,以及与适应症有关的商业数据。罗等[gydF4y2Ba33gydF4y2Ba]提出了一个大型数据集,包括近16,000个2期试验中6000个药物指征对的批准结果。虽然这代表了将监督ML应用于药物批准的最大数据收集,但我们的任务更一般(涉及临床试验,而不需要确定药物指征对),允许我们包括更多与发表结果配对的临床试验。gydF4y2Ba

与关于发表状态的描述性研究相比,关于试验完成和药物批准的研究确实在建模中包含了来自试验描述的文本输入,这比单独使用结构化特征具有更好的敏感性和特异性[gydF4y2Ba27gydF4y2Ba,gydF4y2Ba35gydF4y2Ba].这些研究通常使用相对简单的方法来表示文本。Elkin和Zhu [gydF4y2Ba27gydF4y2Ba]包括词嵌入功能[gydF4y2Ba36gydF4y2Ba,gydF4y2Ba37gydF4y2Ba]用于预测试验完成,但只使用静态单词表示,而不是从预训练语言模型中获得的更高级的上下文化单词表示[gydF4y2Ba38gydF4y2Ba,gydF4y2Ba39gydF4y2Ba].在药物批准预测中,Feijoo等人研究了在非结构化输入数据上构建的特征[gydF4y2Ba35gydF4y2Ba他专注于预测药物在临床试验阶段的转变。作者使用简单的模式匹配来开发资格标准复杂性度量,根据纳入和排除标准的数量来定义。尽管这些标准被证明是有用的(标准的数量越多,试验失败的风险越高),但它们的表现仍然相当初级。在我们的工作中,我们使用最先进的NLP技术来包含资格标准,这些技术可以捕获资格标准的含义。gydF4y2Ba

贡献gydF4y2Ba

我们构建并提供了一个新的数据集,提供了在ClinicalTrials.gov上注册的临床试验的发表结果。这是迄今为止同类数据中最大的一组。gydF4y2Ba

在单个ML模型中使用数值、分类和文本输入特征预测临床试验的发表状态,可得到曲线下面积(AUC)为>0.7的分类性能。我们发现,注册试验的文本描述是一个重要的信息来源,并且可以有效地使用NLP技术表示。gydF4y2Ba

我们发现缺乏研究的出版在一个gydF4y2Ba预测gydF4y2Ba框架。因此,我们确认了几个已知的因素gydF4y2Ba描述性的gydF4y2Ba研究对出版结果的影响和确定gydF4y2Ba新gydF4y2Ba来自临床试验的文本描述(例如,资格标准)。我们的工作为一项技术奠定了基础,该技术将通过为给定的试验提供导致特定出版结果的突出特征,来支持试验计划和决策。这种技术如何能最大限度地使试验开发人员受益,增加其前瞻性研究的价值,应该是未来研究的主题。gydF4y2Ba


自动构造数据集gydF4y2Ba

在我们的工作中,我们使用了两个主要资源:最大的临床试验注册表ClinicalTrials.gov和MEDLINE,一个学术期刊文章的书目数据库。对于这两个数据源,我们使用了截至2020年8月研究开始时可用的XML数据转储[gydF4y2Ba40gydF4y2Ba,gydF4y2Ba41gydF4y2Ba].为了找出哪些临床试验实际上被发表了,我们采用了一个两步程序,并对每一步中发现的临床试验发表链接进行联合。第一步是识别所有直接列在临床试验注册表中的PubMed文章id。然而,由于一些临床试验缺乏这方面的信息,我们也在出版物本身中寻找临床试验相关的信息(第二步)。我们在数据库列表中找到MEDLINE中的信息,从中检索临床试验标识符,前提是数据库名称等于“clinicaltrials.gov”。要考虑一个已发表的试验,我们要求MEDLINE中至少有一个与之相关的出版物。如果一个试验有多个相关的出版物,则为每个出版物创建额外的对。gydF4y2Ba

最终结果是临床试验ID和PubMed文章ID值之间的映射(gydF4y2Batrial-publication地图gydF4y2Ba).在我们的数据集中,有相关出版物的临床试验数量为74,394个,约有275,000个临床试验没有出版物,总计约349,000个试验(数据集A)。我们在中说明了数据创建过程gydF4y2Ba图1gydF4y2Ba.我们公开了该地图,以促进关于这一主题的进一步工作。gydF4y2Ba

在我们的工作中使用的数据字段和模型特征的完整列表如表S1所示gydF4y2Ba多媒体附件1gydF4y2Ba[gydF4y2Ba42gydF4y2Ba].虽然大多数特征直接从试验文件中获得,但研究地点的数量和主要或次要结果的数量等信息并没有明确说明。因此,我们添加了这些特征,因为它们与临床试验设计有关,并且可能包含预测发表状态的重要信号。gydF4y2Ba

‎gydF4y2Ba
图1。数据集构建。gydF4y2Ba
查看此图gydF4y2Ba

我们在描述性分析和预测建模中使用的数据集(gydF4y2Ba数据集BgydF4y2Ba)是基于选择满足一些附加标准的实例。具体来说,我们过滤掉了不满足以下两个条件的数据实例:(1)研究已经开始并且已经完成gydF4y2Ba完成gydF4y2Ba,起始和结束日期已知,没有“预期”状态(由于临床试验的信息在注册后可能会多次更新,如更新登记字段,显示计划参与人数,因此完成后信息保持稳定,从而增加了代表性);和(2)gydF4y2Ba完成日期gydF4y2Ba该研究的时间晚于2006年(剔除信息不完整的较老研究),但早于我们收集数据前3年(为发表留出时间,与Jones等人类似[gydF4y2Ba7gydF4y2Ba]和罗斯等人[gydF4y2Ba3.gydF4y2Ba])。gydF4y2Ba

执行这些步骤可以大大减小数据的大小。结果数据集用于获得描述性统计。gydF4y2Ba

此外,我们还限定了研究的类型gydF4y2Ba介入gydF4y2Ba要获得用于预测建模的数据集(gydF4y2Ba数据集CgydF4y2Ba).我们决定排除观察性研究,因为它们不太常见,并且具有与介入性研究不同的几个特征。gydF4y2Ba

为了模拟预测未来试验可发表性的现实场景,我们对数据进行了分区,使测试集中所有试验的完成日期晚于训练数据集中的完成日期。这也使任务更具挑战性,因为我们可以预期在测试集中出现以前未见过的干预。最后,我们从每个试验记录中删除了在试验注册时不知道的所有特征,如试验持续时间和结果。尽管包括它们会简化预测,但也会使任务变得不那么现实。通过对比,我们注意到,在Lo等人的药品审批预测工作的相关ML任务中[gydF4y2Ba33gydF4y2Ba],作者假设临床试验的信息相同gydF4y2Ba是gydF4y2Ba可访问。由于这些特征被发现是药物批准的强预测因素,在没有这些信息的更现实的情况下,预测性能可能会受到影响。gydF4y2Ba

由于数据集C中未发表的临床试验数量远远大于已发表的临床试验数量,我们对未发表的临床试验进行了随机低抽样,用于我们的发表预测实验。我们通过对每个完成年份进行分层来进行不足抽样,每年保持积极和消极标签的大致相同百分比。注意,我们只对训练集执行了这一步,在测试集中保留了真实世界的标签偏差,再次使任务尽可能忠实于现实。gydF4y2Ba

手工构建的测试集gydF4y2Ba

前面提到的数据构建方法提供了一个大规模的数据集,允许我们使用ML模型大规模地分析和预测出版状态。然而,正如我们在文献中提到的,临床试验和出版物之间的一些联系可能是不完整的gydF4y2Ba现有工作及贡献gydF4y2Ba部分。因此,我们从先前发表的3项研究中收集了数据[gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba18gydF4y2Ba,gydF4y2Ba20.gydF4y2Ba],其中包括手动发布状态注释(参见gydF4y2Ba表1gydF4y2Ba对于统计数据)。尽管这些注释的规模小于我们自动构建的数据集,但由于人为的努力,临床试验的发表不太可能被忽视。我们使用该数据集作为额外的测试集,并在原始作者的许可下将其公开。gydF4y2Ba43gydF4y2Ba].gydF4y2Ba

表1。数据来自先前发表的研究。共有5项研究被不止一篇原创著作收录,但注释相同。因此,结果测试集的大小小于各个数据集的大小之和。gydF4y2Ba

大小gydF4y2Ba 阳性标签(“已发布”)在所有标签中的比例gydF4y2Ba
罗斯等人[gydF4y2Ba3.gydF4y2Ba]gydF4y2Ba 630gydF4y2Ba 0.54gydF4y2Ba
Zarin等[gydF4y2Ba20.gydF4y2Ba]gydF4y2Ba 148gydF4y2Ba 0.23gydF4y2Ba
邓恩等[gydF4y2Ba18gydF4y2Ba]gydF4y2Ba 199gydF4y2Ba 0.45gydF4y2Ba
结合gydF4y2Ba 972gydF4y2Ba 0.48gydF4y2Ba

建模方法gydF4y2Ba

为了研究与发表状态相关的因素,并学习预测临床试验是否可能被发表,我们为我们的模型创建了3种类型的特征:数值特征、分类特征(两者都可以被视为结构化输入)和文本特征。文本特征编码了丰富的信息,这些信息增强了结构化信息,并有可能改进预测建模,但它们也可能更嘈杂。可以指示发布状态的文本字段的一个示例是包含和排除标准。Elkin和Zhu指出,资格标准、样本量、显著效应和发表状态之间可能存在联系[gydF4y2Ba27gydF4y2Ba].NLP技术允许我们在预测模型中提取和表示这些信息,并突出显示哪些文本特征是重要的。gydF4y2Ba

作为一个简单的基线,我们使用了一个k近邻分类器,它只使用数字和分类特征(没有基于文本的特征)。在测试时,分类器预测其中的优势标签gydF4y2BakgydF4y2Ba在欧几里得距离方面最接近测试实例的训练实例。通过对各种值的随机搜索gydF4y2BakgydF4y2Ba,我们决定gydF4y2BakgydF4y2Ba= 460。gydF4y2Ba

我们训练并评估了2个包含文本特征的不同模型:随机森林(RF)分类器和神经网络(NN)。gydF4y2Ba

对于射频,包含文本输入的标准方法是将它们转换为数字字向量,同时提取字母和字母。这些术语使用术语频率-文档频率逆(Schütze等[gydF4y2Ba44gydF4y2Ba]),其中一个术语在文档中的出现频率除以该术语在数据集中出现的文档的比例,再除以常用术语的权重。我们通过选择2万个最常用的词汇来设置词汇的阈值。我们使用单热编码方法来表示分类特征,并在没有额外调整的情况下包含数值特征。我们报告其他射频细节gydF4y2Ba多媒体附件2gydF4y2Ba.gydF4y2Ba

在神经网络中,使用在训练过程中随机初始化和更新的权重矩阵嵌入分类特征。文本输入(示例包含在gydF4y2Ba表2gydF4y2Ba)是使用预训练的语言模型嵌入的,该语言模型输出与上下文相关的令牌激活[gydF4y2Ba39gydF4y2Ba],下文将更详细地解释。gydF4y2Ba

表2。从临床试验元数据中选择的文本特征的例子。gydF4y2Ba
特性名称和标识符gydF4y2Ba 原文摘录gydF4y2Ba
简短的标题gydF4y2Ba

NCT01309919gydF4y2Ba 产后IUD放置后的出血模式和并发症:一项初步研究gydF4y2Ba

NCT00230971gydF4y2Ba 替加环素与头孢曲松钠联合甲硝唑治疗并发腹腔内感染的比较研究gydF4y2Ba

NCT01364948gydF4y2Ba 椰子油在减少早产儿出生第一周皮肤水分流失(TEWL)中的作用(TopOilTewl)gydF4y2Ba
简短的总结gydF4y2Ba

NCT01309919gydF4y2Ba 该研究的目的是确定在分娩后放置左炔诺孕酮释放宫内系统(LNG - IUS,曼月乐®)的可行性。研究人员将在放置时获得有关并发症的信息;研究人员还将检查在插入后不同时间段的排出率、副作用、出血模式和受试者满意度。gydF4y2Ba

NCT00230971gydF4y2Ba 这是一项关于替加环素对cIAI住院患者头孢曲松钠加甲硝唑的安全性和有效性的研究。受试者将通过治愈试验评估进行疗效随访。安全性评估将在治疗和治疗后期间进行,并持续到不良事件的解决或稳定。gydF4y2Ba

NCT01364948gydF4y2Ba 新生婴儿的皮肤不成熟,不能作为屏障。由于自我调节热量机制差,脂肪组织少,皮肤薄,早产儿的皮肤更容易受到环境的影响。大多数早产儿在出生后的第一周会因为皮肤水分的流失而损失高达13%的体重。新生儿学家采用了许多策略来减少水分流失。在皮肤上涂抹油可以起到不渗透的屏障作用,有助于减少皮肤水分的流失。可食用椰子油通常被印度社区用于婴儿的传统按摩,在文化上是可以接受的,因此研究人员决定进行这项研究,客观地评估涂抹油后皮肤失水的减少gydF4y2Ba
入选标准gydF4y2Ba

NCT01309919gydF4y2Ba 年龄18岁或以上,会说英语或西班牙语,希望使用宫内节育器作为产后避孕(IUD臂),不希望使用宫内节育器作为避孕(仅限日志臂),计划在贝州医疗中心分娩gydF4y2Ba

NCT00230971gydF4y2Ba 临床诊断并发腹腔内感染,需在24小时内手术。发烧加上其他症状,如恶心,呕吐,腹痛gydF4y2Ba

NCT01364948gydF4y2Ba 所有在研究中心出生的出生体重为1500克的早产儿都符合纳入研究的条件。gydF4y2Ba
参与者的条件gydF4y2Ba

NCT01309919gydF4y2Ba 产后gydF4y2Ba

NCT00230971gydF4y2Ba 阑尾炎、胆囊炎、憩室炎、腹腔脓肿、腹腔感染、腹膜炎gydF4y2Ba

NCT01364948gydF4y2Ba 表皮水分流失(TEWL)gydF4y2Ba
关键字gydF4y2Ba

NCT01309919gydF4y2Ba 宫内节育器,曼月乐,左炔诺孕酮宫内节育器,产后避孕gydF4y2Ba

NCT00230971gydF4y2Ba 腹腔感染,脓肿gydF4y2Ba

NCT01364948gydF4y2Ba 早产,VLBW,椰子油应用,经皮失水,体重增加gydF4y2Ba

我们评估了使用文本特征的RF和NN分类器与不使用文本特征的RF和NN分类器的比较,其中仅使用结构化特征。gydF4y2Ba

我们选择了2种不同的编码器:变压器(BERT)的双向编码器表示[gydF4y2Ba39gydF4y2Ba],预训练一般领域的英语语料库,以及科学文本的BERT (SciBERT) [gydF4y2Ba38gydF4y2Ba],接受过生物医学领域的预培训。我们使用了和Adhikari等人相同的想法[gydF4y2Ba45gydF4y2Ba],将句子级分类级别的隐层输出作为文档的表示。此外,我们使用了最后3层的隐藏输出[gydF4y2Ba46gydF4y2Ba]作为分类器顶部密集层的输入。为了完善模型的表征能力,我们加入了2个额外的信息源:位置信息源和分段信息源。第一个是可训练的位置嵌入[gydF4y2Ba47gydF4y2Ba],每个令牌都是唯一的,添加到令牌向量中,使模型具有语序感。对于第二个,可训练的段嵌入帮助编码器区分多个独立的文本字段(表S1)gydF4y2Ba多媒体附件1gydF4y2Ba)作为一个长文本字符串传递给模型。我们发现了图S1所示的可互换段方案gydF4y2Ba多媒体附件1gydF4y2Ba工作得最好。另一种变体用不同的段嵌入表示每个文本字段,但效果不太好,尽管差异很小。此外,位置嵌入的另一种方案是,在每个文本字段中重新启动嵌入索引,从而产生类似的结果。我们从Herzig等人那里获得了灵感[gydF4y2Ba48gydF4y2Ba],他在表解析的上下文中使用位置嵌入来增强输入结构。gydF4y2Ba

原始BERT体系结构的一个限制是它只能接受最多512个令牌的序列。因此,我们需要截断超过这个限制的文本输入。我们从第一个n=512/开始gydF4y2BaTgydF4y2Ba每个字段的标记(gydF4y2BaTgydF4y2Ba是要编码的文本字段的总数)。由于一些文本字段可以更短,我们逐步提高gydF4y2BangydF4y2Ba遍历所有字段,直到达到最大令牌数量。最后,编码器的参数与我们的出版结果预测数据集上的剩余NN参数一起进行微调,最小化训练期间的交叉熵损失。gydF4y2Ba

除了在神经网络中采用标准BERT模型外,我们还研究了训练机制的两种适应:一种特殊情况下,编码器参数在训练期间保持不变(在结果表中称为“冻结”),另一种模型接收带大小写的文本作为输入(“带大小写的”;例如,之前没有小写的文本),后者是最常见的做法。最后,对于射频,我们测试了一种自适应,使用之前在文本中诱导的语言模型表示,而不是术语频率逆文档频率编码器。这些表示在整个训练和测试阶段都是固定的。gydF4y2Ba

评估的细节gydF4y2Ba

我们评估了预测性能使用gydF4y2BaFgydF4y2Ba1gydF4y2Ba-分数测量(gydF4y2BaFgydF4y2Ba1gydF4y2Ba= 2 × [P × R / (P + R)]),为精度的谐波平均值(P = TP / [TP + FP];在所有预测中,TP为真阳性,FP为假阳性)和召回率(R = TP / [TP + FN];预测已发表的试验占所有已发表试验的比例,其中FN为假阴性)。我们还报告了接收器工作特征曲线下的面积(它本身表明了在不同阈值与预测概率之间的召回率和假阳性率之间的权衡),这对于总结分类器通过单个优点数字区分类别的能力是有用的。gydF4y2Ba


描述性分析gydF4y2Ba

概述gydF4y2Ba

获得一个清晰的概念gydF4y2Ba出版速度gydF4y2Ba在我们的数据集中,我们绘制了每年发表和未发表的研究的数量,如图所示gydF4y2Ba多媒体gydF4y2Ba.我们观察到,已注册试验的数量呈单调增加(2016年注册试验数量为>万),但已发表试验的数量增长不那么强劲。对于完成年份较早的试验,发表率约为45%,而对于完成年份较晚的试验,发表率下降约10%。相比之下,现有的发表率研究报告了高度可变的发表百分比,在Huiskens等人的研究中高达77% [gydF4y2Ba6gydF4y2Ba]而Chen等人则低至11% [gydF4y2Ba9gydF4y2Ba]取决于所考虑的医疗领域和随访时间长短。gydF4y2Ba

此外,我们检查了gydF4y2Ba发布所需时间gydF4y2Ba.仅分析已发表的研究,我们发现平均发表时间为27个月。的出版时间分布gydF4y2Ba图2gydF4y2Ba.对于数量较少的试验,可能需要更长的时间才能发表,如图中右侧的长尾所示。以往的研究一般报告的时间较短,约为19至23个月[gydF4y2Ba3.gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba16gydF4y2Ba].gydF4y2Ba

分析发表时间的另一种方法是绘制一项研究在超过一段时间间隔内未发表的概率gydF4y2BatgydF4y2Ba.这里我们借用了生存分析中的一个工具,Kaplan-Meier图。通过类比,在我们的案例中,生存时间代表临床试验未发表的时间,相关事件是发表。有些个体(临床试验)可能会丢失到随访中(权利审查),这也是该方法所考虑的。我们看到gydF4y2Ba图3gydF4y2Ba在很短的时间内(例如,完成后几个月),该试验不发表的可能性仍然很高。当给予更多时间时,不发表的概率会下降,尽管即使间隔很长时间,它仍然相当高(在80个月时,它仍然是70%)。gydF4y2Ba

‎gydF4y2Ba
图2。以月为单位的出版次数分布。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图3。一个Kaplan-Meier (KM)图,表示一项试验未发表的时间(y轴)大于x轴上显示的月数的概率。gydF4y2Ba
查看此图gydF4y2Ba
发表结果与分类特征的关系gydF4y2Ba

为了分析特稿与发表结果之间的关系,我们应用卡方检验(与相关文献一致[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba14gydF4y2Ba,gydF4y2Ba16gydF4y2Ba,gydF4y2Ba23gydF4y2Ba,gydF4y2Ba49gydF4y2Ba,gydF4y2Ba50gydF4y2Ba]),但由于其对样本量的敏感性[gydF4y2Ba51gydF4y2Ba,gydF4y2Ba52gydF4y2Ba],我们还进行了CramérgydF4y2BaVgydF4y2Ba离散变量的关联检验。在这个分析中,我们遵循相关的工作,只关注分类特征。在gydF4y2Ba预测性能gydF4y2Ba在本节中,我们分析了所有特征类型在预测性能中的重要性。所有分类特征的结果显示在gydF4y2Ba表3gydF4y2Ba.的最大值的特征gydF4y2BaVgydF4y2Ba包括总体状态(例如,“暂停”值可能表示未来发表),是否报告结果,入组类型(预期与实际),以及试验的阶段(在计算试验不同阶段的优势比时,我们发现第三阶段的试验发表的可能性比其他阶段的试验高2倍)。相比之下,一些特征,如观察性研究的类型(回顾性、前瞻性或横断面)和资助机构的类别(美国国立卫生研究院、其他美国联邦机构、行业或其他)很难与发表状态联系起来。后一个例子尤其令人惊讶,因为大多数以前的作品都报告说,资金来源是发表状态的一个强有力的指标[gydF4y2Ba8gydF4y2Ba,gydF4y2Ba23gydF4y2Ba,gydF4y2Ba50gydF4y2Ba],除了甘地等人[gydF4y2Ba14gydF4y2Ba].gydF4y2Ba

表3。直接从与临床试验相关的结构化元数据中提取的分类特征与发表状态之间的关联强度。各特征的定义见表S1gydF4y2Ba多媒体附件1gydF4y2Ba.gydF4y2Ba
功能名称gydF4y2Ba 卡方gydF4y2BaPgydF4y2Ba价值gydF4y2Ba 克莱默VgydF4y2Ba
overall_statusgydF4y2Ba 措施gydF4y2Ba 0.26gydF4y2Ba
were_results_reportedgydF4y2Ba 措施gydF4y2Ba 0.157gydF4y2Ba
enrollment_typegydF4y2Ba 措施gydF4y2Ba 0.153gydF4y2Ba
阶段gydF4y2Ba 措施gydF4y2Ba 0.126gydF4y2Ba
plan_to_share_ipdgydF4y2Ba 措施gydF4y2Ba 0.095gydF4y2Ba
intervention_type_behavioralgydF4y2Ba 措施gydF4y2Ba 0.06gydF4y2Ba
has_dmcgydF4y2Ba 措施gydF4y2Ba 0.056gydF4y2Ba
intervention_modelgydF4y2Ba 措施gydF4y2Ba 0.053gydF4y2Ba
intervention_type_diagnostic_testgydF4y2Ba 措施gydF4y2Ba 0.047gydF4y2Ba
has_single_facilitygydF4y2Ba 措施gydF4y2Ba 0.044gydF4y2Ba
intervention_type_devicegydF4y2Ba 措施gydF4y2Ba 0.039gydF4y2Ba
国家gydF4y2Ba 措施gydF4y2Ba 0.035gydF4y2Ba
study_typegydF4y2Ba 措施gydF4y2Ba 0.034gydF4y2Ba
分配gydF4y2Ba 措施gydF4y2Ba 0.026gydF4y2Ba
primary_purposegydF4y2Ba 措施gydF4y2Ba 0.025gydF4y2Ba
is_fda_regulated_devicegydF4y2Ba 措施gydF4y2Ba 0.023gydF4y2Ba
屏蔽gydF4y2Ba 措施gydF4y2Ba 0.022gydF4y2Ba
intervention_type_dietary_supplementgydF4y2Ba 措施gydF4y2Ba 0.021gydF4y2Ba
intervention_type_biologicalgydF4y2Ba 措施gydF4y2Ba 0.019gydF4y2Ba
性别gydF4y2Ba 措施gydF4y2Ba 0.018gydF4y2Ba
intervention_type_combination_productgydF4y2Ba 措施gydF4y2Ba 0.017gydF4y2Ba
intervention_type_othergydF4y2Ba 措施gydF4y2Ba 0.016gydF4y2Ba
intervention_type_radiationgydF4y2Ba 措施gydF4y2Ba 0.013gydF4y2Ba
sampling_methodgydF4y2Ba 措施gydF4y2Ba 0.013gydF4y2Ba
intervention_type_druggydF4y2Ba 措施gydF4y2Ba 0.012gydF4y2Ba
intervention_type_proceduregydF4y2Ba 措施gydF4y2Ba 0.012gydF4y2Ba
observational_modelgydF4y2Ba .002gydF4y2Ba 0.012gydF4y2Ba
is_us_exportgydF4y2Ba 13。gydF4y2Ba 0.011gydF4y2Ba
responsible_party_typegydF4y2Ba 措施gydF4y2Ba 0.011gydF4y2Ba
intervention_type_geneticgydF4y2Ba 措施gydF4y2Ba 0.01gydF4y2Ba
healthy_volunteersgydF4y2Ba 措施gydF4y2Ba 0.009gydF4y2Ba
is_fda_regulated_druggydF4y2Ba 措施gydF4y2Ba 0.009gydF4y2Ba
observational_prospectivegydF4y2Ba .14点gydF4y2Ba 0.006gydF4y2Ba
agency_classgydF4y2Ba 收gydF4y2Ba 0.002gydF4y2Ba

预测性能gydF4y2Ba

概述gydF4y2Ba

我们对数据集C的预测模型的主要结果显示在gydF4y2Ba表4gydF4y2Ba.有趣的是,k近邻基线已经为结构化输入的使用设置了很高的门槛。我们看到,使用文本信息的模型在测试集上获得了最佳性能。这两个评估指标显示出略有不同的趋势(即,当观察gydF4y2BaFgydF4y2Ba1gydF4y2Ba-得分,使用基于bert的表示的神经模型比使用单词袋表示的RF分类器表现得更好);然而,根据AUC,射频分类器优于不同的神经模型变体。从两种模型中加入文本特征后的改进来看,NN模型更有效地利用了这些特征。我们发现,仅使用结构化特征的神经网络模型与使用scibert编码文本特征的神经网络模型之间的差异在统计上具有显著性gydF4y2BaPgydF4y2Ba<措施(统计值:778.4),用二元分类任务的McNemar检验测量[gydF4y2Ba53gydF4y2Ba].虽然在只包含结构化特征时,其性能明显低于射频分类器,但在包含文本特征时,两种模型之间的性能差异消失了。对于神经模型,选择一个具有更好的领域拟合的BERT模型(即SciBERT)似乎可以增强gydF4y2BaFgydF4y2Ba1gydF4y2Ba-score,但差异太小,无法在AUC情况下做出判断。我们包括精度-召回曲线gydF4y2Ba图4gydF4y2Ba而且gydF4y2Ba5gydF4y2Ba,使用模型的预测进行计算,该模型的测试结果最佳gydF4y2BaFgydF4y2Ba1gydF4y2Ba-score(即具有结构化和SciBERT文本特征的NN)。gydF4y2Ba

表4。发表预测结果gydF4y2Ba一个gydF4y2Ba.gydF4y2Ba
方法gydF4y2Ba 输入gydF4y2Ba 验证gydF4y2Ba 测试gydF4y2Ba


FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba AUCgydF4y2BabgydF4y2Ba FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba AUCgydF4y2Ba
再gydF4y2Ba 结构化gydF4y2Ba 0.592gydF4y2Ba N/AgydF4y2BacgydF4y2Ba 0.611gydF4y2Ba N/AgydF4y2Ba
射频gydF4y2BadgydF4y2Ba 结构化gydF4y2Ba 0.64gydF4y2Ba 0.701gydF4y2Ba 0.614gydF4y2Ba 0.704gydF4y2Ba
射频gydF4y2Ba 结构化(TF-IDF +文本gydF4y2BaegydF4y2Ba)gydF4y2Ba 0.656gydF4y2Ba 0.721gydF4y2Ba 0.623gydF4y2Ba 0.719gydF4y2Ba
射频gydF4y2Ba 结构化(SciBERT +文本gydF4y2BafgydF4y2Ba)gydF4y2Ba 0.65gydF4y2Ba 0.709gydF4y2Ba 0.63gydF4y2Ba 0.711gydF4y2Ba
神经网络gydF4y2BaggydF4y2Ba 结构化gydF4y2Ba 0.611gydF4y2Ba 0.672gydF4y2Ba 0.607gydF4y2Ba 0.612gydF4y2Ba
神经网络gydF4y2Ba 结构化+文本(冻结SciBERT)gydF4y2Ba 0.642gydF4y2Ba 0.689gydF4y2Ba 0.63gydF4y2Ba 0.696gydF4y2Ba
神经网络gydF4y2Ba 结构化+文本(SciBERT)gydF4y2Ba 0.648gydF4y2Ba 0.708gydF4y2Ba 0.641gydF4y2Ba 0.7gydF4y2Ba
神经网络gydF4y2Ba 结构化+文本(带大小写的SciBERT)gydF4y2Ba 0.641gydF4y2Ba 0.697gydF4y2Ba 0.637gydF4y2Ba 0.701gydF4y2Ba
神经网络gydF4y2Ba 结构化(BERT +文本gydF4y2BahgydF4y2Ba)gydF4y2Ba 0.64gydF4y2Ba 0.699gydF4y2Ba 0.633gydF4y2Ba 0.7gydF4y2Ba

一个gydF4y2Ba所有模型都使用分类和数值特征(“结构化”)。当添加文本特性时,用“+ text”标记。由于k最近邻分类器不输出概率,我们无法计算曲线下的面积。gydF4y2Ba

bgydF4y2BaAUC:曲线下面积。gydF4y2Ba

cgydF4y2BaN/A:不适用。gydF4y2Ba

dgydF4y2BaRF:随机森林。gydF4y2Ba

egydF4y2BaTF-IDF:术语频率逆文档频率。gydF4y2Ba

fgydF4y2BaSciBERT:用于科学文本的变形金刚模型的双向编码器表示。gydF4y2Ba

ggydF4y2Ba神经网络。gydF4y2Ba

hgydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba

‎gydF4y2Ba
图4。使用具有结构化和文本特征的神经网络模型(来自科学文本transformer模型的双向编码器表示)的正类(出版物)的精度-召回曲线。AP:平均精度。gydF4y2Ba
查看此图gydF4y2Ba
‎gydF4y2Ba
图5。使用具有结构化和文本特征的神经网络模型(来自transformer模型的双向编码器表示)用于科学文本的负类(未发表)的精度-召回曲线。AP:平均精度。gydF4y2Ba
查看此图gydF4y2Ba
影响出版的因素gydF4y2Ba

为了确定哪些特征在预测中发挥关键作用,我们使用了一种特征置换技术来获得根据各自性能下降进行排名的特征。我们只使用射频进行分析,因为推理时间更快。分类器训练一次;然后,在测试时,通过变换测试集中可能的特征值来获得特征的损坏表示。在此之后,将模型应用于测试集,并与未损坏数据集上的性能进行比较,计算精度的下降。我们一次只损坏一个特性,并对所有特性重复这个过程。整个过程使用不同的随机种子进行5次洗牌,然后对报告的分数取平均。gydF4y2Ba

根据特征类型组织的结果显示在gydF4y2Ba表5gydF4y2Ba.最重要的数字特征是参与研究的人数,一种可能的解释是,这可能会影响结果的可靠性(从而最终增加发表的几率)。同样,更多的设施与更高的出版率有关[gydF4y2Ba8gydF4y2Ba].结果的数量表明了研究的规模和复杂性,这反过来也可能影响可发表性。对于文本输入,描述试验的叙述(详细描述和简要摘要)以及资格标准是最强的特征。我们观察到一些文本特征包含重叠的信息。例如,简短的标题可以包含在正式标题中。相同的单词经常出现在不同的输入中,这种冗余可以作为预测发表状态的有力指标。例如,当我们使用我们RF实现的杂质标准来测量RF中单词的重要性时[gydF4y2Ba9gydF4y2Ba],我们发现……的存在gydF4y2Ba随机gydF4y2Ba(出现在正式标题和详细描述中)是已发表和未发表研究的有力区别。gydF4y2Ba

在分类输入的情况下,我们发现相似的特征是重要的,如中提到的gydF4y2Ba描述性分析gydF4y2Ba部分,包括主要机构所在的国家(“国家”)以及该研究是否设有数据监测委员会(“has dmc”)。然而,在我们的描述性分析和之前的工作中发现的一些重要特征在预测方法中不那么重要(例如,调查阶段[“阶段”],参与者分配到试验组[“分配”],以及为参与者分配干预措施的方法[“干预模型”])。gydF4y2Ba

表5所示。使用词频-逆文本文档频率表示的随机森林对特征值进行排列后准确度的下降。每个特征类型的值都是按递减顺序排列的,所以最重要的特征会先提到。gydF4y2Ba
特征类型和特征gydF4y2Ba 准确度下降gydF4y2Ba
数值gydF4y2Ba

number_of_facilitiesgydF4y2Ba 0.007364gydF4y2Ba

outcome_counts_secondarygydF4y2Ba 0.004911gydF4y2Ba

outcome_counts_othersgydF4y2Ba 0.004068gydF4y2Ba

outcome_counts_primarygydF4y2Ba 0.003702gydF4y2Ba

number_study_directorsgydF4y2Ba 0.003518gydF4y2Ba

number_study_chairsgydF4y2Ba 0.003359gydF4y2Ba

minimum_agegydF4y2Ba 0.003235gydF4y2Ba

number_principal_investigatorsgydF4y2Ba 0.003157gydF4y2Ba

maximum_agegydF4y2Ba 0.002719gydF4y2Ba

number_of_armsgydF4y2Ba 0.000985gydF4y2Ba
文本gydF4y2Ba

detailed_descriptiongydF4y2Ba 0.010193gydF4y2Ba

brief_summarygydF4y2Ba 0.008551gydF4y2Ba

criteria_ExclusiongydF4y2Ba 0.008313gydF4y2Ba

criteria_InclusiongydF4y2Ba 0.004971gydF4y2Ba

official_titlegydF4y2Ba 0.003428gydF4y2Ba

brief_titlegydF4y2Ba 0.001433gydF4y2Ba

源gydF4y2Ba 0.001342gydF4y2Ba

responsible_party_keywordsgydF4y2Ba 0.001064gydF4y2Ba

participant_conditiongydF4y2Ba 0.00064gydF4y2Ba
分类gydF4y2Ba

has_single_facilitygydF4y2Ba 0.004591gydF4y2Ba

intervention_type_BehavioralgydF4y2Ba 0.004211gydF4y2Ba

primary_purposegydF4y2Ba 0.003914gydF4y2Ba

国家gydF4y2Ba 0.003804gydF4y2Ba

intervention_type_BiologicalgydF4y2Ba 0.003643gydF4y2Ba

is_fda_regulated_devicegydF4y2Ba 0.003376gydF4y2Ba

is_us_exportgydF4y2Ba 0.003333gydF4y2Ba

intervention_type_Diagnostic_TestgydF4y2Ba 0.003322gydF4y2Ba

intervention_type_Combination_ProductgydF4y2Ba 0.003322gydF4y2Ba

intervention_type_GeneticgydF4y2Ba 0.003322gydF4y2Ba

is_fda_regulated_druggydF4y2Ba 0.003321gydF4y2Ba

intervention_type_ProceduregydF4y2Ba 0.003205gydF4y2Ba

has_dmcgydF4y2Ba 0.003185gydF4y2Ba

intervention_type_OthergydF4y2Ba 0.003144gydF4y2Ba

intervention_type_RadiationgydF4y2Ba 0.003144gydF4y2Ba

intervention_type_DevicegydF4y2Ba 0.003078gydF4y2Ba

性别gydF4y2Ba 0.003012gydF4y2Ba

responsible_party_typegydF4y2Ba 0.002925gydF4y2Ba

intervention_type_Dietary_SupplementgydF4y2Ba 0.002873gydF4y2Ba

plan_to_share_ipdgydF4y2Ba 0.002819gydF4y2Ba

healthy_volunteersgydF4y2Ba 0.002607gydF4y2Ba

intervention_type_DruggydF4y2Ba 0.00227gydF4y2Ba

agency_classgydF4y2Ba 0.001854gydF4y2Ba

阶段gydF4y2Ba 0.001426gydF4y2Ba

分配gydF4y2Ba 0.001347gydF4y2Ba

intervention_modelgydF4y2Ba 0.00131gydF4y2Ba
手动验证测试集上的性能gydF4y2Ba

作为额外的实验,我们选择了达到最高的模型gydF4y2BaFgydF4y2Ba1gydF4y2Ba在自动构建的数据集(具有结构化+文本[SciBERT]输入特征的神经网络)上获得-分数,并将其应用于从本文中介绍的手动验证的出版物链接构建的测试集gydF4y2Ba手工构建的测试集gydF4y2Ba部分。我们测量了gydF4y2BaFgydF4y2Ba1gydF4y2Ba-得分为55.9,受试者工作特征曲线下面积为58.6。为了更好地理解这种相对于自动获得的测试集的性能下降,我们计算了一个混淆矩阵,它揭示了模型过于急切地预测“发布”(即,它更有可能犯1型错误[假阳性,272/972,28%的时间]而不是2型错误[假阴性,146/972,15%的时间])。由于测试数据由3个子集组成,在性能中可能存在重要的个体变化,我们需要考虑。实际上,根据每个子集(gydF4y2Ba表6gydF4y2Ba),我们注意到Zarin等人[gydF4y2Ba20.gydF4y2Ba]的表现低于Ross等人的子集[gydF4y2Ba3.gydF4y2Ba]和邓恩等人[gydF4y2Ba18gydF4y2Ba],两者表现相似。我们的解释是,这些子集包含不同比例的积极标签,如果这些标签与训练中看到的不同,将对测试表现产生负面影响。具体来说,Zarin等人[gydF4y2Ba20.gydF4y2Ba]子集只有23%(34/148)的阳性标签,而其余子集的阳性标签约为50%(410/ 824,49.8%)。可以理解的是,在大约等量的积极和消极实例上训练的模型过度预测了Zarin等人的积极类[gydF4y2Ba20.gydF4y2Ba]子集,在这种情况下,几乎所有的建模错误都是由于假阳性(78/ 87,90 %相比9/ 87,10 %假阴性)。我们发现,当模型以类似的正面和负面实例比例重新训练时,这种负面影响消失了。我们使用非平衡版本的训练数据集(数据集C在gydF4y2Ba图1gydF4y2Ba).gydF4y2Ba

表6所示。手动验证测试集的子集上的数据统计和性能。gydF4y2Ba

罗斯等人[gydF4y2Ba3.gydF4y2Ba]gydF4y2Ba Zarin等[gydF4y2Ba20.gydF4y2Ba]gydF4y2Ba Zarin等[gydF4y2Ba20.gydF4y2Ba]使用非平衡训练集gydF4y2Ba 邓恩等[gydF4y2Ba18gydF4y2Ba]gydF4y2Ba
积极的百分比gydF4y2Ba一个gydF4y2Ba 54gydF4y2Ba 23gydF4y2Ba 23gydF4y2Ba 45gydF4y2Ba
FgydF4y2Ba1gydF4y2Ba分数gydF4y2Ba 58.4gydF4y2Ba 43.4gydF4y2Ba 58.2gydF4y2Ba 55.0gydF4y2Ba
AUROCgydF4y2BabgydF4y2Ba 62.3gydF4y2Ba 52.6gydF4y2Ba 53.5gydF4y2Ba 60.4gydF4y2Ba

一个gydF4y2Ba积极的百分比gydF4y2Ba表示带有阳性标签的实例的百分比(gydF4y2Ba发表gydF4y2Ba)。gydF4y2Ba

bgydF4y2BaAUROC:受试者工作特征曲线下的面积。gydF4y2Ba


限制gydF4y2Ba

虽然我们的工作在规模上建立了与较高发表率相关的各种属性,以及在预测框架中包括临床试验的文本描述的积极影响,但一些额外的考虑是必要的。gydF4y2Ba

ML模型的定性性能对用于训练和测试的底层数据的质量很敏感,预测发布成功也不例外。在构建我们的数据集时,我们注意到试验注册条目中存在不正确的信息(例如,估计的完成年份可能设置为2099年)。此外,研究的当前状态(例如,正在进行、完成或终止)可能并不总是最新的,这与其他注册信息类似。在文献中检查了ClinicalTrials.gov中的不完整和不正确信息[gydF4y2Ba7gydF4y2Ba,gydF4y2Ba54gydF4y2Ba-gydF4y2Ba56gydF4y2Ba],但它的确切程度是未知的,难以估计,需要大量的手工工作来揭示它。我们将噪声视为从大型数据收集中学习的一个组成部分,类似于相关工作(gydF4y2Ba现有工作及贡献gydF4y2Basection)使用结构化资源,如ClinicalTrials.gov [gydF4y2Ba27gydF4y2Ba-gydF4y2Ba29gydF4y2Ba,gydF4y2Ba32gydF4y2Ba-gydF4y2Ba34gydF4y2Ba]以及在远方监督下的学习工作[gydF4y2Ba57gydF4y2Ba-gydF4y2Ba59gydF4y2Ba].由于我们的分类器使用了大量的训练实例,并且每个实例都使用多个特征来表示,因此偶尔噪声的影响被认为很小。gydF4y2Ba

在我们自动构建的数据集中,另一个潜在的噪音来源可能来自临床试验及其出版物之间的链接,这是自动建立的,因此,容易出现不正确或遗漏的链接。数据集也仅限于公开可用并在公共资源中编入索引的研究。尽管会议摘要和其他灰色文献资源可以提供试验结果的额外背景,但它们通常不被视为正式出版物,需要特别的收集策略,这超出了我们的研究范围。总的来说,所提出的结果反映了基于可获得资源的可能的最现实的情况。gydF4y2Ba

最后,发表结果建模的一个更普遍的限制是,很难捕捉和量化试验登记中无法获得但在其他情况下有用的因素的影响,特别是对于理解非发表,例如,研究人员是否没有足够的时间发表而专注于其他任务,合著者之间是否存在利益变化或分歧,研究人员是否认为某家期刊不太可能接受他们的工作,以及财务问题或其他合同问题是否阻碍了发表[gydF4y2Ba15gydF4y2Ba,gydF4y2Ba60gydF4y2Ba-gydF4y2Ba62gydF4y2Ba].虽然原则上可以从研究作者那里获得这些信息,但要大规模地进行此类信息获取将是极其困难的,而且目前在公共资源中无法获得。gydF4y2Ba

影响gydF4y2Ba

在这项研究中,我们试图模拟一个真实世界的情况,在这个情况下,人们希望对临床试验的发表结果进行前瞻性估计。为此,我们对新创建的数据集进行了一系列实验,这些数据集将2007年至2016年的临床试验记录与其出版物(如果存在)联系起来,并进行了4年的随访。得到的数据集是迄今为止最大的此类集合。我们已经展示了异质特征(包括来自临床试验注册记录的文本特征)的组合如何导致>0.7 AUC的分类性能;这意味着,如果随机选择一个阳性病例(即最终将导致发表的审判),至少有70%的几率该病例也被归类为阳性病例。该技术具有较强的试验设计潜力。在临床试验的早期阶段,当研究设计和环境的特性已经已知时,它可以提供对可发表性的前瞻性估计,更广泛地给出试验可行性的指示。该工具可以在不必要地浪费资源之前,向试验开发人员揭示表明发表机会降低的不同领域(并且,推而广之,他们的研究价值降低)。在未来的工作中,我们将探索将该模型整合到一个系统中,该系统可以毫不费力地以人类友好的方式为给定的试验提供导致特定结果的突出特征,并表明分类器决策的可靠性,以支持试验计划和决策。gydF4y2Ba

致谢gydF4y2Ba

本研究由澳大利亚研究委员会与IBM合作,通过工业转型培训中心赠款(IC170100030)资助。作者真诚地感谢Deborah Zarin、Joseph Ross、Shifeng Liu和Adam G Dunn提供他们的注释数据。gydF4y2Ba

数据可用性gydF4y2Ba

我们已公开该数据集[gydF4y2Ba63gydF4y2Ba].gydF4y2Ba

作者的贡献gydF4y2Ba

SW收集数据,构思和设计分析,并执行分析。SŠ构思和设计了分析,对概念化做出了贡献,并撰写了论文。TB构思和设计了分析,对概念化做出了贡献,撰写了论文,并进行了监督。KV参与了概念化并撰写了这篇论文。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

‎gydF4y2Ba
多媒体附件1gydF4y2Ba

文本表示计划。gydF4y2Ba

PNG文件,98 KBgydF4y2Ba

‎gydF4y2Ba
多媒体附件2gydF4y2Ba

实验的细节。gydF4y2Ba

DOCX文件,13kbgydF4y2Ba

‎gydF4y2Ba
多媒体gydF4y2Ba

每年完成的已发表和未发表试验的分布情况。gydF4y2Ba

PNG文件,33kbgydF4y2Ba

  1. Wilkinson MD, Dumontier M, Jan Aalbersberg I, Appleton G, Axton M, Baak A, Jan Velterop,等。附录:科学数据管理和管理的FAIR指导原则。科学数据2019 3月19日;6(1):6 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  2. 试验注册中心的演变及其在临床试验企业评估中的应用。中国医学杂志2012 May 02;307(17):1861-1864。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  3. Ross JS, Tse T, Zarin DA,徐华,周林,Krumholz HM。发表在ClinicalTrials.gov上注册的NIH资助的试验:横断面分析。BMJ 2012 Jan 03;344(jan03 1):d7292 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  4. Cochrane干预系统评价手册,第二版。美国新泽西州霍博肯:威利;2019.gydF4y2Ba
  5. 刘永杰,周强,刘永杰,刘永杰,等。是时候发表肿瘤学试验了,为什么有些试验从未发表。PLoS One 2017 9月21日;12(9):e0184025 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  6. 胡斯肯斯J, Kool BR, Bakker J, Bruns ER, de Jonge SW, Olthof PB,等。从注册到出版:荷兰学术随机对照试验研究。Res Synth Methods 2020年3月28日;11(2):218-226 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  7. Jones CW, Handler L, Crowell KE, Keil LG, Weaver MA, Platts-Mills TF。未发表的大型随机临床试验:横断面分析。英国医学杂志2013 10月29日;347(oct28 9):f6104 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  8. Blmle A, Huwiler K, Witschi M.临床试验的发表和未发表:提交给研究伦理委员会的申请的纵向研究。瑞士医学周刊2008年4月5日197。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  9. 陈锐,德赛NR, Ross JS,张伟,周克杰,Wayda B,等。临床试验结果的发表和报告:跨学术医疗中心的横断面分析。英国医学杂志2016 Feb 17;352:i637 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  10. 乔尼迪斯JP,绿地S, Hlatky MA, Khoury MJ, Macleod MR, Moher D,等。在研究设计、实施和分析中增加价值和减少浪费。柳叶刀2014年1月;383(9912):166-175。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  11. Schmucker C, Schell LK, Portalupi S, Oeller P, Cabrera L, Bassler D, OPEN财团。经研究伦理委员会批准或纳入试验登记的研究队列中未发表的程度。PLoS One 2014 12月23日;9(12):e114023 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  12. Eyding D, Lelgemann M, Grouven U, Härter M, Kromp M, Kaiser T,等。瑞波西汀用于重度抑郁症的急性治疗:已发表和未发表的安慰剂和选择性血清素再摄取抑制剂对照试验的系统回顾和荟萃分析英国医学杂志2010 10月12日;341(oct12 1):c4737 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  13. Blümle A, Wollmann K, Bischoff K, Kapp P, Lohner S, Nury E,等。研究者发起的试验与行业赞助的试验——将随机对照试验转化为临床实践(IMPACT)。BMC Med Res Methodol 2021 Aug 31;21(1):182 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  14. Gandhi R, Jan M, Smith HN, Mahomed NN, Bhandari M.在Clinicaltrials.gov上注册后发表的骨科创伤试验的比较BMC musloskelet Disord 2011 Dec 07;12(1):278 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  15. 黄tj, Carpenter D, Lauffenburger JC, Wang B, Franklin JM, Kesselheim AS。研究药物在后期临床开发和试验结果发表中失败。JAMA实习生医学2016年12月1日;176(12):1826-1833。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  16. 沙利扬T,凯恩RL。涉及儿童的临床研究:注册、完整性和发表。儿科学2012年5月;129(5):e1291-e1300。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  17. 刘s, Bourgeois FT, Dunn AG。确定ClinicalTrials.gov试验注册与其公布结果之间未报告的联系。Res Synth Methods 2022 5月23日;13(3):342-352。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  18. Dunn AG, Coiera E, Bourgeois FT。在ClinicalTrials.gov的横断面分析中,使用文献相似度测量方法确定了试验注册和发表文章之间未报告的联系。中国临床流行病学杂志2018年3月;[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  19. Bashir R, Bourgeois FT, Dunn AG。系统回顾用于将临床试验注册与其发表结果联系起来的过程。Syst Rev 2017 07月03日;6(1):123 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  20. Zarin DA, Tse T, Williams RJ, Califf RM, Ide NC。临床试验。政府结果数据库-更新和关键问题。中华外科杂志2011年3月3日;364(9):852-860。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  21. 扎琳·达,范·KM,杜宾斯,谢涛,威廉姆斯。提交给ClinicalTrials.Gov的10年研究结果更新。N英语J医学2019年11月14日;381(20):1966-1974。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  22. 胡泽五世,西米诺JJ。链接ClinicalTrials.gov和PubMed,以跟踪介入性人体临床试验的结果。PLoS One 2013 7月9日;8(7):e68409 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  23. Al-Durra M, Nolan RP, Seto E, Cafazzo JA, Eysenbach G.数字健康领域注册随机临床试验的未发表率和特征:横断面分析。J Med Internet Res 2018年12月18日;20(12):e11924 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  24. Canestaro WJ, Hendrix N, Bansal A, Sullivan SD, Devine EB, Carlson JJ。有利的和公共资助的研究更有可能被发表:系统评价和荟萃分析。中国临床流行病学杂志2017年12月;92:58-68。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  25. Sreekrishnan A, Mampre D, Ormseth C, Miyares L, leisure A, Ross JS,等。神经病学临床试验结果的出版和传播。美国医学会神经病学杂志2018 july 01;75(7):890-891 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  26. Scherer RW, Ugarte-Gil C, Schmucker C, Meerpohl JJ。作者报告说,缺乏时间是在生物医学会议上发表未发表研究的主要原因:系统综述。中国临床流行病学杂志2015 7月;68(7):803-810 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  27. 基于特征工程和嵌入学习的临床试验终止预测建模。科学通报2021年2月10日;11(1):3446 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  28. Follett L, Geletta S, Laugerman M.与临床试验终止相关的量化风险:文本挖掘方法。通知流程管理2019年5月;56(3):516-525。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  29. Geletta S, Follett L, Laugerman M.潜在Dirichlet分配在预测临床试验终止中的应用。BMC Med Inform Decis Mak 2019年11月27日;19(1):242 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  30. 李一桐,李志强,李志强。一种基于文本表示的鲁棒性和隐私保护方法。arXiv 2018。gydF4y2Ba
  31. 朱杰宇,魏天璐,陈凯伟,陈建伟,陈建伟。男性也喜欢购物:用语料库约束减少性别偏见放大。arXiv 2017。gydF4y2Ba
  32. DiMasi J, Hermann J, Twyman K, Kondru R, Stergiopoulos S, Getz K,等。预测新肿瘤化合物II期试验后监管批准的工具。中国临床医药杂志2015年11月24日;98(5):506-513。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  33. 罗劳,Siah KW, Wong CH,罗劳,Siah KW, Wong CH.预测药物批准的机器学习。哈佛数据科学Rev 2019年6月23日。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  34. 李文杰,李志强,李志强,等。预测药物批准:诺华的数据科学和人工智能挑战。SSRN J 2021 3月2日。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  35. 费周F,帕洛波利M,伯恩斯坦J,西迪基S,欧布莱特TE。通过机器学习进行临床试验的相变关键指标。今日药物发现2020年2月;25(2):414-421。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  36. Le Q, Mikolov T.,句子和文档的分布式表示。2014年发表于:国际机器学习会议;2014;中国北京p. II-1188-II-1196。gydF4y2Ba
  37. Mikolov T, Sutskever I, Chen K, Corrado G, Dean J.单词和短语的分布式表示及其组合。2013年发表于:神经信息处理系统国际会议;2013;太浩湖。gydF4y2Ba
  38. Beltagy I, Lo K, Cohan a . SciBERT:科学文本的预训练语言模型。2019年发表于:自然语言处理经验方法会议和第九届自然语言处理国际联合会议(EMNLP-IJCNLP);2019年11月;中国香港。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  39. 戴夫林,张伟,李K, Toutanova K. BERT:基于深度双向转换器的语言理解预训练。2019年发表于:计算语言学协会北美分会年会:人类语言技术;2019;明尼阿波利斯。gydF4y2Ba
  40. 都是公共XML。ClinicalTrials.gov。URL:gydF4y2Bahttps://clinicaltrials.gov/AllPublicXML.zipgydF4y2Ba[2022-11-24]访问gydF4y2Ba
  41. /pubmed/baseline指数。NCBI。URL:gydF4y2Bahttps://ftp.ncbi.nlm.nih.gov/pubmed/baselinegydF4y2Ba[2020-08-15]访问gydF4y2Ba
  42. Pytorch闪电。GitHub。URL:gydF4y2Bahttps://github.com/PyTorchLightning/pytorch-lightninggydF4y2Ba[2022-01-01]访问gydF4y2Ba
  43. Suster S.手动验证出版预测数据集。2022年9月27日。URL:gydF4y2Bahttps://zenodo.org/record/7115724#.Y5x1j-xBxpQgydF4y2Ba[2022-12-16]访问gydF4y2Ba
  44. Manning CD, Raghavan P, Schütze H.信息检索导论。美国马萨诸塞州剑桥:剑桥大学出版社;2008.gydF4y2Ba
  45. Adhikari A, Ram A, Tang R R, Lin J. DocBERT: BERT用于文档分类。arXiv 2019。gydF4y2Ba
  46. 孙超,邱旭,徐勇,黄霞。如何微调BERT进行文本分类?在:中国计算语言学。可汗:施普林格;2019.gydF4y2Ba
  47. 葛林J,奥莉M,格朗杰D,雅芝D,杜芬YN。卷积序列到序列学习。2017年出席:国际机器学习会议;2017;澳大利亚悉尼。gydF4y2Ba
  48. Herzig J, Nowak PK, Müller T, Piccinno F, Eisenschlos E. TaPas:通过预训练的弱监督表解析。2020年发表于:计算语言学协会年会上;7月,2020;网上。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  49. Shamliyan TA, Kane RL。临床研究结果的可获得性:失败的政策努力。中国流行病学杂志2014年3月;4(1):1-12 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  50. Trinquart L, Dunn AG, Bourgeois FT.已发表随机试验的登记:系统回顾和荟萃分析。BMC Med 2018 10月16日;16(1):173 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  51. Khalilzadeh J, Tasci AD。大样本量、显著性水平和效应量:在学术研究中使用大数据的风险解决方案。2017年10月;62:89-96。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  52. 林敏,Lucas HC, Shmueli G.研究评论-大到不能倒:大样本和p值问题。通知Syst Res 2013年12月24日(4):906-917。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  53. 手动验证的发布预测数据集。2022年9月27日。URL:gydF4y2Bahttps://doi.org/10.5281/zenodo.7115724gydF4y2Ba[2022-12-06]访问gydF4y2Ba
  54. Miron L, Gonçalves RS, Musen MA。在ClinicalTrials.gov中重复使用研究元数据的障碍。Sci Data 2020 Dec 18;7(1):443 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  55. 谢涛,KM范,达扎林。在研究中使用ClinicalTrials.gov时如何避免常见问题:需要考虑的10个问题。BMJ 2018 5月25日;361:k1452 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  56. Chaturvedi N, Mehrotra B, Kumari S, Gupta S, Subramanya HS, Saberwal G.在ClinicalTrials.gov上的一些数据质量问题审判2019年6月24日;20(1):378 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  57. 霍建华,柯伊伯J,夏玛A,朱MB,马歇尔IJ。利用监督式远程监督从临床试验报告中提取PICO语句。J Mach Learn Res 2016; 17:32 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  58. 李文杰,李志强,李志强。基于远程监督的无标记数据关系提取方法。见:ACL第47届年会联合会议和AFNLP自然语言处理第四届国际联合会议论文集:卷2 -卷2。2009年发表于:第47届ACL年会联合会议和第4届AFNLP自然语言处理国际联合会议:卷2 -卷2;2009年8月2日至7日;15日新加坡。[gydF4y2BaCrossRefgydF4y2Ba]gydF4y2Ba
  59. 聂建勇,王志强,王志强。基于位置语言模型的临床信息检索。自然语言处理经验方法会议论文集。2010年发表于:自然语言处理经验方法会议;2010年10月9日至11日;马萨诸塞州,剑桥。gydF4y2Ba
  60. Riveros C, Dechartres A, Perrodeau E, Haneef R, Boutron I, Ravaud P.在ClinicalTrials.gov上发布并在期刊上发表的试验结果的时间和完整性。PLoS Med 2013年12月3日;10(12):e1001566;讨论e1001566 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  61. Tice D, Carroll K, Bhatt K, Belknap S, Mai D, Gipson H,等。学术医疗机构非应计临床研究(NACR)的特点和原因。中国临床医学杂志2013年6月;5(3):185-193 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  62. Weber EJ, Callaham ML, Wears RL, Barton C, Young G.医学专业会议未发表的研究:为什么研究者未能发表。中国医学杂志1998 july 15;280(3):257-259。[gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba]gydF4y2Ba
  63. 王晓峰,王晓峰,王晓峰。利用结构化和非结构化数据预测临床试验的发表。泽诺多,2022年2月28日URL:gydF4y2Bahttps://zenodo.org/record/6302910#.Y5x2CuxBxpQgydF4y2Ba[2022-12-16]访问gydF4y2Ba


‎gydF4y2Ba
AUC:gydF4y2Ba曲线下面积gydF4y2Ba
伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba
ML:gydF4y2Ba机器学习gydF4y2Ba
NLP:gydF4y2Ba自然语言处理gydF4y2Ba
神经网络:gydF4y2Ba神经网络gydF4y2Ba
射频:gydF4y2Ba随机森林gydF4y2Ba
SciBERT:gydF4y2Ba用于科学文本的变压器模型的双向编码器表示gydF4y2Ba


G·艾森巴赫(G Eysenbach)编辑;提交19.04.22;A Dunn, M Syed, R Zhang同行评审;对作者13.07.22的评论;修订本收到14.10.22;接受16.11.22;发表23.12.22gydF4y2Ba

版权gydF4y2Ba

©Siyang Wang, Simon Šuster, Timothy Baldwin, Karin Verspoor。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 2022年12月23日。gydF4y2Ba

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba


Baidu
map