JMIR医疗信息学-最先进的证据检索精确医学:算法开发和验证gydF4y2Ba

原始论文gydF4y2Ba

乔金gydF4y2Ba^1gydF4y2Ba医学博士gydF4y2Ba ；gydF4y2Ba
Chuanqi谭gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
Mosha陈gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
明艳gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
Ningyu张gydF4y2Ba^2gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
Songfang黄gydF4y2Ba^1gydF4y2Ba博士gydF4y2Ba ；gydF4y2Ba
Xiaozhong刘gydF4y2Ba^3.gydF4y2Ba博士gydF4y2Ba

^1gydF4y2Ba阿里巴巴集团，中国杭州gydF4y2Ba

^2gydF4y2Ba浙江大学，中国浙江gydF4y2Ba

^3.gydF4y2Ba印第安纳大学布卢明顿，布卢明顿，美国gydF4y2Ba

通讯作者:gydF4y2Ba

谭传奇博士gydF4y2Ba

阿里巴巴集团gydF4y2Ba

余杭区文义西路969号gydF4y2Ba

杭州,311121gydF4y2Ba

中国gydF4y2Ba

电话:86 15201162567gydF4y2Ba

电子邮件:gydF4y2Bachuanqi.tcq@alibaba-inc.comgydF4y2Ba

背景:gydF4y2Ba在精准医疗(PM)的范式下，患有同一种疾病的患者可以根据其临床和遗传特征接受不同的个性化治疗。这些疗法是由所有可用临床证据的总和决定的，包括病例报告、临床试验和系统评价的结果。然而，医生越来越难以从科学出版物中找到这样的证据，这些出版物的规模正以前所未有的速度增长。gydF4y2Ba

摘要目的:gydF4y2Ba在这项工作中，我们提出了PM-Search系统，以促进临床文献的检索，其中包含支持或反对对某些癌症患者给予特定治疗的关键证据。gydF4y2Ba

方法:gydF4y2BaPM-Search系统结合了一个基线检索器(用于大规模选择候选文档)和一个证据重新排序器(用于根据候选文档的证据质量对其进行精细的重新排序)。基线检索器使用ElasticSearch检索引擎的查询扩展和关键字匹配，而证据重新排序器将预训练的语言模型与来自主动学习策略的专家注释相匹配。gydF4y2Ba

结果:gydF4y2Ba在文本检索会议PM Track 2020上，PM- search系统在检索高质量临床证据方面取得了最佳表现，大大超过了排名第二的系统(排名30的标准归一化贴现累积增益为0.4780 vs 0.4238，排名30的指数归一化贴现累积增益为0.4519 vs 0.4193)。gydF4y2Ba

结论:gydF4y2Ba我们提出了PM- search，一个最先进的搜索引擎，以协助实践基于证据的PM。PM-Search使用一种来自transformer的新型双向编码器表示，用于基于生物医学文本挖掘的主动学习策略，对证据质量建模并提高模型性能。我们的分析表明，证据质量是与一般相关性不同的一个方面，PM搜索引擎需要对一般相关性之外的证据质量进行特定建模。gydF4y2Ba

JMIR Med Inform 2022;10(12):e40743gydF4y2Ba

doi: 10.2196/40743gydF4y2Ba

关键字gydF4y2Ba

精密医学gydF4y2Ba；gydF4y2Ba 循证医学gydF4y2Ba；gydF4y2Ba 信息检索gydF4y2Ba；gydF4y2Ba 主动学习gydF4y2Ba；gydF4y2Ba 预训练语言模型gydF4y2Ba；gydF4y2Ba 数字健康干预gydF4y2Ba；gydF4y2Ba 数据检索gydF4y2Ba；gydF4y2Ba 大数据gydF4y2Ba；gydF4y2Ba 算法开发gydF4y2Ba

传统上，患有相同疾病的患者采用相同的治疗方法。然而，治疗效果可能是高度异质性的，也就是说，患者亚组之间的获益和风险可能有很大差异[gydF4y2Ba1gydF4y2Ba］．精准医疗研究计划[gydF4y2Ba2gydF4y2Ba]在制定治疗和预防策略时，会考虑到人们基因、环境和生活方式的个体差异。在PM的理想范式下，相同疾病的患者被分为几个亚组，不同的患者亚组接受不同的最适合他们的治疗。PM现在广泛应用于肿瘤学，因为测序技术可以识别癌症患者的大量遗传变异。例如，表皮生长因子受体基因突变的非小细胞肺癌患者对吉非替尼治疗敏感[gydF4y2Ba3.gydF4y2Ba]，而具有人表皮生长因子受体2突变的乳腺癌患者对曲妥珠单抗治疗敏感[gydF4y2Ba4gydF4y2Ba］．gydF4y2Ba

PM实践应以循证医学原则为指导[gydF4y2Ba5gydF4y2Ba在美国，治疗是基于高质量的临床证据，如系统综述和随机对照试验，而不是个人经验。然而，随着科学出版物的数量迅速增长(例如，2019年每天约有2700篇文章添加到PubMed)，医生很难在文献中找到支持或拒绝特定患者的特定治疗方案的临床证据。信息检索(Information retrieval, IR)旨在为用户查询自动找到相关文档。IR已经通过谷歌和PubMed等搜索引擎成功应用于普通消费者和生物医学研究领域。然而，大多数当前的搜索引擎不能处理包含关于患者和治疗的结构化信息的PM查询，也不能根据其作为临床证据的重要性对文档进行排名。gydF4y2Ba

为了促进PM的IR研究，文本检索会议(TREC)自2017年起每年举办PM Track。从2017年到2019年，TREC PM的重点是寻找根据其人口统计学、疾病和基因突变指定的患者主题的相关学术论文或临床试验[gydF4y2Ba6gydF4y2Ba-gydF4y2Ba8gydF4y2Ba］．2020年，TREC PM的重点改变为检索学术论文，这些论文报告了在疾病和基因突变指定的人群中支持或反对特定治疗的关键临床证据[gydF4y2Ba9gydF4y2Ba］．支持和反对的临床证据都很重要，因为它们为临床决策是否使用该治疗提供了有价值的指导。为了帮助PM的实践，例如在TREC PM任务的情况下，检索器最重要的属性是根据证据质量对相关论文进行排名，也就是说，它们可以在多大程度上帮助临床决策。这项工作的目标是开发一个检索模型，可以根据给定PM主题的证据质量对相关论文进行排名。gydF4y2Ba

传统IR系统主要基于词频-逆文档频率及其衍生物，基本上是根据文档与输入查询的单词袋相似性对文档进行排序。然而，生物医学概念经常被各种同义词引用，多项研究表明，在将查询概念发送到IR系统之前，扩展查询概念到同义词的重要性[gydF4y2Ba10gydF4y2Ba-gydF4y2Ba12gydF4y2Ba］．为了进一步为领域特定的相关性建模，例如在我们的例子中，证据质量，通常会添加重新排序器来对检索系统返回的候选对象进行精细的重新排序。然而，这样的重排序器通常是基于深度学习的，训练它们需要大量的标记实例[gydF4y2Ba13gydF4y2Ba]，在生物医学领域，收集它们的成本非常高。最近的大规模预训练语言模型，如来自语言模型的嵌入[gydF4y2Ba14gydF4y2Ba]和变压器的双向编码器表示(BERT) [gydF4y2Ba15gydF4y2Ba]显示在几个自然语言处理基准(如通用语言理解评估)上有显著的性能改进[gydF4y2Ba16gydF4y2Ba］．BERT基本上是一个变压器[gydF4y2Ba17gydF4y2Ba预训练的编码器，以预测原始输入中的随机掩码标记。BERT可以有效地用于给定特定查询的文档排序[gydF4y2Ba18gydF4y2Ba］．gydF4y2Ba

在这项工作中，我们提出了PM- search模型，该模型解决了上述传统搜索引擎的问题，以辅助PM的实践。PM-Search系统有两个主要组成部分:(1)使用ElasticSearch引擎的查询扩展和关键字匹配的基线检索器;(2)根据证据质量对ElasticSearch返回的初始文档进行排序的证据重新排序器。重新排序使用文章特征以及专家在循环中主动学习策略下预训练的语言模型，其中生物医学语言模型BERT用于生物医学文本挖掘(BioBERT) [gydF4y2Ba19gydF4y2Ba与专家互动进行微调。我们的模型作为阿里巴巴团队参加了TREC PM 2020，并在证据质量评估中排名最高:PM- search在排名第30位(NDCG@30)达到了47.80%的标准归一化贴现累积增益(NDCG)，在指数NDCG@30达到了45.19%，远远超过了排名第二的系统。gydF4y2Ba

综上所述，我们对这项工作的贡献有三个方面:gydF4y2Ba

我们提出了PM-Search，这是一个专门用于辅助精准医疗的集成IR系统。PM- search在TREC PM Track中实现了最先进的性能。gydF4y2Ba
我们使用了一种基于BioBERT的专家在环主动学习策略来有效地获得注释并提高模型性能。据我们所知，这是第一个结合了主动学习和预训练语言模型的精准医疗搜索引擎。gydF4y2Ba
我们通过一套完整的消融研究全面分析了每个系统特征的重要性，其中我们发现最重要的特征包括发表类型和主动学习。我们希望这些实验可以为PM搜索引擎的潜在未来方向提供一些见解。gydF4y2Ba

数据及资料gydF4y2Ba

TREC 2020 PM跟踪提供了40个评估主题。每个主题代表一个PM查询，其中包含特定患者群体的三个关键元素:(1)疾病，即癌症类型;(2)遗传变异，即基因突变;(3)试探性处理。这些主题是由生物医学专家综合生成的，几个例子显示在(gydF4y2Ba表1gydF4y2Ba)．该任务使用2019年PubMed基线作为官方语料库，其中包含2900多万篇生物医学引用。每一篇引文都由文章的标题、作者、摘要等组成。对于每个主题，我们将其疾病标记为，遗传变异标记为，治疗标记为。退回的物品记为。每个检索结果都是一个包含、和的查询项目对。我们还使用PubMed中提取的出版物类型和引用计数信息作为额外的数据源。gydF4y2Ba

任务的评估遵循标准的TREC临时检索程序，参与者提交最多1000篇排名文章，每个主题最多5次不同的运行。评估分为2个阶段，第1阶段为“相关性评估”，判断每篇文章的相关性，第2阶段为“证据评估”，判断文章提供的证据质量。gydF4y2Ba

第一阶段评估是一般的IR评估，只考虑相关性，评估员首先判断是否退回的文章gydF4y2Ba一个gydF4y2Ba通常与PM有关。对于PM论文，评审员然后评估是否gydF4y2BadgydF4y2Ba，gydF4y2BaggydF4y2Ba,gydF4y2BatgydF4y2Ba是完全匹配，部分匹配，还是缺失gydF4y2Ba一个gydF4y2Ba．最后，根据预定义的规则，结果被分为“绝对相关”，“部分相关”或“不相关”gydF4y2BadgydF4y2Ba，gydF4y2BaggydF4y2Ba,gydF4y2BatgydF4y2Ba匹配。第一阶段使用的评估指标包括10级精度(P@10)、推断NDCG (infNDCG)和R-precision (R-prec)。P@10和R-prec是不同等级的精度:gydF4y2Ba

其中为查询相关文章的数量。NDCG的计算方法为:gydF4y2Ba

在哪里gydF4y2Ba

relgydF4y2Ba_我gydF4y2Ba文章的相关性评分是多少gydF4y2Ba我gydF4y2Ba和| RELgydF4y2Ba_ngydF4y2Ba|表示按相关度排序的相关文章数量gydF4y2BangydF4y2Ba．由于并非所有提交的文章都将由主办方进行评判，因此无法确定NDCG的确切值。为了解决这个问题，我们使用排名前30位的所有文章的样本集和排名31-100位的25%的文章样本集来计算NDCG，即infNDCG。gydF4y2Ba

在第二阶段评估中，评估员使用5分制对第一阶段评估的相关论文进行评分。例如，第4层结果应该是“200名>患者和单一药物的随机对照试验，或荟萃分析”，第0层结果应该是主题16的“不相关”。该量表是为每个主题量身定制的，以调整疾病、遗传变异和治疗的差异。阶段2评估的主要评估指标为NDCG@30。这个阶段的NDCG值是准确的，因为排名前30位的文章都被判断出来。两组相关值用于计算NDCG，标准增益(std-增益)和指数增益(exp-增益)。标准增益有分数(即，relgydF4y2Ba_我gydF4y2Ba)分别为0、1、2、3和4，对应5层，而指数增益的分数为0、1、2、4和8，对应5层。gydF4y2Ba

表1。文本检索会议2020年精准医学主题示例。gydF4y2Ba

主题gydF4y2Ba	疾病gydF4y2Ba	基因gydF4y2Ba	治疗gydF4y2Ba
1gydF4y2Ba	结肠直肠癌gydF4y2Ba	ABL原癌基因1gydF4y2Ba	RegorafenibgydF4y2Ba
11gydF4y2Ba	乳腺癌gydF4y2Ba	细胞周期蛋白依赖性激酶4gydF4y2Ba	AbemaciclibgydF4y2Ba
21gydF4y2Ba	分化型甲状腺癌gydF4y2Ba	成纤维细胞生长因子受体2gydF4y2Ba	LenvatinibgydF4y2Ba
31gydF4y2Ba	肝细胞癌gydF4y2Ba	神经营养受体酪氨酸激酶2gydF4y2Ba	索拉非尼gydF4y2Ba

PM-Search概述gydF4y2Ba

详见(gydF4y2Ba图1gydF4y2Ba)， PM- search使用两步方法检索每个给定的PM主题的相关文章:(1)agydF4y2Ba基线寻回犬gydF4y2Ba快速且可扩展，从数百万篇PubMed文章中生成相对较少的候选条目(例如，数千)——基线检索器基于ElasticSearch(引用)，原始查询通过加权同义词列表进行扩展;和(2)一个gydF4y2Ba证据rerankergydF4y2Ba根据证据质量对检索到的文档进行精细的重新排序——证据重新排序器结合了由专家在循环中主动学习策略和基于特征的线性回归器微调的BioBERT的预测。gydF4y2Ba

基线寻回犬gydF4y2Ba

我们使用ElasticSearch(一个基于lucene的搜索引擎)索引了TREC组织者提供的PubMed 2019基线中所有文章的标题和摘要。疾病的同义词gydF4y2BadgydF4y2Ba还有基因变异gydF4y2BaggydF4y2Ba是通过国家医学图书馆在MedlinePlus的web应用程序编程界面找到的[gydF4y2Ba20.gydF4y2Ba，gydF4y2Ba21gydF4y2Ba］．我们表示检索到的同义词gydF4y2BadgydF4y2Ba而且gydF4y2BaggydF4y2Ba, {gydF4y2BadgydF4y2Ba_1gydF4y2Ba，gydF4y2BadgydF4y2Ba_2gydF4y2Ba,……，gydF4y2BadgydF4y2Ba_米gydF4y2Ba}和{gydF4y2BaggydF4y2Ba_1gydF4y2Ba，gydF4y2BaggydF4y2Ba_2gydF4y2Ba,……，gydF4y2BaggydF4y2Ba_米gydF4y2Ba},gydF4y2BadgydF4y2Ba_1gydF4y2Ba＝gydF4y2BadgydF4y2Ba而且gydF4y2BaggydF4y2Ba_1gydF4y2Ba＝gydF4y2BaggydF4y2Ba．我们没有扩展处理，因为所提供的术语要么没有同义词，要么在几乎所有文章中都使用。gydF4y2Ba

对于每个同义词gydF4y2BadgydF4y2Ba_1gydF4y2Ba而且gydF4y2BaggydF4y2Ba_1gydF4y2Ba，我们统计了他们的文档频率gydF4y2BadfgydF4y2Ba（gydF4y2BadgydF4y2Ba_我gydF4y2Ba),gydF4y2BadfgydF4y2Ba（gydF4y2BaggydF4y2Ba_我gydF4y2Ba)，并计算ElasticSearch中使用的每个同义词的权重:gydF4y2Ba

在哪里gydF4y2Ba

我们使用标准化的文档频率来降低罕见术语的等级。gydF4y2Ba

我们在ElasticSearch中执行检索，它使用Okapi BM25算法根据文档与输入查询的单词级相关性对文档进行排名[gydF4y2Ba22gydF4y2Ba］．在最高级别，我们使用布尔查询查询ElasticSearch索引gydF4y2Ba必须匹配gydF4y2Ba疾病和治疗查询和gydF4y2Ba应该匹配gydF4y2Ba基因查询。疾病、治疗和基因查询都是gydF4y2Badis_maxgydF4y2Ba查询由同义词组成，权重作为增强因子。的gydF4y2Batie_breakergydF4y2Ba被设置为0.8，标题字段有3.0的提升因子，而抽象字段的提升因子为1.0。此外，布尔查询gydF4y2Ba应该匹配gydF4y2Ba关键字列表，包括“试验”和“患者”等词汇，这些词是根据经验选择的，作为基于证据的项目管理论文的弱分类器。gydF4y2Ba

TREC PM允许提交的每个主题最多1000个文档。我们为每个主题设置检索文档的最大数量为10,000。平均而言，我们为每个主题从基线检索器中检索到1589个候选对象。gydF4y2Ba

证据RerankergydF4y2Ba

概述gydF4y2Ba

证据重新排名评分一个给定的候选文章gydF4y2Ba一个gydF4y2Ba根据其证据质量进行查询gydF4y2Ba问gydF4y2Ba由:gydF4y2Ba

在哪里gydF4y2BargydF4y2Ba_我gydF4y2Ba为输出分数，它是以下值的加权和:(1)线性回归函数(LR)，使用ElasticSearch分数(es)、预训练的BioBERT (pb)、发表类型(ty)和引用计数(ct)的特征;以及(2)一个微调的BioBERT (FB)。gydF4y2BawgydF4y2Ba_LRgydF4y2Ba而且gydF4y2BawgydF4y2Ba_{神奇动物gydF4y2Ba}为LR和FB对应的权重。FB由专家在环的主动学习策略训练，LR由专家注释训练。gydF4y2Ba

Expert-in-the-Loop BioBERTgydF4y2Ba

BioBERT [gydF4y2Ba19gydF4y2Ba]是BERT的生物医学版本，使用PubMed摘要和PubMed Central文章进行训练。BioBERT在几个生物医学自然语言处理任务上实现了最先进的性能。我们遵循了与Nogueira等人相同的设置[gydF4y2Ba18gydF4y2Ba]在这个任务中使用BioBERT:预测候选文章的证据质量gydF4y2Ba一个gydF4y2Ba对于查询gydF4y2Ba问gydF4y2Ba，我们首先馈送连接gydF4y2Ba问gydF4y2Ba而且gydF4y2Ba一个gydF4y2Ba到BioBERT，得到对表示gydF4y2BahgydF4y2Ba：gydF4y2Ba

在哪里gydF4y2Ba问gydF4y2Ba是继发性疾病吗gydF4y2BadgydF4y2Ba，基因变异gydF4y2BaggydF4y2Ba，以及治疗gydF4y2BatgydF4y2Ba在查询中;gydF4y2Ba一个gydF4y2Ba是文章标题和摘要的串联;[SEP]是BERT中的一个特殊标记，用于标记输入段。一个sigmoid层应用于[CLS]表示gydF4y2BahgydF4y2Ba预测证据质量gydF4y2Ba：gydF4y2Ba

其中σ表示sigmoid函数，gydF4y2BawgydF4y2Ba而且gydF4y2BabgydF4y2Ba是层权值。在微调过程中，我们尽量减少预测证据质量之间的均方损失gydF4y2Ba还有专家标记的分数gydF4y2BargydF4y2Ba．BioBERT微调使用Huggingface的transformer Python包实现[gydF4y2Ba23gydF4y2Ba］．我们使用Adam优化器[gydF4y2Ba24gydF4y2Ba]学习速度为4 × 10gydF4y2Ba^5gydF4y2Ba，批大小为16，每次迭代微调epoch数为10。gydF4y2Ba

我们将expert-in- loop主动学习过程显示在(gydF4y2Ba图2gydF4y2Ba)．在每次迭代中，生物医学专家(高级医学博士候选人)根据所示的标准注释给定查询中排名最高的未注释文档的证据质量(gydF4y2Ba图3gydF4y2Ba)．这类似于Shen和Zhai中描述的前1位主动反馈设置。gydF4y2Ba25gydF4y2Ba］．随后，我们在此迭代中使用所有可用注释对原始BioBERT进行微调(即，新注释的实例加上上次迭代中的所有可用注释)，然后使用经过微调的BioBERT更新所有文档的预测，从而产生新的文档排名。再次，新的文档排名被发送给专家进行注释。我们执行了22次expert-in- loop主动学习迭代，其中在大多数迭代中，添加了40个新的注释(每个主题1个)，结果总共有950个注释。我们还随机抽取了100对主题文章，由另一位医生进行注释。2个标注者的标注分数Pearson相关系数为0.853，说明标注者之间的一致性较高。gydF4y2Ba

图2。我们专家在循环中主动学习策略的架构。BioBERT:用于生物医学文本挖掘的变压器双向编码器表示Y:是的;N:没有。gydF4y2Ba

线性回归量gydF4y2Ba

我们使用专家注释来训练一个简单的线性回归模型，使用以下特征:gydF4y2Ba

es: ElasticSearch返回的相关性分数;gydF4y2Ba
pb:预训练的BioBERT预测的相关性分数。我们使用了之前TREC PM挑战中的注释来微调BioBERT。具体来说，我们收集了54,500个主题文档相关性注释gydF4y2BaqrelgydF4y2BaTREC PM 2017-2019的文件，其中查询包含疾病、基因变异和人口统计信息，但不包括治疗方案。为了确保一致性，我们只使用查询的疾病和基因变体字段作为输入，并对BioBERT进行了微调，以预测它们在注释中的规范化相关性。我们将其称为“预训练”BioBERT，因为训练数据的格式与TREC PM 2020的数据不同;gydF4y2Ba
Ty:出版类型得分。PubMed还将每篇文章按出版类型进行索引，如期刊文章、综述、临床试验等。我们根据对证据质量的判断，手动对每种出版物类型进行评分。我们的发布类型和分数映射显示在gydF4y2Ba表2gydF4y2Ba；gydF4y2Ba
Ct:引文计数评分。我们对所有PubMed文章的引用计数进行了排名，并使用特定文章的引用计数的分位数作为一个特征。与PageRank类似但更简单[gydF4y2Ba26gydF4y2Ba]，此功能旨在反映每篇文章在社区层面的重要性。gydF4y2Ba

线性回归采用gydF4y2BasklearngydF4y2BaPython包，它基本上最小化了专家注释和线性近似预测之间的残差平方和。gydF4y2Ba

表2。发表类型与临床证据质量评分之间的映射关系。gydF4y2Ba

发布类型gydF4y2Ba	分数gydF4y2Ba
评论gydF4y2Ba	1gydF4y2Ba
编辑gydF4y2Ba	1gydF4y2Ba
发布错误gydF4y2Ba	2gydF4y2Ba
撤回发表gydF4y2Ba	2gydF4y2Ba
英语文摘gydF4y2Ba	0gydF4y2Ba
期刊文章gydF4y2Ba	0gydF4y2Ba
信gydF4y2Ba	0gydF4y2Ba
审查gydF4y2Ba	0gydF4y2Ba
案例报告gydF4y2Ba	1gydF4y2Ba
观察性研究gydF4y2Ba	1gydF4y2Ba
临床试验gydF4y2Ba	2gydF4y2Ba
荟萃分析gydF4y2Ba	2gydF4y2Ba
系统综述gydF4y2Ba	2gydF4y2Ba

实验设置gydF4y2Ba

我们将提交给TREC PM 2020的PM- search与其他团队提交的模型进行了比较。我们在挑战中使用了5个设置，即gydF4y2BaPM-Search-auto-1gydF4y2Ba，gydF4y2BaPM-Search-auto-2gydF4y2Ba，gydF4y2BaPM-Search-full-1gydF4y2Ba，gydF4y2BaPM-Search-full-2gydF4y2Ba,gydF4y2BaPM-Search-full-3gydF4y2Ba．它们使用不同的重排序器对基线检索器检索的同一组文档进行排序。gydF4y2BaPM-Search-full-1gydF4y2Ba，gydF4y2BaPM-Search-full-2gydF4y2Ba,gydF4y2BaPM-Search-full-3gydF4y2Ba使用证据重新排序器。他们使用完整的PM-Search架构，在证据重新排序器中使用不同的组合权重。gydF4y2Ba

我们还使用了gydF4y2BaPM-Search-auto-1gydF4y2Ba而且gydF4y2BaPM-Search-auto-2gydF4y2Ba不使用专家在循环中主动学习策略的设置。由于这些设置不依赖于专家注释，因此它们被认为是TREC挑战运行的“自动”设置。具体来说，就是文章的重排序得分gydF4y2Ba一个gydF4y2Ba中的给定查询gydF4y2BaPM-Search-auto-1gydF4y2Ba而且gydF4y2BaPM-Search-auto-2gydF4y2Ba为LR特征的加权和:gydF4y2Ba

在西文gydF4y2Ba_{一个gydF4y2Ba}、铅gydF4y2Ba_{一个gydF4y2Ba},泰gydF4y2Ba_{一个gydF4y2Ba}, ctgydF4y2Ba_{一个gydF4y2Ba}文件的特点是什么gydF4y2Ba一个gydF4y2Ba；西文gydF4y2Ba_{马克斯gydF4y2Ba}、铅gydF4y2Ba_{马克斯gydF4y2Ba},泰gydF4y2Ba_{马克斯gydF4y2Ba}, ctgydF4y2Ba_{马克斯gydF4y2Ba}是所有文档中对应的最大特征值;而且gydF4y2BawgydF4y2Ba_{西文gydF4y2Ba}，gydF4y2BawgydF4y2Ba_pbgydF4y2Ba，gydF4y2BawgydF4y2Ba_泰gydF4y2Ba,gydF4y2BawgydF4y2Ba_ctgydF4y2Ba是与不同特征相关的权重，是根据经验确定的。所提交系统的特征权重显示在gydF4y2Ba表3gydF4y2Ba．gydF4y2Ba

表3。不同系统中的特征权重。Participant表示提交给文本检索会议(TREC)精确医学(PM)的系统名称。gydF4y2Ba

系统gydF4y2Ba			TREC运行IdgydF4y2Ba		wgydF4y2Ba_{西文gydF4y2Ba}^{一个gydF4y2Ba}	wgydF4y2Ba_pbgydF4y2Ba^bgydF4y2Ba		wgydF4y2Ba_泰gydF4y2Ba^cgydF4y2Ba		wgydF4y2Ba_ctgydF4y2Ba^dgydF4y2Ba		wgydF4y2Ba_LRgydF4y2Ba^egydF4y2Ba		wgydF4y2Ba_{神奇动物gydF4y2Ba}^fgydF4y2Ba
PM-Search运行gydF4y2Ba
	PM-Search-auto-1gydF4y2Ba	damoespb1gydF4y2Ba		1.0gydF4y2Ba		0．5gydF4y2Ba	1.5gydF4y2Ba		0．0gydF4y2Ba		- - - - - -gydF4y2Ba^ggydF4y2Ba		- - - - - -gydF4y2Ba
	PM-Search-auto-2gydF4y2Ba	damoespb2gydF4y2Ba		1.0gydF4y2Ba		0．5gydF4y2Ba	1.0gydF4y2Ba		0．0gydF4y2Ba		- - - - - -gydF4y2Ba		- - - - - -gydF4y2Ba
	PM-Search-full-1gydF4y2Ba	damoespcbh1gydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		1.0gydF4y2Ba		1.0gydF4y2Ba
	PM-Search-full-2gydF4y2Ba	damoespcbh2gydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		1.0gydF4y2Ba		2．0gydF4y2Ba
	PM-Search-full-3gydF4y2Ba	damoespcbh3gydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		1.0gydF4y2Ba		5．0gydF4y2Ba
消融gydF4y2Ba
	寻回器+ pbgydF4y2Ba	N/AgydF4y2Ba^hgydF4y2Ba		1.0gydF4y2Ba		1.0gydF4y2Ba	0．0gydF4y2Ba		0．0gydF4y2Ba		- - - - - -gydF4y2Ba		- - - - - -gydF4y2Ba
	猎犬+ tygydF4y2Ba	N/AgydF4y2Ba		1.0gydF4y2Ba		0．0gydF4y2Ba	1.0gydF4y2Ba		0．0gydF4y2Ba		- - - - - -gydF4y2Ba		- - - - - -gydF4y2Ba
	检索器+ ctgydF4y2Ba	N/AgydF4y2Ba		1.0gydF4y2Ba		0．0gydF4y2Ba	0．0gydF4y2Ba		1.0gydF4y2Ba		- - - - - -gydF4y2Ba		- - - - - -gydF4y2Ba
	LRgydF4y2Ba	N/AgydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		1.0gydF4y2Ba		0．0gydF4y2Ba
	神奇动物gydF4y2Ba	N/AgydF4y2Ba		-0.465gydF4y2Ba		-0.141gydF4y2Ba	-0.617gydF4y2Ba		-0.005gydF4y2Ba		0．0gydF4y2Ba		1.0gydF4y2Ba

^{一个gydF4y2Ba}es: ElasticSearch得分。gydF4y2Ba

^bgydF4y2Bapb:预训练的BioBERT。gydF4y2Ba

^cgydF4y2BaTy:发布类型。gydF4y2Ba

^dgydF4y2BaCt:引文计数。gydF4y2Ba

^egydF4y2BaLR:线性回归。gydF4y2Ba

^fgydF4y2BaFB:微调BioBERT(用于生物医学文本挖掘的变压器双向编码器表示)。gydF4y2Ba

^ggydF4y2Ba不可用。gydF4y2Ba

^hgydF4y2BaN/A:不适用。gydF4y2Ba

主要结果gydF4y2Ba

与其他排名靠前的系统相比，我们参与TREC PM 2020的主要结果显示在gydF4y2Ba表4gydF4y2Ba［gydF4y2Ba9gydF4y2Ba］．gydF4y2Ba

表4。评估中不同设置的主题平均表现。所有数字都是百分比。表中列出的其他顶级文本检索会议(TREC)提交的文件包括BIT系统。UA [gydF4y2Ba27gydF4y2Ba]， CSIROMed [gydF4y2Ba28gydF4y2Ba]，和h2oloo [gydF4y2Ba29gydF4y2Ba］．gydF4y2Ba

			证据质量(第二阶段)gydF4y2Ba				一般相关性(阶段1)gydF4y2Ba
			NDCG@30gydF4y2Ba^{一个gydF4y2Ba}、指数gydF4y2Ba		NDCG@30、标准gydF4y2Ba		infNDCGgydF4y2Ba^bgydF4y2Ba	P@10gydF4y2Ba^cgydF4y2Ba	R-precgydF4y2Ba^dgydF4y2Ba
所有TREC运行gydF4y2Ba
	第一个gydF4y2Ba	45.19(我们的)gydF4y2Ba		47.80(我们的)gydF4y2Ba		53.25 [gydF4y2Ba27gydF4y2Ba］gydF4y2Ba		56.45 [gydF4y2Ba28gydF4y2Ba］gydF4y2Ba	43.58 [gydF4y2Ba28gydF4y2Ba］gydF4y2Ba
	第二个gydF4y2Ba	41.93 * (gydF4y2Ba29gydF4y2Ba］gydF4y2Ba		42.38 * (gydF4y2Ba29gydF4y2Ba］gydF4y2Ba		53.03 [gydF4y2Ba28gydF4y2Ba］gydF4y2Ba		55.16 [gydF4y2Ba27gydF4y2Ba］gydF4y2Ba	42.07 [gydF4y2Ba27gydF4y2Ba］gydF4y2Ba
	中位数gydF4y2Ba	28.57gydF4y2Ba		25.29gydF4y2Ba		43.16gydF4y2Ba		46.45gydF4y2Ba	32.59gydF4y2Ba
PM-Search运行gydF4y2Ba
	PM-Search-full-3gydF4y2Ba	45.19gydF4y2Ba		47.80gydF4y2Ba		44.24gydF4y2Ba		47.42gydF4y2Ba	34.72gydF4y2Ba
	PM-Search-full-1gydF4y2Ba	44.97gydF4y2Ba		47.30gydF4y2Ba		43.04gydF4y2Ba		47.42gydF4y2Ba	34.10gydF4y2Ba
	PM-Search-full-2gydF4y2Ba	44.95gydF4y2Ba		47.46gydF4y2Ba		43.84gydF4y2Ba		47.10gydF4y2Ba	34.14gydF4y2Ba
	PM-Search-auto-1gydF4y2Ba	42.55gydF4y2Ba		44.17 *gydF4y2Ba		45.33gydF4y2Ba		47.42gydF4y2Ba	35.93gydF4y2Ba
	PM-Search-auto-2gydF4y2Ba	42.54gydF4y2Ba		44.60 *gydF4y2Ba		41.12gydF4y2Ba		44.52gydF4y2Ba	32.37gydF4y2Ba
消融gydF4y2Ba
	寻回器+ pbgydF4y2Ba^egydF4y2Ba	32.36 *gydF4y2Ba		37.04 *gydF4y2Ba		52.26gydF4y2Ba		53.87gydF4y2Ba	41.21gydF4y2Ba
	猎犬+ tygydF4y2Ba^fgydF4y2Ba	41.46 *gydF4y2Ba		43.26 *gydF4y2Ba		37.80gydF4y2Ba		40.32gydF4y2Ba	29.37gydF4y2Ba
	检索器+ ctgydF4y2Ba^ggydF4y2Ba	35.55 *gydF4y2Ba		38.40 *gydF4y2Ba		42.20gydF4y2Ba		44.84gydF4y2Ba	32.52gydF4y2Ba
	线性回归量gydF4y2Ba	42.86 *gydF4y2Ba		44.86 *gydF4y2Ba		37.65gydF4y2Ba		46.13gydF4y2Ba	30.74gydF4y2Ba
	线性回归，去掉一个gydF4y2Ba	42.08 *gydF4y2Ba		43.81 *gydF4y2Ba		37.06gydF4y2Ba		46.45gydF4y2Ba	30.58gydF4y2Ba
	调整BioBERTgydF4y2Ba^hgydF4y2Ba	44.40 *gydF4y2Ba		47.01 *gydF4y2Ba		44.59gydF4y2Ba		47.42gydF4y2Ba	34.87gydF4y2Ba
	微调生物机器人，留下一个gydF4y2Ba	44.15 *gydF4y2Ba		46.58 *gydF4y2Ba		43.83 *gydF4y2Ba		46.45 *gydF4y2Ba	33.81 *gydF4y2Ba

^{一个gydF4y2Ba}NDCG@30:归一化贴现累积增益NDCG在排名30。gydF4y2Ba

^bgydF4y2BainfNDCG:推断的NDCG。gydF4y2Ba

^cgydF4y2BaP@10: 10级精度。gydF4y2Ba

^dgydF4y2BaR-prec: R-precision。gydF4y2Ba

^egydF4y2Bapb:预训练的BioBERT。gydF4y2Ba

^fgydF4y2BaTy:发布类型。gydF4y2Ba

^ggydF4y2BaCt:引文计数。gydF4y2Ba

^hgydF4y2BaBioBERT:用于生物医学文本挖掘的变压器双向编码器表示。gydF4y2Ba

*与PM-Search-full-3有显著差异。重要性的定义为gydF4y2BaPgydF4y2Ba<。05在2-sided pairedtgydF4y2Ba测试。gydF4y2Ba

一般相关性(第一阶段)gydF4y2Ba

我们提交的内容得分高于主题提交的中位数，但最好的提交(infNDCG: 0.5325, P@10: 0.5645, R-prec: 0.4358)优于我们的提交(infNDCG: 0.4533, P@10: 0.4742, R-prec: 0.3593)。我们的PM-Search运行(gydF4y2BaPM-Search-full-1gydF4y2Ba来gydF4y2Ba3.gydF4y2Ba；例如，PM-Search)在没有主动学习的情况下(gydF4y2BaPM-Search-auto-1gydF4y2Ba而且gydF4y2Ba2gydF4y2Ba)．这并不奇怪，因为我们专注于建模证据质量，而与查询高度相关但证据质量较低的文章(例如，叙述性评论)将排名较低。因此，我们的提交在主要判断一般相关性的第一阶段评估中表现一般。gydF4y2Ba

证据质量(第二阶段)gydF4y2Ba

我们的pm搜索系统gydF4y2BaPM-Search-full-3gydF4y2Ba获得最高分数的标准增益NDCG@30为0.4780，指数增益NDCG@30为0.4519。不出所料，gydF4y2BaPM-Search-fullgydF4y2Ba设置优于gydF4y2BaPM-Search-autogydF4y2Ba只使用这些特性的设置(平均指数为0.4503 vs 0.4255 NDCG@30)。这表明，我们的专家注释程序以及专家在环的主动学习策略可以提高证据质量排名的性能。值得注意的是，我们所有的设置都优于次优系统(标准NDCG@30为0.4238，指数NDCG@30为0.4193)[gydF4y2Ba29gydF4y2Ba]，包括gydF4y2BaPM-Search-autogydF4y2Ba不依赖于专家注释的设置(指数NDCG@30: 0.4255)。结果表明，所提出的PM- search系统是一个强大的证据检索器，可以潜在地应用于协助PM的实践。gydF4y2Ba

烧蚀和特征重要性gydF4y2Ba

我们还对不同的设置进行了实验，并研究了PM-Search组件的重要性，包括基线检索器、主动学习和重新排序功能。gydF4y2Ba

基线检索设置gydF4y2Ba

在gydF4y2Ba表5gydF4y2Ba，我们在不进行查询扩展或关键字匹配的情况下显示基线检索器的性能。结果表明，查询扩展是提高相关文章查全率的重要模块。然而，我们发现提升关键字如“试验”和“患者”并没有显著改变性能。这与Faessler等人的研究不一致[gydF4y2Ba10gydF4y2Ba]，这表明增加一系列关键字有助于提高性能。我们的系统与Faessler等人的一个关键区别[gydF4y2Ba10gydF4y2Ba]是我们只使用2个积极的关键字，而他们使用各种积极和消极的关键字，所以增加关键字的数量和多样性可能是未来需要改进的工作。gydF4y2Ba

表5所示。不同基线拾取器设置的消融结果(百分比)。gydF4y2Ba

方法gydF4y2Ba	证据质量(第二阶段)gydF4y2Ba				一般相关性(阶段1)gydF4y2Ba
	R@0.5kgydF4y2Ba^{一个gydF4y2Ba}	R@1kgydF4y2Ba^bgydF4y2Ba	R@10kgydF4y2Ba^cgydF4y2Ba	R@0.5kgydF4y2Ba		R@1kgydF4y2Ba	R@10kgydF4y2Ba
基线寻回犬gydF4y2Ba	68.99gydF4y2Ba	75.96gydF4y2Ba	81.00gydF4y2Ba	65.51gydF4y2Ba		72.30gydF4y2Ba	77.71gydF4y2Ba
没有查询扩展的基线检索器gydF4y2Ba	66.84 *gydF4y2Ba	72.61 *gydF4y2Ba	76.94 *gydF4y2Ba	61.85 *gydF4y2Ba		67.21 *gydF4y2Ba	72.90 *gydF4y2Ba
没有关键字匹配的基线检索器gydF4y2Ba	68.85gydF4y2Ba	76.06gydF4y2Ba	81.00gydF4y2Ba	65.65gydF4y2Ba		72.33gydF4y2Ba	77.71gydF4y2Ba

^{一个gydF4y2Ba}R@0.5k:在前500名的位置召回。gydF4y2Ba

^bgydF4y2BaR@1k:在前1000个位置召回。gydF4y2Ba

^cgydF4y2BaR@10k:在前10000个位置召回。gydF4y2Ba

*与原始检索有显著差异。重要性的定义为gydF4y2BaPgydF4y2Ba<。05在2-sided pairedtgydF4y2Ba测试。gydF4y2Ba

主动学习gydF4y2Ba

在gydF4y2Ba图4gydF4y2Ba，我们展示了在主动学习中的每次迭代中BioBERT预测的性能，并通过证据质量(阶段2)评估使用infNDCG@30进行评估。当注释数量小于500时，性能随迭代而增加，当注释数量大于500时性能收敛。有趣的是，我们发现我们的注释器注释的平均相关性也在500个注释左右达到最大值，这表明这个指标可以经验地用作停止标准。gydF4y2Ba

图4。InfNDCG@30和在主动学习中每次迭代的平均注释相关性。InfNDCG@30:推断归一化贴现累积增益在排名30。gydF4y2Ba

Reranker特性gydF4y2Ba

为了分析所使用的特征的重要性，我们展示了烧蚀实验gydF4y2Ba表4gydF4y2Ba以及在两个阶段中它们与官方分数之间的Pearson相关性gydF4y2Ba表6gydF4y2Ba．gydF4y2Ba

一般相关性(1期):经之前TREC PM (pb)注释进一步预训练的BioBERT与1期评分相关性最高(0.5771)，在我们的消融实验中，经预训练的BioBERT基线检索器的性能最高(infNDCG: 52.26%)。这可能是因为对以前任务的评估也是基于一般相关性的。ElasticSearch得分(es)的相关性第二高，为0.3892，通过主动学习(FB)微调的BioBERT的Pearson相关性为0.3733。然而，我们的专家对证据质量的注释与一般相关得分的Pearson相关性仅为0.2157，这表明一般相关的论文可能没有高的证据质量。此外，论文类型(ty)和被引次数(ct)的特征与一般相关性得分呈负相关，而这两个特征是为证据质量排名而设计的，与证据质量呈正相关。gydF4y2Ba

证据质量(阶段2):消融结果的趋势以及特征与证据质量评分之间的相关性在标准评分和指数评分中都相似。证据质量评价中最重要的特征包括发表类型和主动学习。有趣的是，仅使用发布类型和基线检索器就可以获得与TREC PM中第二好的系统相当的性能(对于指数NDCG@30, 0.4146 vs 0.4193)。由专家注释(FB)微调的BioBERT在烧蚀实验中具有最高的性能(指数NDCG@30: 0.4440)，其与官方注释的相关性接近于我们的专家注释(指数增益为0.3309 vs 0.2937;0.2847 vs 0.3073标准增益)。此外，经过优化的BioBERT在第一阶段的评估中大幅优于专家注释(0.3733 vs 0.2157)，这表明它可以在一定程度上保留原有的一般相关性排名的同时，根据证据质量对文献进行重新排序。第一阶段中相关性最强的特征，即预训练的BioBERT (pb)和ElasticSearch评分(es)与第二阶段评分的相关性最低，这进一步证实了证据质量评估不同于一般相关性评估。gydF4y2Ba

总之，这两个评估阶段可能有相反的考虑，因为与一个阶段的分数高度相关的特征往往与另一个阶段的分数相关性较小，微调的BioBERT除外。因此，PM搜索引擎需要对证据质量进行超越一般相关性的特定建模。gydF4y2Ba

表6所示。特征与官方分数的相关性。gydF4y2Ba

特性gydF4y2Ba			西文gydF4y2Ba^{一个gydF4y2Ba}		pbgydF4y2Ba^bgydF4y2Ba	泰gydF4y2Ba^cgydF4y2Ba		ctgydF4y2Ba^dgydF4y2Ba		LRgydF4y2Ba^egydF4y2Ba	神奇动物gydF4y2Ba^fgydF4y2Ba		专家注释gydF4y2Ba
一般的相关性gydF4y2Ba			0.3892gydF4y2Ba		0.5771gydF4y2Ba	-0.0621gydF4y2Ba		-0.0435gydF4y2Ba		0.1341gydF4y2Ba	0.3733gydF4y2Ba		0.2157gydF4y2Ba
证据质量gydF4y2Ba
	标准的收益gydF4y2Ba	0.0752gydF4y2Ba		0.0621gydF4y2Ba		0.2564gydF4y2Ba	0.0696gydF4y2Ba		0.2728gydF4y2Ba		0.3309gydF4y2Ba	0.2937gydF4y2Ba
	指数级增长gydF4y2Ba	0.0474gydF4y2Ba		0.0338gydF4y2Ba		0.2772gydF4y2Ba	0.0806gydF4y2Ba		0.2816gydF4y2Ba		0.2847gydF4y2Ba	0.3073gydF4y2Ba

^{一个gydF4y2Ba}es: ElasticSearch得分。gydF4y2Ba

^bgydF4y2Bapb:来自变压器的预训练的双向编码器表示，用于生物医学文本挖掘(BioBERT)。gydF4y2Ba

^cgydF4y2BaTy:发布类型。gydF4y2Ba

^dgydF4y2BaCt:引文计数。gydF4y2Ba

^egydF4y2BaLR:线性回归。gydF4y2Ba

^fgydF4y2BaFB:微调BioBERT。gydF4y2Ba

主题级泛化分析gydF4y2Ba

用于训练PM-Search重新排序器的每个实例都包含一个主题-文章对及其相关性评分。主要结果表明，PM-Search在gydF4y2Ba实例级gydF4y2Ba，其中模型由不同的实例进行训练和评估。然而,gydF4y2Ba主题级gydF4y2Ba由于我们的专家注释和官方注释(即训练和评估实例)使用相同的主题集，因此没有评估PM-Search的泛化性。gydF4y2Ba

在这里，我们分析了PM-Search如何使用留空评估策略泛化到未见的主题。每次，我们只使用一个主题的官方注释来评估由没有评估主题的专家注释训练的模型。计算每个题目作为评价题目的结果，平均成绩显示在gydF4y2Ba表4gydF4y2Ba．省略一项的结果与使用所有专家注释进行训练时的结果接近:指数NDCG@30的0.4415 vs 0.4440，标准NDCG@30的0.4658 vs 0.4710。这表明该模型也可推广到未见的主题。gydF4y2Ba

误差分析gydF4y2Ba

我们展示了几个典型的案例gydF4y2Ba表7gydF4y2Ba定性分析证据质量评估中的一些错误。需要指出的是，由于BioBERT的预测是不可解释的，因此大多数错误不能归因于特定的原因，因此开发可解释的模型是未来探索的重要方向。gydF4y2Ba

表7所示。证据质量评估中的典型错误案例。主题如表1所示。gydF4y2Ba

情况下gydF4y2Ba	主题gydF4y2Ba	文章gydF4y2Ba	官方，级别(规范化相关性)gydF4y2Ba	点gydF4y2Ba^{一个gydF4y2Ba}搜索，排序(标准化相关性)gydF4y2Ba	错误类型gydF4y2Ba
1gydF4y2Ba	1gydF4y2Ba	PMIDgydF4y2Ba^bgydF4y2Ba: 23177515;regorafenib治疗伊马替尼和舒尼替尼(GRID)失败后晚期胃肠间质瘤的疗效和安全性:一项国际、多中心、随机、安慰剂对照的3期临床试验gydF4y2Ba	1 (1.00)gydF4y2Ba	N/AgydF4y2Ba^cgydF4y2Ba	理念识别gydF4y2Ba
2gydF4y2Ba	1gydF4y2Ba	PMID: 24150533;标题:regorafenib在癌症患者中的高血压风险:系统回顾和荟萃分析gydF4y2Ba	1 (1.00)gydF4y2Ba	148 (0.47)gydF4y2Ba	不同的理解gydF4y2Ba
3.gydF4y2Ba	1gydF4y2Ba	PMID: 25213161;regorafenib在转移性结直肠癌中的随机III期试验:正确的日本和非日本亚群的分析gydF4y2Ba	1 (1.00)gydF4y2Ba	297 (0.29)gydF4y2Ba	不保密的gydF4y2Ba
4gydF4y2Ba	11gydF4y2Ba	PMID: 29147869;标题:使用周期蛋白依赖性激酶4和6抑制剂治疗乳腺癌患者的血液学不良反应:系统回顾和荟萃分析gydF4y2Ba	1 (1.00)gydF4y2Ba	N/AgydF4y2Ba	全文可见性gydF4y2Ba
5gydF4y2Ba	11gydF4y2Ba	PMID: 28540640;标题:阿贝西库在癌症患者I期临床试验中的群体药代动力学和药效学分析gydF4y2Ba	1 (1.00)gydF4y2Ba	53 (0.50)gydF4y2Ba	全文可见性gydF4y2Ba
6gydF4y2Ba	11gydF4y2Ba	PMID: 29700711;标题:激素受体阳性的早期乳腺癌中的周期蛋白依赖性激酶4/6抑制剂:初步结果和正在进行的研究gydF4y2Ba	61 (0.25)gydF4y2Ba	6 (0.71)gydF4y2Ba	不同的理解gydF4y2Ba

^{一个gydF4y2Ba}PM:精准医疗。gydF4y2Ba

^bgydF4y2Bamidd: PubMed标识符。gydF4y2Ba

^cgydF4y2BaN/A:不适用。gydF4y2Ba

全文可见性gydF4y2Ba

PM-Search系统只能访问PubMed文章的标题和摘要。然而，重要的文章信息(例如，详细的基因变异类型，治疗方法)可能只会出现在完整的文章中，特别是在元分析和系统综述中，摘要往往使用更一般的概念。例如，PM-Search无法检索Case 5文章，其中查询的疾病“乳腺癌”仅在全文中提到，而不是在摘要中提到。为此，未来的模型可以使用来自PubMed Central的完整文章信息来更好地检索和排序相关论文。gydF4y2Ba

不同的理解gydF4y2Ba

在某些情况下，我们对一篇文章提供的证据的临床意义有不同的理解。例如，病例2中的文章“regorafenib在癌症患者中的高血压风险:系统回顾和荟萃分析”关注的是治疗的高血压副作用，而不是治疗效果，我们认为这并不显著。然而，它在官方评价中获得了最高分，但在PM-Search预测中排名要低得多。这个问题应该通过社区的努力来解决，以制定标准。gydF4y2Ba

理念识别gydF4y2Ba

PM-Search的基线检索器使用查询扩展来识别文章中的相关概念。然而，这一步很容易出错，因为生物医学术语是高度可变的，因此不能用同义词列表来表示。例如，在案例1中，查询中的“结直肠癌”在文章中显示为“胃肠间质肿瘤”，这在PM-Search的查询扩展步骤中被遗漏了。因此，这篇文章没有被PM-Search返回，但在官方评估中排名最高。改进相似概念的识别，例如使用概念的分布式表示，仍然是一个重要的探索方向。gydF4y2Ba

与之前工作的比较gydF4y2Ba

许多用于精准医疗的红外系统已在TREC PM轨道中提出[gydF4y2Ba7gydF4y2Ba-gydF4y2Ba9gydF4y2Ba，gydF4y2Ba30.gydF4y2Ba]，其中要解决的关键问题是查询及其相关文档可能使用不同的术语来描述相同的概念。一些研究[gydF4y2Ba31gydF4y2Ba-gydF4y2Ba33gydF4y2Ba]在之前的TREC PM跟踪中尝试使用基于bert的模型进行排名，显示出不同程度的改进。Thalia是一个生物医学摘要的语义搜索引擎，每天更新[gydF4y2Ba34gydF4y2Ba］．它通过将查询映射到用于索引文档的预定义概念来解决词汇表不匹配问题。HPI-DHC团队表明，与手工制作的规则相关联的查询扩展提高了检索性能[gydF4y2Ba35gydF4y2Ba］．Faessler等[gydF4y2Ba10gydF4y2Ba，gydF4y2Ba36gydF4y2Ba系统地分析了BM25权重、查询扩展和增强设置等相关系统特性的个人贡献。PRIMROSE是一个PM搜索引擎，它通过内部知识图谱扩展查询[gydF4y2Ba37gydF4y2Ba］．Noh和Kavuluru [gydF4y2Ba38gydF4y2Ba使用带有特定组件的基本BERT来重新排序。库普曼等[gydF4y2Ba39gydF4y2Ba]提供了一个搜索引擎，让临床医生为患有癌症的儿童找到量身定制的治疗方法。对于词汇表不匹配问题，PM-Search使用了与以前研究相似的查询扩展策略。然而，PM- search与之前的所有工作不同，它是专门根据证据质量对检索结果进行排序的，这是PM搜索引擎的一个重要特性。gydF4y2Ba

结论及未来工作gydF4y2Ba

在本文中，我们介绍了PM- search，这是一个在TREC PM 2020中实现了最先进性能的PM搜索引擎。PM-Search使用基于elasticsearch的基线检索器，具有查询扩展和关键字匹配，以及使用由主动学习策略微调的BioBERT的证据重新排序器。我们的分析表明，证据质量是一个不同于一般相关性的方面，因此，有必要对其进行具体建模，以协助循证PM的实践。gydF4y2Ba

PM-Search在真实临床环境中的部署和评估仍然是一个明确的未来方向。使用密集向量进行基线检索和将全文信息纳入排序过程也是值得探索的。gydF4y2Ba

致谢gydF4y2Ba

我们感谢2020年文本检索会议(TREC)精准医学(PM)组织者在开展这项任务和对提交的系统进行手动评估方面所做的努力。gydF4y2Ba

利益冲突gydF4y2Ba

没有宣布。gydF4y2Ba

Kent DM, Rothwell PM, Ioannidis JP, Altman DG, Hayward RA。评估和报告临床试验中治疗效果的异质性:一项建议。审判2010年8月12日;11(1):85 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Collins FS, Varmus H.精准医疗的新举措。N Engl J Med 2015 Feb 26;372(9):793-795 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Paez JG, Jänne PA, Lee JC, Tracy S, Greulich H, Gabriel S，等。肺癌中的EGFR突变:与吉非替尼治疗的临床反应的相关性。科学通报2004年6月04日;［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Romond EH, Perez EA, Bryant J, Suman VJ, Geyer CE, Davidson NE，等。曲妥珠单抗联合辅助化疗治疗可手术her2阳性乳腺癌英国医学杂志2005年10月20日;353(16):1673-1684。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Sackett DL。循证医学。人类围产期1997 2月;21(1):3-5。［gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Roberts K, Demner-Fushman D, Voorhees EM, Hersh WR, Bedrick S, Lazar AJ，等。TREC 2017精准医疗专题会议概述。文本Retr Conf 2017年11月26日[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Roberts K, Demner-Fushman D, Voorhees EM, Hersh WR, Bedrick S, Lazar AJ。2018年TREC精准医疗专题会议概述。文本Retr Conf 2018 [gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
Roberts K, Demner-Fushman D, Voorhees EM, Hersh WR, Bedrick S, Lazar AJ，等。2019年TREC精准医学专题会议概述。文本Retr Conf 2019年11月;1250 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Roberts K, Demner-Fushman D, Voorhees EM, Bedrick S, Hersh WR。2020年TREC精准医疗专题会议概述。文本Retr Conf 2020年11月;1266 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Faessler E, Oleynik M, Hahn U.是什么造就了顶级的精准医疗搜索引擎?系统地追踪系统的主要特征。2020年7月25日发表于:SIGIR '20:第43届国际ACM SIGIR信息检索研究与开发会议;2020年7月25日至30日;虚拟事件，中国第459-468页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
阮伟，陈志强，陈志强。精准医疗的实验平台。2019年7月18日发表于:SIGIR'19:第42届国际ACM SIGIR会议研究与开发信息检索;2019年7月21日至25日;法国巴黎，约1357-1360年。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李志强，李志强，李志强。基于基因组域的查询扩展方法研究。信息检索2008 10月29日;12(1):17-50。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Craswell N, Mitra B, Yilmaz E, Campos D, Voorhees EM. 2019年TREC深度学习轨道概述。arXiv 2020年3月18日1-22日。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Peters ME, Neumann M, Iyyer M, Gardner M, Clark C, Lee K. Deep语境化词语表征。2018年6月发表于:计算语言学协会北美分会2018年会议:人类语言技术;2018年6月1日至6日;新奥尔良，洛杉矶，第2227-2237页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Devlin J, Chang MW, Lee K, Toutanova K. Bert:基于深度双向转换器的语言理解预训练。2019 Jun发表于:计算语言学协会北美分会2019年会议:人类语言技术，第1卷(长论文和短论文);2019年6月2日至7日;明尼阿波利斯，第4171-4186页。gydF4y2Ba
Wang A, Singh A, Michael J, Hill F, Levy O, Bowman S. GLUE:自然语言理解的多任务基准和分析平台。2018年11月发表于:2018 EMNLP研讨会BlackboxNLP:分析和解释NLP的神经网络;2018年11月1日;比利时布鲁塞尔，第353-355页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
张志刚，张志刚，张志刚，等。注意力就是你所需的一切在:神经信息处理系统的进展。2017年发表于:第31届神经信息处理系统会议(NIPS 2017);2017年12月4日至9日;加州长滩，邮编5998-6008网址:gydF4y2Bahttps://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdfgydF4y2Ba
杨伟，赵凯，林杰。多阶段文献排序。arXiv 2019 10月31:1-13。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
李俊，尹伟，金松，金丁，金松，苏c，等。BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学2020 Feb 15;36(4):1234-1240 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
医疗在线API。国家医学图书馆。URL:gydF4y2Bahttps://ghr.nlm.nih.gov/condition/ {d} ?报告= jsongydF4y2Ba[2022-11-29]访问gydF4y2Ba
医疗在线API。国家医学图书馆。URL:gydF4y2Bahttps://ghr.nlm.nih.gov/gene/ {g} ?报告= jsongydF4y2Ba[2022-11-29]访问gydF4y2Ba
罗伯逊，萨拉戈萨，H.概率关联框架:BM25和超越。FNT在信息检索中的应用2009 12月17日;3(4):333-389。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Wolf T, Debut L, Sanh V, Chaumond J, Delangue C, Moi A.变形金刚:最先进的自然语言处理。2020年10月发表于:2020年自然语言处理经验方法会议:系统演示;2020年11月16日至20日;在线虚拟会议第38-45页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
金马平，巴杰。亚当:一种随机优化方法。arXiv 2017年1月30:1-15。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
沈霞，翟晨。主动反馈在临时信息检索中的应用。2005年8月15日发表于:SIGIR '05:第28届国际ACM信息检索研究与发展会议;2005年8月15日至19日;巴西萨尔瓦多，第59-66页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba
Page L, Brin S, Motwani R, Winograd T. PageRank引用排名:为网络带来秩序。斯坦福InfoLab 1998 Jan 29:1-17 [gydF4y2Ba免费全文gydF4y2Ba］gydF4y2Ba
阿尔梅达，马托斯。UA@ TREC精准医学轨道。发表于:第29届文本检索会议，TREC 2020;2020年11月16日至20日;虚拟事件(盖瑟斯堡，马里兰州)网址:gydF4y2Bahttps://trec.nist.gov/pubs/trec29/papers/BIT.UA.PM.pdfgydF4y2Ba
Karimi M. CSIROmed在TREC精准医学。2020年11月发表于:第29届文本检索会议(TREC 2020);2020年11月16日至20日;虚拟事件(盖瑟斯堡，马里兰州)网址:gydF4y2Bahttps://trec.nist.gov/pubs/trec29/papers/CSIROmed.PM.pdfgydF4y2Ba
Pradeep R, Ma X, Zhang X, Cui H, Xu R, Nogueira R. TREC的H2oloo:当你只有一把锤子时……深度学习、健康错误信息和精准医疗。发表于:第二十九届文本检索会议(TREC 2020);2020年11月16日至20日;虚拟事件(盖瑟斯堡，马里兰州)网址:gydF4y2Bahttps://trec.nist.gov/pubs/trec29/papers/h2oloo.DL.HM.PM.pdfgydF4y2Ba
Roberts K, Demner-Fushman D, Voorhees EM, Hersh WR, Bedrick S, Lazar A，等。TREC 2017精准医疗专题会议概述。文本Retr Conf 2017年11月26日[gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
赵珊珊，李凯。CBNU在2019年TREC精准医学赛道上。发表于:第二十八届文本检索会议，TREC 2019;2019年11月13日至15日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec28/papers/cbnu.PM.pdfgydF4y2Ba
刘霞，李琳，杨智，董山。SCUT-CCNL在2019年TREC精准医学赛道上。发表于:第二十八届文本检索会议，TREC 2019;2019年11月13日至15日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec28/papers/CCNL.PM.pdfgydF4y2Ba
郑强，李颖，胡娟，杨艳，何玲，薛艳。华东师范大学- ica团队在2019年TREC精准医学赛道上。发表于:第二十八届文本检索会议，TREC 2019;2019年11月13日至15日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec28/papers/ECNU_ICA.PM.pdfgydF4y2Ba
Soto A, przybygaya P, Ananiadou S. Thalia:生物医学摘要语义搜索引擎。生物信息学2019 5月15日;35(10):1799-1801 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
Oleynik M, Faessler E, Sasso A, Kappattanavar A, Bergner B, Da CH. HPI-DHC在TREC 2018精准医疗轨道上。2018年发表于:第二十七届文本检索会议(TREC 2018);2018年11月14-16日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec27/papers/hpi-dhc-PM.pdfgydF4y2Ba
Faessler E, Hahn U, Oleynik M. 2019发表于:第二十八届文本检索会议，TREC 2019;2019年11月13日至15日;马里兰州盖瑟斯堡gydF4y2Bahttps://trec.nist.gov/pubs/trec28/papers/julie-mug.PM.pdfgydF4y2Ba
谢诺，李V, Soni S，罗伯茨K.开发精准医疗搜索引擎。AMIA Jt峰会Transl science Proc 2020年5月30日;2020:579-588 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
李志强，李志强，李志强，等。基于神经匹配的精准医学文献检索方法。Proc Conf Empir Methods Nat Lang Process 2020年11月;2020:3389-3399 [gydF4y2Ba免费全文gydF4y2Ba] [gydF4y2BaCrossRefgydF4y2Ba] [gydF4y2BaMedlinegydF4y2Ba］gydF4y2Ba
郭建平，李志强，李志强，李志强。儿科肿瘤精准医学研究进展。2021年7月11日发表于:SIGIR '21:第44届国际ACM SIGIR信息检索研究与开发会议;2021年7月11日至15日;虚拟事件，加拿大第2536-2540页。［gydF4y2BaCrossRefgydF4y2Ba］gydF4y2Ba

‎gydF4y2Ba

伯特:gydF4y2Ba来自变压器的双向编码器表示gydF4y2Ba

BioBERT:gydF4y2Ba用于生物医学文本挖掘的变压器的双向编码器表示gydF4y2Ba

BNDCG@30:gydF4y2Ba归一化贴现累积增益NDCG在排名30gydF4y2Ba

ct:gydF4y2Ba引用计数gydF4y2Ba

es:gydF4y2BaElasticSearch得分gydF4y2Ba

弗拉维奥-布里亚托利:gydF4y2Ba调整BioBERTgydF4y2Ba

infNDCG:gydF4y2Ba推断归一化折现累积增益gydF4y2Ba

红外光谱:gydF4y2Ba信息检索gydF4y2Ba

LR:gydF4y2Ba线性回归量gydF4y2Ba

NDCG:gydF4y2Ba归一化折现累积增益gydF4y2Ba

NDCG@30:gydF4y2BaNDCG排名30gydF4y2Ba

P@10:gydF4y2Ba10级精度gydF4y2Ba

铅:gydF4y2Bapretrained BioBERTgydF4y2Ba

下午:gydF4y2Ba精密医学gydF4y2Ba

R-prec:gydF4y2BaR-precisiongydF4y2Ba

TREC:gydF4y2Ba文本检索会议gydF4y2Ba

泰:gydF4y2Ba发布类型gydF4y2Ba

M Focsa编辑;提交04.07.22;R Haynes, C Lokker同行评议;对作者05.10.22的评论;订正版本收到13.11.22;接受16.11.22;发表15.12.22gydF4y2Ba

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。gydF4y2Ba

本文内容如下gydF4y2Bae-collection /主题问题:gydF4y2Ba

最先进的证据检索精确医学:算法开发和验证gydF4y2Ba