JMIR医学信息学-计算健康传播的搜索词识别方法:YouTube上健康内容的词嵌入和网络方法

原始论文

¹美国纽约州伊萨卡市康奈尔大学传播系

²纽约大学全球公共卫生学院生物统计系，纽约，纽约州，美国

^3.纽约大学坦顿工程学院计算机科学与工程系，美国纽约

⁴杰布·布鲁克斯公共政策学院，康奈尔大学，伊萨卡，纽约州，美国

⁵美国爱荷华州立大学格林利新闻与传播学院，爱荷华州艾姆斯

⁶癌症控制与人口科学，亨茨曼癌症研究所，盐湖城，犹他州，美国

⁷美国犹他州盐湖城犹他大学传播系

通讯作者:

周棠博士

传播系

康奈尔大学

494曼图书馆

伊萨卡，纽约州，14850

美国

电话:1 608 334 9909

电子邮件:ctt39@cornell.edu

背景:在卫生传播研究中提取内容的常用方法通常涉及使用一组完善的查询，通常是医疗程序或疾病的名称，这些查询通常是技术性的或很少在卫生主题的公开讨论中使用。尽管这些方法产生了高召回率(即检索高度相关的内容)，但它们往往忽略了社交媒体上以口语和外行词汇为特征的健康信息。考虑到这些信息可能包含错误信息或模糊内容，从而绕过官方医学概念，正确识别(和分析)它们对于研究社交媒体平台上用户生成的健康内容至关重要。

摘要目的:健康传播学者将受益于超越使用标准术语作为搜索查询的检索过程。基于此，本研究旨在提出一种搜索词识别方法，以改善社交媒体上用户生成健康内容的检索。我们将癌症筛查测试作为主题，并将YouTube作为平台案例研究。

方法:我们使用癌症筛查程序(结肠镜检查、粪便隐血检查、乳房x光检查和巴氏试验)检索YouTube视频作为种子查询。然后，我们使用这些视频中的文本特征来训练词嵌入模型，以识别语义上类似于口语中癌症筛查测试的最近邻术语。从排名靠前的邻近词中检索更多YouTube视频，我们从每个词中随机编码了150个视频样本，以获得相关性。然后，我们使用文本挖掘来检查从这些视频中检索到的新内容，并使用网络分析来检查新检索到的视频与来自种子查询的视频之间的关系。

结果:通过词嵌入模型确定与癌症筛查测试具有语义相似性的顶级术语。文本挖掘分析表明，5个最近邻术语检索到的内容是新颖的，上下文多样的，超出了仅从癌症筛查概念检索到的内容。网络分析结果表明，根据YouTube的关联度度量，新检索到的视频与种子视频至少有一个总关联度(关联度和关联度之和)。

结论:我们展示了一种检索技术，以提高召回率和最小化精度损失，可以扩展到YouTube上的各种健康主题，YouTube是一个流行的视频分享社交媒体平台。我们讨论了卫生传播学者如何在投入人力编码资源之前应用该技术来检查检索策略的性能，并概述了如何将该技术扩展到其他卫生环境的建议。

中国生物医学工程学报;2010;31 (8):888 - 888

doi: 10.2196/37862

关键字

健康信息检索；搜索词识别；社交媒体；健康传播；公共卫生；计算文本分析；自然语言处理； NLP； word2vec；字嵌入；网络分析

背景

研究人员对了解公共传播环境(PCE)中产生的与健康有关的信息的类型和准确性越来越感兴趣[1-5]。鉴于基于网络的卫生信息来源和人们生成、分享和获取信息的社交媒体平台的激增[6]，识别和捕捉个人在寻找有关健康的信息时可能看到的信息内容(即寻找)，以及人们在上网时可能遇到的信息(即扫描)[7-9在更大的PCE内部的网络平台上，这对于深入了解问题(包括错误信息或不公平)至关重要。

然而，确定适当的策略来检索这些信息是具有挑战性的。为了收集数据进行分析，研究人员通常依靠使用关键字搜索内容的标准方法，这通常涉及一组描述感兴趣的状况或行为的技术(例如，医学)术语(例如，“结肠癌”或“糖尿病”)[10-12]。然而，仅仅基于技术概念的关键字搜索策略无法解释基于web的信息的多面性。一个主要原因是，当代个人电子商务的信息往往是由用户产生的，因此往往包括口语术语，而不是医学术语[7，13-15]。这一现象在消费者健康词汇研究中得到了很好的证明，该研究考察了官方医学文本和用户生成内容(如问答)网站(Yahoo!答案)及社交媒体平台(例如Twitter) [16-19]。

除了不包括技术关键字的消息外，另一类可能被标准检索方法忽略的内容是可被归类为因遗漏而产生误导的内容(例如，描述危险行为但未说明其使个人面临的医疗风险的消息)[20.-22]。例如，宣传流行饮食的消息可能与特定的医疗状况有关，但没有提及这种风险或疾病本身，因此不会通过命名疾病的关键字来检索。

未能检索这些信息可能会导致对内容的识别有偏差，特别是考虑到研究显示搜索结果会根据特定查询而变化[23以及社交媒体语言在不同地理位置的差异[24]。换句话说，只检索(和分析)用“官方”技术语言产生的信息会导致研究人员忽视弱势群体所消耗的信息和面临的障碍[25，26]或缺乏正确使用官方医学词汇获取信息的技能和知识的用户[27，28]。由于这些原因，试图理解PCE的公共卫生研究人员将受益于一个有原则的、可复制的过程，即搜索与医学术语相关的网络内容，而不仅仅局限于它们。这一进程还将通过从常用俚语或非技术查询中检索与健康有关的信息，为基于网络的用户查找健康信息的工作提供信息。

本文针对YouTube提出了这样一个检索过程。使用平台的应用程序编程接口(API)检索视频和YouTube专有算法确定的视频之间的推断相关性，我们的过程检索的视频(1)与理解与焦点技术术语相关的PCE经常相关，(2)与直接使用焦点术语检索的视频不同，(3)可以很容易地与不相关的视频区分开来，否则可能会吸引研究人员的注意力。这种搜索识别方法在查全率和查准率之间取得了平衡[29]，在不需要人工编码人员筛选大量不相关内容的情况下，识别使用典型关键字无法发现的内容。

在接下来的章节中，我们总结了PCE内容检索的相关研究，并指出了其优势和不足。然后，我们讨论了使用YouTube的基本原理，然后详细介绍了用于识别超出正式医学概念的相关内容的技术。我们以癌症筛查为例来说明这些技术。最后，我们讨论了该技术在其他主题和平台上的应用潜力。

健康相关词汇不一致的挑战

用户生成的健康内容对试图从这种环境中检索内容的研究人员提出了重要的挑战，特别是(1)研究人员可能不知道用户用于讨论健康主题的词汇，(2)用户可能因未提及相关信息而相互误导。

研究表明，患者对疾病、治疗或风险的概念往往与卫生保健从业人员不同[30.-32]。最明显的是，关于消费者健康词汇的文献[15-17]表明外行人使用的术语与卫生保健从业人员使用的术语不同。例如，在问答网站(如Yahoo!外行人的回答和WebMD)包含拼写错误的单词、描述和背景信息，并且比卫生专业人员的文本更口语化[13，33]。最近的一个例子是COVID-19大流行，信息流行病学家使用谷歌趋势确定了涉及该病毒的各种术语，包括“污名化和通用术语”(例如，“中国冠状病毒”和“武汉病毒”)，这些术语未被其他使用更一致和技术语言的研究确定[34]。这些研究表明，不同于医学词汇的用户词汇对于理解个人在网络上查找或访问健康信息时如何理解自己的健康以及与之相关的医学词汇非常重要。更广泛地说，这些不同的术语可以反映对健康问题概念化的不同方式[32，35，36]。

因此，用户词汇对于识别社交媒体上与健康相关的帖子非常重要，这并不奇怪，因为研究表明，当用户的健康查询使用正式的专业术语重新表述时，检索性能会发生显著变化[23]。因此，如果研究人员不知道给定主题的用户词汇是什么，他们的检索策略将偏向于只识别使用技术医学词汇的用户发布的内容。此外，对于更大的公共卫生问题，这种偏见不太可能是中立的。特别是，这种性质的差异，如对疾病的概念化和偏好的词汇，已被证明与结果的重要差异有关[25，26，37]。这种概念上的差异很可能表现为用户词汇的差异。

卫生信息检索中的遗漏问题

检索包含技术术语的用户生成的健康信息的另一个缺点是，根据定义，该策略无法识别省略该术语的信息。然而，这种未能将风险与结果联系起来的做法，可能正是导致用户生成内容具有误导性的原因。众所周知，在美国和其他国家，许多人对许多主要死亡原因的风险因素缺乏广泛的了解[38-40]，人们通常收到的信息无法将常见的风险因素和行为与负面健康结果联系起来[41]。也许最著名的(也是最具破坏性的)例子是烟草公司未能在其宣传材料中提及吸烟致癌[42]。对不健康产品(如酒精)来说，这种省略或回避医学术语(如疾病)的错误表述很常见[43]。

在这种情况下，PCE因遗漏而产生误导，因为它没有为现实世界中医学上准确的东西分配适当的词语。这有可能误导公众，使相关信息难以找到，因为它们的相关性(对研究人员)是由缺失的内容(提到风险)来定义的。其中一个例子是2017年出现的“汰渍Pod挑战”，这是一种流行的互联网趋势。汰渍洗衣粉的挑战是危险的，因为它没有将“汰渍洗衣粉”和“吃”这两个词与“毒药”的概念(或概念族)联系起来。一个训练有素的医疗专业人员不会在讨论“吃”汰渍胶囊时不提到它的危险，尽管用户可以(也确实)这样做。这种误导(和危险)的用户信息不能通过侧重于危害中毒的策略来检索。

在对风险进行充分研究和广泛了解的情况下，例如吸烟与肺癌之间的联系，这一弱点可以通过简单地命名风险因素(即搜索“肺癌”)来克服。然而，将搜索限制在已知的和有充分记录的高风险行为上，将使研究人员再次回到他们的文化泡沫中[44]。正如汰渍Pod挑战的出现所证明的那样，用户生成的内容可以非常有创造性，创造出医学界未知的新的危险行为。例如，危险的时尚饮食不能通过寻找它们带来的风险来识别。相反，我们需要的是一种识别“接近”感兴趣条件的词汇的方法，扩大网络，以便研究人员能够识别因遗漏而产生误导的信息。

出于这两个原因，在检索信息以描述PCE特征时，研究人员应该找到摆脱官方、技术词汇限制的方法。相反，研究人员需要搜索包括与医学术语和识别行为或实践的术语相关的文化相关口语术语在附近医学术语，但当这些术语被省略时，它可以识别内容。

YouTube作为公共卫生信息源和调查网站

在本研究中，我们将YouTube视频作为PCE的一个有意义的信息来源，我们选择YouTube有两个原因。首先，YouTube是使用最广泛的网络社交媒体和内容平台之一[45]。其次，YouTube作为健康信息来源的重要性越来越大。YouTube具有视频内容储存库和社交网络平台的双重功能，用户可以通过与内容和其他用户的互动获取信息，因此YouTube已成为用户学习各种健康主题的信息资源[46，47]。

对YouTube上医疗和健康信息的现有研究表明，YouTube内容的质量存在几个问题。一项荟萃分析发现，YouTube视频往往普遍包含错误信息，这意味着该平台有可能改变人们对健康干预措施的看法[46]。这些研究的局限性(也是许多YouTube研究的弱点)是用于识别相关内容的搜索策略。为了解决当前研究中的这一空白，我们的项目旨在回答两个研究问题(RQs)。

第一个主要RQ问以下问题:对于一个给定的医学或健康术语感兴趣(即，检索的焦点术语)，我们提出的搜索术语识别策略是否检索与理解与该种子术语相关的公共卫生传播环境相关的健康信息，并且不明确使用该术语(这样传统的医学或技术搜索术语就无法检索到它们)?为了给这个问题提供一个满意的答案，搜索策略必须(1)检索与种子项相关的内容(称为精度)，(2)找到新颖的相关内容(即不同于种子项单独返回的内容，称为召回)，而不牺牲太多的精度。这就引出了我们的第二个RQ:衍生策略能否以足够的精度识别相关的、新颖的信息，从而在实践中发挥作用?

癌症筛查焦点术语的基本原理

癌症是美国最大的公共卫生问题之一，因此，这是一个需要包括公共卫生从业人员和传播者在内的多个利益相关者密切关注的话题。预防和管理各种癌症的一个特别挑战是，不同人群在筛查、发病率和死亡率方面一直存在差异[48]。鉴于癌症的重要性和癌症筛查差异的重要意义，我们选择癌症筛查作为本文的研究主题。

为此，我们首先展示了我们的方法技术，使用原发性结直肠癌筛查选项-“结肠镜检查”作为我们的重点术语。结直肠癌是美国第三大确诊和第三大致命的癌症，与非西班牙裔美国白人相比，黑人的发病率更高[49]。然后，我们使用其他癌症筛查测试(粪便潜血检查、乳房x光检查和巴氏试验)作为重点术语来重复分析，以说明该技术在其他癌症背景下的表现，包括乳腺癌和宫颈癌。

从焦点术语检索YouTube视频

我们通过YouTube API(版本3)从YouTube收集数据。使用“search: list”端点(用于搜索功能)允许我们检索两种类型的数据:与搜索查询或查询集最相关的视频(“q”参数与“相关性”排序)和根据YouTube算法与特定或一组视频相关的视频(“related-to-video-id”参数)[50]。我们注意到，通过这种API方法收集数据绕过了本地化和个性化——这两个因素在呈现给特定个人的搜索结果中起着重要作用。由于我们的目的是展示一种可以在未来的研究中系统地扩展到其他背景的方法，我们认为这种方法在为我们提供尽可能接近默认设置的结果时是合适的。

2021年8月22日，使用YouTube数据工具软件[51，我们检索了250个与搜索词“结肠镜检查”最相关的视频。这250个视频组成了我们的核心集。此外，我们检索了4304个“与”这个核心集“相关”的视频，在初始化集中我们总共有4554个视频。我们检索了这些视频的唯一标识符、文本数据(视频标题和描述)和元数据(发布日期和参与度统计)。

字嵌入

词嵌入是一种使用神经网络模型学习词向量的无监督方法[52]。词嵌入的基本目的是识别出现在“相似语境”中的词作为焦点词。该技术计算接近度分数;也就是说，两个项在多维空间中彼此接近的程度。这个分数作为“语义相似度”的衡量标准。因此，这是一种有用的方法，可以找到讨论某个特定概念但没有明确提及它的文本。提到一个词的近邻(在多维空间中)的文本很可能也在谈论与这个词相关的想法，即使这个词本身并不存在。我们使用单词嵌入来寻找与“结肠镜检查”相关的YouTube内容，但可能没有提到这个词本身。

我们使用word2vec方法对4554个视频初始化集的文本数据应用词嵌入。具体来说，我们使用4554个视频标题和描述的文本来构建一个语料库。随后，经过预处理和标准化步骤(包括去除表情符号、符号、停止词;执行小写;将文本转换为美国信息交换标准代码;编码;并去除前导或尾随空格)，在文本上训练word2vec模型，以识别与术语“结肠镜检查”语义相似性最大的术语(word2vec R包)[53]。

然后，我们使用“结肠镜检查”的前6个“最近邻居”作为新的搜索词来检索更多视频(每个邻居250个视频)来检查新内容。

人类编码与自然语言处理评估记忆改善

从最近的邻居中检索新内容的目标是提高直接搜索的召回率-识别与“结肠镜检查”相关但无法通过直接搜索找到的视频。为了评估这种召回改进，我们随机抽取10%(150/1500)的样本(每个邻居25个视频)，并对它们进行相关性编码。编码由一名研究小组成员(AJK，论文的最后一位作者)完成，他在癌症控制和癌症交流方面具有专业知识。

具体来说，如果视频内容包含(1)筛查准备或程序的任何方面(例如，肠道准备，个人经历和临床讨论)或(2)关于结直肠癌或结直肠癌筛查在癌症预防或早期发现方面的一般信息，则视频被编码为相关。这包括患者进行结肠镜检查的内容，但可能是慢性疾病(如溃疡性结肠炎或克罗恩病)。在此过程中识别的模糊术语也会根据需要进行查找，以确认相关性(例如，“suprep”——肠道准备套件的商业品牌)。

我们用两种方式评估回忆。首先，我们评估了有多少相关的“发现”视频可以单独使用搜索词来识别。我们通过计算新发现的包含“结肠镜检查”一词的相关视频的数量来做到这一点。那些不包含“结肠镜检查”但仍与之相关的信息构成了召回改进。其次，我们检查了这些新发现的视频是否在内容、主题和焦点方面与核心集有实质性的不同。使用R包quanteda［54]，我们计算了嵌入在不同视频集中的文本特征之间的平均欧几里得距离。欧几里得距离是衡量不同语料库中文本特征之间差异的两两距离度量。然后采用层次聚类分析，采用完全联动法(hclust函数统计数据版本3.6.2)，以确定不同集的视频在内容上是否存在实质性重叠。

评估精度的网络分析

提高记忆力的策略往往会被准确度的大幅下降所抵消。在我们的例子中，虽然最近的邻居可能检索到更多相关的视频，但他们同时也可能带来许多不相关的视频。这带来了增加人力编码成本或其他资源密集型分类技术的风险。需要减轻这种精度损失，使其发生在可管理的水平上。为了实现这一点，我们使用了“与视频id相关”的API端点，它报告一组视频是否与其他视频“相关”(零抓取深度)，以查询从顶部邻居项检索到的新视频与核心集中的结肠镜检查视频之间的关系。具体来说，如果视频A和视频B在一个集合中有关联，则它们之间存在联系(或链接)。这些关系被用来创建一个网络，视频是节点，它们之间的连接是边。

然后，我们计算了3种网络相关性度量:度(来自核心集的视频链接到新发现的视频)，出度(核心集中的视频链接到每个新发现的视频)和总度(度和出度的总和)。我们预计，新发现的不相关视频与已知的“结肠镜检查”视频的链接很少，如果有的话，而即使是松散相关的视频至少也会与核心集有一些联系。为了检验这些程度分数与相关性(根据人类编码)的关联程度，检查了不同程度水平上相应的精度和召回统计。如果我们的技术有效地工作，就会有一些程度的阈值——新发现的视频和核心集之间的连接数量——在这个程度上，具有这个或更高程度的视频不仅合理新颖(提高核心集的召回率)，而且合理相关(将精度保持在可管理的水平)。

伦理批准

这项研究不涉及使用人类受试者，因为收集的数据严格限于YouTube上的公开数据;因此，没有申请伦理审批。这一基本原理与进行研究的机构政策是一致的。

字嵌入

表1根据词嵌入结果，提供焦点术语“结肠镜检查”的邻近术语列表及其基于语义相似性的排名。

目视检查表明，这些最近邻的术语符合我们的方法目标:它们包含与结肠直肠健康相关的非技术术语(例如，“清洁”或“充实”等品牌名称)。我们选择了前6个术语(“suprep”到“miralax”)，检索了额外的1500个视频(每个250个)，并编码了一个10%的子集(150/1500个随机视频)用于召回分析。

表1。“结肠镜检查”和相似度评分的邻居术语。

术语^一个	相似性得分	排名
“suprep”	0.9722890	1
“挂钩”	0.9519246	2
“sutab”	0.9513488	3.
“plenvu”	0.9504289	4
“醇”	0.9498276	5
“miralax”	0.9449067	6
“直肠”	0.9435940	7
“清理”	0.9422708	8
“cologuard”	0.9421358	9
“直肠癌”	0.9403084	10

^一个邻居术语是基于YouTube视频数据的与“结肠镜检查”语义相似度最高的术语(具有相应的高相似分数或低排名)。分数是指多维向量空间中词嵌入(即术语)之间的余弦相似度度量。

人类编码与自然语言处理评估记忆改善

表2显示检索统计，其中34%(51/150)的编码视频被认为是相关的。更重要的是，在这51个视频中，有21个(41%;21/150(占编码样本的14%)不包含“结肠镜检查”一词，这意味着识别它们比简单地搜索“结肠镜检查”可以提高记忆率。这支持了我们的期望，即词嵌入方法有助于解决使用技术语言所固有的召回问题。

接下来，我们评估了这些新发现的视频在内容、主题和焦点方面是否与用典型策略检索的视频有本质上的不同。为了评估这一点，我们比较了核心集(250个视频)和新发现的视频(表3）.在这里，数值越高意味着距离越远。例如，在我们的分组中，“miralax”和“peg”之间的距离是最小的，这表明这两组视频与其他组相比具有最相似的单词。

表2。“结肠镜检查”的前6个邻居的采样视频中的检索统计。

条款	编码视频样本N	相关(精度)，n (%)	“结肠镜检查”的相关和提及，n (%)	相关且未提及“结肠镜检查”(召回率提高)，n (%)
“suprep”	25	18 (72)	9 (36)	9 (36)
“挂钩”	25	1 (4)	0 (0)	1 (4)
“sutab”	25	4 (16)	4 (16)	0 (0)
“plenvu”	25	23 (92)	15 (60)	8 (32)
“醇”	25	0 (0)	0 (0)	0 (0)
“miralax”	25	5 (20)	2 (8)	3 (12)
总计	150	51 (34)	30 (20)	21日(14)

表3。原始“结肠镜”视频集的文本特征与前6个相邻词生成的视频集之间的欧氏距离^一个．

术语	1	2	3.	4	5	6
“结肠镜检查”	0	255.61	257.97	241.5	248.9	254.68
“miralax”	N/A^b	0	6.32	20.1	21.8	7.14
“挂钩”	N/A	N/A	0	22.2	23.1	6.86
“plenvu”	N/A	N/A	N/A	0	20.6	19.08
“suprep”	N/A	N/A	N/A	N/A	0	20.57
“sutab”	N/A	N/A	N/A	N/A	N/A	0

^一个单元格值表示属于任何一对视频集的文本特征的不同之处。较大的值表示距离较大，0表示相同的文本特征。“乙二醇”被删除，因为没有检索到相关视频。

^b-不适用。

相对频率分析通过突出显示核心集与新发现集的文本特征的差异来进一步说明这些差异。作为图1结果显示，像“结肠镜检查”、“医生”、“准备”、“结肠”和“息肉”这样的词不成比例地更有可能出现在核心组中，而像“超级”、“准备”、“工具包”、“肠”和“miralax”这样的词是在新发现的组中发现的独特术语。

对新发现集和核心集的文本特征进行层次聚类(使用完整链接方法)，发现从邻居项(新发现集)检索到的视频中的文本特征与其他邻居项(新发现集)检索到的视频中的文本特征更相似，而与核心集(图2）.换句话说，这些结果表明，我们的方法有助于识别与“结肠镜检查”相关的视频，而不包括术语本身(即提高记忆力);此外，这些新发现的相关视频还增加了我们检索数据的主题多样性(通过关注制剂品牌和程序)。

图1所示。结肠镜检查视频集和合并前5个相邻术语视频集中单词的相对频率。每个视频集的“关键”单词被绘制出来。原始:通过搜索查询“结肠镜检查”找到的视频集。参考:一组视频发现有5个最接近“结肠镜检查”的术语(“suprep”，“peg”，“sutab”，“plenvu”和“miralax”)。Chi2:卡方值。

图2。视频集之间距离的可视化。分层聚类分析表明原始(搜索查询“结肠镜”找到的视频集)和与“结肠镜”(“superp”，“peg”，“sutab”，“plenvu”和“miralax”)最接近的5个术语的视频集之间的差异和距离。

评估精度的网络分析

表4显示了找到的视频与核心集的连接程度及其根据人类编码的相关相关性的比较结果。我们首先注意到，用英语以外的其他语言制作的新视频(28/150,18.7%)与核心集视频没有联系。为了避免在我们的结果中出现这种添加偏差，我们排除了这28个视频，以及在原始集中已经找到的8个视频和YouTube返回缺失元数据的1个视频(37/150，总共排除了24.7%)。然后，我们对剩下的75.3%(113/150)的视频(“视频累计计数”中的最终总数，也是分母)进行了比较。

表4。新发现视频的相关性通过链接到原结肠镜视频集的数量(总度)。

总程度^一个	总度为N的视频数	编码为“相关”的视频数(相关度)，n (%)	非重复视频的累计计数，N	非重复相关视频累计计数，n	累积的精度^b(％)	累计召回^c(%)	累积F₁分数^d(%)
44	1	1 (100)	1	1	One hundred.	2.7	5.3
41	1	1 (100)	2	2	One hundred.	5.4	10.3
26	1	1 (100)	3.	3.	One hundred.	8.1	15.0
23	1	1 (100)	4	4	One hundred.	10.8	19.5
22	1	1 (100)	5	5	One hundred.	13.5	23.8
21	1	1 (100)	6	6	One hundred.	16.2	27.9
20.	2	2 (100)	8	8	One hundred.	21.6	35.6
19	1	1 (100)	9	9	One hundred.	24.3	39.1
18	1	1 (100)	10	10	One hundred.	27.0	42.6
17	2	2 (100)	12	12	One hundred.	32.4	49.0
16	1	1 (100)	13	13	One hundred.	35.1	52.0
15	2	2 (100)	15	15	One hundred.	40.5	57.7
14	1	1 (100)	16	16	One hundred.	43.2	60.4
13	1	1 (100)	17	17	One hundred.	45.9	63.0
12	2	2 (100)	19	19	One hundred.	51.4	67.9
11	2	2 (100)	21	21	One hundred.	56.8	72.4
10	1	1 (100)	22	22	One hundred.	59.5	74.6
9	1	1 (100)	23	23	One hundred.	62.2	76.7
7	2	1 (50)	25	24	96	64.9	77.4
6	1	1 (100)	26	25	96	67.6	79.4
5	2	0 (0)	28	25	89	67.6	76.9
4	2	2 (100)	30.	27	90	73.0	80.6
3.	2	1 (50)	32	28	88	75.7	81.2
2	5	1 (20)	37	29	78	78.4	78.4
1	5	1 (20)	42	30.	71	81.1	75.9
0	71	7 (10)	113	37	33	One hundred.	49.3

^一个每个新视频与原始结肠镜检查视频集中的视频的连接之和。

^b相关视频的累计计数除以所有视频的累计计数。

^c相关视频的累计计数除以新的和不重复的37个相关视频的总数。

^d累积查准率与累积查全率的调和平均值。

前4列表4显示总度(连接数)和与相关统计数据相对应的总度视频的计数。具体来说，所有总度为b>7的视频都被编码为相关的，这意味着精度等于或高于该阈值的100%。更重要的是，尽管精度在这个阈值以下是不完美的，但它仍然非常高。事实上，当我们检查度≥1的视频时，我们发现71%(30/42)被编码为相关。这意味着人类编码团队选择使用这个自由阈值(至少与核心集中的任何视频有一个连接)来选择要编码的视频时，每个不相关的视频会看到bbbb2个相关的视频，从而花费有限的资源来检查不相关的视频。

表右侧的累积列显示了编码团队可能面临的权衡。相关视频的累计数量为37，即51编码为相关(表2)，不包括在原始数据集中已经找到的8个视频(如上所述)和6个被编码为相关的非英语视频。累积精度指的是达到或超过这个阈值的视频的相关性。累积召回显示了在该阈值下保留的相关视频的部分。随着阈值的收紧，准确率提高(不相关的视频被丢弃)，但召回率下降(一些相关的视频也被丢弃)。例如，如果一个团队选择检查与核心集至少有三个连接的视频(度≥3)，他们将找到32个视频，其中28个是相关的(88%的准确率)，并且只错过了37个可能的9个(75.7%的召回率)。换句话说，该技术为研究人员在投入人力评估和编码资源之前检查检索策略的性能提供了基础。

复制:其他癌症筛查试验

我们将分析扩展到另外3个重点术语，以说明该技术适用性的广度。第一个是“FOBT”，指的是粪便隐血检查，这是另一种结肠直肠癌的筛查方法。第二和第三种分别是“乳房x光检查”和“巴氏试验”，分别是乳腺癌和宫颈癌的筛查试验。我们选择癌症筛查作为一个说明性的案例，因为这些都是社交媒体上经常讨论的常见癌症类型[3.，55这样，研究将受益于确定没有明确提及这些技术性、正式筛选试验的相关内容。

中的汇总统计数据所示表5，这些术语的结果与“结肠镜检查”相当。对于每个焦点词，使用word2vec发现的最近邻词进行搜索，可以识别出大量不同于原始集的新视频，从而提高了召回率(参见多媒体附录1对于新内容和原创内容的不同度量)。与“结肠镜检查”的结果类似，根据与核心集的连接程度(针对各自的焦点术语)过滤视频提高了精度，同时保持了合理的召回率。对于“FOBT”和“巴氏试验”，研究人员只能检查程度≥1的视频，并在保留大多数新视频的同时发现一些不相关的视频。对于“乳房x光检查”，至少有一个连接的视频的召回统计数据较低(30%);然而，即使研究人员选择放弃这个过滤器并检查所有视频，他们也会发现大约三分之一的新视频是相关的。因此，研究人员不会有被不相关的内容淹没的风险。

表5所示。总结“结肠镜检查”、“FOBT”、“乳房x光检查”和“巴氏试验”的检索统计。

焦点词	最近邻项	编码视频样本(每学期视频)	新的和不重复的相关视频(集A)， N	度≥1的视频(B组)^一个N	度≥1的视频^一个并编码为new and relevant, n (A∩B)	精度，n/ n (%)	召回率，n/ n (%)
结肠镜检查	“suprep” ‎ “挂钩” ‎ “sutab” ‎ “plenvu” ‎ “醇” ‎ “miralax” ‎	150 (25)	37	42	30.	30/42 (75)	30/37 (81)
FOBT^b	“iFOBT” ‎ “hemosure” ‎ “免疫化学” ‎ “immunostics” ‎ “愈创木脂 ‎	125 (25)	50	33	27	27/33 (82)	27/50 (54)
乳房x光检查	“smartcurve” ‎ “breastcheck” ‎ “活检” ‎ “超声波” ‎ “breastcancerawareness” ‎	250 (50)	77	28	23	23/28 (82)	23/77 (30)
巴氏早期癌变探查试验	“阴道镜” ‎ “诽谤” ‎ “子囊”^c ‎ “papsmear” ‎ “性病”^d ‎	250 (50)	87	65	59	59/65 (91)	59/87 (68)

^一个由焦点项产生的视频至少与原始视频集有一个连接。

^bFOBT:粪便潜血试验。

^cASCUS:意义不明的非典型鳞状细胞。

^dSTD:性传播疾病。

主要研究结果

本文提出了一种改进用户生成健康内容检索的新方法。使用医学概念作为焦点词，我们使用基于相似度的词嵌入方法来检测与焦点词相关但不限于技术词汇的新搜索词。与之前使用类似方法(例如，单词、句子或生物医学术语嵌入)的研究一致，我们在与癌症筛查测试相关的用户生成的公共话语中确定了鲜为人知的术语。对新发现内容的定量文本分析表明，这些视频在词汇和主题焦点方面与原始视频集不同。网络分析表明，检测至少有一个总度的视频可以提高检索精度;也就是说，那些在同一网络中至少与他人有一个联系的人。研究人员可以在投入额外的评估资源之前使用该技术来检查他们的检索策略的性能[56，57]。除了表明这种技术的价值之外，我们的分析还提供了对用户生成词汇表被忽略时的特定消息缺口的见解。

首先，我们的研究结果表明，商业言论，特别是标有“suprep”和“miralax”等品牌名称的商业言论，对于识别相关内容特别突出和有用。从本质上讲，用户制作和消费关于“准备”的视频，这些视频可以用于结肠镜检查，参考品牌产品。这就提出了一个重要的后续问题——这些视频提供了准确的信息吗?如前所述，企业行为者因遗漏风险而误导消费者的历史非常多[58，59]。虽然这将是进一步研究的分析，但我们在这里指出使用商业术语而不仅仅是医学或技术术语检索医学主题信息的重要性。

其次，我们注意到我们的结果没有提供从头开始的俚语同义词(类似于“糖”)的例子。相反，当用户创建术语时，他们更有可能是简单词汇的组合，比如“乳房检查”、“papsmear”，甚至是“乳腺癌意识”。将单词合并成一个术语并不奇怪，因为它符合创建标签的惯例;然而，这应该作为一个警告，研究人员考虑这些非标准结构在他们的检索策略。换句话说，对于本研究中搜索的术语，我们几乎没有发现口语的证据。然而，对于任何健康主题，都有可能以不太直观的方式使用这种语言。虽然我们没有发现我们的重点术语是这种情况，但这种可能性是存在的，而且这种技术可能有潜力在其他情况下识别出这种情况。

更广泛地说，我们的分析表明，尽管用户生成的词汇通常可以在事后合理地解释(Plenvu的网站宣传它是一种结肠镜检查准备技术，而“乳房检查”在直觉上与乳腺癌有关)，但最常见的术语并不总是容易提前猜测，也就是说，在分析一些数据之前。这一观察结果支持了推动这项研究的论点，表明研究人员应该首先了解用户如何谈论医学话题，然后创建检索策略，以建立更完整的数据集，以分析他们所说的内容。虽然我们没有明确的证据表明词汇与特定的社会群体，特别是边缘群体有关，但企业品牌名称的存在至少表明，有针对性的营销努力可以在特定的医学主题中发挥这样的作用。这是一个有待进一步研究的课题。

限制

这项研究有几个局限性。首先，我们的分析只关注癌症筛查测试作为重点术语，因为该项目包含在PCE中关注结直肠癌筛查信息的更大项目中。我们的目的是展示癌症背景下的方法技术，并理解未来的研究将需要评估可能适用于非癌症筛查健康主题或感兴趣的医学术语的任何独特挑战(例如，疫苗或有关糖尿病管理的信息)。虽然我们没有看到这种技术不能应用于其他关键字和术语的方法学原因，但未来的研究将需要支持这一期望。

第二个限制是词嵌入模型是在YouTube文本内容上训练的，我们的技术依赖于YouTube的相关性数据来区分相关和不相关的视频。这意味着目前方法的有效性仅限于YouTube。虽然有充分的理由将YouTube作为健康相关信息的普遍来源，但我们鼓励未来的研究考虑开发类似的方法，用于在网络上发现用户生成文本的其他领域，包括网站、问答论坛帖子和其他社交网站[21，57]。重要的是，许多特定技术可能无法从一个平台导出到另一个平台。例如，尽管YouTube跟踪视频之间的相关性，但Twitter上的消息通常是通过标签联系起来的。因此，研究人员可能会专注于识别相关的邻居标签，而不是搜索相关的邻居词。在问答论坛或其他有线程回复的内容中，研究人员可能会结合这些分层信息来识别最相关的内容(例如，在顶级帖子中使用的术语)。

最后一个限制是，执行此过程需要对可用的自然语言处理和计算工具有一定的了解。我们相信，计算方法在社会科学研究中的应用越来越多，以及R和Python语言培训在社会科学家中的普及，增加了这种技术被那些自然语言处理能力有限的人使用的可能性。然而，健康传播本质上是一个跨学科领域，我们看到传播科学家、公共卫生和医学研究人员以及数据科学家之间合作的巨大潜力。然而，未来的工作可能会努力通过创建特定的工具和材料来帮助卫生传播者和公共卫生专业人员在未来的健康促进和教育工作中应用这些方法，从而使这种技术更容易获得。

结论

本研究展示了在计算健康传播研究中使用基于相似度的词嵌入技术的潜力，以提高检索内容的召回率，并保持检索内容的准确性，这些内容可能被标准医学术语所忽视。研究表明，在PCE中确实有与医学主题相关的信息没有使用医学词汇，而且其中许多可以被识别出来。虽然无法确定忽视这些信息对健康差异的影响，但这些结果表明，有必要在这一领域进行进一步研究。

致谢

这项工作得到了美国国立卫生研究院国家癌症研究所的支持，资助编号为R37CA259156。内容完全是作者的责任，并不一定代表美国国立卫生研究院的官方观点。

利益冲突

没有宣布。

‎

多媒体附录1

补充复制分析。

DOCX文件，21 KB

Karami A, Dahl AA, turner - mcgriffy G, Kharrazi H, Shaw G.推特上糖尿病、饮食、运动和肥胖评论的特征。[J]信息管理，2018;38(1):1-6。［CrossRef]
Okuhara T, Ishikawa H, Okada M, Kato M, Kiuchi T.日本支持和反对hpv疫苗接种网站的内容:文本挖掘分析。中华病毒学杂志，2018;31(3):444 - 444。［CrossRef] [Medline]
陈丽，王鑫，彭涛。社交媒体上妇科癌症相关错误信息的性质与传播:对推文的分析。[J]医学互联网研究，2018;16;20(10):e1115 [J]免费全文] [CrossRef] [Medline]
Gage-Bouchard EA, LaValley S, Warunek M, Beaupin LK, Mollica M.社交媒体上交流的癌症信息是否科学准确?中华癌症杂志，2018;33(6):1328-1332 [J]免费全文] [CrossRef] [Medline]
Hornik R, Binns S, Emery S, Epstein VM, Jeong M, Kim K，等。公共传播环境中的烟草覆盖对青少年吸烟决定的影响。中国生物医学工程学报;2009;32 (2):187-213 [J]免费全文] [CrossRef] [Medline]
周伟，吴A，克莱恩WM。解决社交媒体上与健康有关的错误信息。美国医学杂志2018年12月18日;320(23):2417-2418。［CrossRef] [Medline]
赵颖，张杰。社交媒体消费者健康信息搜索:文献综述。卫生信息学报，2017;34(4):268-283 [J]免费全文] [CrossRef] [Medline]
霍尼克。活动信息曝光与公众传播环境曝光的测量:社交媒体背景下二者区别的一些启示。2016年4月20日;10(2-3):167-169 [j]免费全文] [CrossRef] [Medline]
李建平，李建平。癌症信息扫描和寻求行为与知识、生活方式选择和筛查的关系。中华卫生杂志2006;11增刊(1):157-172。［CrossRef] [Medline]
Beguerisse-Díaz M, McLennan AK, Garduño-Hernández G, Barahona M, Ulijaszek SJ。推特上#糖尿病的“谁”和“什么”。数字健康2017年1月3日:2055207616688841 [免费全文] [CrossRef] [Medline]
Loeb S, Sengupta S, Butaney M, Macaluso JN, Czarniecki SW, Robbins R，等。在YouTube上传播关于前列腺癌的错误和有偏见的信息。欧洲杂志2019年4月;75(4):564-567。［CrossRef] [Medline]
朴善，吴海，朴刚，徐斌，裴卫康，金建伟，等。推特上结直肠癌信息的来源和可信度。医学(巴尔的摩)2016年2月;95(7):e2775 [免费全文] [CrossRef] [Medline]
何震，陈震，吴松，边俊。消费者在社交媒体上对UMLS概念的使用:博客和社交问答网站的相关文本数据分析。中华医学杂志，2016,11(4):441。［CrossRef] [Medline]
曾琦，高根S, Ash N, Greenes RA, Boxwala AA。健康信息检索用消费者术语的特点。方法中华医学杂志2018年02月07日;41(04):289-298。［CrossRef]
曾秋冬，谢涛。消费者健康词汇的探索与发展。中华医学杂志，2006;13(1):24-29 [J]免费全文] [CrossRef] [Medline]
王志强，王志强。基于社交网络数据挖掘的消费者健康词汇的计算机辅助更新。医学互联网研究，2011;17;13(2):e37 [J]免费全文] [CrossRef] [Medline]
顾刚，张鑫，朱鑫，简志，陈凯，文东，等。基于词嵌入的健康论坛文本挖掘消费者健康词汇开发:半自动方法。中华医学杂志2019年5月23日;7(2):e12704 [j]免费全文] [CrossRef] [Medline]
Ibrahim M, Gauch S, Salman O, Alqahtani M.一种使用GloVe词嵌入和辅助词汇资源来丰富消费者健康词汇的自动化方法。计算机科学学报(英文版);2009;37 (6):668 [J]免费全文] [CrossRef] [Medline]
Lazard AJ, Saffer AJ, Wilcox GB, Chung AD, Mackert MS, Bernhardt JM。电子烟社交媒体信息:对Twitter上营销和消费者对话的文本挖掘分析。JMIR公共卫生监测2016 Dec 12;2(2):e171 [j]免费全文] [CrossRef] [Medline]
马涛，Atkin D.用户生成内容与在线健康信息可信度评估:一项meta分析研究。遥感通报，2017,34(5):472-486。［CrossRef]
李建军，刘建军，李建军。基于文本的医学概念规范化研究。摘自:IEEE医疗保健信息学国际会议论文集。2017年发表于:IEEE医疗保健信息学国际会议(ICHI);2017年8月23-26日;帕克城，犹他州，美国。［CrossRef]
朱娜拉R, Wisk LE, Weitzman ER。人口健康监测中个人生成数据的分母问题。预防医学杂志2017年4月;52(4):549-553 [J]免费全文] [CrossRef] [Medline]
曾qt。消费者健康问题与专业术语的重新表述:一项试点研究。[J] Med Internet Res 2004 Sep 03;6(3):e27 [J]免费全文] [CrossRef] [Medline]
Relia K, Li Z, Cook S, Chunara R.美国100个城市的社交媒体种族、民族和民族歧视和仇恨犯罪。出来了。预印本于2019年1月31日在线发布[免费全文]
Fage-Butler AM, Nisbeth Jensen M.在线医患沟通中的医学术语:高健康素养的证据?健康展望2016;19(3):643-653 [j]免费全文] [CrossRef] [Medline]
Kilbridge KL, Fraser G, Krahn M, Nelson EM, Conaway M, Bashore R等。在服务不足的人群中缺乏对常见前列腺癌术语的理解。中华临床肿瘤杂志2009年4月20日;27(12):2015-2021。［CrossRef]
van Deursen AJ, van der Zeeuw A, de Boer P, Jansen G, van Rompay T.物联网中的数字不平等:态度、材料获取、技能和使用的差异。2019年7月27日;24(2):258-276。［CrossRef]
丁海燕，马丹娜，马丹娜。2015-2016年加州健康访谈调查中健康信息寻求人群与当前数字鸿沟的横断面分析。[J]医学互联网研究，2019年5月14日;21(5):e11931 [J]免费全文] [CrossRef] [Medline]
Raghavan V, Bollmann P, Jung GS。查全率和查准率是衡量检索系统性能的重要指标。中国计算机学报，1989;7(3):205-229。［CrossRef]
Aidoo M, Harpham T.赞比亚卢萨卡低收入妇女和保健从业人员的心理健康解释模型。卫生政策计划2001年6月;16(2):206-213。［CrossRef] [Medline]
机我。描述土著妇女艾滋病毒疾病的解释模型。整体护理实践2000 Oct;15(1):42-56。［CrossRef] [Medline]
Soffer M, Cohen M, Azaiza F.乳腺癌解释模型在阿拉伯裔以色列医生和非专业妇女乳腺癌预防行为中的作用。卫生保健发展2020年11月03日;21:48。［CrossRef]
第一届美国计算机学会国际健康信息学研讨会论文集。情境化消费者健康信息搜索:对社会问答社区问题的分析参见:第一届ACM国际健康信息学研讨会论文集。2010年发表于:IHI '10: ACM国际健康信息学研讨会;2010年11月11 - 12日;美国弗吉尼亚州阿灵顿。［CrossRef]
基于谷歌趋势的信息流行病学新方法:意大利COVID-19科学和学术名称的纵向分析。中华医学会医学杂志[j]; 2009;22(1):33 [j]免费全文] [CrossRef] [Medline]
Ogden J, Flanagan Z.关于肥胖的原因和解决方案的信念:全科医生和非专业人士的比较。患者教育管理2008年4月;71(1):72-78。［CrossRef] [Medline]
Ogden J, Bandara I, Cohen H, Farmer D, Hardie J, Minas H，等。全科医生和患者的肥胖模式:到底是谁的问题?患者教育管理2001年9月;44(3):227-233。［CrossRef]
医学研究所，神经科学和行为健康委员会，健康素养委员会。健康素养是结束困惑的处方。美国华盛顿特区:国家科学院出版社;2004.
Niederdeppe J, Levy AG。癌症预防的宿命论与三种预防行为。癌症流行病学杂志，2007;16(5):998-1003。［CrossRef] [Medline]
王超，王志强，王志强，王志强，王志强。普通人群中女性对乳腺癌和结直肠癌病因的看法。癌症成因控制2010年1月29日;21(1):99-107 [j]免费全文] [CrossRef] [Medline]
英国成年人对癌症危险因素的认识。公共卫生2001年5月;115(3):173-174。［CrossRef]
Jensen JD, Moriarty CM, Hurley RJ, Stryker JE。解读癌症新闻报道趋势:三种综合内容分析的比较。卫生通讯杂志2010年3月;15(2):136-151。［CrossRef] [Medline]
布兰德。制造利益冲突:烟草业策略的历史。公共卫生杂志，2012,32(1):63-71。［CrossRef]
Petticrew M, Maani Hessari N, Knai C, Weiderpass E.酒精行业组织如何误导公众关于酒精和癌症的看法。药物酒精，2018年3月07日;37(3):293-303。［CrossRef] [Medline]
Margolin DB。计算贡献:将大型观测数据研究整合到通信领域的共生方法。常用方法方法2019年07月05日;13(4):229-247。［CrossRef]
Auxier B, Anderson M. 2021年社交媒体使用情况。皮尤研究中心，2021年4月7日。URL:https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/[2021-11-03]访问
Madathil KC, Rivera-Rodriguez AJ, Greenstein JS, Gramopadhye AK。YouTube上的医疗保健信息:系统回顾。卫生信息学报，2015;21(3):173-194 [J]免费全文] [CrossRef] [Medline]
Fat MJ, Doja A, Barrowman N, Sell E. YouTube视频作为婴儿痉挛的教学工具和患者资源。中华儿科杂志，2011;26(7):804-809。［CrossRef] [Medline]
刘德华，刘德华，刘志强，刘志强，刘志强，刘志强，刘志强，刘志强，刘志强。[J] .中华医学会心理医学杂志;2011;31(1):1 - 7。［CrossRef] [Medline]
美国预防服务工作组，Davidson K, Barry MJ, Mangione CM, Cabana M, Caughey AB，等。结直肠癌筛查:美国预防服务工作组建议声明。美国医学杂志2021年5月18日;325(19):1965-1977。［CrossRef] [Medline]
搜索:列表。YouTube数据API。URL:https://developers.google.com/youtube/v3/docs/search/list[2021-08-10]访问
Rieder B. YouTube数据工具。数字的方法。URL:https://tools.digitalmethods.net/netvizz/youtube/[2021-08-10]访问
陈凯，陈建军，陈建军。基于分布式表征的词和短语组合。见:《神经信息处理系统进展》26 (NIPS 2013)。2013发表于:神经信息处理系统进展26 (NIPS 2013);2013年12月5日至10日;太浩湖，内华达州，美国。
使用word2vec的词的分布式表示。GitHub。URL:https://github.com/bnosac/word2vec[2021-11-03]访问
Benoit K, Watanabe K, Wang H, Nulty P, Obeng A, m ller S，等。quanteda:一个文本数据定量分析的R包。[J]开源软件，2018;3(30):774。［CrossRef]
Kamba M, Manabe M, Wakamiya S, Yada S, Aramaki E, Odani S，等。从问答服务中提取乳腺癌患者医疗需求:基于自然语言处理的方法。JMIR Cancer 2021 Oct 28;7(4):e32005 [j]免费全文] [CrossRef] [Medline]
Kalyan KS, Sangeetha S. BertMCN:使用BERT和高速公路网络将口语短语映射到标准医学概念。人工智能医学[j]; 2012(2):10 - 10。［CrossRef] [Medline]
刘建军，刘建军。社交媒体文本中深度语境化医学概念规范化研究。计算机科学学报，2020;17(1):1353-1362。［CrossRef]
社交媒体上关于商业烟草产品的错误信息——减少烟草相关健康差异的影响和研究机会。中华卫生杂志，2010;31(3):391 - 391。［CrossRef]
O’connor A. Coca-cola资助科学家将肥胖的责任从不良饮食中转移开。2015年8月9日。URL:https://well.blogs.nytimes.com/2015/08/09/coca-cola-funds-scientists-who-shift-blame-for-obesity-away-from-bad-diets/[2022-03-07]访问

‎

API:应用程序编程接口

PCE:公共传播环境

问答:问答

中移动:研究问题

郝编辑;提交09.03.22;C Giraud-Carrier, M Bardus, A Zain的同行评审;对作者04.05.22的评论;修订版本收到13.06.22;接受22.07.22;发表30.08.22

©Chau Tong, Drew Margolin, Rumi Chunara, Jeff Niederdeppe, Teairah Taylor, Natalie Dunbar, Andy J King。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 30.08.2022。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)条款下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品(首次发表在JMIR Medical Informatics上)被适当引用。必须包括完整的书目信息，到https://medinform.www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

计算健康传播的搜索词识别方法:YouTube上健康内容的词嵌入和网络方法

计算健康传播的搜索词识别方法:YouTube上健康内容的词嵌入和网络方法

原始论文

通讯作者:

摘要

关键字

介绍

背景

健康相关词汇不一致的挑战

卫生信息检索中的遗漏问题

YouTube作为公共卫生信息源和调查网站

方法

癌症筛查焦点术语的基本原理

从焦点术语检索YouTube视频

字嵌入

人类编码与自然语言处理评估记忆改善

评估精度的网络分析

伦理批准

结果

字嵌入

人类编码与自然语言处理评估记忆改善

评估精度的网络分析

复制:其他癌症筛查试验

讨论

主要研究结果

限制

结论

致谢

利益冲突

参考文献

缩写