JMIR医学信息学-计算健康传播的搜索词识别方法:YouTube上健康内容的词嵌入和网络方法

原始论文

¹美国纽约州伊萨卡市康奈尔大学传播系

²纽约大学全球公共卫生学院生物统计系，美国纽约州纽约

^3.纽约大学坦顿工程学院计算机科学与工程系，美国纽约州纽约

⁴杰布·E·布鲁克斯公共政策学院，康奈尔大学，美国纽约州伊萨卡

⁵美国爱荷华州立大学格林利新闻与传播学院

⁶癌症控制和人口科学，美国犹他州盐湖城亨茨曼癌症研究所

⁷美国犹他州盐湖城犹他大学传播系

通讯作者:

周棠博士

通讯系

康奈尔大学

494曼图书馆

伊萨卡，纽约州，14850

美国

电话:1 608 334 9909

电子邮件:ctt39@cornell.edu

背景:在卫生传播研究中提取内容的常用方法通常涉及使用一组完善的查询，通常是医疗程序或疾病的名称，这些查询通常是技术性的或很少用于公共卫生主题的讨论。尽管这些方法可以产生较高的召回率(即检索高度相关的内容)，但它们往往会忽略社交媒体上那些以口语化语言和外行词汇为特色的健康信息。考虑到这些信息可能包含错误信息或模糊内容，绕过官方医学概念，正确识别(和分析)它们对于研究社交媒体平台上用户生成的健康内容至关重要。

摘要目的:健康传播学者将受益于检索过程，而不是使用标准术语作为搜索查询。基于此，本研究旨在提出一种搜索词识别方法，以改善社交媒体上用户生成的健康内容的检索。我们把癌症筛查测试作为一个主题，把YouTube作为一个平台案例研究。

方法:我们检索了使用癌症筛查程序(结肠镜检查、粪便潜血检查、乳房x光检查和巴氏试验)作为种子查询的YouTube视频。然后，我们使用这些视频中的文本特征训练单词嵌入模型，以识别语义上与口语中的癌症筛查测试相似的最近邻居术语。从最热门的邻居词中检索更多的YouTube视频，我们从每个词中随机抽取150个视频样本进行相关性编码。然后，我们使用文本挖掘来检查从这些视频中检索到的新内容，并使用网络分析来检查新检索到的视频与从种子查询中获得的视频之间的关系。

结果:通过词嵌入模型识别出与癌症筛查测试语义相似的顶级术语。文本挖掘分析表明，5个最近邻词检索到的内容是新颖的和上下文多样性的，而不仅仅是从癌症筛查概念检索到的内容。网络分析结果表明，根据YouTube关联度量，新检索到的视频与种子视频至少有一个总连接度(连接度和脱离度之和)。

结论:我们展示了一种检索技术，可以提高召回率并最大限度地减少精度损失，该技术可以扩展到YouTube上的各种健康主题，YouTube是一个流行的视频分享社交媒体平台。我们讨论了健康传播学者如何在投入人力编码资源之前应用该技术来检查检索策略的性能，并概述了如何将这种技术扩展到其他健康环境的建议。

JMIR Med Inform 2022;10(8):e37862

doi: 10.2196/37862

关键字

健康信息检索；搜索词识别；社交媒体；健康传播；公共卫生；计算文本分析；自然语言处理； NLP； word2vec；字嵌入；网络分析

背景

研究人员越来越有兴趣了解在公共传播环境(PCE)中产生的与健康有关的信息的类型和准确性[1-5］．鉴于基于网络的健康信息源和人们生成、分享和访问信息的社交媒体平台的激增[6]，识别和捕捉人们在寻找健康信息时可能看到的信息内容(即搜索)，以及人们在上网时可能遇到的信息(即扫描)[7-9]，对于在更大的PCE内的基于web的平台上获得问题的洞察至关重要，包括错误信息或不平等。

然而，确定适当的策略来检索这些信息是具有挑战性的。为了收集数据进行分析，研究人员通常依赖于使用关键字搜索内容的标准方法，这些关键字通常涉及一组描述感兴趣的疾病或行为的技术(如医学)术语(如“结肠癌”或“糖尿病”)[10-12］．然而，仅仅基于技术概念的关键字搜索策略无法解释基于web的信息的多面性。一个主要原因是，当代PCE中的信息通常是由用户生成的，因此通常包括俗语术语，而不是医学术语[7，13-15］．这种现象在消费者健康词汇研究中有很好的记录，该研究检查了官方医学文本和用户生成的内容之间的语言差距，例如问答网站(Yahoo!答案)及社交媒体平台(如推特)[16-19］．

除了不包含技术关键字的消息外，标准检索方法可能忽略的另一种类型的内容是可被归类为因遗漏而导致误导的内容(例如，描述危险行为但未能指明其使个人面临的医疗风险的消息)[20.-22］．例如，宣传一种时尚饮食的消息可能与特定的医疗状况有关，但没有提到这种风险或状况本身，将无法通过命名该状况的关键字检索到。

检索这些信息失败可能会导致对内容的有偏见的识别，特别是根据研究显示搜索结果如何根据特定的查询而变化[23]以及社交媒体语言在不同地理位置的差异[24］．换句话说，只检索(和分析)用“官方”技术语言产生的信息会导致研究人员忽视弱势群体所消耗的信息和面临的障碍[25，26]或缺乏正确使用官方医学词汇获取信息的技能和知识的用户[27，28］．出于这些原因，试图理解PCE的公共卫生研究人员将受益于一个有原则的、可复制的过程，用于搜索与医学术语相关但不完全局限于它们的基于网络的内容。这一过程还将使基于web的用户能够从常用俚语或非技术查询中检索与健康有关的信息，从而为他们查找健康信息的工作提供信息。

本文针对YouTube提出了这样一个检索过程。使用平台的应用程序编程接口(API)来检索视频和由YouTube的专有算法确定的视频之间的推断相关性，我们的过程检索的视频(1)通常与理解与焦点技术术语相关的PCE相关，(2)与直接使用焦点术语检索的视频不同，并且(3)可以很容易地与可能吸引研究人员注意力的无关视频区分开来。这种搜索识别方法平衡了召回率和精度之间的平衡[29]，识别出使用典型关键字无法找到的内容，而无需人工编码人员筛选大量不相关的内容。

在接下来的章节中，我们总结了PCE内容检索的相关研究，并指出了其优缺点。然后，在详细介绍用于识别正规医学概念之外的相关内容的技术之前，我们将讨论使用YouTube的基本原理。我们举例说明技术使用癌症筛查作为一个案例研究。最后，我们讨论了该技术在其他主题和平台上应用的潜力。

健康相关词汇不一致的挑战

用户生成的健康内容对试图从这种环境中检索内容的研究人员提出了重大挑战，特别是(1)研究人员可能不知道用户用于讨论健康主题的词汇，(2)用户可能因未提及相关信息而相互误导。

研究表明，患者通常不会像卫生保健从业者那样对疾病、治疗或风险进行概念化[30.-32］．最明显的是，关于消费者健康词汇的文献[15-17]表明外行使用的术语与卫生保健从业人员使用的术语不同。例如，在问答网站(如Yahoo!外行人的答案和WebMD)被发现包含拼写错误的单词、描述和背景信息，并且比卫生专业人员的文本更口语化[13，33］．最近的一个例子是COVID-19大流行，信息流行病学家使用谷歌趋势发现了各种涉及该病毒的术语，包括“污名化和通用术语”(如“中国冠状病毒”和“武汉病毒”)，这些术语是其他研究使用更一致的技术语言没有发现的[34］．这些研究表明，用户词汇不同于医学词汇，对于理解个人在网上寻找或获得健康信息时如何看待自己的健康以及与之相关的医学词汇非常重要。更广泛地说，这些不同的术语可以反映对健康问题概念化的不同方式[32，35，36］．

因此，用户词汇对于识别社交媒体上与健康相关的帖子非常重要，这并不奇怪，因为研究表明，当用户的健康问题使用正式的专业术语重新表述时，检索性能会发生显著变化[23］．因此，如果研究人员不知道某个特定主题的用户词汇是什么，他们的检索策略就会有偏差，只识别使用技术医学词汇的用户发布的内容。此外，这种偏见在更大的公共卫生问题上不太可能是中性的。特别是，这种性质的差异，如对疾病的概念化和偏爱的词汇，已被证明与结果的重要差异有关[25，26，37］．这种概念上的差异很可能体现在用户词汇的差异上。

卫生信息检索中的遗漏问题

使用技术术语检索用户生成的健康消息的另一个缺点是，根据定义，此策略不能识别省略该术语的信息。然而，这种未能将风险与结果联系起来的做法，可能正是导致用户生成内容具有误导性的原因。众所周知，在美国和其他国家，许多人对导致许多主要死亡原因的危险因素缺乏广泛的了解[38-40]，人们通常收到的信息无法将常见的风险因素和行为与负面健康结果联系起来[41］．也许最广为人知(也是最具破坏性)的例子是烟草公司在宣传材料中没有提到吸烟致癌。42］．省略或疏远医学术语(如疾病)是不健康产品(如酒精)的常见错误表述[43］．

在这种情况下，PCE因遗漏而产生误导，因为它未能为离线世界中的医学准确定义分配适当的词语。这有可能误导公众，并使相关信息难以找到，因为它们(对研究人员)的相关性是由缺失的内容(提及风险)来定义的。2017年风靡网络的“汰渍豆荚挑战”就是一个例子。汰渍洗衣袋挑战是危险的，因为它没有将“汰渍洗涤剂”和“吃”与“毒药”的概念(或概念家族)联系起来。训练有素的医疗专业人士在讨论“食用”汰渍洗衣球时，不会不提及危险，尽管用户可以(也确实)这么做了。这种误导(和危险)的用户信息不能通过专注于伤害中毒的策略来检索。

在经过充分研究和广泛了解的风险情况下，例如吸烟与肺癌之间的联系，可以通过简单地命名风险因素(即搜索“肺癌”)来克服这一弱点。然而，将搜索限制在已知的、有充分记录的高风险行为上，将再次使研究人员回到他们的文化泡沫中[44］．正如汰渍Pod挑战的出现所证明的那样，用户生成的内容可以非常具有创造性，创造出医学界未知的新风险行为。例如，危险的流行饮食不能通过搜索它们所构成的风险来识别。相反，我们需要的是一种识别“接近”感兴趣条件的词汇的方法，扩大网络，以便研究人员能够识别因遗漏而产生误导的信息。

出于这两个原因，研究人员在检索描述PCE特征的信息时，应该设法摆脱官方、技术词汇的限制。相反，研究人员需要搜索包括与文化相关的口语术语，这些术语与医学术语相关，以及识别行为或实践的术语在附近医学术语，但当这些术语被省略时，可以识别内容。

YouTube作为公共卫生信息来源和调查地点

在本研究中，我们将YouTube视频作为PCE的一个有意义的消息来源，我们选择YouTube有两个原因。首先，YouTube是最广泛使用的基于网络的社交媒体和内容平台之一。45］．其次，YouTube作为健康信息来源的重要性越来越大。YouTube作为视频内容的存储库和社交网络平台的双重功能，用户可以通过与内容和其他用户的互动来获取信息，它已成为用户了解各种健康主题的信息资源[46，47］．

对YouTube上医疗和健康信息的现有研究表明，YouTube内容的质量存在几个问题。一项元分析发现，YouTube视频往往普遍包含错误信息，这意味着该平台有可能改变人们对健康干预的信念[46］．这些研究的局限性(以及许多YouTube研究的共同弱点)是用于识别相关内容的搜索策略。为了解决当前研究中的这一差距，我们的项目旨在回答2个研究问题(RQs)。

第一个主要RQ询问以下问题:对于一个给定的感兴趣的医学或健康术语(即检索的焦点术语)，我们提出的搜索词识别策略是否检索到与理解与该种子术语相关的公共卫生传播环境相关的健康信息，并且没有明确使用该术语(这样传统的医学或技术搜索术语将无法检索它们)?为了对这个问题提供一个令人满意的答案，搜索策略必须(1)检索与种子项相关的内容(称为精度)，(2)找到新颖的相关内容(即与仅由种子项返回的内容不同，称为召回率)，而不牺牲太多精度。这就引出了我们的第二个RQ:派生策略能否以足够精确的精度识别出相关的、新颖的消息以使其具有实际用处?

癌症筛查焦点术语的基本原理

癌症是美国最大的公共卫生问题之一，因此，这是一个需要包括公共卫生从业者和传播者在内的多个利益相关者仔细关注的话题。对各种癌症类型的预防和管理的一个特别挑战是不同人群在筛查、发病率和死亡率方面的持续差异[48］．鉴于癌症的重要性和癌症筛查差异的重要意义，我们选择癌症筛查作为本文的研究主题。

为此，我们首先展示了我们的方法技术，使用原发性结直肠癌筛查选项-“结肠镜检查”-作为我们的焦点术语。结直肠癌是美国第三大诊断和第三大致命癌症，与非西班牙裔美国白人相比，对黑人的影响不成比例[49］．然后，我们使用其他癌症筛查试验(粪便潜血试验、乳房x光检查和巴氏试验)作为焦点来重复分析，以说明该技术在其他癌症情况下(包括乳腺癌和宫颈癌)的表现。

从焦点项检索YouTube视频

我们通过YouTube API(版本3)从YouTube收集数据。使用“search: list”端点(用于搜索功能)允许我们检索两种类型的数据:与搜索查询或查询集最相关的视频(“q”参数具有“相关性”排序)，以及根据YouTube算法与特定视频或视频集相关的视频(“related-to-video-id”参数)[50］．我们注意到，通过这种API方法收集数据绕过了本地化和个性化——这些因素在呈现给特定个人的搜索结果中起着重要作用。由于我们的目的是展示一种可以在未来的研究中系统地扩展到其他环境的方法，我们认为这种方法在给我们提供尽可能接近默认设置的结果时是合适的。

2021年8月22日，使用YouTube Data Tools软件[51，我们检索了一组与“结肠镜检查”搜索词最相关的250个视频。这250个视频构成了我们的核心集。此外，我们检索了4304个与这个核心集“相关”的视频，在初始化集中总共得到了4554个视频。我们检索了这些视频的唯一标识符、文本数据(视频标题和描述)和元数据(发布日期和参与度统计数据)。

字嵌入

词嵌入是一种使用神经网络模型学习词向量的无监督方法[52］．词嵌入的基本目标是识别出现在“相似上下文”中的词作为重点术语。该技术计算接近度得分;也就是说，在多维空间中两项彼此接近的程度。这个分数用来衡量“语义相似性”。因此，它是一种有用的方法，可以找到讨论特定概念而不明确提到它的文本。提到一个词的近邻(在多维空间中)的文本很可能是在谈论这个词相关的思想，即使这个词本身并不存在。我们使用词嵌入来寻找YouTube上与“结肠镜检查”相关的内容，但这些内容可能没有提到这个词本身。

我们使用word2vec方法对4554个视频初始化集的文本数据应用词嵌入。具体来说，我们使用4554个视频标题和描述的文本来构建一个语料库。随后，经过预处理和标准化步骤(包括删除表情符号、标志和停止词;执行小写;将文本转换为美国信息交换标准代码;编码;并删除前导或尾随空格)，在文本上训练word2vec模型，以识别与术语“结肠镜检查”语义最相似的术语(word2vec R包)[53］．

然后，我们使用“结肠镜检查”的前6个“最近邻居”作为新的搜索词来检索更多的视频(每个邻居250个视频)来检查新内容。

人类编码和自然语言处理评估回忆改善

从最近的邻居检索新内容的目标是提高回忆率，而不是直接搜索——识别与“结肠镜检查”相关的视频，但直接搜索是找不到的。为了评估这种回忆改善，我们随机抽取了10%(150/1500)的样本(每个邻居25个视频)，并对它们进行相关性编码。编码是由研究团队成员(AJK，论文的最后一位作者)完成的，他在癌症控制和癌症传播方面具有专业知识。

具体来说，如果视频内容包含(1)筛查准备或程序的任何方面(例如，肠道准备、个人经历和临床讨论)或(2)大肠癌或大肠癌筛查在癌症预防或早期发现方面的一般信息，则将其编码为相关视频。这包括患者接受结肠镜检查的内容，但可能是因为慢性疾病(如溃疡性结肠炎或克罗恩病)。在这一过程中发现的模糊术语也会根据需要查找以确认相关性(例如，“suprep”-肠道准备试剂盒的商业品牌)。

我们用两种方法评估回忆。首先，我们评估了有多少相关的“发现”视频可以单独使用搜索词来识别。我们通过计算新发现的包含“结肠镜检查”一词的相关视频的数量来做到这一点。那些不包含“结肠镜检查”但仍与之相关的研究构成了记忆力的改善。其次，我们检查了这些新发现的视频在内容、主题和重点方面是否与核心集有实质性的不同。使用R包quanteda［54]，我们计算了不同视频集中嵌入的文本特征之间的平均欧氏距离。欧几里得距离是衡量不同语料库中文本特征差异的成对距离度量。然后，我们使用层次聚类分析，采用完全链接方法(hclust函数统计数据版本3.6.2)，以确定不同集的视频在内容上是否有实质性的重叠。

网络分析评估精度

提高回忆率的策略往往被准确性的大量损失所抵消。在我们的例子中，尽管最近的邻居可能检索到更多相关的视频，但他们同时也可能带来许多不相关的视频。这带来了增加人力编码成本或其他资源密集型分类技术的风险。需要减轻这种精度损失，使其发生在可管理的水平。为了实现这一点，我们使用了“与视频id相关”API端点，它报告了一组视频是否与其他视频“相关”(零爬行深度)，以查询从顶部邻居项检索到的新视频与从核心集检索到的结肠镜视频之间的关系。具体来说，如果视频A和视频B在一个集合中是相关的，那么它们之间就存在连接(或链接)。这些关系被用来创建一个网络，视频是节点，它们之间的连接是边。

然后，我们计算了3种网络相关性度量:深度(核心集中的视频链接到新发现的视频)，外度(核心集中的视频链接到每个新发现的视频)和总度(深度和外度的总和)。我们预计，新发现的不相关视频与已知的“结肠镜检查”视频的链接很少(如果有的话)，而即使是不太相关的视频也至少与核心集有一些联系。为了检验这些程度分数与相关性(根据人类编码)的关联程度，我们检查了不同程度水平下相应的精密度和召回统计数据。如果我们的技术有效，就会有一个度的阈值——一个新发现的视频和核心集之间的连接数——在这个度或更高的视频不仅是合理的新颖(提高对核心集的回忆)，而且是合理的相关(将精度保持在可管理的水平)。

伦理批准

这项研究没有涉及使用人类受试者，因为收集的数据严格限于YouTube上公开的数据;因此，没有申请伦理批准。这一基本原理与进行研究的机构政策是一致的。

字嵌入

表1根据单词嵌入结果，提供焦点术语“结肠镜检查”的相邻术语列表以及基于语义相似性的排序。

目视检查表明，这些最接近的术语符合我们这种方法的目标:它们包含与结直肠健康相关的非技术术语(例如“清洁”或品牌名称，如“plenvu”)。我们选择了排名前6位的词汇(“suprep”到“miralax”)，检索了另外1500个视频(每个250个)，并编码了10%的子集(150/1500个随机视频)用于召回分析。

表1。与“结肠镜检查”相近的术语和相似度评分。

术语^一个	相似性得分	排名
“suprep”	0.9722890	1
“挂钩”	0.9519246	2
“sutab”	0.9513488	3.
“plenvu”	0.9504289	4
“醇”	0.9498276	5
“miralax”	0.9449067	6
“直肠”	0.9435940	7
“清理”	0.9422708	8
“cologuard”	0.9421358	9
“直肠癌”	0.9403084	10

^一个邻居术语是根据YouTube视频数据与“结肠镜检查”语义相似度最高的术语(对应的相似度分数高或排名低)。分数是指多维向量空间中词嵌入(即术语)之间的余弦相似度度量。

人类编码和自然语言处理评估回忆改善

表2显示检索统计，其中34%(51/150)的编码视频被认为是相关的。更重要的是，在这51个视频中，21个(41%;21/150(14%的编码样本)不包含“结肠镜检查”一词，这意味着识别它们可以提高记忆，而不是简单地搜索“结肠镜检查”。这支持了我们的预期，即词嵌入方法有助于解决使用技术语言所固有的回忆问题。

接下来，我们评估了这些新发现的视频在内容、主题和重点方面是否与使用典型策略检索的视频有实质性的不同。为了评估这一点，我们比较了核心集(250个视频)的文本特征与新发现的视频(表3)．在这里，数值越高意味着距离越远。例如，“miralax”和“peg”之间的距离在我们的分组中是最小的，这表明这两组视频中与其他组相比，共享的相似词最多。

表2。“结肠镜检查”的前6个邻居的抽样视频的检索统计。

条款	编码视频样本N	相关(精密度)，n (%)	相关并提及“结肠镜检查”n (%)	相关且未提及“结肠镜检查”(回忆改善)，n (%)
“suprep”	25	18 (72)	9 (36)	9 (36)
“挂钩”	25	1 (4)	0 (0)	1 (4)
“sutab”	25	4 (16)	4 (16)	0 (0)
“plenvu”	25	23 (92)	15 (60)	8 (32)
“醇”	25	0 (0)	0 (0)	0 (0)
“miralax”	25	5 (20)	2 (8)	3 (12)
总计	150	51 (34)	30 (20)	21日(14)

表3。原始“结肠镜”视频集的文本特征与前6个邻项生成的视频集之间的欧氏距离^一个．

术语	1	2	3.	4	5	6
“结肠镜检查”	0	255.61	257.97	241.5	248.9	254.68
“miralax”	N/A^b	0	6.32	20.1	21.8	7.14
“挂钩”	N/A	N/A	0	22.2	23.1	6.86
“plenvu”	N/A	N/A	N/A	0	20.6	19.08
“suprep”	N/A	N/A	N/A	N/A	0	20.57
“sutab”	N/A	N/A	N/A	N/A	N/A	0

^一个单元格值表示属于任何一对视频集的文本特征的不同之处。较大的值表示较大的距离，0表示相同的文本特征。“乙二醇”被删除，因为检索到0个相关视频。

^bN/A:不适用。

相对频率分析用于进一步说明这些差异，通过突出显示核心集与新发现集的文本特征的差异。作为图1结果显示，“结肠镜检查”、“医生”、“准备”、“结肠”和“息肉”等词汇不成比例地更可能出现在核心集合中，而“最高”、“准备”、“工具包”、“肠道”和“miralax”等词汇则是在新发现的集合中发现的不同词汇。

对新发现的集和核心集的文本特征执行的分层聚类(使用完整链接方法)显示，从邻居术语(新发现的集)检索的视频中的文本特征与其他邻居术语(新发现的集)的文本特征更相似，而不是与核心集(图2)．换句话说，这些结果表明，我们的方法有助于识别与“结肠镜检查”相关的视频，而不包括术语本身(即提高回忆);此外，这些新发现的相关视频还增强了我们检索数据的主题多样性(通过关注制备品牌和程序)。

图1。结肠镜检查视频集和前5个邻居术语视频集中单词的相对频率。每个视频集的“关键”单词都被绘制出来。原创:通过搜索“结肠镜检查”找到的视频集。参考资料:有5个最接近“结肠镜检查”的视频(“suprep”，“peg”，“sutab”，“plenvu”和“miralax”)。Chi2:卡方值。

图2。视频集之间距离的可视化。层次聚类分析表明原始视频(搜索“结肠镜检查”找到的视频集)和5个最接近“结肠镜检查”的视频集(“suprep”，“peg”，“sutab”，“plenvu”和“miralax”)之间的差异和距离。

网络分析评估精度

表4显示发现的视频与核心集的连接程度及其根据人类编码的相关相关性之间的比较结果。我们首先注意到，英语以外的其他语言的新视频(28/150,18.7%)被发现与核心集视频没有关联。为了避免对我们的结果产生额外的偏差，我们排除了这28个视频，以及在原始集中已经找到的8个视频，以及YouTube返回丢失元数据的1个视频(37/150，总共排除了24.7%)。然后，我们对剩下的75.3%(113/150)的视频(“视频累计计数”中的最终总数，也是分母)进行了比较。

表4。新发现视频的相关性，按与原始结肠镜检查视频集的链接数量计算(总度)。

总程度^一个	总度N的视频数	编码为“相关”(相关性)的视频数量，n (%)	累计不重复视频数N	累计不重复相关视频数n	累积的精度^b（％）	累计召回^c(%)	累积F₁分数^d(%)
44	1	1 (100)	1	1	One hundred.	2.7	5.3
41	1	1 (100)	2	2	One hundred.	5.4	10.3
26	1	1 (100)	3.	3.	One hundred.	8.1	15.0
23	1	1 (100)	4	4	One hundred.	10.8	19.5
22	1	1 (100)	5	5	One hundred.	13.5	23.8
21	1	1 (100)	6	6	One hundred.	16.2	27.9
20.	2	2 (100)	8	8	One hundred.	21.6	35.6
19	1	1 (100)	9	9	One hundred.	24.3	39.1
18	1	1 (100)	10	10	One hundred.	27.0	42.6
17	2	2 (100)	12	12	One hundred.	32.4	49.0
16	1	1 (100)	13	13	One hundred.	35.1	52.0
15	2	2 (100)	15	15	One hundred.	40.5	57.7
14	1	1 (100)	16	16	One hundred.	43.2	60.4
13	1	1 (100)	17	17	One hundred.	45.9	63.0
12	2	2 (100)	19	19	One hundred.	51.4	67.9
11	2	2 (100)	21	21	One hundred.	56.8	72.4
10	1	1 (100)	22	22	One hundred.	59.5	74.6
9	1	1 (100)	23	23	One hundred.	62.2	76.7
7	2	1 (50)	25	24	96	64.9	77.4
6	1	1 (100)	26	25	96	67.6	79.4
5	2	0 (0)	28	25	89	67.6	76.9
4	2	2 (100)	30.	27	90	73.0	80.6
3.	2	1 (50)	32	28	88	75.7	81.2
2	5	1 (20)	37	29	78	78.4	78.4
1	5	1 (20)	42	30.	71	81.1	75.9
0	71	7 (10)	113	37	33	One hundred.	49.3

^一个每个新视频与原始结肠镜检查视频集中视频的连接之和。

^b相关视频的累计数量除以所有视频的累计数量。

^c相关视频累计数量除以新增不重复的37个相关视频总数。

^d累积精密度和累积召回率的调和平均值。

前四列表4显示总度(连接数)和对应总度的视频数，并与相关统计进行比较。具体来说，所有总度为>7的视频都被编码为相关的，这意味着精度100%达到或高于这个阈值。更重要的是，尽管在这个阈值以下精度并不完美，但它仍然很高。事实上，当我们检查度数≥1的视频时，我们发现71%(30/42)已被编码为相关。这意味着人类编码团队选择使用这个自由阈值(至少一个到核心集中任何视频的连接)来选择视频进行编码，将看到>两个相关视频对应一个不相关的视频，从而花费有限的资源检查不相关的视频。

表格右侧的累积列显示了编码团队所面临的权衡。相关视频的累计数量为37个，即编码为相关的51个(表2)，不包括在原始数据集中已经找到的8个视频(如上所述)和6个已编码为相关的非英语视频。累积精度指的是在这个阈值或以上的视频的相关性。累积召回显示了集中相关视频在这个阈值下被保留的部分。随着阈值的收紧，精度提高(不相关的视频被丢弃)，但召回率下降(一些相关的视频也被丢弃)。例如，如果一个团队选择检查与核心集至少有三个连接的视频(度≥3)，他们会发现32个视频，其中28个是相关的(准确率为88%)，而37个可能的视频中只有9个(召回率为75.7%)漏掉。换句话说，该技术为研究人员在投入人力评估和编码资源之前检查检索策略的性能提供了基础。

复制:其他癌症筛查试验

我们将分析扩展到3个额外的焦点术语，以说明该技术的适用性范围。第一个，“FOBT”，指的是粪便潜血试验，另一种筛查结直肠癌的方法。排在第二位和第三位的是“乳房x光检查”和“巴氏试验”，分别是针对乳腺癌和宫颈癌的筛查测试。我们选择癌症筛查作为一个说明性案例，因为这些都是经常在社交媒体上讨论的常见癌症类型[3.，55这样，研究将受益于识别没有明确提及这些技术、正式筛选测试的相关内容。

如图所示的汇总统计表5在美国，这些术语的结果与“结肠镜检查”相当。对于每个焦点词，使用word2vec发现的最近邻居词进行搜索，可以识别出与原始集不同的广泛的新视频，提高了召回率(参见多媒体附件1对于新内容与原始内容的不同度量)。与“结肠镜检查”的结果类似，根据视频与核心集的连接程度(针对各自的病灶项)进行过滤，在保持合理回忆的同时提高了精度。对于“FOBT”和“巴氏试验”，研究人员只能检查度≥1的视频，并在保留大部分新视频的同时找到一些无关的视频。对于“乳房x线照片”，至少有一个连接的视频的召回统计数据较低(30%);然而，即使研究人员选择放弃这个过滤器并检查所有视频，他们也会发现大约三分之一的新视频是相关的。这样，研究人员就不会有被无关内容淹没的风险。

表5所示。“结肠镜检查”、“FOBT”、“乳房x光检查”和“巴氏试验”的检索统计摘要。

焦点词	最近邻项	编码视频样本(每学期视频)	新增且不重复的相关视频(集合A)， N	度≥1的视频(集合B)^一个N	度≥1的视频^一个并编码为新的和相关的，n (A∩B)	精度，n/ n (%)	召回率，n/ n (%)
结肠镜检查	“suprep” ‎ “挂钩” ‎ “sutab” ‎ “plenvu” ‎ “醇” ‎ “miralax” ‎	150 (25)	37	42	30.	30/42 (75)	30/37 (81)
FOBT^b	“iFOBT” ‎ “hemosure” ‎ “免疫化学” ‎ “immunostics” ‎ “愈创木脂 ‎	125 (25)	50	33	27	27/33 (82)	27/50 (54)
乳房x光检查	“smartcurve” ‎ “breastcheck” ‎ “活检” ‎ “超声波” ‎ “breastcancerawareness” ‎	250 (50)	77	28	23	23/28 (82)	23/77 (30)
巴氏早期癌变探查试验	“阴道镜” ‎ “诽谤” ‎ “子囊”^c ‎ “papsmear” ‎ “性病”^d ‎	250 (50)	87	65	59	59/65 (91)	59/87 (68)

^一个与原始视频集至少有一个连接的视频是由焦点项产生的。

^bFOBT:粪便潜血试验。

^cASCUS:意义不明的非典型性鳞状细胞。

^d性病:性传播疾病。

主要研究结果

本文提出了一种改进用户生成健康内容检索的新方法。使用医学概念作为焦点词，我们使用基于相似度的词嵌入方法检测与焦点词相关但不局限于技术词汇的新搜索词。与之前使用类似方法(例如，单词、句子或生物医学术语嵌入)的研究一致，我们在用户生成的与癌症筛查测试相关的公共话语中确定了不太为人所知的术语。定量文本分析的新发现的内容从顶部邻居术语返回表明，这些视频不同于原始视频集在词汇和主题的焦点。网络分析表明，通过检测至少一个总度的视频可以提高检索精度;也就是说，那些与同一网络中的其他人至少有一个连接的人。在投入额外的评估资源之前，研究人员可以使用该技术来检查他们的检索策略的性能[56，57］．除了表明该技术的价值之外，我们的分析还提供了对忽略用户生成词汇的特定消息差距的洞察。

首先，我们的研究结果表明，商业言论，特别是带有“suprep”和“miralax”等品牌名称的言论，在识别相关内容时尤其突出和有用。从本质上讲，用户制作和消费了关于“准备”的视频，这些视频可以用于结肠镜检查，参考品牌产品。这就提出了一个重要的后续问题——这些视频提供了准确的信息吗?如前所述，企业行为者因忽视风险而误导消费者的历史相当多[58，59］．虽然这将是一项有待进一步研究的分析，但我们在这里指出，使用商业术语而不仅仅是医学或技术术语检索有关医学主题的信息的重要性。

其次，我们注意到我们的结果没有提供从头开始的俚语同义词(类似于“糖”)的例子。相反，当用户创造词汇时，它们更有可能是简单词汇的合成词，比如“乳房检查”、“乳头涂片”，甚至是“乳腺癌意识”。将单词合并为一个术语并不令人惊讶，因为这与创建标签的惯例是一致的;然而，这应该作为一个警告，研究人员在他们的检索策略中考虑这些非标准结构。换句话说，对于这项研究中搜索的术语，我们几乎没有发现俗语的证据。然而，对于任何健康话题，都有可能以不那么直观的方式使用这种语言。虽然我们没有发现我们的焦点项是这种情况，但这种可能性是存在的，而且这种技术可能有潜力在其他情况下识别这种情况。

更广泛地说，我们的分析显示，尽管用户生成的词汇通常可以在事后被合理地解释(Plenvu的网站宣传它是一种结肠镜检查准备技术，“乳房检查”直观地与乳腺癌有关)，但最常见的术语并不总是容易提前猜测，也就是说，在分析一些数据之前。这一观察结果支持了推动这项研究的论点，表明研究人员应该首先了解用户如何谈论医学话题，然后创建检索策略，以构建更完整的数据集，以分析他们所说的内容。虽然我们在这里没有明确的证据表明词汇表与特定的社会群体，或者，特别是边缘群体有关，但企业品牌名称的存在至少表明，有针对性的营销努力可以在特定的医学主题中发挥这样的作用。这是一个有待进一步研究的课题。

限制

这项研究有几个局限性。首先，我们的分析仅将癌症筛查测试作为焦点术语，因为该项目被纳入PCE中关注结直肠癌筛查信息的更大项目。我们的目的是在癌症背景下演示一种方法学技术，并理解未来的研究将需要评估可能适用于非癌症筛查健康主题或感兴趣的医学术语的任何独特挑战(例如，疫苗或有关糖尿病管理的信息)。虽然我们没有发现这种技术不能应用于其他关键字和术语的方法上的原因，但需要未来的研究来支持这一预期。

第二个限制是，单词嵌入模型是在YouTube文本内容上训练的，我们的技术依赖于YouTube的相关性数据来区分相关和不相关的视频。这意味着目前方法的有效性仅限于YouTube。虽然有很好的理由开始将YouTube作为健康相关信息的普遍来源，但我们鼓励未来的研究考虑为其他在网络上发现用户生成文本的领域开发类似的方法，包括网站、问答论坛帖子和其他社交网站[21，57］．重要的是，许多特定的技术可能无法从一个平台导出到另一个平台。例如，尽管YouTube追踪视频之间的相关性，但Twitter上的信息通常是通过标签进行关联的。因此，研究人员可能会专注于识别相关的邻居标签，而不是搜索相关的邻居单词。在问答论坛或其他带有线程回复的内容中，研究人员可能会结合这种层次信息来识别最相关的内容(例如，顶级帖子中使用的术语)。

最后一个限制是，执行这个过程需要熟悉可用的自然语言处理和计算工具。我们相信，计算方法在社会科学研究中的应用越来越多，以及R和Python语言对社会科学家的培训越来越多，增加了这种技术被那些自然语言处理能力有限的人使用的可能性。然而，健康传播本质上是一个跨学科领域，我们看到传播科学家、公共卫生和医学研究人员以及数据科学家之间合作的巨大潜力。然而，未来的工作可能会努力通过创建具体的工具和材料，以帮助卫生传播者和公共卫生专业人员在未来的健康促进和教育工作中应用这些方法，使这种技术更容易获得。

结论

这项研究证明了使用基于相似度的词嵌入技术进行计算健康通信研究的潜力，以提高回忆率，并保持检索可能被标准医学术语忽略的内容的准确性。这项研究表明，在PCE中确实有与医学主题相关的信息不使用医学词汇，而且其中许多信息是可以识别的。虽然无法确定忽视这些信息对健康差异的影响，但这些结果表明，有必要在这一领域进行进一步研究。

致谢

这项工作得到了美国国立卫生研究院国家癌症研究所的支持，资助号为R37CA259156。内容仅为作者的责任，并不一定代表美国国立卫生研究院的官方观点。

利益冲突

没有宣布。

‎

多媒体附件1

补充复制分析。

DOCX文件，21 KB

Karami A, Dahl AA, turner - mcgrivy G, Kharrazi H, Shaw G. Twitter上关于糖尿病、饮食、运动和肥胖的特征评论。国际信息管理2018年2月;38(1):1-6。［CrossRef］
Okuhara T, Ishikawa H, Okada M, Kato M, Kiuchi T.日本hpv疫苗接种网站内容:文本挖掘分析。患者教育计数2018年3月;101(3):406-413。［CrossRef] [Medline］
陈琳，王霞，彭涛。妇科癌症相关错误信息在社交媒体上的性质与传播:推文分析。J Med Internet Res 2018 10月16日;20(10):e11515 [免费全文] [CrossRef] [Medline］
Gage-Bouchard EA, LaValley S, Warunek M, Beaupin LK, Mollica M.社交媒体上交流的癌症信息科学准确吗?J Cancer Educ 2018 Dec;33(6):1328-1332 [免费全文] [CrossRef] [Medline］
胡晓明，张晓明，张晓明，等。公共传播环境中烟草覆盖范围对年轻人吸烟决定的影响。中国科学通报2022年4月;72(2):187-213 [免费全文] [CrossRef] [Medline］
周伟，吴A，克莱因。解决社交媒体上有关健康的错误信息。JAMA 2018 12月18日;320(23):2417-2418。［CrossRef] [Medline］
赵颖，张娟。社交媒体中消费者健康信息的检索研究。健康信息杂志2017年12月;34(4):268-283 [J]免费全文] [CrossRef] [Medline］
测量活动信息曝光和公共传播环境曝光:在社交媒体背景下的区别的一些含义。共同方法Meas 2016 Apr 20;10(2-3):167-169 [免费全文] [CrossRef] [Medline］
Shim M, Kelly B, Hornik R.癌症信息扫描和寻求行为与知识、生活方式选择和筛查相关。J卫生公社2006;11增刊1:157-172。［CrossRef] [Medline］
Beguerisse-Díaz M, McLennan AK, Garduño-Hernández G, Barahona M, Ulijaszek SJ。推特上关于#糖尿病的“谁”和“什么”。数字健康2017年1月;3:2055207616688841 [免费全文] [CrossRef] [Medline］
Loeb S, Sengupta S, Butaney M, Macaluso JN, Czarniecki SW, Robbins R，等。在YouTube上传播关于前列腺癌的错误和有偏见的信息。2019年4月;75(4):564-567。［CrossRef] [Medline］
朴山，吴华，朴庚，徐波，裴伟奎，金继伟，等。推特上结直肠癌信息的来源和可信度。医学(巴尔的摩)2016 Feb;95(7):e2775 [免费全文] [CrossRef] [Medline］
朴MS，何志，陈志，吴松，卞杰。消费者在社交媒体上使用UMLS概念:博客和社交问答网站中糖尿病相关文本数据分析。JMIR Med Inform 2016年11月24日;4(4):e41。［CrossRef] [Medline］
曾Q, Kogan S, Ash N, Greenes RA, Boxwala AA。健康信息检索消费者术语的特征。方法Inf Med 2018 Feb 07;41(04):289-298。［CrossRef］
曾秋冬，谢涛。探索和发展消费者健康词汇。中国医学信息杂志2006;13(1):24-29 [免费全文] [CrossRef] [Medline］
do - harris KM, Zeng-Treitler Q.通过挖掘社交网络数据的计算机辅助更新消费者健康词汇。J Med Internet Res 2011年5月17日;13(2):e37 [免费全文] [CrossRef] [Medline］
顾刚，张旭，朱旭，建忠，陈凯，温东，等。基于词嵌入挖掘健康论坛文本开发消费者健康词汇:半自动方法。JMIR Med Inform 2019年5月23日;7(2):e12704 [免费全文] [CrossRef] [Medline］
Ibrahim M, Gauch S, Salman O, Alqahtani M.使用GloVe词嵌入和辅助词汇资源来丰富消费者健康词汇的自动化方法。中国计算机科学(英文版)2021;7:e668 [免费全文] [CrossRef] [Medline］
Lazard AJ, Saffer AJ, Wilcox GB, Chung AD, Mackert MS, Bernhardt JM。电子烟社交媒体信息:推特上营销和消费者对话的文本挖掘分析。JMIR公共卫生监测2016年12月12日;2(2):e171 [免费全文] [CrossRef] [Medline］
马涛，阿特金。用户生成内容和在线健康信息可信度评价:一项元分析研究。Telemat Inform 2017年8月34日(5):472-486。［CrossRef］
Lee K, Hasan S, Farri O, Choudhary A, Agrawal A.在线用户生成文本的医学概念规范化。见:IEEE医疗保健信息学国际会议论文集(ICHI)。2017年发表于:IEEE医疗保健信息国际会议(ICHI);2017年8月23-26日;帕克城，UT，美国。［CrossRef］
朱娜娜R，维斯克LE，魏茨曼ER。人口健康监测中个人生成数据的基本问题。美国预防医学杂志2017年4月;52(4):549-553 [免费全文] [CrossRef] [Medline］
曾志峰，曾志峰。基于专业术语的消费者健康查询重构:初步研究。J medical Internet Res 2004年9月03日;6(3):e27 [免费全文] [CrossRef] [Medline］
Relia K, Li Z, Cook S, Chunara R.在美国100个城市的社交媒体和仇恨犯罪中基于种族、民族和国籍的歧视。出来了。预印本于2019年1月31日在线发布[免费全文］
Fage-Butler AM, Nisbeth Jensen M.在线医患交流中的医学术语:高健康素养的证据?健康预期2016年6月;19(3):643-653 [免费全文] [CrossRef] [Medline］
kkilbridge KL, Fraser G, Krahn M, Nelson EM, Conaway M, Bashore R，等。在服务不足的人群中缺乏对常见前列腺癌术语的理解。中华临床肿瘤学杂志2009 4月20;27(12):2015-2021。［CrossRef］
van Deursen AJ, van der Zeeuw A, de Boer P, Jansen G, van Rompay T.物联网中的数字不平等:态度、物质获取、技能和使用的差异。通知社社2019年7月27日;24(2):258-276。［CrossRef］
Din HN, McDaniels-Davidson C, Nodora J, Madanat H.健康信息寻求人群的概况和当前的数字鸿沟:2015-2016年加州健康访谈调查的横断面分析。J Med Internet Res 2019年5月14日;21(5):e11931 [免费全文] [CrossRef] [Medline］
李国强，李国强。召回率和精度作为检索系统性能的衡量标准的批判性调查。ACM Trans Inf Syst 1989 7月;7(3):205-229。［CrossRef］
Aidoo M, Harpham T.在赞比亚卢萨卡低收入妇女和卫生保健从业者的心理健康的解释模型。卫生政策计划2001年6月;16(2):206-213。［CrossRef] [Medline］
机我。描述了土著妇女艾滋病毒感染的解释模型。整体护理实践2000十月;15(1):42-56。［CrossRef] [Medline］
Soffer M, Cohen M, Azaiza F.乳腺癌在阿拉伯裔以色列医生和非专业女性乳腺癌预防行为中的解释模型的作用。Prim医疗保健Res Dev 2020年11月03日;21:e48。［CrossRef］
张颖。第一届ACM国际卫生信息学研讨会论文集。情境化消费者健康信息搜索:社会问答社区中的问题分析。载于:第一届ACM国际卫生信息学研讨会论文集。2010年发表于:IHI '10: ACM国际卫生信息学研讨会;2010年11月11日至12日;美国弗吉尼亚州阿灵顿。［CrossRef］
Rovetta A, Castaldo L.通过谷歌趋势的新的信息流行病学方法:意大利COVID-19科学和信息流行名称的纵向分析。BMC Med Res Methodol 2022 Jan 30;22(1):33 [免费全文] [CrossRef] [Medline］
Ogden J, Flanagan Z.关于肥胖原因和解决方案的信念:全科医生和非专业人士的比较。患者教育杂志2008年4月;71(1):72-78。［CrossRef] [Medline］
邬志强，刘志强，刘志强，等。全科医生和患者的肥胖模型:谁的问题?患者教育杂志2001九月;44(3):227-233。［CrossRef］
医学研究所，神经科学和行为健康委员会，健康知识普及委员会。健康素养是结束困惑的处方。美国华盛顿特区:国家科学院出版社;2004.
尼德德佩J, Levy AG。关于癌症预防的宿命论信念和三种预防行为。癌症流行病学生物标志物2007年5月01日;16(5):998-1003。［CrossRef] [Medline］
王c, Miller SM, Egleston BL, Hay JL, Weinberg DS。一般人群中女性对乳腺癌和结直肠癌病因的认识。癌症原因控制2010 Jan 29;21(1):99-107 [免费全文] [CrossRef] [Medline］
英国成年人对癌症危险因素的认识。公共卫生2001年5月;115(3):173-174。［CrossRef］
詹森JD，莫里亚蒂CM，赫尔利RJ，斯特瑞克JE。理解癌症新闻报道趋势:三种综合内容分析的比较。中华卫生杂志2010 3月15日(2):136-151。［CrossRef] [Medline］
布兰德。发明利益冲突:烟草业策略史。中华卫生杂志2012年1月;32(1):1 -7。［CrossRef］
Petticrew M, Maani Hessari N, Knai C, Weiderpass E.酒精行业组织如何在酒精和癌症方面误导公众。药物酒精Rev 2018 3月07日;37(3):293-303。［CrossRef] [Medline］
Margolin DB。计算贡献:将大型观测数据研究整合到通信领域的共生方法。共同方法与措施2019 july 05;13(4):229-247。［CrossRef］
Auxier B, Anderson M. 2021年社交媒体使用情况。2021年4月7日。URL:https://www.pewresearch.org/internet/2021/04/07/social-media-use-in-2021/[2021-11-03]访问
Madathil KC, Rivera-Rodriguez AJ, Greenstein JS, Gramopadhye AK。YouTube上的医疗保健信息:系统回顾。卫生信息学杂志2015年9月;21(3):173-194 [免费全文] [CrossRef] [Medline］
胖MJ, Doja A, Barrowman N，卖E. YouTube视频作为教学工具和婴儿痉挛的病人资源。中华儿童神经杂志2011 july 06;26(7):804-809。［CrossRef] [Medline］
Liu D, Schuchard H, Burston B, Yamashita T, Albert S.减少少数族裔成人癌症筛查医疗保健差异的干预措施:一项系统综述。J种族健康差异2021年2月15日;8(1):107-126。［CrossRef] [Medline］
美国预防服务工作组，Davidson K, Barry MJ, Mangione CM, Cabana M, Caughey AB，等。结直肠癌筛查:美国预防服务工作组建议声明。美国医学杂志2021年5月18日;325(19):1965-1977。［CrossRef] [Medline］
搜索:列表。YouTube数据API。URL:https://developers.google.com/youtube/v3/docs/search/list[2021-08-10]访问
YouTube数据工具。数字的方法。URL:https://tools.digitalmethods.net/netvizz/youtube/[2021-08-10]访问
Mikolov T, Sutskever I, Chen K, Corrado G, Dean J.单词和短语的分布式表示及其组合。见:神经信息处理系统进展26 (NIPS 2013)。2013年发表于:神经信息处理系统进展26 (NIPS 2013);2013年12月5-10日;太浩湖，美国内华达州。
使用word2vec对单词进行分布式表示。GitHub。URL:https://github.com/bnosac/word2vec[2021-11-03]访问
Benoit K, Watanabe K, Wang H, Nulty P, Obeng A, Müller S，等。quanteda:文本数据定量分析的R包。J Open Source software 2018 10月;3(30):774。［CrossRef］
Kamba M, Manabe M, Wakamiya S, Yada S, Aramaki E, Odani S，等。基于自然语言处理的乳腺癌患者问答服务医疗需求提取方法JMIR Cancer 2021 10月28日;7(4):e32005 [免费全文] [CrossRef] [Medline］
Kalyan KS, Sangeetha S. BertMCN:使用BERT和高速公路网络将俗语短语映射到标准医学概念。Artif Intell Med 2021年2月;112:102008。［CrossRef] [Medline］
Subramanyam KK, S.深度情境化医疗概念规范化在社交媒体文本。计算机科学进展2020;71:1353-1362。［CrossRef］
Tan AS, Bigman CA.社交媒体上关于商业烟草产品的错误信息——减少烟草相关健康差异的影响和研究机会。Am J Public Health 2020 10月;110(S3):S281-S283。［CrossRef］
可口可乐资助科学家将肥胖归咎于不良饮食。纽约时报2015年8月9日。URL:https://well.blogs.nytimes.com/2015/08/09/coca-cola-funds-scientists-who-shift-blame-for-obesity-away-from-bad-diets/[2022-03-07]访问

‎

API:应用程序编程接口

PCE:公众传播环境

问答:问答

中移动:研究问题

编辑:T Hao;提交09.03.22;C Giraud-Carrier, M Bardus, A Zain同行评审;对作者04.05.22的评论;修订本收到13.06.22;接受22.07.22;发表30.08.22

©Chau Tong, Drew Margolin, Rumi Chunara, Jeff Niederdeppe, Teairah Taylor, Natalie Dunbar, Andy J King。最初发表于JMIR医学信息学(https://medinform.www.mybigtv.com)， 30.08.2022。

这是一篇开放获取的文章，根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上不受限制地使用、分发和复制，前提是正确引用了首次发表在JMIR医学信息学上的原创作品。必须包括完整的书目信息，https://medinform.www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

本文内容如下e-collection /主题问题:

计算健康传播的搜索词识别方法:YouTube上健康内容的词嵌入和网络方法

计算健康传播的搜索词识别方法:YouTube上健康内容的词嵌入和网络方法

原始论文

通讯作者:

摘要

关键字

简介

背景

健康相关词汇不一致的挑战

卫生信息检索中的遗漏问题

YouTube作为公共卫生信息来源和调查地点

方法

癌症筛查焦点术语的基本原理

从焦点项检索YouTube视频

字嵌入

人类编码和自然语言处理评估回忆改善

网络分析评估精度

伦理批准

结果

字嵌入

人类编码和自然语言处理评估回忆改善

网络分析评估精度

复制:其他癌症筛查试验

讨论

主要研究结果

限制

结论

致谢

利益冲突

参考文献

缩写