发表在第二卷第2期(2022):7月- 12月

本文的预印本(早期版本)可在以下网站获得https://preprints.www.mybigtv.com/preprint/38749,第一次出版
社交媒体上直接面向消费者的基因测试:YouTube用户评论的主题建模和情感分析

社交媒体上直接面向消费者的基因测试:YouTube用户评论的主题建模和情感分析

社交媒体上直接面向消费者的基因测试:YouTube用户评论的主题建模和情感分析

原始论文

1德国卡尔斯鲁厄理工学院经济与管理系

2HIDSS4Health - Helmholtz卫生信息和数据科学学院,德国卡尔斯鲁厄/海德堡

通讯作者:

阿里Sunyaev博士

经济与管理系

卡尔斯鲁厄理工学院

Kaiserstr。89

卡尔斯鲁厄,76133

德国

电话:49 72160846037

电子邮件:sunyaev@kit.edu


背景:由于直接面向消费者(DTC)基因检测能够自行负责地获取有关祖先、性状或健康的新信息,消费者经常求助于社交媒体寻求帮助和讨论。YouTube是最大的视频社交媒体平台,提供大量与DTC基因检测相关的视频。然而,这些视频的评论区大部分都是未经探索的。

摘要目的:本研究旨在通过探讨讨论的主题和用户对这些视频的态度,解决YouTube上DTC基因检测相关视频评论区用户话语缺乏知识的问题。

方法:我们采用了三步研究方法。首先,我们收集了YouTube上观看次数最多的248个DTC基因检测相关视频的元数据和评论。其次,我们使用词频分析、bigram分析和结构化主题建模进行主题建模,以确定视频评论区讨论的主题。最后,我们使用必应(二进制)、加拿大国家研究委员会(NRC)情感和9级情感分析来确定用户对这些DTC基因检测相关视频的态度,如他们在评论中所表达的。

结果:我们从YouTube上观看次数最多的248个DTC基因检测相关视频中收集了84,082条评论。通过主题建模,我们确定了6个流行的主题(1)普通基因测试,(2)祖先测试,(3)关系测试,(4)健康和特征测试,(5)伦理问题,(6)YouTube视频反应。此外,我们的情绪分析表明强烈的积极情绪(期待、喜悦、惊讶和信任)和对DTC基因检测相关视频的中立到积极的态度。

结论:在这项研究中,我们展示了如何通过检查基于YouTube视频评论的主题和意见来确定用户对DTC基因检测的态度。通过揭示社交媒体上的用户话语,我们的研究结果表明,用户对DTC基因检测和相关社交媒体内容非常感兴趣。尽管如此,随着这个新兴市场的不断发展,服务提供商、内容提供商或监管机构可能仍然需要根据用户的兴趣和愿望调整其服务。

JMIR Infodemiology 2022; 2 (2): e38749

doi: 10.2196/38749

关键字



背景和目标

自2003年人类基因组计划完成以来,基因组测序成本的下降和公众对基因组学兴趣的上升为直接面向消费者(DTC)基因检测铺平了道路[1].今天,用户可以通过互联网以不到100美元的价格购买DTC基因检测,在没有卫生保健专业人员参与的情况下,获得关于其健康、性状、遗传等方面的遗传见解[2].通过为用户提供这些有趣和新颖的见解,DTC基因检测市场正在不断增长。例如,仅北美的DTC基因检测市场在2021年估计的15亿美元全球市场价值中就占39%。此外,预计DTC基因检测市场价值在未来8年将以15.3%的年增长率增长3倍[3.].

DTC基因检测和自我负责基因的兴起也引发了无数的伦理、社会、技术和法律问题[1].例如,批评者认为,DTC基因检测缺乏临床有效性和对检测结果的有意义的解释,而服务提供商却可以进行不受监管的广告和营销宣传,特别是对与健康有关的检测[124-7].事实上,接受多种DTC基因检测的消费者发现,他们得到的结果因服务提供商的不同而不同[8].研究人员和消费者经常讨论的另一个问题是基因数据的潜在共享和转售(如向制药公司)及其对基因隐私的影响,包括向保险公司、雇主、执法机构或黑客等恶意实体访问基因数据[9-14].尽管许多消费者认为这些做法不公平,但低廉的价格和潜在的基因洞察往往超过了上述担忧[15].然而,由于基因相似性,这些后果也可能适用于没有参与或不同意基因检测的血亲[1316].这也与媒体和研究报告有关,报道称美国消费者使用DTC基因祖先检测来证明他们的“基因纯度”,导致社交媒体上出现种族主义和基因歧视的例子[1718].

随着DTC基因检测的普及和可用性的增加[2]以及在互联网上检索和讨论健康信息和健康相关话题的社会普遍趋势[19], DTC基因检测在许多社交媒体平台上是一个频繁且近期的话题,这一点也不奇怪[1820.21].特别是最大的社交媒体平台之一、最全面的网络视频平台YouTube [22],成为许多互联网用户讨论健康资讯,特别是DTC基因检测的第一站[23].虽然YouTube可以为内容创作者(如消费者、服务提供者、卫生保健专业人员或记者)提供与大量观众分享健康信息和经验的服务,但它也可以通过在单个视频下方的文本评论实现用户话语权[24].

理解用户讨论的话题、观点和态度对许多利益相关者来说至关重要,因为评论是用户在社交媒体上的反应和反馈的主要形式[23].例如,服务提供商可以获得对消费者需求的洞察,而内容创造者可以通过调整内容来满足用户的偏好,从而改进他们的视频。此外,随着关于DTC基因检测的伦理和法律问题的持续争论[17],用户的意见对监管当局、政客和整个行业都至关重要。然而,考虑到评论的数量和用户的多种写作风格,许多涉众缺乏有效和高效地提取评论区中讨论的核心主题和表达的态度的方法。

现有的关于社交媒体上的DTC基因检测的研究证实了这种理解的缺乏。之前的研究主要集中在微博服务,如Twitter [2526], Reddit [27],或4chan [18]对DTC基因检测的用户话语进行了调查,结果表明,用户对DTC基因检测的兴趣和意见仍然令人困惑。关于用户在不同平台上讨论的话题的不一致的发现(例如,推特上的祖先检测[25以及Reddit上的健康测试[27])表明DTC基因检测的论述因平台而异,因此必须分别进行研究。此外,研究已经表明,通过来自特定平台的用户对DTC基因检测相关内容的评论来分析用户的意见和态度是有价值的。例如,Mittos等人[18发现推特上大量使用仇恨言论,而Basch等[20.已经意识到TikTok上有必要提供有关基因检测的教育内容。很少有研究在主要分析多媒体信息(即视频内容)的同时调查YouTube上关于DTC基因检测的信息[28-31]并忽略用户注释提供的文本信息(参见多媒体附录1浏览社交媒体上DTC基因检测研究的完整概述)。因为大多数用户不会主动制作YouTube视频,而只是消费它们,我们相信,分析用户在YouTube评论区讨论的话题为正在进行的关于社交媒体平台上DTC基因检测相关视频的讨论提供了一个新的视角。因此,我们提出以下研究问题(RQs):

RQ1: YouTube用户在DTC基因检测相关视频的评论区讨论了什么话题?

RQ2:从用户在YouTube上的评论来看,他们对DTC基因检测相关视频的态度如何?

为了回答我们的rq,我们用三步探索的方法分析了248个观看次数最多的关于DTC遗传学的视频。首先,我们从媒体类型、基因检测目的和相关健康信息等方面分析了所选视频。其次,我们使用主题建模来调查这些视频评论区的用户话语。第三,我们进行了情绪分析,揭示用户对讨论话题和DTC基因检测视频的总体态度。

通过我们的学习,我们在几个方面为研究和实践做出了贡献。在研究方面,我们通过描述关于这些基因检测的主题和讨论意见,增加了用户对DTC基因检测态度的文献。此外,我们通过展示YouTube评论为社交媒体上的用户话语提供了有价值的见解,并证明DTC基因检测和健康信息主题在不同平台之间可能普遍不同,从而为关于社交媒体上健康信息的研究流做出了贡献。在实践上,我们的研究可以帮助DTC基因检测服务提供商和监管部门进一步了解用户的态度,从而调整或改进基因检测服务和监管。由于大多数视频都是用户生成的,我们对用户话语的分析可以为这些视频的评论区讨论的主题提供有价值的见解,为内容创作者提供有价值的信息,以改进他们未来的DTC基因检测主题视频。

社交媒体平台上的健康信息

在过去十年中,社交媒体平台作为传播医疗信息的手段,在数字卫生部门变得越来越有吸引力[32].除了获取专业和非专业的医疗信息外,用户还可以分享他们的经验并相互联系[33].用户已经在社交媒体上讨论各种健康话题,如糖尿病、药物和药物信息、身体健康、心理健康、癌症,或者最近的COVID-19 [1934-38].

因此,信息传播平台(见多媒体附录1(社交媒体平台类型的详细描述),如YouTube,已经引起了研究人员对各种卫生保健相关主题的兴趣。例如,有研究调查了用户对助眠音乐效果的态度[24]、用户对糖尿病治疗和症状的偏好,以及与糖尿病相关的视频片段有关的社会文化[39或对加拿大COVID-19危机每日报道的公众意见和担忧[23].

DTC基因检测

DTC基因检测与传统临床基因检测的不同之处在于,它是由消费者发起的,不需要消费者与医护专业人员直接互动[2].由于互联网是主要的广告和分销渠道,DTC基因检测服务提供商通常会将DNA样本收集试剂盒(如口拭子或血斑收集)送到消费者家中自行收集[5]或安排在本地化验室收集样本[7].随后,服务提供者可进行各种基因分析,然后通过互联网或邮件直接将结果返回给消费者[5].关于DTC基因检测,消费者可以选择解释人员(即服务提供者)以及对其遗传信息进行分析的类型和目标(而不是由解释遗传数据的保健专业人员)。最常见的检测服务包括祖先检测(如AncestryDNA)、非医疗生活方式检测(如FitnessGenes)、关系检测(如EasyDNA)和健康检测(如23andMe) [2].尽管DTC基因检测为消费者提供了新颖而有价值的信息,但它也有缺点,例如消费者需要负责管理和确保其个人基因信息的安全[1].


研究方法

我们采用了3步探索性研究方法来回答我们的rq图1).首先,我们进行了全面的数据收集,收集了YouTube上与DTC基因检测相关的视频,包括他们的评论,并对这些视频的内容进行编码。其次,我们对评论区的用户语篇进行了主题建模,以揭示这些评论中讨论的主题(回答RQ1)。第三,我们使用情感分析(回答RQ2)分析用户对DTC基因检测视频的态度。

图1。三步研究方法概述。NRC:加拿大国家研究委员会。
把这个图

数据收集

我们使用YouTube官方应用程序编程接口(API)创建了YouTube上最相关的DTC基因检测相关视频列表。将该地区设置为美国(即最大的DTC基因检测市场),我们查询了6个不同的DTC基因检测相关搜索词(即直接到消费者基因检测、家庭基因检测、祖先检测、DNA检测、基因检测和23andMe)的300个观看次数最多的视频结果。之后,我们组合了来自6个查询的1800个结果,删除重复的结果,并按视频观看次数降序进行排序。我们进一步排除了所有观看次数少于50,000的视频,因为它们每个视频的评论很少(平均61.2),许多视频没有评论(n=336)。

接下来,剩下的468个视频由2名研究人员通过反复的手工检查来审查相关性,第三名研究人员在出现差异时断开联系。为此,我们预定义的排除标准如下:(1)不专注于DTC基因检测的视频,(2)专注于动物基因检测的视频,(3)专注于临床产前基因检测的视频,(4)非英文视频,(5)直播视频,(6)重复视频(即从不同用户重新加载的视频),(7)评论/反应视频(即显示原始视频并添加评论),或(8)评分和评论部分被禁用的视频(见多媒体附录2有关数据收集过程的详细概述,包括每个排除标准的基本原理)。这产生了总共250个相关视频。

为了深入了解视频所包含的主题,特别是所呈现的基因测试的目标和视频的呈现类型,我们根据基因测试的目的和媒体类型对所包含的视频进行了编码。出于基因测试的目的,我们选择了文献中建议的最常见的测试类型(即祖先、性状、遗传倾向、关系和其他[27])。至于媒体类型,我们采用了Zhang等人的分类[39到我们的一组视频中。因此,分类是广告、纪录片、采访、新闻、用户生成视频和其他。在对20个视频进行初始编码和比较后,2位研究人员对剩下的视频并行进行演绎编码。总体而言,双方研究人员的一致性较高,基因检测目的和培养基类型的Cohen κ值分别为0.581和0.613。为了打破僵局,我们与第三位作者讨论了编码的差异。这些编码信息允许我们进一步分析关于视频内容的评论,并作为评估评论中的讨论的基础。

在250个视频的最终编码集到位后,我们再次使用YouTube API下载每个视频的500个最新评论。选择这个数字是因为YouTube API的下载限制,同时仍然允许有意义的分析。其中,80个视频的评论数不足500条,2个视频不再可用,剩下248个视频中的84082条评论,这对于主题建模和情感分析来说已经足够了[例如,28,31,40,41]。

评论的主题建模

为了回答我们的第一个RQ,我们使用主题建模来识别用户在DTC基因检测相关YouTube视频的评论区讨论的常见主题。主题建模在医学信息学和相关学科中经常用于文本挖掘大型数据集(如评论或tweet),并推导出有意义的主题[2337384041].在我们的研究中,我们使用了几种主题建模方法,包括词频、bigram相关性和结构化主题建模,如Silge和Robinson所描述和推荐的[42].因为它们是一些最常见的主题建模方法,包括不同的方法[42-44],非常适合我们的探索性研究设计。所有的分析和可视化都使用RStudio(版本1.4.1106)中的R(版本4.1.0,R Foundation for Statistical Computing)和tidytext包(版本0.3.2)进行。

在进行任何主题建模之前,我们首先将注释分离为一个单词的标记(即,注释被拆分为单个单词),并执行2个基本的数据清理任务。首先,我们使用SnowballC包执行词干词干。这一步是必要的,以确保具有相同含义的单词(例如,复数或动词)被分组在一起,以允许有意义的主题建模。对于每个词干,使用最频繁的单词来表示它的词干(例如,test表示test、tests、test’s和testing)。其次,我们使用tidytext包中包含的停止词列表删除了常见的停止词。这个列表包含了1149个常见的停顿词,如the, of或to。由于这些停止词不包含任何主题信息,删除停止词会减少数据集的大小,并有利于主题的准确性[42].

有了清理后的单词列表,我们首先通过分组、计数和按降序列出单词来进行词频分析。这提供了最常用的词汇的概述,并可以让人们对最突出的讨论主题有初步的了解(例如,“DNA”出现了15702次,“测试”出现了10902次)。

第二,我们创造了单词组合。我们创建了一个包含两个单词的标记的频率列表,通过对每个评论中每两个连续的单词进行配对来找到它们(例如,“DTC基因检测”在“DTC遗传”和“基因检测”的组合中得到结果)。与单个单词列表相比,bigram可以用于跨网络,其出现次数表示每个bigram边的权重[42].为了允许有意义的解释,我们发现设置最少70次出现会产生一个可理解的网络。较低的值导致包含较难解释和影响的biggram,同时使网络混乱(例如,“杂货店”,“嘿kelsey,”或“omg lol”)。

最后,借助stm包进行结构化主题建模[43].结构化主题建模旨在将来自不同文档(如注释)的单词根据它们的共现情况分组为主题[43].stm包使用文档级协变量信息来估计给定数量的主题的主题模型。我们估计的模型范围从15到100个主题,每增加5个。然后,我们根据最佳实践指标对这些模型进行了比较,如拒绝可能性、下界、残差和语义一致性[4245].

虽然没有明确的答案来确定题目的正确数量[43],经过对这些指标的手工审查和3名研究人员的讨论,我们选择了50个作为适当的主题数量。关于结构化主题建模过程和度量的更详细的描述,以及与45和55主题模型的比较,可以在多媒体附录3

在选择了50个主题模型后,我们根据流行程度和每个主题内的词汇降序对主题进行了排序。然后,我们手动检查了50个最流行的话题和它们的10个最有贡献的词汇,以推断出有意义的话题,并根据它们的内容进行分类。为此,我们依赖于我们之前对DTC基因检测的知识,以及我们在数据收集步骤的视频编码阶段获得的视频内容的知识。所有课题作业均由3名研究人员进行讨论。

评论情感分析

因为主题建模只能帮助我们确定评论中讨论的主题,而不能帮助我们确定用户对视频的态度,我们接下来进行了单词和评论级别的情感分析来回答我们的第二个RQ。情感分析是一种常用的工具,从书面语言中引出人们的意见、情绪、情绪和态度[46].尽管情感和态度几乎是等同的,而且经常同义使用,但它们确实在这一点上有所不同:情感是一种对情感、认知和意向作出反应的更持久的倾向,而态度是一种对信仰、思想、感觉和公开行为作出反应的倾向,作为更大情感的一部分[47].从这个意义上说,我们只能从一条YouTube评论中推断出用户的态度,而不能从他们对某个话题的整体情绪中推断出他们的态度。

因此,我们决定进行2个词级情感分析和1个评论级情感分析来推断用户的态度。对于单词级别的情感,我们再次使用了tidytext包,它包含典型的单词级别方法,非常适合首次探索性概述[42].然后我们采用了类似Mittos等人使用的方法[18]进行评论级分析,他们也在DTC基因测试背景下进行了情绪分析。

因此,我们首先使用必应词典进行了积极和消极情绪分析。必应词典由大约6800个预先定义的单词组成,分为积极和消极两类[48].随后,我们将情绪按词和总体情绪进行汇总。尽管这种方法提供了一个很好的情绪概述,但词典有限的单词数量遗漏了大多数特定主题的单词。

我们还使用了加拿大国家研究委员会(NRC)的情感词典,以更详细地了解用户对DTC基因检测的情绪[49].该词典将1种或多种情绪归为大约14000个单词(即,一个单词可能有1种以上的情绪),因此分类也是预先定义的。这些情绪包括愤怒、期待、厌恶、恐惧、快乐、悲伤、惊讶和信任。与必应词典类似,我们根据NRC情绪对所有单词进行分类和聚合。然而,初步调查显示,“黑”和“白”这两个词分别与消极情绪和积极情绪密切相关。因为在我们的数据集中,这些词的过度使用很可能是由于与祖先测试相关的主题,并且为了避免种族与情绪的强烈关联,我们重新进行了分析,没有它们。

对于评论级别的情感分析,我们使用SentiStrength [50这是一款基于java的情感工具,专门针对Twitter推文或YouTube评论等英文社交网络短文本进行优化。该工具为每个文档报告2个预定义的和基于经验的情绪(即,评论)。第一种是消极情绪,从-1(不消极)到-5(极度消极),第二种是积极情绪,从1(不积极)到5(极度积极)。当两者结合时,我们得到的总情感得分在-4到+4之间。在计算了每条评论的情绪得分后,我们对情绪、媒体类型和测试目的进行了一些分析。

道德的考虑

这项研究不需要伦理批准,因为它没有直接涉及人类参与者。本研究中使用的所有数据(即视频和视频评论)均可在YouTube上公开获取,检索时可通过YouTube API访问。所有的结果都只以聚合的形式发布,单个引用是匿名的,没有上下文,以保护评论作者的隐私。


视频内容和评论概述

我们检查了2020年9月14日收集的248个与DTC基因检测相关的视频,其中共有30个视频来自官方公司账号(21个视频来自23andMe, 8个视频来自Ancestry.com, 1个视频来自MyHeritage)。根据媒体类型,这些视频包括27个广告相关的视频,14个纪录片,16个采访,12个新闻,174个用户生成的视频,以及5个其他媒体类型的视频(主要是电视节目的录音,如斯蒂芬·科尔伯特的深夜秀或吉姆·杰弗瑞秀/喜剧中心)。在248个视频中,194个视频将祖先作为一种测试目的,15个描述性状测试,9个描述遗传倾向,19个描述关系测试,11个描述其他目的(如如何使用测试套件或多种基因测试目的的比较/展示)。在视频数据聚合的当天,这些视频总共有724574条评论。我们收集了2021年1月3日视频的评论,重点关注每个视频最近的500条评论(评论总数为84,082条)。提供了视频元数据、内容和评论的概述表1

表1。视频元数据、内容和评论的概述。
视频特征 价值
数量(N) 248
收集日期 2020年9月14日
媒体类型(n)

广告 27

纪录片 14

面试 16

新闻 12

用户生成的视频 174

其他 5
测试目的(n)

祖先 194

特征/特征 15

遗传素质 9

的关系 19

其他 11
上传日期

最古老的 2015年1月15日,

最新的 2020年7月7日
视图数

最低 52802年

最大 20453890年

平均 1158064年
喜欢

最低 0

最大 368294年

平均 22114年
不喜欢

最低 0

最大 10277年

平均 813
时间(分钟)

最低 00:31

最大 34:23

平均 09:30
评论

最低 2

最大 24523年

平均 2922
评论出版日期

最古老的 2017年3月29日

最新的 2021年1月2日

DTC基因检测视频评论的主题

使用DTC基因检测相关视频评论的词频分析为用户讨论的主题提供了有价值的见解。DNA (n=15,702)、测试(n=10,902)和人(n=9259)是迄今为止最常见的术语,这表明用户确实主要在评论中讨论DTC基因检测。此外,我们还识别出许多与祖先检测有关的词汇,如:ancestry (n=5015)、african (n=6268)或american (n=6139)。此外,诸如家庭(n=5252)、爸爸(n=2932)或父母(n=2228)等词都可以归因于关系测试。总的来说,100个最频繁的单词与视频本身的测试目的相似,也与DTC基因测试视频的普遍兴奋感相似(例如,视频,n=4794;爱,n = 4751)。表2提供20个最常见单词的概述。此外,多媒体附录4提供单词云和100个最常用单词的概述。

评论的bigram网络提供了经常一起使用的词汇的更细粒度的图片。与单词云不同的是,它允许我们看到多个单词是如何连接的。此外,箭头表示单词出现的顺序,而边缘的阴影表示单词对出现的频率。因此,我们可以从网络中推断出用户可能讨论的话题。

所示图2,我们在网络中确定了5个主要主题。我们确定的最大主题围绕祖先测试(蓝色聚类)。虽然最具指示性的重词是“祖先DNA”(n=679),但该主题中的大多数重词描述的是特定的遗传,如“美洲原住民”(n=3255)、“北非人”(n=831)或“中东人”(n=756),这进一步证实了用户在评论中主要讨论基因检测的祖先结果。第二大主题涉及特征测试(绿色聚类),包含诸如“金发/棕色/红色头发”(n=203/n=72/n=41)、“肤色”(n=131)或“蓝色眼睛”(n=285)等组合。第三个主题包含与运行状况测试相关的图表(黄色聚类)。典型的biggram包括“保险公司”(n=121)、“基因组成”(n=76)和“23andme测试”(n=72)。最后一个与基因检测相关的主题是关系检测(红色聚类)。它包括“同卵双胞胎”(n=231)、“同父异母姐妹”(n=124)或“亲生父母”(n=74)等不同的组合。我们还确定了一个不特定于DTC基因检测的主题,但YouTube作为一个一般平台(灰色集群)。在本主题中找到的缩略图是视频url的一部分,例如,“https youku”。Be”(n=246)或“www.youtube.com watch”(n=201)。 This indicates that users often share videos in the comments sections of videos, possibly on related topics.

最后,我们训练了结构主题模型,从中选择了50个主题模型。图3显示了20个最流行的主题,包括这个模型的每个主题的10个最重要的单词。所有50个主题的完整列表可以在多媒体附录3.为了更好地概述评论区讨论的主题,我们将这20个主题分为6类,简要描述如下:

表2。从评论分析中获得的20个最常见的单词列表。
排名 频率(n)
1 dna 15702年
2 测验 10902年
3. 9259
4 非洲 6268
5 结果 6178
6 美国 6139
7 家庭 5252
8 欧洲 5142
9 祖先 5015
10 视频 4794
11 4751
12 本地的 4665
13 白色 4489
14 黑色的 4203
15 哈哈 3469
16 亚洲 3276
17 爱尔兰 3177
18 混合 2984
19 爸爸 2932
20. 父亲 2782
图2。在YouTube上直接面向消费者的基因检测相关视频的评论中发现的2字标记的Bigram网络,至少出现了70次。彩色图例表示主题归属。
把这个图
图3。从50个话题模型中选出前20个话题及其10个最具代表性的词汇。彩色图例表示主题归属。
把这个图
一般基因检测

这个主题组表明了对DTC基因检测的普遍兴趣(例如,主题16,31,49),包括公司名称,如MyHeritage, AncestryDNA,或Ancestry.com和感兴趣的词汇(例如,兴奋或期待)。此外,主题16涉及家庭收集(吐槽,试管)和财务(钱)方面的DTC基因检测。

祖先的测试

与我们之前的发现一致,大多数话题都是关于基因祖先检测的结果。主题8展示了用户对祖先检测的普遍兴趣。主题17、26、37和47描述了来自特定地区的遗产的发现,而主题41是关于父亲和母亲祖先的。此外,主题19可能表明用户希望通过祖先测试找到丢失的亲人。

测试的关系

我们还确定了3个关于基因关系检测的主题。第34和48个主题涉及儿童之间的关系,如同卵双胞胎,而第36个主题涉及收养和家谱(即寻找一个人的亲生家庭)。

健康和特质测试

健康基因检测和性状检测虽然不太流行,但也在前20个话题中。44号主题关注健康信息和数据,28号主题涉及头发或眼睛颜色等特征的词汇。

伦理问题

50个主题模型还揭示了一些我们之前发现中没有包含的主题。话题32涉及到通过诸如黑人、种族主义者或疯子等词来表示的种族主义实例。考虑到美国正在进行的关于种族主义实例的复杂辩论,以及大多数围绕祖先和遗产的DTC基因检测,这可以解释为什么在这些视频的评论中发现了这个话题。此外,主题22涉及用户对基因检测和政府的担忧,使用了诸如谎言、广告或犯罪等词汇。

YouTube视频反应

与之前的研究结果相反,主题18、27和43与基因检测没有直接关系,而是涉及对YouTube上视频的反应(例如,爱,棒极了,观看,视频,或频道)。此外,用户似乎对个人故事(如惊奇、故事或反应)感兴趣。

主题建模方法与识别主题的比较

虽然bigram网络和结构化主题建模使用不同的方法,但大多数识别的主题都在这两种方法中出现。这两种方法都显示了血统测试、关系测试、特征测试和健康测试主题的强烈迹象。此外,这两种方法都可以推断出一个YouTube或YouTube视频相关的主题。表3比较bigram网络和结构化主题建模所涵盖的主题,并分别列出每种方法的一些最具指示性的bigram和单词。

表3。比较使用bigram网络和结构化主题模型识别的主题。
主题 三元网络 结构性主题建模
一般基因检测 N/A一个 全球;ancestrydna;ancestrycom;兴奋的;期望;吐痰;管;钱;基因;dna; genetic
祖先的测试 祖先dna;印第安人的;北非:中东 血统;非洲;美国人;本机;爱尔兰;德国;法国;父亲;父母;竞赛; mexican
测试的关系 同卵双胞胎;姐姐一半;亲生父母 孩子们;哭;家庭;采用;家谱;谎言
性格测试 金发女郎/棕色/红色的头发;肤色;蓝色的眼睛 头发;眼睛;金发女郎;蓝色;红色的
健康测试 保险公司;基因构成;23 andme测试 公司;信息;健康;支付
伦理问题 N/A 黑色;种族主义;索赔;政府;克隆;犯罪;证据
YouTube-related https youtu.be;www.youtube.com观看 N/A
YouTube视频反应 N/A 爱;令人敬畏的;看;视频;通道;令人惊异的;故事;反应

一个N / A:不适用。

DTC基因检测视频评论的感想

尽管主题建模可以帮助揭示用户在评论区讨论的内容,但它并不能洞察用户对这些主题的态度。因此,进行必应情绪分析可以提供关于评论区使用的词汇的情绪的初步概述。图4展示了20个最常用的带有消极和积极情绪的词汇。结果显示,使用最多的积极词汇的使用频率明显更高。事实上,第一个负面词汇“有趣的”(n=864)在情绪列表中仅排在第7位。此外,积极的词汇“爱”(n=4751)的使用比例太高,是第二常用词汇“美丽”(n=1953)的两倍多。然而,当观察所有积极和消极分类的出现时,我们可以识别出更多的消极词汇(n=38,734),而不是积极词汇(n=35,897)。

另一种类型的情绪分析是用NRC词汇识别情绪。我们的研究结果表明,代表积极情绪的词汇,如期待、喜悦、惊讶和信任,比表达消极情绪的词汇(如愤怒、恐惧、厌恶和悲伤)出现的频率更高图5).这一发现也得到了积极词汇情绪(n=148,791)和消极词汇情绪(n=76,761)的总体出现次数的支持。爱使用最多的单词(n=4751)与喜悦的情绪有关,最频繁使用的情感是信任(n= 54814)。相比之下,“disgust”(n=15,541)的单词出现次数最少。

评论级别的情感分析可以洞察用户的态度,以及对DTC基因检测视频及其各自的内容(即测试目的和媒体类型)的态度。尽管SentiStrength的情绪评分可能在-4到4之间,但所有评论的平均情绪评分为0.32,意味着略微积极。这也反映在几乎一半的评论(n= 36804)具有中立情绪(即0)。根据视频对评论情绪进行分组显示,每个视频评论部分的最低情绪评分是-0.62,而最高的是1.33。总的来说,248个被检查的视频中只有30个有负面情绪,表明对DTC基因检测视频的总体态度是积极的。

当比较关于视频测试目的的评论情绪时,我们的结果显示,在情绪评分为4的评论中,91.6%(230/251)是在关于血统测试(最常见的测试目的)的视频的评论部分,而在情绪评分为-4的评论中,血统测试视频只占67.9%(76/112)。相比之下,在情感评分为4分的评论中,只有1.6%(4/251)是对情感测试视频的回应。然而,对于情绪评分为-4分的评论,这一比例会上升到17%(19/112)。所示图6(左),带有血统测试目的的视频似乎能唤起更多积极的用户评论,而关系测试视频则相反。

针对媒体类型的评论情绪分析发现,用户制作的视频占据了最显著的正面评论数量,有91.6%(230/251),情绪得分为4。相反,在情绪得分为-4的情况下,用户制作的视频只占评论的60.7%(68/112)。因此,如图所示图6(右),用户生成的视频往往能唤起人们对其视频内容最积极的态度。这与广告、纪录片、采访等媒体类型形成了鲜明对比;所有这些都表明,评论数量在增加,而情感值在下降。例如,媒体类纪录片的评论数量从2%(5/251)(情绪评分为4)增加到15.2%(17/112)(情绪评分为-4)。因此,广告、纪录片和采访可能比用户生成的视频引起更多的负面反应。

图4。用最常见的词来表示消极和积极的情绪。
把这个图
图5。加拿大国家研究委员会(NRC)情绪最常出现的词汇为愤怒、期待、厌恶、恐惧、快乐、悲伤、惊讶和信任。
把这个图
图6。用于测试的传播(左)和按情绪划分的媒体类型(右)。
把这个图

主要研究结果

我们分析了用户对DTC基因检测相关YouTube视频的评论,得出了一些有价值的发现。视频中发现的测试目的与最常见的基因测试目的非常相似,大多数视频都是关于祖先或关系测试,很少涉及性状和健康测试。这一发现与之前在YouTube视频上关于DTC基因检测的研究一致[2831和社交媒体[20.2125].尽管如此,与我们的研究相反,Yin等[27]发现,在他们收集的Reddit数据集中,人际关系和健康测试比祖先测试更常被提及。尽管Mittos等人[18]并没有对他们的Reddit数据集报告相同的发现,这可能表明不同社交媒体平台的用户对DTC基因检测有其他的兴趣。另一种可能的解释是,平台建议算法不同,因此可能根据平台向用户推荐不同的内容。因此,在假设DTC基因检测相关结果在多个平台上都是正确的之前,应该对各自平台上的论述进行单独调查。

此外,使用bigram网络和结构化主题建模发现的大多数主题都可以归因于常见的DTC基因检测目的。这说明用户话语围绕视频内容和DTC基因检测展开。与之前的研究一致,我们还确定了与普通基因检测有关的主题,以及用户对DTC基因检测的兴趣和兴奋程度[1851].

此外,研究还显示,推特上存在种族主义的血统检测[18,这也是我们在视频评论中提到的一个话题。尽管不清楚这些评论是否与相关视频的内容直接相关,或是否存在于其他评论的回复中,但已确定的主题主要围绕着对非裔美国人和印第安人的种族主义和歧视。然而,我们的研究结果并没有显示出任何关于DTC基因检测教育内容的具体主题。考虑到美国消费者继续使用DTC血统检测来证明其"基因纯度",并歧视上述边缘化族裔群体,特别是在社交媒体上[1718],研究人员呼吁对DTC基因检测进行更多的教育内容和科学解释[20.21].尽管发现一些视频表达了对DTC基因检测的担忧(如纪录片),但大多数视频似乎没有强调DTC基因检测的优点以及缺点和风险。因此,评论部分的讨论可能也很大程度上忽略了这些方面。

情绪分析显示,在DTC基因检测中,用户对广告、新闻或纪录片视频内容的负面态度高于用户自制视频。虽然这一发现可以通过一些更发人深省的媒体类型来解释(例如,报道DTC基因检测的缺点和风险的纪录片或报道基因歧视故事的新闻),另一种解释可能是,用户生成的视频通常是由单个创作者制作的,他们通常试图与他们的YouTube社区进行更多的互动(例如,通过具体的内容或在评论区进行积极的讨论),而不是,例如,新闻广播或DTC基因检测服务提供商。因此,这可能会导致更积极的用户态度。我们对YouTube相关和YouTube视频反应主题的研究结果进一步支持了这一假设。一方面,这些发现再次表明用户对各自视频中讨论的内容进行了讨论和回应,另一方面,它们表明内容创造者和他们的社区之间存在更复杂的讨论(例如,通过表达对内容的喜爱或包含更多YouTube视频的链接)。需要注意的是,所披露的用户对DTC基因检测视频的态度并不一定反映用户对DTC基因检测的总体态度。然而,由于我们的主题建模结果表明,用户评论主要围绕着DTC基因检测,用户对DTC基因检测视频的态度很可能也在一定程度上反映了他们对DTC基因检测的态度。讨论DTC基因检测的缺点和风险的视频往往有更多消极的用户态度,这一发现进一步支持了这一观点。在Twitter和相关文本平台上也发现了用户对DTC基因检测态度的类似结果[182551,从而加强了这一假设。

类似于DTC基因检测相关的Reddit帖子[41],我们发现用户通过评论表达的对DTC基因检测视频的情绪主要是积极的。NRC的情绪和评论级别的情绪分析也表明了正向用户态度的明显倾向。这可能是因为大多数视频都是用户生成的,以及前面提到的内容创造者的更高社区参与度。此前关于用户对推特推文情绪的研究也显示出用户对DTC基因检测的积极情绪[51].然而,Mittos等人[18]发现大多数推文的情感得分只有0或1分。与先前的研究一致[2151],这些不太积极的情绪和态度可能表明,虽然用户普遍对DTC基因检测感兴趣,但他们对这项新技术仍有保留。这些保留反映在NRC情绪分析的结果中,强调恐惧是对DTC基因检测最显著的消极态度,而信任是最显著的积极态度。这些对DTC基因检测的保留意见在先前的研究中也得到了强调[7].

对研究和实践的启示

本研究为研究和实践提供了几点启示。在研究方面,我们通过调查关于DTC基因检测的话题和讨论意见,为用户对这些基因检测的态度的文献做出了贡献。我们检查了YouTube上观看次数最多的248个DTC基因检测视频的内容(即测试目的、媒体类型),并以评论的形式分析了用户的态度。此外,通过展示YouTube评论为社交媒体上的用户话语提供了有价值的见解,我们为关于社交媒体上健康信息的研究做出了贡献。这项研究表明,视频内容和用户评论是相互依赖的,因此应该一起调查。为此,我们通过展示评论中的讨论主要围绕视频内容展开,为YouTube上关于基因检测的讨论提供了新的见解。我们的研究表明,YouTube上的话语可能不同于其他社交媒体平台,因此,对不同平台进行详细和差异化的考虑可能是必要的。通过研究用户对YouTube上DTC基因检测视频的态度和情绪,我们进一步为了解用户在社交媒体上的行为做出了贡献。

在实践方面,我们的研究为DTC基因检测服务提供商、内容创造者和监管机构提供了用户态度方面的重要启示,这可能有助于调整或改进基因检测服务、多媒体内容或法规。类似于Lee等人的研究[21,我们确定的主题表明,YouTube视频中缺乏关于DTC基因检测的教育信息。此外,情绪分析显示,在DTC基因检测中,用户对广告、新闻或纪录片视频的态度更消极,更喜欢用户生成的内容。因此,当局可以考虑与内容创作者合作,促进DTC基因检测的用户教育。最后,我们的主题建模指出了种族主义的实例,特别是在祖先检测方面。服务提供者和当局应该意识到这一点,并确保基因检测不被用于歧视。因此,我们建议标记负面评论数量高的视频,包括种族主义或焦虑,并通过横幅或其他视觉线索提供关于DTC基因检测的进一步信息,类似于许多平台上用于与COVID-19相关内容的内容[52].

局限性和未来研究

本研究的局限性如下。首先,我们只考虑了有限数量的视频和评论。尽管我们试图通过使用观看量和评论数量等指标来饱和视频和评论,从而包含适当的样本,但检查所有最初确定的视频(n=1325)和评论可以提供进一步的见解,特别是关于主题建模和情绪分析。其次,我们将我们的YouTube API查询限制在美国,因为相关的DTC基因检测市场在那里是最发展的。然而,其他市场活跃的地区,如亚洲[30.],可以为用户话语提供进一步的见解,因此应该在未来的研究中进行研究。第三,因为没有办法确定主题的最佳数量[42],我们以5个为增量集中研究模型,选择50个主题的模型。尽管相邻的模型往往有许多相似的主题,但我们可能没有在不同的解决方案中确定一个重要的主题。未来的研究还可以尝试使用不同的主题建模方法和更大的样本量,以揭示所讨论主题的更细粒度视图。第四,尽管涵盖了一些情绪词汇,但它们可能仅限于与情绪相关的词汇(例如,必应情绪),研究应该进一步调查YouTube评论情绪,以获得对用户态度的更深入洞察。还应该指出的是,与情感价值和情绪的词汇的一般性关联可能会忽略或改变某些特定背景下的发现,如DTC基因检测。然而,我们试图通过使用不同的方法和特定于内容的修改来最小化这种影响,例如从NRC情绪分析中删除“白色”和“黑色”这两个词,因为它们的使用比例过高。最后,尽管这项研究调查了2015年至2020年的视频,但我们并没有特别关注用户的话语和态度是否或如何随着时间的推移发生了变化。因为我们只收集了最近的500条评论,其中大部分可以追溯到2021年。然而,DTC基因检测市场已经并将继续快速发展和变化[12714].因此,未来的研究应该考虑对DTC基因检测视频和评论进行时间分析,以调查市场变化是否也影响了用户的话语和态度。

结论

该研究检查了248个DTC基因检测视频和YouTube上的84,082条评论,以调查用户话语。为此,我们采用了主题建模,并确定了用户讨论的6个流行主题,这些主题主要围绕着视频中提到的测试目的,如祖先或关系测试。进一步,我们进行了情绪分析,显示用户有积极的情绪,如NRC情绪的预期,喜悦,惊讶和信任对DTC基因检测总体上持中立到积极的态度,通过爱、美丽、漂亮、酷等词汇表达,以及对YouTube上DTC基因检测相关视频总体上持积极态度。通过这项研究,我们展示了如何通过分析基于YouTube视频评论的主题和观点来确定用户对DTC基因检测的态度。我们的研究结果显示,用户对DTC基因检测和相关社交媒体内容非常感兴趣。尽管如此,随着这个新兴市场的不断发展,服务提供商、内容提供商或监管机构可能需要根据用户的兴趣和愿望调整他们的服务。

致谢

本论文由联合研究学院“HIDSS4Health -赫姆霍兹卫生信息和数据科学学院”下属的赫姆霍兹协会提供支持。我们感谢卡尔斯鲁厄理工学院kit出版基金的支持。

的利益冲突

没有宣布。

多媒体附录1

社交媒体上直接面向消费者的基因检测。

PDF档案(adobepdf档案),61kb

多媒体附录2

数据收集过程。

PDF档案(adobepdf档案),29kb

多媒体附录3

结构性主题建模。

PDF档案(adobepdf档案),316kb

多媒体附录4

词频分析结果。

PDF档案(adobepdf档案),122kb

  1. Allyse MA, Robinson DH, Ferber MJ, Sharp RR。直接面向消费者的检测2.0:直接面向消费者的基因检测的新兴模式。Mayo clinic Proc 2018 Jan;93(1):113-120。[CrossRef] [Medline
  2. 拉莫斯E,韦斯曼SM。消费者导向测试的黎明。中华医学杂志2018年3月178(1):89-97。[CrossRef] [Medline
  3. Ugalmugle S, Swain R.直接面向消费者(DTC)基因检测市场规模预测2022 - 2028年。全球市场洞察,2022年4月https://www.gminsights.com/industry-analysis/direct-to-consumer-dtc-genetic-testing-market[2022-09-02]访问
  4. Haga SB, Willard HF。把基因组从瓶子里放出来。中华医学杂志2008年5月;358(20):2184。[CrossRef] [Medline
  5. Hudson K, Javitt G, Burke W, Byers P,美国人类遗传学学会社会问题委员会。ASHG关于美国直接面向消费者的基因检测的声明*。中华妇产科杂志2007年12月110(6):1392-1395。[CrossRef] [Medline
  6. Hunter DJ, Khoury MJ, Drazen JM。把基因组从瓶子里放出来——我们的愿望会实现吗?中华医学杂志2008年1月;358(2):105-107。[CrossRef] [Medline
  7. thibes S, Toussaint PA, Ju J, Ahn J, Lyytinen K, Sunyaev A.有价值的基因组:直接面向消费者的基因检测的分类和商业模式原型。J Med Internet Res 2020年1月;22(1):e14890 [免费的全文] [CrossRef] [Medline
  8. Saey TH。在尝试了5次DNA祖先测试后,我对我的家庭真正了解了什么。大学城。2018年6月URL:https://www.sciencenews.org/article/family-dna-ancestry-tests-review-comparison[2022-09-02]访问
  9. Briscoe F, Ajunwa I, Gaddis A, McCormick J.公众对个人DNA价值的看法和对基因组数据库治理的期望:来自全国调查的结果。PLoS One 2020年3月15日(3):e0229044 [免费的全文] [CrossRef] [Medline
  10. 马琼德·马,库克-迪根·R,麦圭尔·艾尔。公众对全球基因组数据共享的抵制。PLoS生物学2016年11月14日(11):e2000206 [免费的全文] [CrossRef] [Medline
  11. Majumder MA, Guerrini CJ, McGuire AL.直接面向消费者的基因检测:价值和风险。Annu Rev Med 2021年1月;72:151-166。[CrossRef] [Medline
  12. Raz AE, Niemiec E, Howard HC, Sterckx S, Cockbain J, Prainsack B.在线基因检测公司使用客户数据的透明度、同意和信任:对23andMe用户的探索性调查New Genet Soc 2020 5月;39(4):459-482。[CrossRef
  13. thibes S, Lyytinen K, Sunyaev A.分享就是关心?分享个人基因组数据的激励和阻碍因素。ICIS 2017论文集。2017发表于:第三十八届信息系统国际会议;2017年12月10号至13号,;韩国首尔网址:https://aisel.aisnet.org/icis2017/IT-and-Healthcare/Presentations/15/
  14. Beyene M, Toussaint PA, Thiebes S, Schlesner M, Brors B, Sunyaev A.基因组学分布式账本技术的范围综述:主题分析和未来研究方向。J Am Med Inform Assoc 2022 7月29(8):1433-1444。[CrossRef] [Medline
  15. Toussaint PA, Thiebes S, Schmidt-Kraepelin M, Sunyaev A.直接面向消费者的基因检测商业模式的感知公平性。电子标志2022 7月:1-18 [免费的全文] [CrossRef] [Medline
  16. 王晓燕,王晓燕。基因数据的共享意图、个人和相互依赖的隐私考虑:一个小图研究。IEEE/ACM Trans Comput Biol Bioinform 2019 july;16(4):1349-1361。[CrossRef] [Medline
  17. 白人民族主义者蜂拥去做基因祖先测试——结果令人惊讶。《科学美国人》2017年8月https://www.scientificamerican.com/article/white-nationalists-are-flocking-to-genetic-ancestry-tests-with吃惊的结果/[2022-09-02]访问
  18. Mittos A, Zannettou S, Blackburn J, Cristofaro ED.通过Twitter、Reddit和4chan的镜头分析网络上的基因检测论述。ACM Trans Web 2020 9月14日(4):1-38。[CrossRef
  19. 赵颖,张娟。社交媒体消费者健康信息获取:文献综述。卫生信息杂志2017年12月34(4):268-283。[CrossRef] [Medline
  20. Basch CH, Fera J, Quinones N. TikTok上直接面向消费者的DNA检测内容分析。J Community Genet 2021年7月;12(3):489-492 [免费的全文] [CrossRef] [Medline
  21. Lee NM, Abitbol A, VanDyke MS.科学传播与消费者关系:23andMe对Twitter使用的分析。科学通报2020年4月42(2):244-264。[CrossRef
  22. McLachlan S. 23个YouTube数据对2022年的营销人员很重要。Hootsuite, 2022年2月https://blog.hootsuite.com/youtube-stats-marketers/[2022-09-02]访问
  23. 郑超,薛静,孙颖,朱涛。公众对加拿大总理每日新冠肺炎简报的意见和担忧:使用机器学习技术对YouTube评论的纵向研究。J Med Internet Res 2021年2月;23(2):e23957 [免费的全文] [CrossRef] [Medline
  24. Eke R, Li T, Bond K, Ho A, Graves L. YouTube上助眠音乐的观看趋势和用户感知:量化和主题内容分析。J Med Internet Res 2020 Aug;22(8):e15697 [免费的全文] [CrossRef] [Medline
  25. 米托斯A,布莱克本J,克里斯托法罗ED。“23andMe证实:我是超级白人”——分析Twitter上关于基因检测的话语。出来了。预印本于2018年1月30日在线发布[免费的全文] [CrossRef
  26. Roberts MC, Allen CG, Andersen BL. FDA授权对三种致病变异进行直接面向消费者的基因检测:公众反应的Twitter分析。2019年12月2日(4):411-415 [免费的全文] [CrossRef] [Medline
  27. 殷Z,宋l,克莱顿EW,马林BA。健康和亲属关系:通过在线讨论了解直接面向消费者的基因检测用户体验。PLoS One 2020年9月15日(9):e0238644 [免费的全文] [CrossRef] [Medline
  28. Basch CH, Hillyer GC, Wahrman MZ, Garcia P, Basch CE。YouTube上的DNA检测信息:不充分的建议会误导和伤害公众。J Genet Couns 2021 6月;30(3):785-792。[CrossRef] [Medline
  29. Harris A, Kelly SE, Wyatt S. YouTube上的自传:直接面向消费者的基因检测的叙述。New Genet Soc 2014年3月33日(1):60-78 [免费的全文] [CrossRef] [Medline
  30. 吐痰图像:将唾液重塑为一种承诺物质。New Genet Soc 2017 5月;36(2):159-185。[CrossRef
  31. Marcon AR, Rachul C, Caulfield T. YouTube上DNA祖先检测的消费者代表。新遗传学与社会2020 Aug;40(2):133-154。[CrossRef
  32. Al-Dmour H, Masa'deh R, Salman A, Abuhashesh M, Al-Dmour R.社交媒体平台通过公共卫生意识和行为变化的中介效应对新冠肺炎大流行公共卫生防护的影响:综合模型。J Med Internet Res 2020 Aug;22(8):e19996 [免费的全文] [CrossRef] [Medline
  33. Bennett GG,格拉斯哥大学:通过互联网提供公共卫生干预措施:实现其潜力。2009年4月30日:273-292。[CrossRef] [Medline
  34. Rezaallah B, Lewis DJ, Pierce C, Zeilhofer H, Berg B.妊娠和哺乳期间多发性硬化症药物使用的社交媒体监测:内容分析。J Med Internet Res 2019 Aug;21(8):e13003 [免费的全文] [CrossRef] [Medline
  35. Robinson P, Turk D, Jilka S, Cella M.使用社交媒体测量对心理健康的态度:调查污名化和轻视。社会精神病学精神病学流行病学2019 Jan;54(1):51-58 [免费的全文] [CrossRef] [Medline
  36. Vraga EK, Stefanidis A, Lamprianidis G, Croitoru A, Crooks AT, Delamater PL,等。癌症和社交媒体:Twitter和Instagram上关于乳腺癌、前列腺癌和其他生殖器官癌症的流量比较。卫生公报2018年1月23(2):181-189。[CrossRef] [Medline
  37. 任峰,康鑫,全c。用情绪话题模型研究自杀博客的情绪累积特征。IEEE生物医学学报2016年9月20日(5):1384-1396。[CrossRef] [Medline
  38. Jelodar H,王莹,Orji R,黄松。新型冠状病毒或COVID-19在线讨论的深度情感分类和话题发现:基于LSTM循环神经网络的NLP方法。IEEE生物医学健康信息2020年10月24(10):2733-2742。[CrossRef] [Medline
  39. 张静,郑铮,王莹,朱莹。YouTube上糖尿病相关视频的用户偏好研究。BMC Med Inform Decis Mak 2020 Feb;20(1):43 [免费的全文] [CrossRef] [Medline
  40. Venkatesaramani R, Downey D, Malin B, Vorobeychik Y.一种基于语义覆盖的主题建模方法。见:第八届词汇和计算语义学联合会议论文集(*SEM 2019))。2019年发表于:第八届词汇与计算语义学联合会议;6月6日至7日,2019;明尼阿波利斯,明尼苏达州,92-102页。[CrossRef
  41. 蒋军,张晓燕,张晓燕。ECIS 2021研究报告。中国信息科学(英文版);6月14 - 16,2021;摩洛哥马拉喀什。
  42. 用R挖掘文本:一种整洁的方法。塞瓦斯托波尔,加州:O'Reilly Media;2017.
  43. Roberts ME, Stewart BM, Tingley D. stm:结构主题模型的R包。J Stat Soft 2019 10月;91(2):1-40。[CrossRef
  44. 论主题模型的估计与选择。第15届国际人工智能与统计会议论文集,PMLR 22。2012年参加:第十五届人工智能与统计国际会议;2012年4月研讨会,;拉帕尔马,加那利群岛1184-1193页。[CrossRef
  45. 王晓燕,王晓燕,王晓燕。基于语义一致性的主题模型优化。2011年发表于:自然语言处理的经验方法会议论文集;第27 - 31 7月,2011;苏格兰爱丁堡262-272页。
  46. 情绪分析与意见挖掘。Synth lecect Hum Lang technology 2012 5月;5(1):1-167。[CrossRef
  47. 卡特尔RB。情绪或态度?人格研究中的一个术语问题的核心。J Pers 1940 9月9日(1):6-17。[CrossRef
  48. 胡敏,刘斌。客户评价的挖掘与总结。在:第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集。2004年发表于:KDD04: ACM SIGKDD知识发现和数据挖掘国际会议;2004年8月22日至25日,;华盛顿州西雅图,第168-177页。[CrossRef
  49. 穆罕默德·SM,特尼警局。众包一个词-情感关联词典。Comput Intell 2013 Aug;29(3):436-465。[CrossRef
  50. 王晓燕,王晓燕,王晓燕。非正式短文本情感强度检测方法研究。科学通报2010 12;61(12):2544-2558。[CrossRef
  51. Chow-White P, Struve S, Lusoli A, Lesage F, Saraf N, Oldring A.“沃伦·巴菲特是我的堂兄”:塑造公众对大数据生物技术、直接面向消费者的基因组学和推特上的23andMe的理解。Inf communication Soc 2017 Feb;21(3):448-464。[CrossRef
  52. Nunziato直流。虚假信息混乱:社交媒体平台打击医疗和政治虚假信息的努力。GW法学院出版物和其他作品2020年8月1-68日[免费的全文


API:应用程序编程接口
直接转矩:直接面向消费者
美国核管理委员会:加拿大国家研究委员会
中移动:研究问题


A Mavragani编辑;提交14.04.22;同行评议的有A Pal, B Zimmermann, S Persky;评论作者09.05.22;修订版收到15.07.22;接受18.08.22;发表15.09.22

版权

©Philipp A Toussaint, Maximilian Renner, Sebastian Lins, Scott Thiebes, Ali Sunyaev。最初发表于JMIR信息流行病学(https://infodemiology.www.mybigtv.com), 15.09.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布,该协议允许在任何媒体上不受限制地使用、分发和复制,前提是必须正确引用在JMIR信息流行病学上首次发表的原始作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物链接,以及版权和许可信息。


Baidu
map