发表在24卷第11名(2022): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/33166,首次出版
心理科学中潜在狄利克雷分配的分析实践考察:范围回顾

心理科学中潜在狄利克雷分配的分析实践考察:范围回顾

心理科学中潜在狄利克雷分配的分析实践考察:范围回顾

审查

1澳大利亚迪肯大学心理学院社会和早期情感发展中心

2澳大利亚墨尔本默多克儿童研究所青少年健康中心

3.墨尔本大学儿科系,墨尔本,澳大利亚

4澳大利亚墨尔本拉筹伯大学朱迪斯·伦利中心

通讯作者:

Lauryn J Hagg, BAppSc, GDipPsych

社会和早期情感发展中心

心理学院

迪肯大学

Gheringhap街1号

吉朗,3220

澳大利亚

电话:61 9251 7344

电子邮件:lauryn.hagg@research.deakin.edu.au


背景:主题建模方法允许研究人员分析和表示书面文本。心理学中常用的方法之一是潜在狄利克雷分配(LDA),它用于快速合成“大数据”中的文本模式,但输出可能对分析管道期间所做的决策很敏感,可能不适合某些场景,如短文本,我们突出了替代方法的资源。这篇综述的重点是针对LDA的复杂分析实践,这是现有的训练LDA模型的实用指南没有解决的问题。

摘要目的:本文以关键的分析步骤(数据选择、数据预处理和数据分析)为框架,来理解LDA心理学研究中使用的方法学方法。

方法:共检索了4个心理学和健康数据库。如果他们使用LDA分析书面文字,并专注于一个心理结构或问题,那么研究就会被包括在内。数据图表流程是基于常见的数据选择、预处理和数据分析步骤构建和使用的。

结果:共纳入68项研究。这些研究探索了一系列研究领域,大部分数据来自社交媒体平台。虽然一些研究报告了所采取的预处理和数据分析步骤,但大多数研究没有提供足够的细节以保证可重复性。此外,围绕某些预处理和数据分析步骤的必要性的争论也被揭示出来。

结论:我们的发现强调了LDA在心理科学中的应用越来越多。但是,有必要改进分析性报告标准,并确定全面和以证据为基础的最佳做法建议。为了实现这一点,我们开发了LDA首选报告清单,它将允许LDA分析决策和可重复的研究结果的一致记录。

中国医学杂志,2018;24(11):e33166

doi: 10.2196/33166

关键字



背景

在过去的25年里,所谓的“大数据”的可用性有了巨大的增长,这是一个广义的术语,描述了非常大的,但通常是非结构化的数据集[1].大数据的一个例子是文本数据,它描述了任何包含书面单词或从语音转录而来的单词的数据源。大数据时代1]已经看到了越来越多的大型文本数据集的可用性,这些数据集来自各种来源,包括基于网络的论坛(如Reddit)、社交微博平台(如Twitter、Facebook和Instagram)、正式文档(如出院摘要和临床记录)、定性数据集、谷歌书籍和科学文献。大数据集已被应用于许多研究领域,如旅游[2]、数码人文[3.],以及市场推广[4].鉴于文本数据集可以提供与人类行为和态度相关的趋势和关联的重要见解,心理科学中对这些数据集的使用越来越多也就不足为奇了。

考虑到大型文本数据集的潜在规模和复杂性,心理学研究人员已经开始依赖自然语言处理(NLP)技术。这些计算方法用于分析和表示书面文本[5,6].主题建模方法在很大程度上是自动化的,并允许研究人员有效地和高效地处理大型文本数据集,而这些方法是无法用非自动化的技术来综合(即文献综述)和分析(即定性方法)文本数据的。

有一系列可用的主题建模方法[7];例如,潜在语义分析是一种非概率的方法,可用于从文本数据中提取意义[8],而基于Dirichlet多项混合的方法对于较小的文本可能表现更好[9].然而,在健康研究中常用的一种NLP技术是潜在的狄利克莱分配(LDA),这是一种机器学习方法,使用基于贝叶斯概率的算法,根据文本体(即语料库)中单词的共现发现潜在的(未观察到的)“主题”。尽管在Blei等人的研究中可以找到这些算法的详细解释[10]以及格里菲思和史提弗斯[11],简单地说,LDA通过估计两者来识别语料库中的潜在主题document-topic概率(即,每个文档由任何特定主题生成的概率)和word-topic概率(即,任何单词由特定主题生成的概率;[12,13])。LDA假设文档包含许多潜在主题,而潜在主题包含许多单词[12].简单地说,LDA算法首先要求用户指定潜在主题的数量(k)在语料库中。最初,算法遍历每个文档(即文本单元)和文档中的单词,并随机将单词分配给一个潜在主题。这导致了文档主题概率的分布(即,任何文档中的单词分配给每个主题的概率k主题)和单词-主题概率(即,一个单词被分配到每个主题的时间的比例k主题)基于随机分配。然后,通过遍历文档中的每个文档和单词来优化这种随机分配,重新计算给定特定文档中某个单词属于某个主题的概率,然后更新所有文档中的单词-主题概率。除专题数目外(k), LDA算法受其他2个参数(也称为超参数)的影响,这些参数可以由研究人员指定,并影响主题如何在文档和单词中表示。Alpha影响文档对主题的贡献,较大的Alpha值导致文档包含许多主题(即,较小的Alpha值表明文档包含少量主题;[14])。Beta(也称为delta)影响单词创建主题的方式,较大的值导致主题由更多的单词表示(即,较小的Beta值表明主题将由更少的单词表示;[14])。优化LDA模型后,分析人员可以检查与每个主题最有可能相关的单词和文档,从而得出主题含义和对更大文本数据集的理解。

正如上面的简要解释所暗示的那样,训练LDA模型是一项复杂的任务,涉及决策和考虑有可能影响分析结果的多个因素。已出版若干实用指南[14-17],其中大致概述了几种不同的方法来接近LDA,使用各种包。一般来说,训练LDA模型包括3个主要步骤:数据选择,数据预处理,数据分析图1).然而,这些不是规定性的,LDA的个别应用程序可能涉及这些步骤的迭代。

图1。潜狄利克雷分布(LDA)数据选择、预处理和分析步骤的总结。注意:标记化是一个必要的预处理步骤,用于确保数据的结构适合分析。所有其他预处理步骤都是可选的。
查看此图

数据选择

分析人员必须首先对要分析的文本数据做出决定。这一步骤中的4个主要决策包括确定(1)研究领域和正在进行的研究的目的,(2)文本数据的来源,(3)这些来源中用于分析的数据类型,以及(4)如何构建数据以进行分析。具体而言,研究的研究领域和目的会影响有关文本数据来源(例如,社交媒体、正式文档和科学文献)的决策,该来源中用于分析的数据类型(例如,原始帖子、评论、段落、句子、单词和其他特定文本部分),以及如何将这些数据结构化(例如,按帖子、按用户、按引用和按段落)为文档(即,文本单位)进行分析。

数据预处理

一旦确定了数据集,第二个主要步骤涉及对文本进行预处理以进行分析。预处理是准备数据的过程,目的是提高保真度,使结果有意义地代表数据[15,18]并且与研究问题相关。文本数据集可能包含大量噪音和不相关的文本信息[18].如众多资料所述[15-17],根据研究问题,文本数据可能需要一系列一般预处理步骤。例如,这些可能包括转换为小写,使用命名实体识别将实体(如人、地点和数字)替换为占位符,删除标点符号、符号、数字、对研究问题贡献最小且在不同研究中有所不同的选择性文本,以及被认为对数据没有任何意义的停止词(如“and”、“it”和“to”);[19]),并可使用各种停止词列表来实现[20.,21].此外,转换单词的两个过程包括词干(即,将单词缩短为类似的词根形式,而不需要有意义;例如,“探索”,“探索”,“探索”变成“探索”)和引理化(即,将单词转化为规范的[引理]形式;例如,“explore”、“exploratory”、“exploration”变成“explore”。16])。值得注意的是,尽管一些研究建议谨慎使用词干或词根化,因为这可能会对结果产生影响[16],使用此预处理步骤的必要性也受到质疑[22].最后,采用其他预处理步骤来描述在分析中使用数据的方式。具体来说,标记化是指将单词分解为表示单个单词(字母组合)或以相同顺序呈现的一系列单词(2个单词=bigram;单词=trigram[三字母组合]16])。标记化和n-grams有利于消除周围词语上下文中的歧义。例如,将“认知”、“行为”、“治疗”分组为一个三元组,可以让研究人员观察这个结构对一个主题的贡献,而不是单个单词的作用。

数据分析

预处理之后,LDA分析通常作为第三步进行。在这一步中有4个决策点,包括(1)LDA估计算法(如基于马尔科夫链蒙特卡罗的抽样方法[23,24],如吉布斯抽样[11],以及基于变分贝叶斯(VB)近似的优化方法[23,24],如变分EM算法[10]);(2)调优参数如alpha参数[25],这会影响文档对主题的贡献[14],以及beta参数[25],这影响了词语创造话题的方式[14];(3)调优k参数,即选择代表数据集的潜在主题数量的过程,这可以使用定量(例如,perplexity [10], log-likelihood [14],主题连贯[26],相关性分数[27],以及在绘制定量指标结果时用于直观识别最佳主题数量的弯头法[28])或定性方法(例如,主题评分[29],词入侵[30.],以及话题侵入[30.]);(4)评价主题之间关系的过程。

LDA是一种新兴的方法,越来越多的研究发表在心理科学上。一些关于LDA的实用指南提供了高水平的建议,但它们不一致且不全面。因此,本研究的下一步是评估心理学研究人员如何进行LDA,以及如何将其与现有指南中的综合建议进行比较,从而为最佳实践指南的制定提供信息。我们的目的是对整个心理学文献中使用LDA进行研究的方法实践进行范围综述。范围审查侧重于检查研究活动的性质,并可专门用于调查研究领域如何实施方法学方法[31-33].因此,范围综述特别适合于检查心理学中使用LDA的研究方法实践。卡尔沃等[34]和Shatte et al [35之前对更广泛的机器学习技术进行了范围审查。尽管这些综述审查了精神健康文献,并描述了不同的文本数据来源,但它们并没有集中在特定于LDA的分析决策上。的关键步骤数据选择,数据预处理,数据分析作为一个框架来理解心理学研究中使用LDA的方法方法。


透明和公开

这次范围审查遵循了PRISMA-ScR(范围审查的系统评价和元分析扩展的首选报告项目;[36]),以及有关查册策略、资格准则和数据图表制作过程的报告,详情见下文。本研究未进行预注册。

搜索策略

使用以下搜索策略搜索四个电子数据库:“潜在狄利克雷”或“主题*模型*”或“潜在主题*”。截至2020年4月15日,对MEDLINE Complete、CINAHL Complete和EMBASE进行了搜索,搜索仅限于英语和基于人类的研究,CINAHL Complete也适用同行评审限制。PsycINFO搜索至2020年4月30日,应用了英语语言和同行评审限制。

资格标准和证据来源的选择

按照进行范围检讨的建议做法[32],我们使用迭代的,基于团队的方法来确定纳入和排除标准。如果研究(1)以英文发表,(2)发表在同行评议期刊上,(3)使用LDA分析文本数据,以及(4)关注心理结构或问题(如心理健康问题、药物使用、性别差异以及同性婚姻和环境问题等社会问题),则纳入研究。如果研究是(1)评论、信函、论文、会议摘要或幻灯片,或方法论文,将被排除;(2)使用的数据不是书面文字或从语音转录而来的文字(例如,遗传密码、心理健康密码和来自图像的信息);(3)侧重于非心理性质的构念或问题(例如,医学[37-40]、市场营销[4],以及人文[3.])。

所有记录的标题和摘要由3名调查员(LJH、LMF和GAO)独立审查。所有全文记录均由单一研究者(LJH)评估。此外,10%(71/712)的文章由另一位审稿人(LF或GAO)在全文层面独立筛选,作为迭代过程的一部分,以根据进行范围审查的推荐做法来细化纳入标准[32].在标题、摘要筛选和全文评估过程中出现的分歧,通过研究团队的讨论和共识解决。

数据图表制作过程、数据项和结果综合

基于常见的数据选择、预处理和数据分析步骤构建数据图表(提取)模板,并用于整理纳入文章的所有相关信息。这个数据图表模板的开发是一个迭代的过程,在数据图表制作过程中不断更新和完善。

除了研究特征(如作者、年份和出版期刊),数据图表制作过程还包括提取(1)主题领域(如心理健康、抑郁症、自闭症、自残、治疗、歧视和全球气候)和研究目的(即研究的大致目标是什么),(2)数据源(如社交媒体、科学文献和正式文档)和数据类型(如帖子或评论、摘要或标题和选择性词语),(3)所分析文献的结构(如按用户、文章、患者和引文),(4)进行的数据预处理步骤(如停止词、词干和下装),(5)使用的LDA估计算法,(6)使用的估计参数,(7)主题之间的关系,以及(8)使用的程序和包。

所有与研究特征、课题领域、研究目的、数据来源、数据类型相关的图表数据均根据本研究进行制表,所有与预处理和数据分析相关的图表数据均根据预处理步骤类型和方法方法进行制表。


证据来源的选择

系统检索结果的PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses)流程图如图所示图241].在剔除重复文章(n=279)后,该搜索确定了831篇文章用于标题和摘要筛选。其中,85.7%(712/831)篇潜在合格文章的全文被评估,其中9.6%(68/712)篇被纳入本范围评审。

图2。详述研究纳入和排除过程的PRISMA(系统评价和元分析首选报告项目)流程图[41].LDA:潜狄利克雷分配。
查看此图

证据来源的特点

表1介绍所纳入研究的特点。符合纳入标准的68篇研究在2014年至2020年期间发表,LDA在心理构念中的应用从2014年的1篇增加到2018年的11篇和2019年的23篇。在检索时,2020年共发表了13篇文章。在发表这些文章的55种不同期刊中,最常见的出版来源是《医疗互联网研究杂志》(7/ 68,10%)、《公共科学图书馆·综合》(3/ 68,4%)和国际环境研究与公共卫生杂志(3/ 68,4%)。

表1。研究特点总结和数据选择。
作者 杂志 主题区域 研究目的 数据来源 文档级别内嵌套的数据类型 文档、n 每个文档的字数(预处理前或预处理后)
阿布德拉维等人[42 医学互联网研究杂志 物质使用 在患者论坛帖子中发现不遵守药物治疗的案例 社交媒体;论坛 帖子(酞);post post(阿立哌唑);帖子 酞= 3649;阿立哌唑= 2164 NR一个
阿夫沙等[43 《公共科学图书馆•综合》 物质使用 确定阿片类药物滥用患者的亚型 正式文档;临床的笔记 选择性的话;NR NR NR
阿拉姆等[44 行为与信息技术 社会问题 提高人道主义组织对灾难事件的态势感知能力 社交媒体;推特 帖子;NR NR NR
巴里等人[45 美国健康教育杂志 物质使用 检查酒类品牌的广告做法 社交媒体;推特 帖子;NR NR NR
比特曼和费希尔[46 时代与心理学 科学主题 确定心理学的热门话题 科学文献 受控关键字术语;引用 314573年 NR
木匠等[47 医学互联网研究杂志 心理健康 评估网络健康干预的效果 社交媒体;other-Happify 自由文本回复;任务 NR 平均51.23(前)
Carron-Arthur等[48 BMC精神病学 心理健康 心理健康支持小组的讨论主题 社交媒体;论坛 帖子;帖子 131004年 Range 70-110(后)
陈等[49 医学互联网研究杂志 物质使用 了解电子烟和水烟的使用 社交媒体;论坛 帖子;NR NR NR
蔡及徐[50 心理健康护理中的问题 心理健康 提供护理人员抑郁症的概述 科学文献 摘要;引用 426 NR
乔杜里等人[51 战略管理杂志 社会问题 调查管理认知能力和CEOb沟通 其他:访谈笔录 采访记录;面试问题回答 69 平均值8234(前;SD 3458)
科汉等[52 信息科学与技术协会杂志 心理健康 根据自残意念的指征来判断心理健康状况 社交媒体;论坛 帖子;NR NR NR
长石等[53 情感障碍杂志 心理健康 在网络抑郁症社区调查主题 社交媒体;论坛 帖子和评论;用户 20037年 NR
弗朗茨等人[54 自杀和危及生命的行为 心理健康 在网上找出自残的想法和行为以及相关主题 社交媒体;论坛 帖子;帖子 2355 平均43.21(前;SD 42.99)
嘉宝(55 决策支持系统 法医 预测犯罪 社交媒体;推特 选择微博;社区 NR NR
乔吉等人[56 组织科学 社会问题 从文化偶然性的角度来审视电影与法律环境之间的关系 正式文档;国会听证会和年度报告;其他;报纸上的文章 年度报告、国会听证会和报纸文章;年度报告,国会听证会,报纸文章 年度报告= 84;国会听证会上= 25;报纸文章= 950 NR
郭等[57 《公共科学图书馆•综合》 社会问题 绘制社会阶层不平等的主题图景 科学文献 标题、关键词和摘要中的选择性词语;NR NR NR
Hemmatian等[58 行为研究方法 社会问题 展示公共话语中同性婚姻框架的变化与公众舆论的变化之间的关系 社交媒体;论坛 选择性的评论;NR NR NR
黄等[59 医学互联网研究杂志 心理健康 分析情绪化进食者的行为模式 社交媒体;论坛 帖子和评论;NR NR NR
贾沃斯卡和南达[60 应用语言学 社会问题 研究石油部门企业社会责任报告的主题模式及其随时间的变化 正式文档;社会责任报告 报告;NR NR NR
郑和徐[61 决策支持系统 心理健康 确定工作满意度 其他;公司点评网站 评论;NR NR NR
卡加什等[62 医学互联网研究杂志 物质使用 了解季节性流感期间药物的使用 社交媒体;推特 帖子;帖子 459043年 NR
卡拉米等[63 暴力心理学 社会问题 了解职场中性别歧视和性骚扰的经历 社交媒体;论坛 帖子;帖子 2362 NR
记等[64 正念 心理健康 确定与正念研究相关的主题 科学文献 标题和摘要;NR NR NR
Kigerl [65 社会科学计算机评论 社会问题 进一步了解网络犯罪梳理论坛 社交媒体:论坛 帖子;用户 30469年 NR
Kreitzberg等人[66 成瘾行为 物质使用 调查烟草促销活动 社交媒体;Instagram 帖子;帖子 4629 NR
Landstrøm等[67 性取向 社会问题 探索父母和孩子之间的适当行为规范是如何构建的 其他;各种各样的网页 帖子;NR NR NR
李等[68 进化与人类行为 进化 调查与交配相关的自我概念和配偶偏好 社交媒体;其他基于网络的约会资料 书面描述;配置文件 7973 平均69.65(前;SD 106.83)
李等[69 《欧洲儿童与青少年精神病学 心理健康 确定韩国学生自杀的特征 正式文档;老师报告 选择性的话;NR NR NR
梁等[70 健康传播杂志 身体健康 确定区域性肥胖和超重流行率与区域性信息和社会环境之间的关系 社交媒体;推特 微博;NR NR NR
刘等[71 国际医学信息学杂志 社会问题 调查网络健康社区的性别差异 社交媒体;论坛 文章;NR NR NR
刘等[72 生物医学信息学杂志 心理健康 确定精神疾病中基于症状的患者亚组 正式文档;临床的笔记 选择性的话;病人 1746 NR
刘等[73 心理学、健康与医学 科学主题 在临床心理学发表的评论文章中识别热点话题 科学文献 标题和摘要;NR NR NR
刘等[74 国际环境研究和公共卫生杂志 情绪;心理健康;身体健康 研究生理和心理疾病患者情绪的差异 社交媒体;论坛 帖子;帖子 17891年 NR
卢等人[75 互动广告杂志 社会问题 调查影响者与品牌推广广告如何影响消费者参与、情绪和评论话题 社交媒体;Instagram 广告;NR NR NR
Louvigné和鲁本斯[76 Behaviormetrika 教育 基于目标的消息分类 社交媒体;推特 微博;学习目标 NR NR
马瓜等[77 妇女健康杂志 社会问题 调查女性在续期补助金方面的劣势 正式文档;总结报表 汇总报表;NR NR NR
麦科伊(78 心身学:咨询与联络精神病学杂志 心理健康 地图谵妄文献 科学文献 标题和摘要;引用 3231 NR
Merrill及Åkerlund [79 计算机媒介通信杂志 社会问题 调查种族主义是如何影响移民群体讨论的,以及Facebook是如何允许这种情况发生的 社交媒体;脸谱网 帖子和评论;相同的职位 23939年 NR
默多克等[80 认知 发展 研究勘探与开发的权衡 其他;非小说类书籍 书;NR NR NR
哦等[81 咨询心理学杂志 科学主题 确定主题咨询心理学杂志 科学文献 摘要;NR NR NR
Pandrekar等[82 美国医学信息协会年度研讨会论文集;美国医学信息协会研讨会 物质使用 调查与阿片类药物相关的讨论 社交媒体;论坛 帖子;NR NR NR
潘蒂等[83 欧洲传播杂志 社会问题 调查种族主义是如何在芬兰的公共辩论中使用的 社交媒体:论坛;其他:新闻媒体内容 论坛内容、新闻内容;NR NR NR
爸爸等[84 医学互联网研究杂志 身体健康 确定与体重变化相关的因素 社交媒体;论坛 帖子和评论;NR NR NR
朴及康威[85 美国医学信息协会年度研讨会论文集;美国医学信息协会研讨会 物质使用;身体健康 追踪与健康相关的讨论(如埃博拉、电子烟、流感和大麻) 社交媒体;论坛 从帖子和评论中选择词汇;帖子 114320798年 NR
雷等[86 战略营销杂志 教育 探讨在电子学习中影响行为意图的价值观 社交媒体:Twitter;其他:评论 评论和推文;审查 评论= 139581;微博= 1442 NR
鲁伊兹等人[87 依恋与人的发展 发展 研究早产儿和足月出生的孩子的父亲的反思功能 其他:调查数据 对8个调查项目的文字回复;NR NR NR
拉姆斯基等[88 转化精神病学 心理健康 预测精神疾病再入院 正式文档;健康记录 选择性的话;NR NR NR
桑托斯等[89 系统研究与行为科学“, 社会问题 调查社交媒体和传统媒体对民主制度的影响 社交媒体:Twitter;其他:各种网页 推特和网页;NR NR NR
沙欣和戴[90 美国行为科学家 社会问题 了解公众与全球援助机构的关系 社交媒体;推特 选择微博;入站数据集 NR NR
Shin等[91 心理学前沿 教育 创建干扰项 其他;开源数据集 学生的反应;NR NR NR
siweke和Santoni [92 领导力季刊 社会问题 回顾使用自然实验设计来推断领导力因果关系的研究 科学文献 摘要;引用 1156 NR
儿子等[93 国际信息管理杂志 社会问题 研究Twitter的代表性特征如何影响平均转发时间,以及灾难传播类型的影响如何不同 社交媒体;推特 微博;NR NR NR
Sorour等[94 教育技术与社会杂志 教育 预测学生表现 其他;学生的反馈 评论选词;NR NR NR
Sperandeo等[95 精神病学前沿 心理健康;个性 调查人格和心理健康研究的性质 科学文献 摘要;NR NR NR
Szekely和Vom broke [96 《公共科学图书馆•综合》 社会问题 从企业可持续发展报告中得出研究和实践的主张 正式文档;可持续发展报告 报告;NR NR NR
Törnberg及Törnberg [97 话语与社会 社会问题 分析伊斯兰恐惧症和反女权主义之间的话语联系 社交媒体;论坛 帖子;用户 576801年 1000(前)
Tran等[98 国际环境研究和公共卫生杂志 心理健康 了解人工智能在抑郁症管理中的应用 科学文献 摘要;引用 NR NR
Tran等[99 医学上的补充疗法 心理健康 绘制身心干预以提高生活质量 科学文献 摘要;NR NR NR
杜伦廷等[One hundred. 美国外科医生学会杂志 社会问题 检查外科住院医师申请人的性别差异;推荐信 正式文档;推荐信 推荐信;信 332 平均404(后)
王等[101 BMC公共卫生 物质使用;心理健康 确定青少年药物使用和抑郁的主题 科学文献 摘要;NR NR NR
魏杰等[102 国际消费者研究杂志 社会问题 讨论西方观众对当代抗议艺术家的关注 社交媒体;推特 微博;NR NR NR
韦斯特马斯等人[103 尼古丁与烟草研究 物质使用 确定围绕癌症幸存者戒烟治疗的讨论背景 社交媒体;论坛 帖子;帖子 3998 NR
吴等[104 教育技术与社会杂志 教育 调查学习者在开放学习环境中的兴趣 社交媒体;其他学习细胞知识社区 学习细胞;学习者 3538 NR
Yoon [105 美国精神科护士协会杂志 心理健康 确定痴呆症患者的心理健康需求 社交媒体;推特 推文和转发;NR NR NR
詹等[106 医学互联网研究杂志 物质使用 了解消费者和政策制定者如何使用社交媒体跟踪电子烟相关内容 社交媒体;推特和论坛 帖子;NR NR NR
赵等[107 国际环境研究和公共卫生杂志 残疾 了解受自闭症影响的用户如何使用Facebook上的支持小组 社交媒体;脸谱网 来自5个Facebook群组的互动和内容;NR NR NR
郑与沙欣[108 《信息、传播与社会 社会问题 研究社交媒体在政治活动中的使用 社交媒体;推特 微博;NR NR NR
邹(109 关于药物安全的专家意见 物质使用 分析药品安全趋势 科学文献 标题和摘要;NR NR NR

一个NR:没有报道。

bCEO:首席执行官。

数据选择

研究范围及目的

表1显示最突出的研究领域是社会问题(23/ 68,34%;例如,种族主义、性别歧视、同性婚姻和全球气候)、心理健康(19/ 68,28%)和物质使用(12/ 68,26%)。研究的目的存在很大差异,从简单地理解行为(如电子烟和水烟的使用)和经历(如性别歧视和性骚扰),到评估干预措施的有效性(如互联网福祉和身心干预),识别社会话语(如同性婚姻、种族主义和女权主义),以及分析趋势(如药物安全)。

数据源和数据类型

表1强调了LDA所使用的主要数据来源(多媒体附件142-109]提供了数据选择、数据预处理和数据分析的更多细节)以及这些来源中使用的数据类型。最常见的数据来源是社交媒体平台(35/ 68,51%),其中最常见的数据来源是论坛(如Reddit: 7/ 35,20%)或微博平台(如Twitter: 11/ 35,31%;Facebook: 2/ 35,6%;Instagram: 2/ 35,6%)。其他社交媒体来源包括知识社区空间(1/ 35,3%)和基于网络的约会档案(1/ 35,3%)。研究的数据通常来自一个社交媒体平台,只有3%(1/35)的研究使用多个社交媒体平台作为数据来源(即论坛和Twitter)。在使用论坛和微博平台数据的研究中,所有研究都表明他们在分析中使用了某种形式的基于网络的帖子(如原创帖子和评论)。有些明确规定了帖子、评论或转发的使用(5/ 33,15%),尽管有些也包括了选择性标准(4/ 33,12%;例如,有选择性的评论包含消极和积极的词语或短语[58]和具有特定术语频率逆文档频率分数的选择性单词[88])。然而,大多数研究只是简单地提到了“帖子”或“推文”,或“在线互动”或“论坛内容”的使用,而没有描述其精确的选择标准(24/ 33,73%)。

科学文献是第二常见的文本数据来源(13/ 68,19%),其中数据来源于对Web of Science(5/ 13,38%)、MEDLINE(2/ 13,15%)、PubMed(2/ 13,15%)和PSYINDEX(1/ 13,8%)等数据库的搜索。然而,23%(3/13)的研究使用了来自特定期刊的科学文献。所有使用科学文献的研究都指定了用于分析的数据。具体来说,一些研究只使用了摘要数据(7/ 13,54%),而另一些研究使用了标题和摘要数据(4/ 13,31%),受控关键术语(1/ 13,8%),以及标题、关键词和摘要中的选择性词语(1/ 13,8%)。

正式文件是文本数据的另一个常见来源(8/ 68,12%),其中数据来自不同形式的文件,如可持续性、社会责任、教师报告(3/ 8,37%)、临床记录(2/ 8,25%)、健康记录(1/ 8,12%)、摘要陈述(1/ 8,12%)和推荐信(1/ 8,12%)。这些研究要么使用文献中的选择性词语(4/ 8,50%),要么使用文献的全部内容用于分析目的(4/ 8,50%)。

其他未分类的文本数据来源包括非小说类书籍(1/ 68,1%)、学生反馈(1/ 68,1%)、调查数据(1/ 68,1%)、访谈记录(1/ 68,1%)、开源数据集(1/ 68,1%)、公司评论网站(1/ 68,1%)、网络平台(1/ 68,1%)和各种网页(1/ 68,1%)。这些研究中使用的数据类型列在表1

最后,尽管大多数研究使用单一来源的数据,但6%(4/68)的研究数据来自多个来源。其中75%(3/4)的研究使用的数据来自社交媒体微博平台(如Twitter和论坛)和其他未分类的来源,包括评论、各种网页和新闻媒体内容。此外,在这4项研究中,1项(25%)研究使用了各种正式文件来源(如年度报告和国会听证会)和未分类来源(报纸文章)的数据。

文本数据的结构

总体而言,43%(29/68)的研究报告了文本数据是如何为分析目的而构建成文档的(表1).其余57%(39/68)的研究没有提供关于文本数据如何结构的任何方法学细节。在报告如何构建数据的研究中,那些从社交媒体获得数据的研究通常将文档定义为单个帖子(10/ 19,53%)或用户的帖子历史(3/ 19,16%)。从科学文献中获得数据的研究将每个文档定义为来自个别出版物的文本(5/ 5,100%),使用来自正式文档的数据的研究将数据按患者(1/ 3,33%)、信件(1/ 3,33%)或年度报告或国会听证会(1/ 3,33%)进行结构化。总体而言,35%(24/68)的研究报告了样本量(即文献数量,从69篇文献到114,320,798篇文献(中位数3998,IQR 2164-30469)。最后,10%(7/68)的研究报告了每篇文献的字数(或平均字数或字数范围)(中位数90,IQR 60.44-702),在那些报告了字数的研究中,有2项研究报告了预处理后的这个值。

数据预处理

总体而言,86%(59/68)的研究报告对其数据进行了预处理。表2强调了在为LDA准备文本数据时所采取的各种预处理步骤(多媒体附件1描述按研究分解的预处理步骤)。具体来说,最常用的步骤包括删除:停止词(46/ 59,78%)、标点符号、符号或特殊字符(31/ 59,53%)、选择性文本(如超链接、名称、常用单词;29/ 59,49%),数字(20/ 59,34%),无效记录(例如,没有提供相关文本的记录;17/59, 29%)。此外,36%(21/59)的研究进行了词干或词根化,而7%(4/59)的研究明确指出没有进行这一步骤[49,79,80,97].很少有研究报告进行了标记化(15/ 59,25%),15%(9/59)的研究指定了应用哪些n-grams。其他已确定但不太常用的预处理步骤包括删除大写字母、清除空白和纠正拼写错误的单词(可以使用自动拼写检查程序,如hunspell [110])。总体而言,10%(7/68)的研究没有报告数据预处理,3%(2/68)的研究表明数据进行了预处理,但没有提供进一步的细节。关于对数据进行预处理的程序或包的使用,51%(35/68)的研究没有对所使用的工具进行评论,28%(19/68)强调了用于所有进行预处理的程序或包,21%(14/68)指定了用于某些预处理步骤的程序或包,但不是全部(多媒体附件1).

表2。研究总结参与数据的预处理、选择k,以及程序或包的使用。
预处理步骤(n一个) 的选择k(n) 程序;乔治。b包(n)
停止词(46) 定量方法(28) Java;锤c(15)
标点、符号、特殊字符(31) 困惑(11);[10 R;Topicmodels包(13)
选择性文本(29) 模型对数似然的调和均值(5);[11 R;木槌包装(2)
词干或词根化(21) 主题连贯(4);[26 R;STM包(1)
数字(20) 对数似(3);[14 R;Maptpx包(1)
无效记录(17) Kullback-Leibler散度(3);[111 R;KoNLPd包(1)
标记(15) Jensen-Shannon散度(3);[112 R;Dfrtopics包(1)
字格(9) 排他性(1);[113 R;LDA调优包(1)
Unigrams (8) 分层狄利克雷过程(HDP-LDA;1);[114 R;NRe(4)
三元(5) Log Bays因子(1);[115 Python;Gensim包(7)
三元模型(1) 文档主题分布(1);[62 Python;LDA包(1)
下套管(16) 话题概率(1);[116 Python;自然语言工具包(1)
空白(7) 观察平均F测量(1);[94 Python;NR (2)
拼写(5) Optimal_k函数(1);[117 占据(2)
不清楚(2) 最小拟合度量(1);[118 大字工具(一)
NR (7) t-分布式随机邻居嵌入(1);[91 MeCab (1)
N/Af 定性方法(10) NR (17)
N/A 定量与定性方法(5) N/A
N/A 主题连贯(4) N/A
N/A 困惑(1) N/A
N/A 特异性(1);[119 N/A
N/A Kullback-Leibler散度(1) N/A
N/A 样本量(1);[73 N/A
N/A Jensen-Shannon散度(1) N/A
N/A 不清楚(1) N/A
N/A NR (24) N/A

一个N:研究数。详情及参考资料载于多媒体附件1

bLDA:潜狄利克雷分配。

cMALLET:机器学习语言工具包。

dKoNLP:韩语自然语言处理。

eNR:没有报道。

fN/A:不适用。

数据分析

LDA估计算法

表275%(51/68)的研究指定了用于训练LDA模型的程序或包,最常见的实现是机器学习语言工具包(MALLET;15/ 51,29%), R中的主题模型(13/ 51,25%),以及Python中的Gensim(7/ 51,14%)。在Python中使用Gensim的研究中,不清楚使用的是Gensim的LDA实现还是Gensim的LDA MALLET包装器。多媒体附件1提供按学习分解使用的程序和包。

只有26%(18/68)的研究明确报告了用于训练LDA模型的估计算法(多媒体附件1).这些研究大多采用吉布斯抽样法(16/ 18,89%)。总体而言,74%(50/68)的研究没有明确提供所使用的估计算法。在这50项研究中,25项(50%)让读者参考特定于算法的文档(例如Blei等人的研究[10]的变分EM算法,以及Griffiths和Steyvers [11]用于吉布斯抽样),19项(38%)研究指定了用于分析的程序和包,其中可以确定默认算法(例如,程序或包文档),并可能使用。

选择Alpha和Beta参数

只有13%(9/68)的研究(多媒体附件1)指定alpha和beta参数的选择。具体而言,最一致选择的alpha参数为0.1(3/ 9,33%)和50/k(3/ 9,33%),最常见的beta参数为0.01(5/ 9,56%)。

选择主题数量(k参数)

训练LDA模型时必须指定的一个基本参数是主题的数量。表2重点介绍了用于确定最佳主题数量的各种方法(多媒体附件1提供一种方法来确定按研究分解的主题的最佳数量)。总体而言,最常见的方法是定量的(28/ 68,41%)。最主要的方法是perplexity(11/ 28,39%),这是LDA模型中评价模型拟合的常用方法[10,120],其中困惑度较低的模型被认为是最佳拟合。另一种常用的评估模型拟合的方法是主题一致性(4/ 28,14%),它允许通过测量对该主题贡献最大的单词之间的语义相似程度来比较主题[26].也使用了对数似然(3/ 28,11%),认为最佳拟合模型出现在对数似然值最大时。这些数据表明,困惑和连贯仍然是流行的方法。Perplexity使用对数可能性,试图量化一个估计模型推广到一个新数据集的效果。虽然这有助于理解数据集中主题的最佳数量,但这种方法可能会导致不可解释的主题;因此,定量和定性相结合的方法应该用来评估课题的质量。因此,一致性度量试图量化与主题最密切相关的单词的语义相关性。的模型k题目的数量都具有较高的连贯性,说明题目更容易被研究者解读。最后,使用最小化和最大化拟合指标的范围来确定主题的最佳数量(例如,模型log-likelihood的调和平均值、Kullback-Leibler散度和Jensen-Shannon散度)。15%(10/68)的研究使用了定性方法来确定适当的主题数量,其中包括使用人类判断和研究人员的专业知识来指定主题数量。此外,7%(5/68)的研究使用混合方法来确定最佳主题数量,1%(1/68)的研究建议进行LDA调优,但没有具体说明如何进行。最后,35%(24/68)的研究没有报告如何确定最佳主题数量。

评估主题之间的关系

训练LDA模型时的另一个考虑因素是评估主题之间的关系或重叠(多媒体附件1).总体而言,85%(58/68)的研究没有报告主题之间的关系,7%(4/58)的研究承认这是其研究的局限性。其余15%(10/68)的报告主题之间的关系的研究是使用层次聚类分析(3/ 10,30 %)或其他研究特定的方法,包括可视化技术(4/ 10,40 %;例如,LDAvis)。


主要研究结果

我们的目的是对整个心理学文献中LDA研究中使用的方法实践进行范围综述。我们关注的是数据的步骤选择,数据预处理,数据分析作为一个框架来理解心理学研究中使用LDA的方法。纳入的68项实证研究都是2014年以来发表的,这表明心理学研究人员正在采用LDA从大数据集中获得见解;然而,我们发现在可用的实用指南中概述的步骤的报告中存在相当大的可变性,从每个文档的字数的10%到任何预处理的86%。

数据选择

研究范围及目的

文献表明,使用LDA评估的研究领域包括狭窄和广泛的焦点。重点领域包括行为、认知和情感结构,可分为以下研究领域:心理健康、社会问题(如种族主义、性别歧视、同性婚姻和全球气候)、物质使用、身体健康、教育、科学主题的识别、人类发展(如探索性行为和育儿)、个性、情感、取证、残疾和进化。虽然LDA应用的领域属于前面强调的研究领域,但在心理学研究中使用LDA的目的差异很大,包括理解行为(如电子烟和水烟的使用)和概念(如性别歧视),评估干预措施的有效性(如互联网福祉和身心干预),识别社会话语(如同性婚姻,种族主义和女权主义),以及分析趋势(如药物安全)。

数据源,数据类型和数据结构

本文的研究结果表明,心理学LDA研究中使用的大数据的常见来源是社交媒体(如论坛、Twitter、Facebook和Instagram)、科学文献和正式文件(如报告、临床记录、健康记录、摘要陈述和推荐信)。鉴于心理学研究中经常检查的内容具有敏感性质(例如,心理健康问题和个人经历),考虑使用可能与个人身份有关的公开数据(例如,社交媒体)的伦理影响可能特别相关。我们鼓励研究人员在决定是否需要批准使用这些数据时咨询伦理委员会,即使这些数据是公开的[121,122].此外,与科学文献和正式文档相比,社交媒体数据更容易出现语法错误和歧义增加(例如,由于拼写错误和俚语),可能需要根据研究问题的性质进行更深入的预处理。如有需要,可使用自然语言工具包中的TweetTokenizer等软件包对社交媒体数据进行预处理[123].尽管存在与社交媒体数据相关的潜在挑战,但与使用科学文献、正式文档和其他未分类文本数据来源的研究相比,大多数纳入研究(35/ 68,51%)使用了社交媒体数据,并且更有可能报告文本数据的结构和纳入文档的长度。然而,科学文献更倾向于报告样本量。

研究结果还表明,LDA为研究人员提供了独特的灵活性,可以选择最能回答他们研究问题的文本数据类型。文本数据的选择对分析结果有影响;因此,作者必须明确规定他们的数据纳入和排除标准,以确保可重复性。例如,研究人员可以单独使用“原始帖子”来获得一个论坛或组内主题的广泛概述,或者“原始帖子”加上后续评论,这允许对话语中的主题进行分析。尽管所有研究都指定了用于分析的数据类型,但大多数使用社交媒体数据的研究都没有描述准确的数据选择标准,只是简单地提到了“帖子”或“在线互动”的使用。综上所述,文献表明在报告实践中需要更多的透明度。

这篇综述发现,纳入的研究中不到一半(29/ 68,43%)报告了文本数据是如何结构成文档的(即,文本单位)。这是数据类型选择决策的扩展,因为重要的是要考虑相同的所选数据集可以以多种方式进行结构。这种对文档结构的漏报可能会对结果的上下文化产生潜在的重要影响[16,124].例如,如果文件是根据引文或期刊结构的,那么使用标题和摘要作为分析数据集的决定就可以回答不同的研究问题。因此,不报告文档结构会影响对任何派生主题的解释。此外,只有少数研究报告了样本量(即文献数量)和纳入文献的长度。这种最少的报告可能与关于LDA的最佳样本量和文档长度的不一致证据有关。例如,一些证据认为需要大量的文件,因为从理论上讲,从少量的文件中识别有意义的主题是不可能的;然而,这也表明存在一个阈值,即增加数量不会影响LDA的性能[124].其他人指出,样本量取决于与研究问题相关的理论和方法考虑[16].此外,过长或过短的文档会产生难以解释的结果[124].在短文本数据的上下文中(例如Twitter帖子),LDA可能表现不佳,因为这种方法假定每个文档有多个主题。强等[9]回顾了一系列用于对短文本文档建模的替代方法,这些文档更有可能包含单个主题或发现共出现模式的能力较低,尽管有一些证据表明LDA也可以充分地用于此类文本[125].此外,Mehrotra等人[126]和伊藤等[127]发现汇集文本数据,从而使文档更长,从而改进了LDA主题模型。相比之下,Sbalchiero等人[128]强调了不同长度的文本对结果的潜在影响以及与长文本中主题建模相关的复杂性,这值得进一步研究。此时,建议确定文档适当长度的最佳方法是观察不同文本长度样本的最佳拟合模型[128]而应使用其他方法,如定性方法或如所讨论的其他自然语言处理方法(见Qiang等人的研究[9]以回顾分析短文本的方法,以及一个支持比较短文本文档不同算法的GitHub资源),以处理较小的文本。鉴于文档中的文本数据结构、样本大小和文档长度可能会影响LDA,训练LDA模型的研究人员必须清楚地报告这一信息,并在未来的实证研究中调查这些因素如何影响结果,这一点很重要。

数据预处理

与现有指南中建议的实践相反,研究没有常规报告数据预处理步骤,13%(9/68)的研究没有报告这一点。鉴于预处理步骤有助于提高数据的保真度,以确保结果有意义地代表数据,这种漏报是有问题的,因为它可能影响分析并损害可解释性和随后的结论[129].报告数据预处理的研究通常执行一组常见的过程,包括删除停止词、选择性文本(如超链接、名称和常见单词)、标点符号或符号、无效记录和数字,以及进行词干或词根化。此外,很少有研究清楚地报告了符号化和n-grams的使用;然而,一些研究强调了标记化的使用,但没有指定应用的n-grams。对于标记化和n-gram的总体稀缺报告更加突出地表明,研究人员的重点一直集中在报告旨在提高数据保真度的预处理步骤(例如,停止词、标点符号或符号和数字),而较少报告描述如何组织数据进行分析的预处理步骤(例如,标记化和n-gram)。文献表明,数据的表示需要透明,这表明单字母图和双字母图的适用性[16];然而,方法学研究表明,bigrams可能不会改善主题的分类[130].这表明需要进一步研究探索预处理步骤的最佳实践,这些步骤描述了数据如何呈现以供分析。

虽然许多研究选择进行词干或词根化,但一些研究明确表示,为了便于主题解释,没有进行这一步骤[49,79,80,97].这与Yang等人的研究结果一致[131],这表明尽管有词干和没有词干的主题模型提供了类似的结果,但词干的结果可能更难解释。类似地,其他研究表明,词干化或词根化对模型拟合的定量测量没有任何有意义的改善,并有可能降低主题稳定性[132].尽管方法学研究倾向于不进行词干或词根化[132],许多心理科学的研究继续从事这一实践。鉴于现有的证据,我们建议未来的研究反映遏制的必要性。此外,研究还可评估不同类型的词干或词根化的影响[132,133]的结果。未来的研究应考虑报告带有或不带有词干或引理化的结果,以证明对结果的潜在影响,这可用于提供最佳实践建议。

数据分析

LDA程序和包,LDA估计算法,选择Alpha和Beta参数,选择主题数(k参数)

虽然结果显示许多程序或包被用于训练LDA模型,但最常用的是Java、R和Python。这些程序的开源性质强调了LDA是心理学研究人员可访问的分析类型。因此,我们建议这些开源程序继续在实践中使用;但是,每个程序中使用的不同估计算法应该考虑在内。

结果表明,吉布斯抽样是最常用的估计算法。然而,估计算法的选择被低估了(即,只有18/ 68,26%的研究被报道),这可能反映了对选择这些算法的潜在影响缺乏理解。尽管有一些相互冲突的方法研究调查这些估计算法(例如,参见VB算法的适当性证据[134-136]),吉布斯抽样似乎是一种总体稳健的方法,因为它可以更好地预测最佳主题数量[11,137],即使与较新的算法相比,也具有较强的性能[29].尽管围绕使用哪种估计算法的决定通常是由分析程序中易于实现的实用性(即,在广泛使用的统计包中的可用性)指导的,但我们认为,包内吉布斯抽样的广泛可用性使这种方法成为心理学研究中使用的有力竞争者。

尽管估计算法被低估了,但通过提到所使用的程序和包,读者可能会认为可能使用了相关文档中突出显示的默认算法;但是,包经常会更改默认设置,因此,应该记录包和版本号。此外,尽管文献强调编程语言提供了LDA的默认实现[14],有证据表明alpha(而不是beta)参数的调整是一个重要的考虑因素[25].在指定alpha和beta的研究中,78%(7/9)的研究覆盖了默认值,并专门调整了alpha(0.1和50/)k)和beta(为0.01)。

在整个文献中始终进行调优的参数是k参数,它是从模型[中导出的主题数量的选择。138].纵观心理学文献,用于确定主题数量的方法明显在定性和定量方法之间转换,这反映了实践指南中的不一致性,其中一些主张使用定量方法(例如,困惑度,对数似然性和主题连贯性;[14]),可以多种方式进行(例如,[139]),而其他人则建议使用定性方法(例如人的判断和专业知识)[16])。定量方法是有益的,因为它们更快、更系统,并且可以使用交叉验证进行验证[15],这是一个将数据随机分割为多个部分,并在其中一个部分之外的所有部分上训练模型,然后在其余部分上验证模型的过程。虽然定性方法更耗时,但它们也可以是系统的和交叉验证的。此外,研究表明,在确定模型的可解释性时,定量方法并不能取代人类的判断,而定性方法允许研究人员以模型拟合统计所不能的方式探索文本数据[30.].一些人类判断方法包括主题评级这指的是查看一个主题并分配一个质量分数[29],词入侵这是一个定性的过程,在一个主题中识别不恰当的词,以理解一个主题的连贯性。30.),而主题入侵将主题模型将文档分发到主题的情况与人类对文档内容的判断进行比较[30.].这两种不同的确定主题数量的方法各有利弊,Asmussen等人[15]提出,类似于因素分析模型,其中因素的可解释性与统计模型拟合同样重要,主题的数量应该由可用的主题数量和适当的模型拟合之间的平衡来确定。除了单独的主题建模之外,文献已经开始通过进行定性编码并将这些结果与主题模型进行比较来分析文本数据集[54].考虑到相互矛盾的文献,有趣的是注意到很少有心理学研究使用这些技术的组合[48,56,58,73,75].总的来说,有各种不同的方法来确定主题的数量,尽管一些不同的作者提出了推荐的方法[29,140,141],这是一个正在进行的研究领域,因为建议的方法不一定收敛于相同的值k选中。

评估主题之间的关系

结果表明,评估主题之间的关系并不是心理科学中LDA研究的常见做法。具体来说,评估主题之间的关系包括观察主题之间的重叠,以及理解主题之间的相似或不同之处。实现这一目标的方法之一是使用工具(如R中的LDAvis)可视化主题。27]和pyLDAvis [142].增加对主题之间关系的评估将允许更丰富的发现和识别主题之间意想不到的联系的潜力。

限制

这是第一个评估使用LDA的心理学研究中的决策过程的研究,从而为该领域的研究人员介绍了训练LDA模型时的一些关键考虑因素。本综述的结果应考虑到某些局限性。首先,本综述中讨论的分析管道中的决策要点应该被所有研究人员考虑;然而,还有其他一些决策要点属于这一范畴数据选择,数据预处理,而且数据分析这些没有包括在这篇综述中,因为它们取决于研究问题。例如,由潜在的理论或方法主持人进行的分层分析可以帮助确定整个地层中识别的潜在主题是否具有一致性[16],但这些调节器的使用取决于所提出的研究问题。此外,研究人员可能会发现,制定具体的纳入和排除标准并以明确制定的工作定义驱动的方式提取数据是有用的。例如,研究人员可以开发用于识别相关内容的词汇词典,这些词典是根据理论和专家意见精心构建的,以反映研究感兴趣的结构的重要方面[16].然而,重要的是要考虑到这可能并不总是合适的,例如,社交媒体用户可能与专家使用不同的语言;因此,提取的数据可能不具有代表性。数据驱动的方法可能是有用的,因为它可以捕获更广泛的数据;然而,这可能很耗时。其次,在没有提供关于文本数据如何被结构成文档(即文本单位)的方法细节的研究中,可以根据整篇文章中使用的语言对其中一些研究进行推断。这可能被认为是一种限制,因为这一信息没有包括在结果的解释中;然而,我们认为这是围绕这篇文献中缺乏报道的主要问题的一个例证。第三,本综述侧重于绘制文献而不是评价其质量;因此,重要的是要注意,在整个综述中讨论的3个步骤的参与强度并不一定反映结果的质量或准确性,因为它们与所调查的结构有关。 Fourth, this review only included studies that applied LDA to a construct or issue; therefore, studies providing insights into the LDA methodology have not been reviewed. Fifth, this review specifically focused on traditional applications of LDA rather than modifications thereof, as these are increasingly being used in psychology research. Although the LDA used by studies in this review was unsupervised, a supervised LDA approach [143可能是有用的,特别是如果研究的目的是预测。有监督的LDA允许用户用已知的属性标记每个文档,这些属性可用于模型拟合。雅可布奇等[144]提供了一个最近的监督LDA的例子,其中他们包括了在他们的模型中使用的每个文档的作者是否有已知的自杀风险史的信息。这项研究由Šperková [145]提供了关于LDA变体的进一步信息(例如,情感LDA和阶乘LDA)。最后,本文将重点讨论一种主题建模方法,而不是对多种主题建模方法的概述。在进行主题建模时,我们鼓励研究人员考虑其他方法的适用性;Terragni等人的研究[7]提供了关于其他主题建模方法(例如,潜在语义分析和嵌入式主题模型)的进一步信息。

结论

这篇综述表明,LDA是一种可访问且灵活的技术,为研究人员提供了从大型文本数据集中获益的机会,因此,我们主张在心理科学中继续使用LDA。尽管一些研究明确强调参与数据选择、数据预处理和数据分析,但情况并非总是如此,因此降低了与建议实践相一致的可重复性和评估能力。因此,我们鼓励研究人员在报告标准上做到彻底和透明。为了协助报告流程,并朝着最佳实践建议的方向努力,我们制定了LDA首选报告清单(表3)概述了研究人员在训练LDA模型时应该报告的关键数据选择、数据预处理和数据分析步骤,或者至少要考虑这些步骤。

此外,这篇综述显示,围绕某些预处理步骤的必要性、最合适的估计算法以及确定主题数量的最合适方法,仍存在持续的争论,对这些决定如何影响结果的调查有限。鉴于此,我们建议未来在LDA的所有阶段进行研究,以确定全面和基于证据的最佳实践建议。

表3。潜在狄利克雷分配(LDA)首选报告检查表。
节和主题 清单项目 报告页
数据选择

研究领域及目的 1 制定研究问题、目的、目标和可能出现的主题的假设。

研究领域及目的 2 考虑LDA的适用性;这是回答研究问题的最合适的方法吗(例如,考虑是否另一种主题建模方法,特别是对于短文本,或者传统的定性或定量方法可能更适合研究问题)?

纳入和排除标准 3. 用于LDA分析的文本数据的状态包含和排除标准(例如,基于研究人员开发的字典或数据驱动的方法)

数据源 4 指出证据来源(如社交媒体、正式文件、科学文献、调查反馈和书籍),并评论写作质量。考虑与所选数据源的使用相关的道德义务。

数据类型 5 指定将用于分析的数据源中的数据类型(例如,原始帖子或评论、标题、摘要或关键字)。

数据结构 6 说明文档级别(例如,按引用、段落、文章和用户来组织)。

数据结构 7 指定文档数量。

数据结构 8 指定文档的长度(例如,范围、平均值和SD)。
数据预处理

程序、包和版本 9 指定用于预处理和分析的程序、包和版本。

清洁 10 列出所执行的预处理步骤(例如,标点符号和删除不相关的记录、数字和空白)。

停止单词和选择性文本 11 指定应用了哪些停止词列表,以及是否删除了选择性文本(例如,经常使用或不经常使用的单词、超链接和名称)。

N-grams和标记化 112 指示符号化的使用并指定n-gram(例如,unigram、biggram或trigram)。

词干化或词根化 13 指明词干化、词根化或两者都不使用,并提供决定的理由。

词干化或词根化 14 考虑使用或不使用词干或词根化来报告结果。
数据分析

估计算法 15 用于分析的状态估计算法(如吉布斯抽样和变分EM)一个算法)。

调优参数(alpha、beta和k) 16 指定alpha(例如,0.01),beta(例如,0.1,50/k),和k(主题数量)参数。

调优参数(alpha、beta和k) 17 详细介绍迭代方法,并指定用于优化参数(即主题数量)的指标(如一致性、困惑度和对数似然度等定性或定量指标)。包括对定性或定量交叉验证方法的解释。

评估主题之间的关系 18 评估和评论主题之间的关系(例如,主题建模的可视化)。

报告结果 19 包含每个主题的原型文档示例。如果主题中最重要的词没有连贯性,就用“不可解释”来描述这些主题。
再现性:共享未识别的数据、代码和文档 20. 在开放科学框架(Open Science Framework)等平台上公开发布未识别的数据(在允许的情况下)、代码和文档,以允许可重复性。

一个EM:期望最大化。

致谢

LJH获得澳大利亚政府研究培训奖学金的资助。

作者的贡献

LJH、SSM和GJY计划并制定了研究方案。LJH, GAO'D和LMF收集数据。LJH整理了数据。LJH、SSM、GAO'D、LMF、CJG、MF-T、EMW、JAM、GJY解释结果。LJH撰写了手稿,SSM、GAO’d、LMF、CJG、MFT、EMW、JAM和GJY对重要的知识内容进行了批判性的修改。所有作者都对手稿做出了贡献,并批准了提交的版本。

利益冲突

没有宣布。

多媒体附件1

详细的数据选择,预处理,分析分解研究。

DOCX文件,48 KB

  1. 陈敏,毛珊珊,刘颖。大数据:一项调查。移动网络应用2014年1月22日;19(2):171-209。[CrossRef
  2. Vu总部,李G、法律r .发现隐式活动偏好旅游行程按主题建模。2019年12月75:435-446。[CrossRef
  3. 普希曼C,巴斯托斯M.数字人文学科有多数字化?两个学术博客平台的分析。PLoS One 2015 Feb 12;10(2):e0115035 [免费全文] [CrossRef] [Medline
  4. 赵颖,傅平,吴晨。市场营销期刊研究热点,1995-2014。J Interact Market 2022年1月31日;40(1):52-72。[CrossRef
  5. 康布里亚,白B.跳跃NLP曲线:自然语言处理研究综述[综述文章]。IEEE compput Intell ma2014 5月;9(2):48-57。[CrossRef
  6. Liddy ED.使用自然语言处理增强文本检索。喀布尔社会信息科学技术2005年1月31日;24(4):14-16。[CrossRef
  7. Terragni S, Fersini E, Galuzzi B, Tropeano P, Candelieri A. OCTIS:比较和优化主题模型很简单!在:第16届计算语言学协会欧洲分会会议论文集:系统演示。2021年发表于:第16届计算语言学协会欧洲分会会议:系统演示;4月,2021;网上。[CrossRef
  8. 兰道尔TK,福尔茨PW,拉汉D.潜在语义分析介绍。话语过程1998年1月25日(2-3):259-284。[CrossRef
  9. 强杰,钱忠,李勇,袁勇,吴旭。短文本主题建模技术、应用及性能综述。IEEE知识数据学报2022年3月1日;34(3):1427-1445。[CrossRef
  10. 李志强,李志强。J Mach Learn Res 2003; 3:93 -1022。
  11. 格里菲思TL,史提弗斯M.寻找科学主题。Proc natalacadsci U S A 2004 Apr 06;101 supl 1(suppl_1):5228-5235 [免费全文] [CrossRef] [Medline
  12. 张晓东,张晓东。基于文本挖掘的文本挖掘方法。美国加利福尼亚州塞瓦斯托波尔:O'Reilly Media;2017.
  13. Geletta S, Follett L, Laugerman M. potential Dirichlet Allocation在预测临床试验终止中的应用。BMC Med Inform Decis Mak 2019年11月27日;19(1):242 [免费全文] [CrossRef] [Medline
  14. 王勇,刘国强,李国强。基于大数据的大数据模型研究。心理方法2016年12月;21(4):493-506。[CrossRef] [Medline
  15. Asmussen CB, Møller C. Smart文献综述:探索性文献综述的实用主题建模方法。J大数据2019 10月19日;6(1)。[CrossRef
  16. 班克斯GC,沃兹尼亚HM,韦斯伦RS,罗斯RL。R中文本分析的最佳实践建议的回顾(以及一个用户友好的应用程序)。《公共汽车心理杂志》2018年1月11日;33(4):445-459。[CrossRef
  17. 陈怡,Wojcik SP.心理学大数据研究的实用指南。心理方法2016年12月21日(4):458-474。[CrossRef] [Medline
  18. 哈迪娥,刘旭,史勇。文本预处理在情感分析中的作用。计算科学2013;17:26-32。[CrossRef
  19. 何斌,李志强。一种用于信息检索系统的停止词表自动构建方法。《数字信息学报》2005;3(1):3-8。
  20. 在R. GitHub多语言Stopword列表。URL:https://github.com/quanteda/stopwords[2022-02-10]访问
  21. NLTK的英语停止词列表。GitHub。URL:https://gist.github.com/sebleier/554280[2022-02-10]访问
  22. 斯科菲尔德,马格努森,米诺。拉出停止:重新思考停止词去除主题模型。在:计算语言学协会第15届欧洲分会会议论文集:第2卷,短论文。2017年发表于:计算语言学协会第15届欧洲分会会议:第2卷,短论文;4月,2017;瓦伦西亚,西班牙。[CrossRef
  23. 概率主题模型。通讯ACM 2012 04月01日;55(4):77-84。[CrossRef
  24. 李国强,李国强。潜狄利克雷分配的在线学习方法。见:神经信息处理系统进展23 (NIPS 2010)。2010年发表于:神经信息处理系统的进展23 (NIPS 2010);2010年12月6日至11日;加拿大不列颠哥伦比亚省的温哥华。
  25. 瓦拉赫,米姆诺D,麦卡勒姆A.重新思考LDA:为什么先验很重要。见:神经信息处理系统进展22 (NIPS 2009)。2009年发表于:神经信息处理系统的进展22 (NIPS 2009);2009年12月7日至10日;加拿大不列颠哥伦比亚省。
  26. Stevens K, Kegelmeyer P, Andrzejewski D, Buttler D.探讨多模型和多主题的主题一致性。2012年自然语言处理和计算自然语言学习的经验方法联合会议论文集,2012年发表于:EMNLP-CoNLL '12: 2012自然语言处理和计算自然语言学习的经验方法联合会议;2012年7月12日至14日;韩国济州岛。
  27. 雪莉·k·戴维斯:一种可视化和解释主题的方法。交互式语言学习、可视化和界面研讨会论文集。2014年发表于:交互式语言学习、可视化和界面研讨会;2014年6月,;巴尔的摩,马里兰州,美国。[CrossRef
  28. 李志强,李志强。基于并行dirichllocation模型和肘关节方法的对话语料主题检测。arXiv 2020。[CrossRef
  29. Hoyle A, Goel P, Hian-Cheong A, Peskov D, Boyd-Graber J, Resnik P.自动主题模型评估是否被打破?:连贯的不连贯。见:第35届神经信息处理系统会议论文集(NeurIPS 2021)。2021发表于:第35届神经信息处理系统会议(NeurIPS 2021);2021年12月6日至14日;虚拟的。
  30. 张军,王超,张志刚,张志刚。阅读茶叶:人类如何解读主题模型。载于:第22届神经信息处理系统国际会议论文集。2009年发表于:NIPS'09:第22届神经信息处理系统国际会议;2009年12月7日至10日;加拿大不列颠哥伦比亚省温哥华。
  31. Arksey H, O'Malley L.范围研究:朝向方法论框架。国际社会科学学报,2005年2月;8(1):19-32。[CrossRef
  32. Colquhoun HL, Levac D, O'Brien KK, Straus S, Tricco AC, Perrier L,等。范围审查:明确定义、方法和报告的时间。中华临床流行病学杂志2014年12月;67(12):1291-1294。[CrossRef] [Medline
  33. Munn Z, Peters MD, Stern C, Tufanaru C, McArthur A, Aromataris E.系统性评价还是范围评价?对作者在系统评审方法和范围评审方法之间进行选择的指导。BMC Med Res methodo2018 11月19日;18(1):143 [免费全文] [CrossRef] [Medline
  34. 卡尔vo RA, MILNE DN, HUSSAIN MS, CHRISTENSEN H.非临床文本在心理健康应用中的自然语言处理。2017年1月30日;23(5):649-685。[CrossRef
  35. Shatte AB, Hutchinson DM, Teague SJ。心理健康中的机器学习:方法和应用的范围审查。精神医学2019 7月;49(9):1426-1448。[CrossRef] [Medline
  36. 崔科,李丽丽,李丽娟,李丽娟,等。用于范围审查的PRISMA扩展(PRISMA- scr):检查表和解释。安实习医学2018年10月02日;169(7):467-473 [免费全文] [CrossRef] [Medline
  37. Baghaei Lakeh A, Ghaffarzadegan N.艾滋病毒/艾滋病研究的全球趋势和区域差异。科学通报2017 6月23日;7(1):4170 [免费全文] [CrossRef] [Medline
  38. Cesare N, Oladeji O,摆渡人K, Wijaya D, Hendricks-Muñoz KD, Ward A,等。推特上关于流产和早产的讨论。儿科围产期流行病学2020年9月08日;34(5):544-552 [免费全文] [CrossRef] [Medline
  39. Tang C, Zhou L, Plasek J, Rozenblum R, Bates D.癌症机构Facebook页面的评论主题演化。应用临床信息2017年8月23日;8(3):854-865 [免费全文] [CrossRef] [Medline
  40. Vaughn DA, van Deen WK, Kerr WT, Meyer TR, Bertozzi AL, Hommes DW等。使用保险索赔来预测和改善患有炎症性肠病的成员的住院治疗和生物制剂使用。J Biomed Inform 2018年5月;81:93-101 [免费全文] [CrossRef] [Medline
  41. Moher D, Liberati A, Tetzlaff J, Altman DG, PRISMA Group。系统评价和元分析的首选报告项目:PRISMA声明。安实习医学2009年8月18日;151(4):264-9,W64 [免费全文] [CrossRef] [Medline
  42. Abdellaoui R, Foulquié P, Texier N, Faviez C, Burgun A, Schück S.患者论坛帖子中不遵守药物治疗案例的检测:主题模型方法。J Med Internet Res 2018年3月14日;20(3):e85 [免费全文] [CrossRef] [Medline
  43. 刘志刚,刘志刚,刘志刚,等。阿片类药物滥用患者的亚型:住院患者使用电子健康记录数据的预后丰富策略PLoS One 2019;14(7):e0219717 [免费全文] [CrossRef] [Medline
  44. Alam F, Ofli F, Imran M.使用人工智能技术的灾难事件的描述性和可视化摘要:飓风哈维,厄玛和玛丽亚的案例研究。行为学信息技术2019年5月14日;39(3):288-318。[CrossRef
  45. Barry AE, Valdez D, Padon AA, Russell AM。推特上的酒类广告——一种主题模式。美国健康教育杂志2018年6月29日;49(4):256-263。[CrossRef
  46. 比特曼A,费舍尔A.如何识别热点话题在心理学使用主题建模。时代思潮für心理学2018年1月;226(1):3-13。[CrossRef
  47. Carpenter J, Crutchley P, Zilca RD, Schwartz HA, Smith LK, Cobb AM,等。看到“大”图景:在互联网干预数据中探索使用、语言和结果之间关系的大数据方法。J Med Internet Res 2016 Aug 31;18(8):e241 [免费全文] [CrossRef] [Medline
  48. 卡龙-亚瑟B,雷诺兹J,班尼特K,班尼特A,格里菲斯KM。大家都在说些什么?心理健康互联网支持小组的主题建模。BMC Psychiatry 2016 Oct 28;16(1):367 [免费全文] [CrossRef] [Medline
  49. Chen AT, Zhu SH, Conway M.在线社区可以告诉我们关于电子烟和水烟使用的信息:一项使用文本挖掘和可视化技术的研究。J Med Internet Res 2015 9月29日;17(9):e220 [免费全文] [CrossRef] [Medline
  50. 崔松,徐建勇。基于文献计量学和LDA主题模型的照顾者抑郁研究。问题医疗护理2020年7月;41(7):592-601。[CrossRef] [Medline
  51. 乔杜里P,王东,卡尔森NA, Khanna T.机器学习方法的面部和文本分析:发现CEO口头沟通风格。应用服务器管理学报2019 Aug 06;40(11):1705-1732。[CrossRef
  52. Cohan A, Young S, Yates A, Goharian N.在线心理健康论坛内容严重性分类。中国生物医学工程学报,2017年9月25日;29(2):379 - 379。[CrossRef
  53. Feldhege J, Moessner M, Bauer s,谁说什么?在线抑郁社区的内容和参与特征。《情感失调》2020年2月15日;263:521-527。[CrossRef] [Medline
  54. Franz PJ, Nook EC, Mair P, Nock MK.使用主题建模来检测和描述大规模数字平台上的自残和相关内容。自杀生命威胁行为2020年2月;50(1):5-18。[CrossRef] [Medline
  55. Gerber MS.使用Twitter和核密度估计预测犯罪。决策支持系统2014年5月;61(3):115-125。[CrossRef
  56. 王晓燕,王晓燕,王晓燕。企业与法律环境的关系:文化和谐的作用。组织科学2019 7月;30(4):803-830。[CrossRef
  57. 郭玲,李松,吕荣,尹玲,son- deruel A, King L.社会阶层与不平等文献研究的课题格局。PLoS One 2018;13(7):e0199510 [免费全文] [CrossRef] [Medline
  58. Hemmatian B, Sloman SJ, Cohen Priva U, Sloman SA。想想后果吧:关于同性婚姻的讨论持续了十年。行为研究方法2019年8月;51(4):1565-1585。[CrossRef] [Medline
  59. 黄Y, Kim HJ崔HJ,李j .探索异常行为模式的在线用户情绪化进食行为:主题建模研究。J Med Internet Res 2020年3月31日;22(3):e15700 [免费全文] [CrossRef] [Medline
  60. 贾沃斯卡,南达。说得好做得好:企业社会责任的主题建模辅助话语研究。应用语言学2016年6月06日;229(6):amw014-amw013。[CrossRef
  61. 挖掘员工的声音:从在线员工评论中识别和分析工作满意度因素的文本挖掘方法。决策支持系统2019年8月;123(6):113074-113078。[CrossRef
  62. Kagashe I, Yan Z, Suheryani I.加强季节性流感监测:利用twitter数据对广泛使用的药物进行主题分析。J Med Internet Res 2017 9月12日;19(9):e315 [免费全文] [CrossRef] [Medline
  63. Karami A, Swan SC, White CN, Ford K.隐藏太久:使用文本挖掘技术揭露职场性别歧视和性骚扰。心理暴力2019年6月27日;229(6):1641-1648。[CrossRef
  64. 纪永华,李超,孔立林,唐佳杰,庄凯。正念研究的范围综述:主题建模方法。正念2019年4月15日;10(8):1474-1488。[CrossRef
  65. Kigerl A.网络罪犯剖析。社会科学,2017年9月20日;36(5):591-609。[CrossRef
  66. 克瑞茨伯格DS,默西D,劳卡斯A,帕斯克。热不烧烟草推广instagram。成瘾Behav 2019年4月91:112-118。[CrossRef] [Medline
  67. Landstrøm EK, Jeppesen SH, demanj .丹麦的恋童癖话语:走向混合方法的数字话语方法。性2017年11月20日;22(3):381-400。[CrossRef
  68. 李AJ,琼斯BC,德布鲁因LM。通过对在线个人描述的数据驱动分析,调查与交配相关的自我概念和配偶偏好之间的联系。进化人类行为2019 5月;40(3):325-335。[CrossRef
  69. 李坤,李丹,洪海杰。韩国教师对学生自杀报告的文本挖掘分析。欧洲儿童青少年精神病学2020年4月20日;29(4):453-465。[CrossRef] [Medline
  70. 梁波,王晔,Tsou MH.“健身”主题可能降低超重和肥胖的区域患病率:来自谷歌搜索和推文的证据。中华卫生杂志2019;24(9):683-692。[CrossRef] [Medline
  71. 刘旭,孙敏,李娟。在线健康社区的性别差异研究。国际医学杂志2018年3月;111:172-181。[CrossRef] [Medline
  72. 刘强,吴敏,邹X, Champaneria A,刘c, Mubbashar MI,等。基于症状的精神疾病患者分层使用临床记录。J Biomed Inform 2019 10月;98:103274 [免费全文] [CrossRef] [Medline
  73. 刘松,张仁瑞,岸本涛。基于主题模型的临床心理学分析与展望:近几十年的研究热点与科学趋势。心理健康医学2021年4月26日(4):395-407。[CrossRef] [Medline
  74. 刘杰,孔杰,张旭。网络健康社区生理心理疾病患者差异研究:话题分析和情感分析。国际环境与公共卫生杂志2020年2月26日;17(5):1508 [免费全文] [CrossRef] [Medline
  75. 楼c,谭s,陈霞。消费者对网红广告和品牌推广广告的参与调查:来源和披露的角色。J互动广告2019 10月15日;19(3):169-186。[CrossRef
  76. Louvigné S, Rubens N.基于社交网络目标信息的意义生成分析与主题分类。行为计量杂志2016年1月1日;43(1):65-82。[CrossRef
  77. Magua W, Zhu X, Bhattacharya A, Filut A, Potvien A, Leatherberry R,等。女性申请人在美国国立卫生研究院的同行评审中处于不利地位吗?结合算法文本挖掘和定性方法,检测r01审稿人评论的评价差异。《妇女健康》(Larchmt) 2017年5月;26(5):560-570 [免费全文] [CrossRef] [Medline
  78. McCoy TH。通过概率主题建模和网络分析绘制谵妄文献:计算范围综述。心身医学2019;60(2):105 - 120。[CrossRef] [Medline
  79. 梅里尔·M, Åkerlund M.为瑞典挺身而出?反移民Facebook群组的种族主义话语、架构和支持。中国计算机科学,2018;23(6):332-353。[CrossRef
  80. 默多克,艾伦C,戴德欧。从达尔文的阅读笔记中探索和利用维多利亚时代的科学。认知2017年2月;159:117-126。[CrossRef] [Medline
  81. 吴j,斯图尔特AE,菲尔普斯RE.咨询心理学杂志主题,1963-2015。中华精神病学杂志2017年11月;64(6):604-615。[CrossRef] [Medline
  82. 陈晓明,陈晓明,陈晓明,陈晓明,等。基于社交媒体的阿片类药物流行分析使用reddit。AMIA年度会议程序2018;2018:867-876 [免费全文] [Medline
  83. Pantti M, Nelimarkka M, Nikunen K, Titley G.种族主义的含义:芬兰新闻媒体和在线论坛关于种族主义的公开话语。欧洲共同体2019年9月17日;34(5):503-519。[CrossRef
  84. Pappa GL, Cunha TO, Bicalho PV, Ribeiro A, Couto Silva AP, Meira W,等。在线体重管理社区中与体重变化相关的因素:Loseit reddit社区的案例研究。J Med Internet Res 2017年1月16日;19(1):e17 [免费全文] [CrossRef] [Medline
  85. Park A, Conway M.追踪公共卫生应用reddit上与健康相关的讨论。AMIA年度会议程序2017;2017:1362-1371 [免费全文] [Medline
  86. Ray A, Bala PK, Dwivedi YK。从用户生成内容探索影响电子学习采用的价值:消费价值理论的视角。J战略市场2020年4月07;29(5):430-452。[CrossRef
  87. Ruiz N, Witting A, Ahnert L, Piskernik B.与早产和足月出生的孩子的父亲的反射功能。附加Hum Dev 2020 2月21日;22(1):32-45。[CrossRef] [Medline
  88. 鲁姆斯基A, Ghassemi M, Naumann T, Szolovits P, Castro VM, McCoy TH,等。用叙述出院总结的自然语言处理预测早期精神病再入院。Transl Psychiatry 2016 10月18日;6(10):e921 [免费全文] [CrossRef] [Medline
  89. Santos T, Louçã J, Coelho H.公共领域的数字化转型。系统研究与行为科学2019年11月11日;36(6):778-788。[CrossRef
  90. Shahin S, Dai Z.理解Twitter上全球援助机构的公众参与:一个技术社会框架。美国行为科学2019年3月06日;63(12):1684-1707。[CrossRef
  91. 申杰,郭强,吉尔梅杰。使用主题建模方法开发多项选择项干扰器。前沿心理2019 12月;10(6):825-828 [免费全文] [CrossRef] [Medline
  92. 领导研究中的自然实验:介绍、综述和指导方针。领袖Q 2020年2月;31(1):101338-101338。[CrossRef
  93. 儿子J,李港元,金,李J .有效的沟通在灾难中微博的内容特征:媒体同步性理论视角。国际信息管理杂志2019年4月45日(6):56-68。[CrossRef
  94. Sorour S, Goda K, Mine T.评论数据挖掘估计学生表现考虑连续的课程。高等教育学报,2017;20(1):73-86。
  95. Sperandeo R, Messina G, Iennaco D, Sessa F, Russo V, Polito R,等。人格在心理健康的背景下意味着什么?基于过去5年在Pubmed上发表的摘要的主题建模方法。前沿精神病学2019年1月9日;10:938 [免费全文] [CrossRef] [Medline
  96. Székely N, Vom Brocke J.我们可以从企业可持续发展报告中学到什么?利用主题建模技术,从1999年至2015年间发布的9,500多份企业可持续发展报告中得出研究和实践的命题。PLoS One 2017 april 12;12(4):e0174807 [免费全文] [CrossRef] [Medline
  97. Törnberg A, Törnberg P.结合批评性话语分析和话题建模:分析在线论坛上伊斯兰恐惧症和反女权主义之间的话语联系。话语Soc 2016年3月28日;27(4):401-422。[CrossRef
  98. 陈晓霞,陈志强,陈志强,等。人工智能在抑郁症管理中的应用研究现状:文献计量学分析。国际环境与公共卫生杂志2019年6月18日;16(12):2150 [免费全文] [CrossRef] [Medline
  99. Tran BX, Harijanto C, Vu GT, Ho RC。1990-2018年期间使用身心疗法改善生活质量的干预措施全球图谱。补充Ther Med 2020年3月49:102350。[CrossRef] [Medline
  100. Turrentine FE, Dreisbach CN, St Ivany AR, Hanks JB, Schroen AT。性别对外科住院医师申请人推荐信的影响。中华外科杂志2019年4月;228(4):356-65.e3。[CrossRef] [Medline
  101. 王松,丁勇,赵伟,黄勇,Perkins R,邹伟,等。文本挖掘用于识别青少年药物使用与抑郁文献主题。BMC公共卫生2016年3月19日;16:279 [免费全文] [CrossRef] [Medline
  102. Weij F, Berkers P, Engelbert J.西方对Pussy Riot的声援和世界主义自我的twitter。中华实用医学杂志,2015;39(5):489-494。[CrossRef
  103. Westmaas JL, McDonald BR, Portier KM。美国癌症协会癌症幸存者网络(CSN)吸烟和戒烟相关帖子的主题建模:对吸烟的癌症幸存者戒烟治疗的影响。尼古丁Tob Res 2017 Aug 01;19(8):952-959。[CrossRef] [Medline
  104. 吴鹏,于松,王东。开放学习环境下学习者兴趣挖掘的学习者话题模型。科学通报2018;21(2):192-204。
  105. 在世界阿尔茨海默氏症日,我们能从提到痴呆症的推文中了解到什么心理健康需求?J Am精神科护士协会2016年11月;22(6):498-503 [免费全文] [CrossRef] [Medline
  106. 詹艳,刘锐,李强,李瑞松,曾德东。电子烟用户生成内容的主题识别:基于多社交媒体平台的案例研究。J Med Internet Res 2017 Jan 20;19(1):e24 [免费全文] [CrossRef] [Medline
  107. 赵颖,张娟,吴敏。在社交媒体上寻找用户的声音:对Facebook上受自闭症影响用户在线支持小组的调查。国际环境与公共卫生2019年11月29日;16(23):4804 [免费全文] [CrossRef] [Medline
  108. Zheng P, Shahin S.直播推特辩论:推特如何反映和折射美国竞选季节的政治气候。通知公社社会2018年8月06日;23(3):337-357。[CrossRef
  109. 邹晨。基于主题建模的药品安全研究趋势分析。Expert Opin Drug saff 2018 Jun;17(6):629-636。[CrossRef] [Medline
  110. Ooms J. hunspell:高性能词干,标记器和拼写检查器。R包版本3。2020年12月9日。URL:https://CRAN.R-project.org/package=hunspell[2022-02-05]访问
  111. Arun R, Suresh V, Veni MC, Murthy N.关于寻找潜在狄利克雷分配的主题自然数:一些观察。见:知识发现和数据挖掘的进展。柏林,海德堡:施普林格;2010.
  112. 李文杰,李志强,李志强,等。基于模糊概念的信息检索方法研究。文献numérique 2014年4月30日;17(1):61-84。[CrossRef
  113. Airoldi EM, Bischof JM。改进和评估主题模型和其他文本模型。美国统计杂志2017年1月04日;111(516):1381-1403。[CrossRef
  114. 郑永华,李志强,李志强。分层狄利克雷过程。美国统计杂志2012年1月1日;101(476):1566-1581。[CrossRef
  115. 关于主题模型的估计和选择。第15届人工智能与统计国际会议论文集,2012年发表于:第15届人工智能与统计国际会议;2012年4月21日至23日;加那利群岛。
  116. 史提弗斯,格里菲思,概率主题模型。见:潜在语义分析手册。MJ马赫瓦:劳伦斯·埃尔鲍姆联合出版社;2007.
  117. topicmodels_learning。GitHub。URL:https://github.com/trinker/topicmodels_learning/blob/master/functions/optimal_k.R[2022-02-10]访问
  118. 曹军,夏涛,李娟,张勇,唐松。基于密度的自适应LDA模型选择方法。神经计算2009 Mar;72(7-9):1775-1781。[CrossRef
  119. AlSumait L, Barbará D, Gentle J, Domeniconi C. LDA生成模型的主题显著性排名。在:数据库中的机器学习和知识发现。柏林,海德堡:施普林格;2009.
  120. 鲍勇,陈晓明。基于文本风险披露的风险类型发现与量化研究。农学通报2014 6(6):1371-1391。[CrossRef
  121. Ford E, Shepherd S, Jones K, Hassan L.朝着健康研究社交媒体文本挖掘的伦理框架:一项系统综述。前数字健康2020年1月26日;2:592237 [免费全文] [CrossRef] [Medline
  122. 李志强,吴伟,李志强。呼吁在公共卫生研究中使用社交媒体数据进行人工智能应用时建立道德框架。通信代表2020年6月04日;46(6):169-173 [免费全文] [CrossRef] [Medline
  123. Bird S, Klein E, Loper E.用Python进行自然语言处理。美国加利福尼亚州塞瓦斯托波尔:O'Reilly Media;2009.
  124. 唐杰,阮旭,梅青,张敏。基于后验收缩分析的主题建模限制因素研究。第31届机器学习国际会议论文集第32卷。2014年发表于:第31届国际会议机器学习国际会议第32卷;2014年6月21日至26日;中国北京。
  125. 李志强,李志强。基于主题建模方法的短文本数据分析。Front Artif Intell 2020;3:42 [免费全文] [CrossRef] [Medline
  126. 梅赫罗特拉,谢磊,谢磊。基于推文池和自动标记的微博LDA主题模型改进。见:第36届国际ACM SIGIR信息检索研究与发展会议论文集。2013年发表于:SIGIR '13:第36届国际ACM SIGIR信息检索研究与开发会议;2013年7月28日- 8月1日;爱尔兰都柏林。
  127. 伊藤J,宋j,户田H,小池Y,大山S.基于LDA特征的推文可信度评估。收录于:第24届国际万维网大会论文集。2015年发表于:WWW '15:第24届国际万维网大会;2015年5月18日至22日;意大利佛罗伦萨。
  128. Sbalchiero S, Eder M.主题建模,长文本和最佳主题数量。一些问题和解决方法。Qual Quant 2020年2月17日;54(4):1095-1108。[CrossRef
  129. Denny MJ, Spirling A.无监督学习的文本预处理:为什么它很重要,什么时候它会误导,以及如何处理它。政治肛交2018年3月19日;26(2):168-189。[CrossRef
  130. 在文本分类中使用重词。技术报告IR-408,智能信息检索中心。URL:https://maroo.cs.umass.edu/getpdf.php?id=552[2022-02-10]访问
  131. 杨涛,李志刚,陈志强。历史报纸的主题建模。第五届ACL-HLT文化遗产、社会科学和人文语言技术研讨会论文集,2011年发表于:ACL-HLT文化遗产、社会科学和人文语言技术研讨会;2011年6月24日;波特兰,OR,美国。
  132. Schofield A, Mimno D.比较苹果和苹果:词干对主题模型的影响。Transact Assoc计算语言学2016年12月;4:287-300。[CrossRef
  133. 辛格J,古普塔V.文本词干技术的系统综述。Artif Intell Rev 2016年8月1日;48(2):157-217。[CrossRef
  134. 孙文杰,孙文杰,孙文杰。主题模型的平滑与推理研究。第25届人工智能不确定性会议论文集,2012年发表于:UAI '09: 25人工智能不确定性会议;2009年6月18日至21日;加拿大魁北克省蒙特利尔。
  135. 李国强,李国强。Dirichlet过程的变分方法。见:第21届机器学习国际会议论文集。2004年发表于:ICML '04:第21届机器学习国际会议论文集;2004年7月4日至8日;加拿大阿尔伯塔班夫。[CrossRef
  136. 张志刚,张志刚。离散选择大模型的变分推理。美国统计杂志2012年1月1日;105(489):324-335。[CrossRef
  137. 朱海燕,王志强,王志强。一种基于Dirichlet分配的语义分类算法。见:应用计算智能和数学方法。可汗:施普林格;2017.
  138. Agrawal A, Fu W, Menzies T.主题建模有什么问题?以及如何使用基于搜索的软件工程来修复它。通知软件技术2018年6月;98:74-88。[CrossRef
  139. Röder M, Both A, Hinneburg A.探索主题连贯测量的空间。在:第八届ACM网络搜索和数据挖掘国际会议论文集。2015年发表于:WSDM 2015:第八届ACM网络搜索和数据挖掘国际会议;2015年2月2日至6日;中国上海。[CrossRef
  140. 刘俊杰,刘文杰,刘文杰。机器阅读茶叶:自动评估主题连贯性和主题模型质量。载于:计算语言学协会第十四届欧洲分会会议论文集。2014年发表于:计算语言学协会第十四届欧洲分会会议;4月,2014;瑞典哥德堡。
  141. 王志强,王志强,王志强。主题模型的评价方法。第26届机器学习国际会议论文集,2009年发表于:ICML '09:第26届机器学习国际会议暨2007年归纳逻辑编程国际会议;2009年6月14日至18日;加拿大魁北克省蒙特利尔。[CrossRef
  142. pyLDAvis主页。pyLDAvis。URL:https://pyldavis.readthedocs.io/en/latest/readme.html[2022-02-19]访问
  143. 王晓明,王晓明。监督主题模型。见:神经信息处理系统进展20 (NIPS 2007)。2007年发表于:神经信息处理系统进展20 (NIPS 2007);2007;温哥华,不列颠哥伦比亚省。
  144. Jacobucci R, Ammerman BA, Tyler Wilcox K.使用基于文本的反应来提高我们对自杀风险的理解和预测。自杀生命威胁行为2021年2月24日;51(1):55-64。[CrossRef] [Medline
  145. 客户分析中潜在狄利克雷分配方法的回顾。信息科学学报2018 12月31日;7(2):152-165。[CrossRef


LDA:潜在狄利克雷分配
锤:机器学习语言工具包
NLP:自然语言处理
棱镜:系统评价和元分析的首选报告项目
PRISMA-ScR:系统评价和元分析扩展范围评价的首选报告项目
VB:变分贝叶斯


R·库卡夫卡编辑;提交26.08.21;D Mimno, D Low, J Plasek同行评审;对作者24.10.21的评论;修订版收到18.02.22;接受30.05.22;发表08.11.22

版权

©Lauryn J Hagg, Stephanie S Merkouris, Gypsy A O 'Dea, Lauren M Francis, Christopher J Greenwood, Matthew Fuller-Tyszkiewicz, Elizabeth M Westrupp, Jacqui A Macdonald, George J Youssef。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com), 08.11.2022。

这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map