发表在24卷,第10位(2022): 10月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/37258,首次出版
COVID-19大流行期间与性传播疾病相关的Reddit帖子:潜在的狄利克雷分配分析

COVID-19大流行期间与性传播疾病相关的Reddit帖子:潜在的狄利克雷分配分析

COVID-19大流行期间与性传播疾病相关的Reddit帖子:潜在的狄利克雷分配分析

原始论文

1美国伊利诺斯州芝加哥市安与罗伯特·h·卢里儿童医院青少年和青年医学Potocsnak家庭科

2美国伊利诺斯州芝加哥西北大学范伯格医学院

3.伊利诺伊大学芝加哥分校公共卫生学院,美国伊利诺伊州芝加哥市

4拉什大学,芝加哥,伊利诺伊州,美国

这些作者的贡献相同

通讯作者:

艾米·K·约翰逊,城市垃圾,博士

Potocsnak家庭部青少年和青年医学

芝加哥安和罗伯特·h·卢里儿童医院

225 E芝加哥

161箱

芝加哥,伊利诺伊州,60611

美国

电话:1 3122277733

电子邮件:akjohnson@luriechildrens.org


背景:性传播疾病很常见,而且代价高昂,每年影响约五分之一的人。Reddit是世界上第六大最常用的网站,是一个用户生成的社交媒体讨论平台,它可能有助于监测有关性病症状和接触性病的讨论。

摘要目的:这项研究试图定义和确定在2019冠状病毒病大流行期间Reddit上与性病相关的讨论的模式和见解。

方法:我们提取了2019年3月至2021年7月期间Reddit上的帖子。我们使用了一种主题建模方法,Latent Dirichlet Allocation,来确定Reddit帖子中讨论的最常见的主题。然后,我们使用词云、定性主题标记和样条回归来表征观察到的主题的内容和分布。

结果:我们抽取的员额总数为24,311个。潜狄利克雷分配主题模型显示,每个时间段有8个主题,我们获得了高一致性值(covid -19前=0.41,接种前=0.42,接种后=0.44)。虽然大多数主题类别随着时间的推移保持不变,但主题的相对比例发生了变化,并出现了新的主题。样条回归显示,一些关键术语与covid -19前和covid -19后时期重合的帖子百分比存在差异,而其他关键术语在整个研究期间是一致的。

结论:我们的研究使用Reddit是一种新方法,可以深入了解性病症状、潜在暴露、检测决定、常见问题和行为模式(例如,在封锁期间)。例如,由于遗漏病例,性病筛查的减少可能会导致观察到的负面健康结果,这也会影响后续传播。由于Reddit的使用是匿名的,用户可以比临床接触更详细、更自由地讨论敏感话题。来自匿名Reddit帖子的数据可以用来加强对疾病分布的了解,以及对有针对性的外展或筛查项目的需求。本研究为建立Reddit提供了可行性和实用性的证据,以增强对性行为、性病经历的理解,并与公众进行必要的健康参与。

中国医学信息学报,2010;24(10):391 - 391

doi: 10.2196/37258

关键字



2019年,美国报告了250多万例衣原体、淋病和梅毒病例,性传播疾病(STD)病例连续第六年达到历史最高水平。1]。性传播疾病很常见,而且代价高昂,每年影响约五分之一的人,每年造成160亿美元的卫生保健费用[2]。美国疾病控制和预防中心的新数据表明,在2019冠状病毒病大流行开始期间(2020年3月至4月),报告的性病病例比2019年同期大幅下降。那时,与2019年相比,目前的性病病例累积总数中,原发性和继发性梅毒减少了1%,淋病减少了7%,衣原体减少了14%。3.]。尽管2020年上半年的病例报告较低,但病例在今年晚些时候出现反弹,并有望超过2019年的总数。3.]。

在COVID-19大流行的早期阶段,可能有多种因素导致报告的性病病例减少。限制亲自到诊所就诊导致对无症状患者的筛查减少。疾病控制和预防中心为性健康服务提供了指导,根据症状和风险对患者进行优先排序,并将常规筛查推迟到紧急响应之后[4]。许多卫生部门工作人员从性病跟踪重新部署到COVID-19接触者追踪和控制[5];57%的疾病干预专家报告说,他们从性病服务部门被重新分配到COVID-19服务部门,这限制了提供性病预防、筛查和治疗的人力资源。5]。最后,在大流行的各个阶段发布了国家居家令,旨在减少COVID-19的传播,但也可能通过减少家庭以外的性行为、限制新的性伴侣的数量和限制性网络来减少性病传播。6]。

最近的估计表明,80%的互联网用户报告在网上访问健康信息[7]。由于互联网可在任何时间以匿名方式使用,使用者可秘密地寻求性病资讯和资源,这可促进更频繁和公开地披露症状和接触性病的经历[8]。Reddit是世界上第六大使用人数最多的网站,它是一个用户生成的社交媒体讨论平台,可以用来监测有关性病症状和接触性病的讨论[9]。Reddit被认为是最真实的网络空间之一,因为它有针对“机器人账户”的保护措施,并且在不需要人口统计或身份信息的障碍下进行丰富的交流。1011]。先前的健康研究已经确定,Reddit是一个可以接受的进行科学调查的平台[101213]。专门讨论性健康和性传播疾病的特定主题Reddit讨论(子Reddit)可能为COVID-19大流行期间的暴露、症状、检测和性行为提供有价值的见解。之前对Reddit讨论内容进行了不同疾病和健康状况的分析,包括戒烟、特应性皮炎、自杀和怀孕[10-13]。为了从Reddit讨论内容中获得有意义和可复制的信息,大容量文本数据的复杂性需要以无偏的方式实现数字结构。潜狄利克雷分配(Latent Dirichlet Allocation, LDA)是一种自然语言处理方法,它识别文本中的常见单词和主题,并允许专家评估发现中的共同主题[14]。本研究试图在COVID-19大流行期间通过LDA定义和识别Reddit上与性病相关的讨论的模式和见解。我们的团队假设,与COVID-19大流行期间的行为变化相比,在COVID-19大流行期间,Reddit上与性病相关的帖子数量和主题变化会增加。


伦理批准

研究方案由Ann & Robert H. Lurie儿童医院机构审查委员会(IRB#2022-4964)确定为非人类受试者研究,因为使用了公开可用的、不可识别的数据。

数据提取

这项研究使用了网络论坛Reddit上的公开数据。Reddit是一个匿名的社交媒体网站,由用户生成并基于讨论。该网站被组织成内容特定的“子reddit”。这些帖子是从reddit的两个子版块中提取出来的:“性病”(r/ STD)和“性健康”(r/性健康)。然而,由于r/性健康的帖子很少,我们在分析中只使用了reddit的r/STD版块。的pushshiftReddit应用程序编程接口用于搜索Reddit评论和提交[15]。从2019年3月到2021年7月,使用Reddit的官方应用程序编程接口(Reddit 2021)收集r/STD和r/性健康的帖子和相关元数据(日期),共产生24,311篇帖子[10]。分析中只包括英语帖子。图1显示从分析中使用的时间框架中提取的每个子reddit的帖子数量。新冠疫情前为2019年3月至2020年2月(8421个);“新冠肺炎,预防接种”定义为2020年4月至12月期间(8169篇);“新冠肺炎,疫苗接种后”定义为2021年1月至7月期间(6908个岗位);拐点期为2020年3月(813个岗位)。根据目前的大多数文献,我们合理地假设性传播感染(STI)病例没有季节性[1617]。

图1所示。2019年3月至2021年7月研究期间员额数量的分配,共计24 311个员额。
查看此图

数据预处理

数据预处理步骤按照自然语言处理中的常用方法进行[18]。预处理消除了数据中的一些不一致,并将内容减少为可用的文本。总共从文本文件的每行完成4个预处理步骤,分别提取和清理每个标题、正文和注释:(1)去除url,(2)标记化,(3)去除标点和停止词,(4)词序化[19-21]。

统计分析

LDA主题建模

我们使用一种日益流行的主题建模方法LDA进行文本分析,以确定Reddit帖子中讨论的最常见主题[22]。LDA是一种统计生成模型,可以在大量文本文档(我们研究中的帖子)中发现潜在的语义主题,其中每个文档都是由潜在主题的随机混合产生的,并且每个主题都具有单词分布的特征。该模型在图214]。主题和单词都分别具有Dirichlet先验分布,其中α是主题上每个文档的Dirichlet先验参数,β是单词上每个单词的Dirichlet先验参数。θ文档的主题分布是否为φk是主题k和Z的单词分布纳米是第m个文档中第n个单词的主题。W纳米是第m个文档中实际的第n个单词。考虑到LDA的结构性质,LDA是一个多层层次贝叶斯模型。

为了进行LDA,我们将语料库转换为文档术语矩阵,其中包括代表原始帖子的行和代表语料库中的每个单词的列。文档术语矩阵中的每个单元格都包含特定单词(由列定义)在特定帖子(由行定义)中出现的频率。从这个文档术语矩阵中,整个语料库被表示出来,包括通常在同一篇文章中一起出现的单词模式。我们使用gensim库执行LDA模型估计,该模型确定了在性健康子版块的帖子中频繁出现的单词集[19]。

然后LDA模型输出一个主题-文档矩阵,表示每个文档中每个主题的相对重要性。将模型应用于2019年3月至2020年2月的covid -19前岗位(8421个)、2020年4月至12月的预防接种岗位(8169个)和2021年1月至7月的预防接种后岗位(6908个);图3)。对于主题建模,我们排除了拐点期(2020年3月;813的帖子)。

LDA的一个关键过程是估计最优主题数。为了估计主题的数量,我们使用了主题连贯指数,这是人类可解释性的最一致的衡量标准[23]。主题连贯测量通过测量主题中高分单词之间的语义相似度来对单个主题进行评分。这些度量有助于区分语义上可解释的主题和统计推断的工件主题。主题连贯得分越高,模型质量越好。为了避免过拟合和稀疏性,提高推理能力,我们选择主题的数量为8。题目由2名性病流行病学和控制专家(AKJ和SDM)独立评审和标记。一旦独立审查完成,就会讨论标签,直到达成共识,最终达成100%的一致。

图2。平板符号的潜在狄利克雷分配(改编自Blei等人[14])。
查看此图
图3。多个时间段的潜在狄利克雷分配主题建模:(A) covid -19前,(B)预防接种,(C)接种后。
查看此图
词云

词云是一种文本可视化技术,它关注单词的频率,并将单词的大小和不透明度与其在文本主体中的频率联系起来。输出通常是一个图像,该图像以不同的大小和相对于单词频率的不透明度描绘不同的单词。为包含以下术语的帖子创建了单独的框架:衣原体、淋病、梅毒、淋病/排泄/排尿困难和梅毒/下疳/溃疡。数据预处理完成后,每个字符串被传递给WordCloud函数来生成单词云[24]。为WordCloud可视化,我们选择了3个病原学术语(衣原体、淋病和梅毒)和3个最常见的主题搜索术语:疱疹/单纯疱疹病毒(HSV)/人乳头瘤病毒(HPV;作为一个单独的主题,由于相关性),诊断/测试和STI/STD。通过搜索主题中的每个词形成每个单独的词云。

样条回归图

样条回归模型已广泛应用于临床研究。现代生物统计学利用样条回归来模拟平滑函数,如时间序列、累积效应和频率分布,并用于生存分析。样条回归克服了线性和多项式回归算法的困难。在线性回归中,整个数据集只考虑一次。多项式回归可以在非线性关系中表达特定数量的曲率,但在样条回归(一种非参数回归)中,数据集被划分为bin。每一组数据都配有单独的模型。数据被分成箱子的点被称为结点。简单来说,样条是分段多项式函数。为了确定整个研究期间(2019年3月至2021年7月)特定月份与某些搜索词相关的帖子比例相对于帖子总数的变化规律,我们创建了一个样条图。pre-COVID-19; inflection; COVID-19, prevaccination; and COVID-19, postvaccination periods were highlighted on the plots for a better understanding of search trends across time. The plots were created usingggplot2R统计软件(R Foundation for statistical Computing) [25]。对于样条回归,我们使用三次b样条基,在观测数据值的中位数处放置2个边界结和1个内结。与单词云一样,我们创建了3个基于病因的图(衣原体、淋病和梅毒)和3个基于常见主题的图(诊断/测试/测试、疱疹/HSV/HPV和淋病/排尿困难/排泄)。Perperoglou等人对使用R软件进行样条回归的详细回顾[26]。


Reddit的帖子

在2.4311万个帖子中,疫情前每月平均发布701.75个帖子;907.67在COVID-19预防接种期间;在COVID-19疫苗接种后期间和863.50,但每个月和每个时间段内都有很大的变化。在2019冠状病毒病期间,每个时期每月的平均帖子数量显示了subreddit数量的增长。图4按观察期显示每月的帖子数。2019年5月为210个职位,2021年8月为169个职位,这是有记录以来最低的两个职位,之前两个月都有大量职位。

LDA主题建模显示,每个时间段有8个主题,我们获得了高一致性值(covid -19前=0.41,接种前=0.42,接种后=0.44)。图5显示了在使用LDA提取的8个主题中,covid -19前、疫苗接种前和疫苗接种后“STD”和“性健康”子版块的主题帖子分布。虽然大多数主题类别随着时间的推移保持不变,但主题的相对比例发生了变化,并出现了新的主题。在covid -19之前的时期,出现了一个笼统的“性病风险”类别,没有具体的病因,也没有在与该主题相关的前10个术语中提及“阴性”和“暴露”等词的症状(表1)。“HPV”和“疣”这两个词在covid -19之前没有出现。关于疱疹症状(例如,“爆发”)和诊断(例如,检测和阳性或阴性)以及在接种后时期引入“HSV”的特定语言,而在先前时期与疱疹一起使用的词汇主要与图像和非特异性症状(例如,“发红”和“肿块”)有关;表2)。此外,尽管“疱疹图像”主题类别包括非特异性症状(例如,“肿块”和“发红”),但在2019冠状病毒病期间,这种分类出现了分歧,出现了阴茎“肿块”的主题类别,但没有提到疱疹。在接种疫苗后,“口交/性病问题”的话题包括“阴茎”一词;虽然这个话题在另外两个时期也存在,但它并没有将“阴茎”列入十大词汇(表3)。

图4。每月Reddit帖子的平均数量,按时间段计算。
查看此图
图5。职位分配:分配给每个主题的文件的比例。STD:性传播疾病;人乳头瘤病毒。
查看此图
表1。2019冠状病毒病前主题和前10个术语,这些术语来自于从3个不同时间段创建的潜在狄利克雷分配模型:2019冠状病毒病前、疫苗接种前和疫苗接种后。
主题 十大词条
检测,无具体病因 Day, test, week, negative, feel, take, pain, still, exposure, also
疱疹图片 com, imgur,阴茎,性,性病一个,帮助,真的,天,避孕套,疱疹
口交/性病问题 性,口交,当天,之前,性病,知道,避孕套,无保护,时间,阴茎
阴茎“撞” Com, imgur, bump, look, red, penis,疱疹,week, day, spot
诊断/医生(结果) 化验,说,回来,医生,看,肝炎,来,疱疹,咽喉,阴性
诊断/衣原体 测试,性,衣原体,周,月,症状,来,回来,时间,伴侣

一个STD:性传播疾病。

表2。预防接种主题和前10个术语来源于从3个不同时间段创建的潜在狄利克雷分配模型:covid -19前、预防接种和疫苗接种后。
主题 十大词条
口交/性病一个质疑 性,口交,来,周,测试,日,知道,回来,性病,时间
人乳头状瘤病毒b/疣治疗,疱疹问题 测试,性别,HPV,时间,年,避孕套,月,前,最后,说
诊断/衣原体 检查,服用,症状,日,周,知道,说,背部,衣原体,医生
检测,无明确病因图像 日,月,感觉,开始,性,医生,疼痛,服用,测试,东西
诊断(结果) 测试,阳性,阴性,性别,衣原体,结果,疱疹,伴侣,日期,月份
阴茎“肿块”症状(无图片,无疱疹) Com, imgur, bump, help, penis, look, know,丘疹,hurt, think
疱疹图片 Imgur, com,疱疹,肿块,红色,阴茎,帮助,天,看,月

一个STD:性传播疾病。

b人乳头瘤病毒。

表3。疫苗接种后的主题和前10个术语来自于从三个不同时间段创建的潜在狄利克雷分配模型:covid -19前、疫苗接种前和疫苗接种后。
主题 十大词条
疱疹症状/诊断 测试,疱疹,HSV一个性,知道,爆发,阴性,阳性,生殖器,风险
疱疹图片 Com, imgur,疱疹,性,看,帮助,移除,知道,口腔,碰撞
人乳头状瘤病毒b/疣治疗,疱疹问题 疣,疱疹,ibb_co, com, www_reddit,评论,移除,HPV,月,皮肤
诊断/衣原体 日,月,感觉,开始,性,医生,疼痛,服用,测试,东西
检测,无具体病因 测试,移除,性病,日,性,周,阴性,帮助,时间,口腔
阴茎“肿块”症状(无图片,无疱疹) 阴茎,肿块,性,白天,知道,性病c,感觉,看,避孕套,时间
口交/性病问题 性,知道,测试,周,说,想,时间,症状,口腔,告诉
阴茎“肿块”症状 Bump, com, look, imgur, week, ago, day, penis, red, notice

一个单纯疱疹病毒。

b人乳头瘤病毒。

cSTD:性传播疾病。

词云

尽管上面列出的主题模型中的术语具有信息性,但我们使用WordCloud可视化,以更好地理解这些词的相对重要性,在每个主题的基础上,病因和研究期间的一般术语。字体较大的术语在主题中出现的频率更高,而字体较小的术语出现的频率较低。图6A-F显示6个特定主题的词云;例如,图6E显示与疱疹/HSV/HPV聚集在一起的术语,如“imgur”(表示上传了一张图片)、“肿块”、“疼痛”和“爆发”。

图6。关键词词云:(A)梅毒,(B)诊断/检测,(C) STI/STD, (D)淋病,(E)疱疹/HSV/HPV, (F)衣原体。人乳头瘤病毒;单纯疱疹病毒;STD:性传播疾病;STI:性传播感染。
查看此图

样条回归

的一系列样条回归表明图7在整个研究期间,按关键术语划分的员额百分比有一些变化。尽管一些回归在整个研究期间是“平坦的”(即均匀的),但其他回归显示出与COVID-19期间一致的变异性。例如,图7F显示带有关键术语“诊断/测试/测试”的帖子的回归。不同时期的员额百分比存在一定差异,COVID-19前和疫苗接种后的员额数量相似,疫苗接种前的员额百分比较低。我们对6个关键词(表4)。疱疹和梅毒的发病率差异有统计学意义,新冠病毒感染后的发病率高于新冠病毒感染前的发病率。

图7。从2019年3月到2021年7月,包含特定关键词的Reddit帖子的百分比:(A)淋病,(B)衣原体,(C)梅毒,(D)淋病/排尿困难/分泌物,(E)疱疹/HSV/HPV, (F)诊断/测试/测试。人乳头瘤病毒;单纯疱疹病毒。
查看此图
表4。对比新冠肺炎疫情前和疫情后发帖频率的差异。
关键术语 Pre-COVID-19、频率 Post-COVID-19、频率 P价值
衣原体 35.27 43.47 。08
淋病 14.25 15.56 .64点
疱疹 118.75 160.47 . 01
梅毒 12.92 21.23 .005
测试/诊断 78 97.65 。08
淋病/排尿困难 25.33 30.47 陈霞

主要研究结果

我们的研究提供的证据表明,在COVID-19大流行期间,性病相关帖子的数量有所增加,并且从COVID-19前到COVID-19预防接种和COVID-19疫苗接种后期间,性病相关子reddit上发布的主题发生了变化。讨论主题的变化可能与新冠肺炎相关的封锁、限制面对面聚会和关闭非必要医疗服务导致的行为变化有关[27]。尽管处于封锁状态,人们仍然会有性行为(例如,不戴避孕套的性行为),这将使他们感染性病。然而,随着性病检测和治疗的减少,这些病例并没有反映在监测数字中。重要的是要了解社区的性健康经历,包括症状、问题和行为模式,以便计划筛查和治疗方案。

我们的研究结果发现,“性病风险”作为一个话题和一般的“风险”术语只出现在COVID-19前的时间段,而“HPV”和“疣”只出现在COVID-19,预防接种和接种后的时期。在covid -19之前的时期,用户发布了与一般性病风险和性行为相关的帖子,寻求建议和支持,以了解特定性行为或伴侣选择的性病暴露风险。在两次COVID-19期间,这种一般性的“性病风险”话题不再出现,表明内容的差异-从一般性讨论转向基于特定症状或病因的帖子。在两次COVID-19期间,HPV/疣成为一个话题。这一发现可能是由于获得诊断服务的机会有限而增加了自我诊断症状的努力。尽管在最初的封锁期间,报告的性病病例有所下降,但2020年报告的病例迅速反弹,并超过了2019年的病例数[3.]。

我们的研究使用Reddit是一种新方法,可以深入了解性病症状、潜在暴露、检测决定、常见问题和行为模式(例如,在封锁期间)。例如,由于遗漏病例,性病筛查的减少可能会导致观察到的负面健康结果,这也会影响后续传播。COVID-19期间性传播疾病检测和治疗机会的减少加剧了现有的性保健障碍,包括污名化、判断、成本和可及性[28]。重要的是,通过远程医疗和家庭检测选项,或通过实施COVID-19缓解程序(筛查、掩蔽和保持社交距离)的诊所服务,维持性病服务。

由于Reddit的使用是匿名的,用户可以比临床接触更详细、更自由地讨论敏感话题。性健康版块的帖子平均每月发表700至900篇;因此,Reddit是一个经常使用的信息来源,可以指导人们理解患者的行为、症状和常见问题。性保健工作者应考虑与Reddit或其他社交媒体合作,利用这些平台的潜在好处(匿名、免费和快速反应),同时减轻伤害(错误的诊断和错误的建议)[29]。

限制

在解释研究结果时应考虑到以下局限性。LDA是一种无监督的方法,没有黄金标准可以比较。然而,我们使用2个独立的编码器对LDA输出进行定性分析,并在手动主题标签上达成100%的共识。由于我们使用的帖子来自一个开放的网络论坛,我们无法验证用户;然而,人们几乎没有动机不诚实或在与健康相关的版块上发布虚假信息。与美国人口相比,Reddit的用户往往更年轻,更有可能是男性;然而,其他人口趋势(如种族/民族)反映了美国的分布[30.]。由于男性和黑人或非洲裔美国人和拉丁裔社区在性传播感染病例数据中的代表性往往不足,因此必须通过其他数据来源了解他们的性健康需求和经历[30.]。最后,Reddit用户的确切位置是未知的。虽然我们能够提取仅限于美国和英语的帖子,但我们无法按具体州或地方司法管辖区确定帖子数量。

结论

本研究表明,Reddit在增强公众对性行为、性病经历和必要的健康参与的理解方面具有可行性和实用性。重要的是要优先努力通过监测、筛查和治疗减少性传播疾病的传播和影响。2019冠状病毒病大流行和随后的居家令突出表明,迫切需要增加获得性病诊所和性病信息的机会。来自匿名Reddit帖子的数据可以用来加强对疾病分布的了解,以及对有针对性的外展或筛查项目的需求。

利益冲突

没有宣布。

  1. 2019年性传播疾病监测。疾病控制和预防中心。URL:https://www.cdc.gov/std/statistics/2019/[2022-10-07]访问
  2. 性传播感染在美国的流行、发病率和成本估算。疾病控制和预防中心,2021年2月18日。URL:https://www.cdc.gov/std/statistics/prevalence-incidence-cost-2020.htm[2022-10-07]访问
  3. Pagaoa M, Grey J, Torrone E, Kreisel K, Stenger M, Weinstock H. 2020年1月至12月美国COVID-19大流行期间全国应报告的性传播疾病病例报告趋势。性别转换疾病2021 Oct 01;48(10):798-804 [免费全文] [CrossRef] [Medline
  4. 李建军,李建军,李建军,等。美国疾病预防控制中心。2020年4月6日。URL:https://www.cdc.gov/nchhstp/dear_colleague/2020/dcl-040620-std-treatment-options.html[2022-10-07]访问
  5. COVID-19和STD领域的状态。2020年5月12日。URL:https://www.ncsddc.org/resource/covid-19-and-the-state-of-the-std-field/[2022-10-07]访问
  6. Rushmore J, Copen CE, Schneider J, Lamuda PS, Taylor BG, Kirkcaldy RD,等。2020年3月至2021年3月COVID-19大流行期间美国的伴侣寻找和性行为性变性杂志2021年11月12日;49(4):e57-e60。[CrossRef
  7. 杜根M.健康在线2013。皮尤研究中心,2013年1月15日。URL:https://www.pewresearch.org/internet/2013/01/15/health-online-2013/[2022-10-07]访问
  8. Johnson AK, Mikati T, Mehta SD。研究与性传播疾病相关的互联网搜索主题,以提高使用互联网搜索术语进行疾病预测的特异性。科学通报2016年11月9日;6:36 . 503 [免费全文] [CrossRef] [Medline
  9. 安德森柯。随便问我:什么是Reddit?图书馆科技快讯2015年07月06日;32(5):8-11。[CrossRef
  10. 西尔伯曼WR,唱片总监。我们把它贴在Reddit上:探索Reddit在针对大学生群体的健康干预方面的潜力。[J]中华卫生杂志2011;26(6):381-390。[CrossRef] [Medline
  11. Kurtti A, Cohen M, jagegdo J. Reddit分析揭示特应性皮炎患者dupilumab的问题。中国皮肤医学杂志(英文版);21(3):292-294。[CrossRef] [Medline
  12. 母亲在怀孕期间的担忧:Reddit帖子的内容分析。[J]中华教育杂志,2021;30(2):98-107 [J]免费全文] [CrossRef] [Medline
  13. Mason A, Jang K, Morley K, Scarf D, Collings SC, Riordan BC。Reddit用户关于不坚持自杀企图的原因的观点的内容分析。网络心理行为与社会网络学报,2021;24(10):642-647。[CrossRef] [Medline
  14. 李建平,吴彦宏,李建平。潜在dirichlet分配。[J]中国机械工程学报,2003;3:993- 922 [J]免费全文
  15. Baumgartner J, Zannettou S, Keegan B, Squire M, Blackburn J.推移Reddit数据集。出席:第十四届国际AAAI网络和社交媒体会议(ICWSM-20);2019年6月8日至11日;亚特兰大,GA p. 830-839https://ojs.aaai.org/index.php/ICWSM/article/view/7347
  16. 刘建军,刘建军,刘建军,刘建军。急诊科的性传播感染与假期或学校放假无关。[J]中华医学杂志,2011;22(5):642-644。[CrossRef] [Medline
  17. Shah AP, Smolensky MH, Burau KD, Cech IM, Lai D.美国性传播疾病年度模式的最新变化。中国生物医学工程学报(英文版);2009;24(5):947-960。[CrossRef] [Medline
  18. 刘建军,刘建军。基于文本挖掘的预处理技术研究进展。国际计算机科学与通信网络学报2015;5(1):7-16 [j]免费全文
  19. Řehůřek R, Sojka P. Gensim-python框架的向量空间建模。捷克马萨里克大学信息系NLP中心,布尔诺,2011;3(2)。
  20. 刘志强,刘志强。自然语言工具集。发表于:ETMTNLP '02: ACL-02自然语言处理和计算语言学教学的有效工具和方法研讨会;2002年7月7日;费城,宾州,第63-70页。[CrossRef
  21. 李建军,李建军。基于深度卷积神经网络的自然语言理解。未发布的软件应用程序。宽大的。2017.URL:https://spacy.io[2022-10-07]访问
  22. 王超,白德明。基于协同主题建模的科技文章推荐。2011年8月21日在第17届ACM SIGKDD知识发现与数据挖掘国际会议上发表;2011年8月21日至24日;圣地亚哥,加利福尼亚州第448-456页。[CrossRef
  23. Röder M, Both A, Hinneburg A.话题连贯测度的空间探索。发表于:WSDM '15:第八届ACM网络搜索和数据挖掘国际会议;2015年2月2-6日;上海,中国,p. 399-408。[CrossRef
  24. 穆勒A. wordcloud 1.8.2.2;Python包索引。2013。URL:https://pypi.python.org/pypi/wordcloud[查阅日期:20121-11-01][WebCite缓存
  25. Wickham H. ggplot2:数据分析的优雅图形。瑞士Cham:施普林格;2016.
  26. 张建军,张建军,张建军,等。基于样条函数的生物力学分析[j] .中国生物医学工程学报,2016,31 (1):441 - 446 [j]免费全文] [CrossRef] [Medline
  27. Nagendra G, Carnevale C, Neu N, Cohall A, Zucker J. COVID-19大流行期间性健康服务的潜在影响和可得性。性别转换2020七月;47(7):434-436 [j]免费全文] [CrossRef] [Medline
  28. 陶杰,张建军,张建军,张建军,等。COVID-19大流行对性传播感染门诊就诊的影响中国生物医学工程学报(英文版);48(1):557 - 557 [j]免费全文] [CrossRef] [Medline
  29. noble AL, Leas EC, Althouse BM, Dredze M, Longhurst CA, Smith DM等。在社交媒体平台上请求诊断性传播疾病。2019年11月5日;322(17):1712-1713 [j]免费全文] [CrossRef] [Medline
  30. Reddit的人口统计数据:谁在使用这个网站?2021年4月6日URL:https://www.alphr.com/demographics-reddit/#:~:text=According%20to%20data%20collected%20in,percent%20were%2065%20or%20older[2021-11-01]访问


人乳头状瘤病毒:人类乳头状瘤病毒
HSV:单纯疱疹病毒
LDA:潜在狄利克雷分配
STD:性传播疾病
STI:性传播感染


C . Basch编辑;提交12.02.22;由SF Tsao, A Rovetta同行评审;对作者的评论31.07.22;修订版本收到01.09.22;接受20.09.22;发表31.10.22

版权

©Amy K Johnson, Runa Bhaumik, Debarghya Nandi, Abhishikta Roy, Supriya D Mehta。原载于医学互联网研究杂志(//www.mybigtv.com), 2022年10月31日。

这是一篇在知识共享署名许可(https://creativecommons.org/licenses/by/4.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。


Baidu
map