发表在7卷第11名(2021): 11月

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/27385,首次出版
使用谷歌趋势来告知同性恋、双性恋和其他与男性发生性行为的男性的人口规模估计和空间分布:概念证明研究

使用谷歌趋势来告知同性恋、双性恋和其他与男性发生性行为的男性的人口规模估计和空间分布:概念证明研究

使用谷歌趋势来告知同性恋、双性恋和其他与男性发生性行为的男性的人口规模估计和空间分布:概念证明研究

原始论文

1西蒙弗雷泽大学健康科学学院,加拿大不列颠哥伦比亚省本纳比

2加拿大卑诗省维多利亚维多利亚大学公共卫生和社会政策学院人类与社会发展学院

通讯作者:

Kiffer G Card博士

西蒙弗雷泽大学健康科学学院

大学路8888号

伯纳比,BC省,V5A 1S6

加拿大

电话:1 2502131743

电子邮件:kiffercard@gmail.com


背景:我们必须对数据源进行三角测量,以最好地了解边缘人群的空间分布和人口规模,使公共卫生领导人能够满足特定人群的需求。现有的种群规模估计技术是困难和有限的。

摘要目的:我们试图确定一种被动监测策略,利用互联网和社交媒体来增强、验证和三角测量同性恋、双性恋和其他男男性行为者(gbMSM)的人口规模估计。

方法:我们探索了谷歌趋势平台,以近似估计gbMSM人口分布的空间异质性。这是通过比较搜索词“同性恋色情片”和搜索词“色情片”的流行程度来完成的。

结果:我们的结果表明,大多数城市的gbMSM人口规模在其总人口的2%至4%之间,相对于农村或郊区,大型城市中心的估估更高。与其他方法相比,这几乎是人口规模估计的两倍,其他方法通常发现总人口中有1%到2%是gbMSM。我们注意到,我们的方法受到了加拿大互联网使用覆盖面不平等以及性别和性取向使用色情片频率差异的限制。

结论:我们认为,对于许多公共卫生规划目的而言,谷歌趋势估计值可以为互联网普及率高的地区的gbsm人口规模提供适当的城市级估计值,并且不需要精确或狭窄的人口规模估计值。此外,谷歌趋势平台可以在不到一分钟的时间内免费完成,相对于更精确(和复杂)的估计,这使得它非常及时和具有成本效益。我们还讨论了进一步验证这种方法的未来步骤。

JMIR公共卫生监测2021;7(11):e27385

doi: 10.2196/27385

关键字



了解边缘人群的空间分布和人口规模可以使公共卫生领导人倡导特定人群的需求,规划和实施相关的治疗和预防项目,并评估针对这些群体的干预措施对人口的影响[1].如果我们要向公共卫生从业者提供有用的信息,就需要多个数据源对这些估计值进行三角测量。

同性恋、双性恋和其他与男性发生性行为的男性(gbMSM)是一个无法获得采样帧数据的人群。因此,对这一群体进行群体规模估计研究是很常见的。事实上,全球已经进行了100多项gbMSM人口规模估计研究,每一项研究都旨在提供精确、准确和特定区域的估计[2].这些研究利用了一系列人口规模估计方法(例如,人口普查和枚举、乘数、捕获-再捕获、人口调查、网络扩大、人群智慧),认识到任何给定的方法都依赖于难以满足或未经验证的理论假设或复杂而困难的实施策略[1].然而,在某一特定区域,各种方法往往会趋同于相似的估计。例如,Rich和他的同事们通过加拿大社区健康调查、艾滋病毒检测服务数据、乘数法(即从具有代表性的特定人群数据集中使用服务的流行率数据并乘以使用服务的人数)和“人群智慧”法(即让人们猜测)估计了大温哥华地区gbMSM人群的规模。他们发现,所有估计值的中位数代表大温哥华地区人口普查男性成年人口的2.9%,四分位数范围为1.1%-4.5% [3.].

不管这些估计值是否趋于一致,即使在加拿大这样一个研究基础设施健全的国家,也很难做出准确反映所有地区(特别是城市和城镇等分区域)gbsm人口规模的估计值。这在很大程度上是由于缺乏人口普查数据,以及缺乏包括性取向测量在内的代表性样本。因此,虽然已知gbMSM的空间分布是异质性的,特别是在农村和城市位置[4-6],要确定加拿大许多地区的人口规模是非常困难的。例如,不列颠哥伦比亚省的太平洋艾滋病网络估计,在全省范围内,gbMSM的人口比例为2.6%(占男性总人口),在温哥华沿海卫生区(即最城市化的地区)为5.3%,而在所有其他卫生区都不到2% [7].目前尚不清楚这些差异是由于调查回复率、服务利用率的差异,还是由于农村gbMSM中不同的健康需求和更大的匿名愿望而引起的其他一些混杂因素。毫无疑问,不同的数据来源有望捕获不同的人群,而且使用的许多方法(例如,临床样本)不一定能将个体与特定的地理次区域联系起来。

被动监测策略,如社交媒体或基于互联网的监测项目,可以通过解决抽样偏差问题来帮助验证现有方法[89].向这些被动方法的移动可能使样本量估计过程更容易。这种方法将与谷歌Flu等工作相一致,后者使用谷歌搜索查询来预测流感爆发和住院情况[10].同样,“食品安全”项目也利用推特数据来识别和回应食物中毒事件[11].显然,社交媒体和互联网搜索数据的使用具有公共卫生效用,因此可用于帮助估计加拿大各城市gbsm的空间分布和人口规模。


2020年10月26日,公开谷歌趋势[12,基于2015年1月1日至2020年1月1日之间的互联网搜索行为,被用来估计“同性恋色情片”(不包括引号)相对于“色情片”搜索的百分比。由此产生的数据提供了每个给定术语的相对搜索比例。因此,数据控制人口。谷歌趋势数据还省略了异常值(即在短时间内搜索同一术语的个人)[13].因此,这些值被解释为同性恋色情片搜索的流行程度,我们建议将其作为一个简单的代理指标,作为如何利用谷歌趋势数据来估计gbMSM分布的概念证明。当然,我们承认,只有男性才会搜索色情片,而且搜索色情片的频率可能因地域和性取向而异。考虑到男性和gbsm,特别是,可能更有可能消费色情片,直男和直女也可能搜索同性恋色情片,我们认为这一指标可能被解释为高估了gbsm在任何特定地区的流行程度。1415].此外,生活在农村地区的gbsm可能更有可能消费色情作品(可能是因为接触性伴侣的机会减少了[16])。考虑到该指标的局限性,提取了可用城市的分区域细分,从而对609个城市的“同性恋色情”搜索词的流行程度进行了估计图1).使用谷歌地理编码应用程序编程接口检索每个城市的坐标[17],然后用纬度、经度和我们对“同性恋色情”搜索词流行度的估计构建了一个地图文件。有关普查分区及省界的其他地图档案,亦可透过加拿大统计局查阅[18].

图1。来自谷歌Trends的城市,以及2015-2019年加拿大“同性恋色情片”搜索词的流行度估计。灰色圆圈表示流行率估计为> %的城市,而黑色圆圈表示流行率估计为+1%的城市。
查看此图

所有数据文件上传到QGIS,并投影到NAD83加拿大统计局兰伯特共形二次曲线投影(EPSG 3347)。利用逆距离加权(IDW)插值工具,创建了一个栅格。IDW插值采用标准设置。距离系数(p)设置为2.0。为了提供“同性恋色情”搜索词流行率最高的地区的地图,像素大小设置为1000。由于来自大量0值的过度分散,这些值从IDW值所基于的数据集中被省略,假设产生0%估计的机制可能归因于来自低搜索量区域的低质量数据。因此,idw插值的空间分布是根据134个城市的数据计算出来的(在谷歌Trends跟踪的所有611个加拿大城市中占21.9%)。

除全国数字外,还收集了一些加拿大城市的分区域数字,并以1:1210020的比例尺显示。回归模型也被构建来检验“同性恋色情”搜索词的流行度和人口密度之间的关系。人口密度估计值来自2018年加拿大人口普查,其中包括609个城市。回归分析采用城市级数据(非内插),包括值为0的城市。Moran’s I的计算是为了评估“同性恋色情片”搜索词流行程度的点估计之间的空间自相关性。基于这些结果,我们构建了具有线性、指数、高斯和球形空间相关结构的线性混合效应回归模型。模型之间的差异很小,但我们选择了具有球相关结构的模型,该模型具有最低的赤池信息准则值。由于这项分析的所有数据都是公开的,因此这项研究不需要研究伦理委员会的审查。


从谷歌Trends检索到的所有城市中,“同性恋色情片”搜索词的平均流行率为0.6%(标准差0.124)。如果移除0%的流行率估计值,估计流行率将增加到2.8% (SD 0.008)。数据是偏斜的,只有6个加拿大城市的患病率估计为5%或更高(即温哥华、里穆斯基、萨盖内、Côte圣卢克、蒙特利尔和魁北克)。几个城市估计有4%(多伦多、渥太华、新威斯敏斯特、维多利亚、本纳比、蒙克顿、迪耶普、弗雷德里克顿、哈利法克斯、斯特拉特福德、9月艾尔斯、马斯库什、加蒂诺、德拉蒙德维尔、朗格伊尔、舍布鲁克和布罗萨德)。根据Moran 's I,“同性恋色情片”搜索词的流行度是空间自相关的(观测=0.156,预期= -0.002,SD = 0.008,P<措施)。根据空间相关结构调整的回归结果显示,较高的人口密度与“同性恋色情片”搜索词的流行程度在统计上相关:人口密度每增加100人,“同性恋色情片”搜索词的流行程度就增加0.07% (β=。00074, se 0.000062,P<措施)。插入流行的“同性恋色情”搜索词提供图2.中提供了IDW插值生成的栅格值的直方图图3.这些结果突出表明,大部分估价值在2%至4%之间,而长右尾反映了接近6%的值。

图2。2015-2019年加拿大“同性恋色情”搜索词的逆距离加权流行率。黄色/绿色表示较高的患病率,而较深的蓝色表示较低的患病率。
查看此图
图3。2015-2019年加拿大“同性恋色情”搜索词的插值流行率的栅格直方图。
查看此图

主要研究结果

这项概念验证研究探索了互联网色情搜索趋势的使用,使用免费、易于使用的谷歌trends平台进行跟踪,并对gbMSM空间分布的空间异质性进行了近似估计。在这样做的过程中,我们表明,通过进一步发展和验证这一估计,可以实现对空间分布和人口规模估计的合理描述。我们假设谷歌趋势对“色情”和“同性恋色情”的搜索量会提供一个足够好对全加拿大gbMSM分布的估计,可在城市一级进行估计。我们的分析结果在很大程度上与加拿大gbsm群体规模的其他估计相一致——下降在1%-5%的范围内(最有可能的估计是在2%-4%的范围内)[67].我们的研究结果还强调了“同性恋色情片”搜索流行度的梯度:在更多的农村地区,估计在2%的范围内,而在大城市人口中心,如温哥华、多伦多和蒙特利尔,则在4%-5%的范围内。这再次与一般对gbMSM空间分布的理解是一致的。例如,Algarin和同事使用更费时的方法来检查gbMSM的空间分布,[4]、卡德及同事[5他们使用地理社交性网络应用程序,发现用户密度越高,人口密度越高。卡及同事[5报告称,人口密度每增加100人,用户数量就增加3%;Algarin及其同事[4报告称,人口密度每增加100人,用户数量就会增加1%-2%(取决于一天中的时间)。与我们在这里发现的估计相比,这些估计接近,也许更高一些,表明人口密度每100人增加0.7%。相对于之前的研究,我们对这种关系的低估可能反映了谷歌Trends数据监视个人色情消费模式的能力,这些人可能无法使用替代方法(例如,难以识别的gbMSM)识别出来。因此,基于被动监测方法(例如在这些例子中使用的方法),强烈建议人口密集的中心相对于总人口有更大比例的gbMSM。目前还不清楚人口密度的增长是接近3% / 100人还是0.7% / 100人。显然,这些估计中仍然存在不确定性,人口规模估计研究至少应该认识到这些区域差异,并在目标地理包括城市和农村地区的混合情况下,试图在其估计中纠正这些差异。使用本研究和其他研究中确定的估计值进行的敏感性分析可以为公共卫生专业人员提供一系列合理的值。

使用互联网搜索数据来估计gbMSM的空间分布的优势在于,只需不到一分钟就可以获得给定城市的潜在合理估计,当然,前提是可以通过谷歌Trends获得给定城市的数据。然而,使用互联网搜索数据估计gbMSM空间分布的可行性是基于几个基本假设的,这些假设至少在现实中是部分违背的。首先,我们假设gbMSM和其他互联网用户在色情消费流行程度上的差异不存在混淆效应。在现实中,我们知道性少数男性比异性恋者更早、更频繁地使用色情作品,男性比女性使用色情作品更多[1920.].例如,一项针对18-30岁丹麦成年人的研究显示,26.2%的男性在过去24小时内看过色情片,而女性的这一比例为3.1%;只有6.9%的女性每周看色情片3次或以上,而男性的这一比例为38.8% [14].同样,从性取向来看,美国的异性恋男性(29.5%)比男同性恋(51.3%)和双性恋(52.6%)每天在网上观看色情作品一次或更多的可能性更低[15].根据这些统计数据,我们的估计可能是人口规模估计的两倍。根据这些差异进行调整后,我们的估计将与其他人的估计保持一致,即有2%至4%的男性(而不是总人口)是非异性恋者[67].其次,我们假设搜索同性恋色情片或色情片就足以代表性取向。很明显,在现实中,我们不知道搜索“色情片”或“同性恋色情片”的人的性别或性取向。这一点在现实中得到了强调,即同性恋色情作品的使用并不仅限于gbMSM,这些不同构念之间的关系取决于回忆期和性取向的定义方式[21].事实上,性取向可以通过行为、吸引力或身份来定义——这三者都会随着时间的推移而变化。相反,并不是所有的男同性恋在搜索色情内容时都会使用“同性恋”这个前缀。第三,我们假设在gbMSM和非gbMSM互联网用户中色情搜索的流行程度没有地理上的差异。在现实中,我们知道经济压力等因素(在地理上确实有所不同)会影响使用色情作品的流行程度和频率[22].本研究的另一个局限性是,谷歌Trends数据仅报告搜索词的流行率到最接近的整体百分比。缺少小数点对使用谷歌Trends搜索数据生成精确估计提出了挑战。当然,对精确估计的需求(相对于生成“足够好”的估计)取决于使用这些估计的专业人员的目的和意图。例如,该方法可用于帮助决策者确定是否有足够大的gbMSM人口,以证明建立亚社区特定的卫生服务是合理的,但可能不足以评估性传播和血液传播感染率的逐年变化。在需要精确估计的情况下,还需要进行灵敏度测试和多种方法之间的比较[1].我们还注意到,谷歌Trends中可用的位置数据可能会被虚拟专用网络软件的使用所掩盖,该软件可用于更改用户的位置。位于城市中心的服务器可能会增加搜索词的流行度。尽管我们对虚拟专用网络的使用以及它与色情媒体消费的关系知之甚少,但我们预计这个错误是很小的。由于这项试点研究旨在提供概念证明,因此使用了一个简单的指标。然而,未来的研究可能寻求开发更好、更精确的指标,利用一个或多个平台(例如,将谷歌趋势的加权估计值与其他平台结合起来,或考虑开放的公共卫生数据或医疗处方数据;识别多个具有强区分效度的关键词)。例如,有必要验证搜索词“同性恋色情片”与性取向的相关性有多准确。尽管这些未来方法的复杂性可能会再次超越其实用性,但额外的研究可以用于验证简单的测量方法,例如我们使用的方法。这些挑战反映了在利用谷歌Trends等平台时固有的更广泛的问题。 However, in situations in which imprecise estimations provide sufficient evidence for informing public health efforts, these tools appear to offer some utility. At the very least, these data provide a point by which data can be triangulated from different sources through the use of scan statistic techniques that could compare patterns arising from different methods.

未来的研究

虽然这项概念验证研究表明,谷歌趋势数据可以可行且快速地用于估算gbMSM的空间和人口密度,但我们认为,需要进一步的实验和分析来证明它为gbMSM人口的真实空间分布提供了合理准确的代理。为了实现这一验证,我们建议未来的研究应评估使用该方法报告的估计值与来自其他调查或数据源的估计值之间的空间相关性。正如我们已经讨论过的,由于无数的原因,对gbMSM人口分布的研究可能很困难。然而,通过观察gbMSM特定调查的回复率模式的相关性,或者在政府调查中发现的关键人口中心的gbMSM人群的患病率,很可能可以很容易地完成对这一提议方法的验证。

结论

“同性恋色情”网络搜索相对于“色情”网络搜索的谷歌趋势是一个被动的监测指标,它可能接近现有的gbMSM人口规模估计,直到市级。尽管不够精确,但这是一个“足够好的”估计,尤其是考虑到互联网接入水平高的地区对财政和人力资源的需求相对较小。与现有的方法相匹配(这些方法容易受到不同种类的偏差的影响),互联网色情搜索可以帮助三角测量分区域人口规模估计的有效性。如果能够识别出允许在其他边缘人群或社区之间进行比较的关键字,那么谷歌Trends上的搜索词就有可能允许估计其他人群的规模。

致谢

我们承认使用谷歌Trends、开放量子地理信息系统和R Studio作为免费和开放的资源,使数据收集和分析成为可能。KGC获得了加拿大艾滋病毒试验网络/加拿大艾滋病研究基金会博士后奖学金、迈克尔·史密斯卫生研究培训生基金会奖(#17855)和加拿大卫生研究所卫生系统影响奖学金奖(#HIF-403845)的支持。NJL得到了迈克尔·史密斯健康研究学者奖(#16863)的支持。

作者的贡献

所有作者都为研究的概念化做出了贡献。KGC收集数据,进行分析,并起草结果。所有作者都对手稿的写作、修改和编辑做出了贡献。

利益冲突

没有宣布。

  1. Abdul-Quader AS, Baughman AL, Hladik W.估算关键种群的规模:现状和未来的可能性。Curr Opin HIV艾滋病2014 Mar;9(2):107-114 [免费全文] [CrossRef] [Medline
  2. Viswasam N, Lyons CE, MacAllister J, Millett G, Sherwood J, Rao A, Global。HIV研究小组。采用针对关键人群的人口规模估计研究来指导非洲大陆的艾滋病毒应对工作。PLoS One 2020;15(2):e0228634 [免费全文] [CrossRef] [Medline
  3. 崔喆,王俊,王松,等。使用多种方法和不同的数据来源估算加拿大温哥华市区的男同性恋人群的规模。中国城市卫生杂志2018年4月;95(2):188-195 [免费全文] [CrossRef] [Medline
  4. Algarin AB, Ward PJ, Christian WJ, Rudolph AE, Holloway IW, Young AM。使用地理社交网络应用程序与男性发生性关系的男性寻求伴侣的空间分布:流行病学研究。J Med Internet Res 2018年5月31日;20(5):e173。[CrossRef] [Medline
  5. 卡德KG,吉布斯J, Lachowsky NJ,霍金斯BW,康普顿M,爱德华J,等。使用地理社交网络应用程序了解同性恋和双性恋男性的空间分布:试点研究。JMIR公共卫生监测2018年8月08日;4(3):e61 [免费全文] [CrossRef] [Medline
  6. Scribner RA, Johnson SA, Cohen DA, Robinson W, Farley TA, Gruenewald P.艾滋病毒/艾滋病核心人群识别的地理空间方法。Subst Use误用2008;43(2):203-221 [免费全文] [CrossRef] [Medline
  7. 张志刚,张志刚,张志刚,等。对不列颠哥伦比亚省五个卫生区有感染艾滋病毒和丙型肝炎风险的注射毒品使用者、男男性行为者和性工作者的主要人口规模进行估计。全球公共卫生中心,马尼托巴大学,2016年。URL:http://www.bccdc.ca/resource-gallery/Documents/Statistics%20and%20Research/Statistics%20and%20Reports/STI/PSE%20Project%20Final%20Report.pdf[2020-10-28]访问
  8. Aiello AE, Renson A, Zivich PN。基于社会媒体和互联网的公共卫生疾病监测。年度修订公共卫生2020年4月02日;41:101-118 [免费全文] [CrossRef] [Medline
  9. Baral S, Turner RM, Lyons CE, Howell S, Honermann B, Garner A,等。使用社交媒体平台的同性恋、双性恋男性和其他与男性发生性关系的男性的人口规模估计。JMIR公共卫生监测2018年2月08日;4(1):e15 [免费全文] [CrossRef] [Medline
  10. Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L.利用搜索引擎查询数据检测流感流行。自然杂志2009年2月19日;457(7232):1012-1014。[CrossRef] [Medline
  11. 李志强,李志强,李志强,等。使用Twitter识别和应对食物中毒:食品安全STL项目。《公共卫生管理实践》2017;23(6):577-580 [免费全文] [CrossRef] [Medline
  12. 色情片和同性恋色情片。谷歌趋势。URL:https://trends.google.com/trends/explore?geo=CA&q=porn,gay%20porn[2020-10-28]访问
  13. 葛梅纳,普里斯,伍利。色情使用研究综述:方法和结果从四个来源。网络心理学2015 Dec 01;9(4):13-23。[CrossRef] [Medline
  14. 丹麦年轻异性恋成年人色情消费的性别差异。两性行为研究2006 10月;35(5):577-585。[CrossRef] [Medline
  15. 唐宁·MJ, Schrimshaw EW, Scheinmann R, Antebi-Gruszka N, Hirshfield S.性身份对性暴露媒体的使用:美国同性恋、双性恋和异性恋男性的比较分析。2017年8月;46(6):1763-1776。[CrossRef] [Medline
  16. Whitfield THF, Rendina HJ, Grov C, Parsons JT。美国同性恋和双性恋男性观看色情媒体及其与心理健康的关系2018年5月;47(4):1163-1172 [免费全文] [CrossRef] [Medline
  17. 地理编码API。谷歌地图平台。URL:https://developers.google.com/maps/documentation/geocoding/start[2020-10-26]访问
  18. 地图边界文件。加拿大统计局。URL:https://www150.statcan.gc.ca/n1/pub/92-195-x/2011001/other-autre/carto-eng/carto-eng.htm[2020-10-26]访问
  19. bixthe B, vaillanccourt - morel M, Girouard A, Štulhofer A, Dion J, Bergeron S.加拿大性/性别少数群体与异性恋、Cisgender青少年色情作品使用特征的大规模比较。《性医学》2020年6月刊;17(6):1156-1167。[CrossRef] [Medline
  20. Miller DJ, Raggatt PTF, McBain K.关于男性色情使用的流行度和频率研究的文献综述。美国性教育杂志2020年10月13日;15(4):502-529。[CrossRef
  21. 彭丽娟,李志强,李志强,等。估计美国男性与男性发生性行为的人群规模,以获得艾滋病毒和梅毒的发病率。Open AIDS J 2012;6:98-107 [免费全文] [CrossRef] [Medline
  22. Donadelli M, Lalanne M.欲望都市:经济压力和网络色情消费。J Behav Exp Finance 2020 Sep;27:10 00379 [免费全文] [CrossRef] [Medline


gbMSM:同性恋,双性恋,以及其他与男性发生性关系的男性
IDW:逆距离加权


T·桑切斯编辑;提交22.01.21;D Rahib, A Basak, S Kardes, A Natale同行评审;对作者26.02.21的评论;修订本于04.08.21收到;接受13.09.21;发表29.11.21

版权

©Kiffer G Card, Nathan J Lachowsky, Robert S Hogg。原载于JMIR公共卫生与监测(https://publichealth.www.mybigtv.com), 2021年11月29日。

这是一篇根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)发布的开放获取文章,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR公共卫生和监测上的原创作品。必须包括完整的书目信息,https://publichealth.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。


Baidu
map