这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
这是一个针对与男性发生性关系的年轻黑人男性的艾滋病毒预防项目的案例研究。个人层面的预防干预措施在男男性行为的年轻黑人男性中收效有限,这一人群受艾滋病毒的影响尤为严重;基于同伴网络的干预是一个很有前途的选择。Facebook是一个有吸引力的数字平台,因为它可以对社交网络进行广泛的描述。然而,在使用Facebook数据进行同伴干预方面存在一些挑战,包括Facebook网络的庞大规模,难以评估确定候选同伴变化代理的适当方法,边界规范问题,以及对社交网络数据的局部观察。
这项研究旨在探索使用Facebook社交网络来设计基于同伴网络的艾滋病毒预防干预措施的方法挑战,并提出克服这些挑战的技术。
我们的样本包括298个
所有被调查者和78.9%(183/232)的非被调查者通过特征向量被选为估算网络上的对等变化动因,也被选为观察网络上的对等变化动因。对于关键球员,他们的协议要低得多;42.7%(47/110)的被调查者和35.3%(110/312)的被调查者和非被调查者的对等变化因子分别被选择在估算网络上,也被选择在观测网络上。特征向量还在100个估算网络中产生了一组稳定的对等变化代理,并且对指定的关系边界不那么敏感。
虽然我们没有一个金标准来表明哪种算法产生最优的对等变化代理集,但特征向量中心性对关键假设的较低敏感性使我们得出结论,它可能是更可取的。考虑到人们对使用在线社交网络来改善人口健康的兴趣迅速增长,我们用来解决使用Facebook网络的挑战的方法可能是及时的。
社会网络干预已经成功地改善了健康结果[
我们使用Facebook的数据
我们使用一个数字平台来描述YBMSM的社会网络,因为尽管展示了早期的前景,但基于同伴的艾滋病毒干预在一些人群中效果有限[
然而,在使用Facebook数据识别pca时存在许多挑战,包括:(1)Facebook网络的规模很大,这使得识别哪些个体更有可能在YBMSM中具有影响力成为问题;(2)难以评估可用于识别pca的方法的相对强度;(3)对Facebook网络的部分观察,增加了在有影响力的网络位置上识别个人的不确定性。我们使用各种技术来解决上述问题,包括推断Facebook网络未观察到的结构。
因此,本文的目标是双重的:(1)深入了解芝加哥YBMSM的Facebook网络结构,以及该结构如何与艾滋病毒预防干预的pca识别相关;(2)为研究人员提供指导,考虑在在线社交网络上使用pca以及将理论应用于实践时可能出现的实际困难。我们使用两种常用的算法来识别信息扩散的候选pca,并将其应用于观察和估算网络。我们检查
有关参加者招募的详细说明载于别处[
受访者符合下列条件即可获得招聘:(1)自我认同为非裔美国人或黑人;(2)出生时为男性;(3)年龄16 ~ 29岁;(4)大部分时间居住在芝加哥南部或邻近的以黑人为主的郊区;(5)愿意并能够在研究来访时提供知情同意;(6)报告在过去24个月内曾与男性口交或肛交[
下载了同意uConnect参与者的Facebook好友列表,使我们能够列举出YBMSM的潜在影响者。Facebook开发了一款应用程序,可以从Facebook好友列表中识别同意受访者的独特个人。在隐私保护到位的情况下,该算法明确链接了所有同意uConnect的受访者的朋友列表。在618名受访者中,有600人使用互联网,490人在Facebook上有个人资料。在322名同意提供Facebook数据的用户中,有24人无法登录自己的账户。因此编制了298名uConnect受访者的无向网络数据集,其中包括受访者对之间以及受访者与受访者之间的友谊信息
继Handcock和Gile之后[
上面编译的Facebook网络可能包括非受访者,他们与受访者有着各种各样的关系,包括社交、家庭和性,因此包含了强关系和弱关系的混合。我们的目标是识别关键位置的个人,包括那些不是受访者的人,并将他们招募为候选pca。对于我们的干预,非应答者本身不一定是YBMSM;只有非受访者成为YBMSM的潜在影响者才有必要。考虑到大量的非受访者和非受访者之间未观察到的关系数据,我们指定了一个边界条件,允许我们选择与芝加哥YBMSM有良好联系的个人。
未观察系归责问题的说明。Facebook上人与人之间的友谊可以分为以下几类:观察到的受访者-受访者(左下象限),观察到的受访者-非受访者(对角线象限),以及未观察到的非受访者-非受访者(右上象限)。在每个象限中,二元数的大致数目是明确的。
Facebook网络数据结构的说明。研究人员观察了受访者之间以及受访者与非受访者之间的Facebook友谊。没有回答的人之间的友谊是观察不到的。我们的数据包含的非受访者多于受访者。
我们为非受访者指定了一个边界,重点是与受访者的友谊数量(即他们的关系),而不是其他通常用于指定边界的个人层面的标准[
虽然我们的Facebook网络很大,但我们数据集中的信息并不完整,因为我们没有观察到非受访者之间的友谊。大量缺失的数据可能会使我们根据候选pca的网络位置对其评估产生偏差。因此,我们选择了应用统计imputation的方法来减少我们数据的部分观测所引起的偏差。
为了选择一种合适的技术来推断未观察到的Facebook友谊,我们首先需要定义数据中缺失的性质。我们遵循Rubin [
我们缺失的数据是MNAR。回想一下,我们的研究对象是使用RDS程序招募的。非受访者是受访者的Facebook好友,如果他们被招募到这项研究中,他们的数据就不会丢失。然而,由于以下不可知的原因,非受访者可能没有被招募:(1)他们不符合研究条件;(2)他们符合研究条件,但受访者不希望招募他们;(3)符合研究条件,但受访者没有足够的优惠券;(4)未被调查的人收到了一张优惠券,但没有参与这项研究。因此,所有非受访者的友谊信息缺失的事实,与他们与受访者之间观察到的友谊有关,也与他们未观察到的网络有关,因为无法确定非受访者不被招募的原因。由于上面解释的原因,我们还为非应答包含指定了基于程度的边界。因此,用Gile和Handcock的术语来说,应答者和非应答者具有“不同的受欢迎程度”[
已经证明,仅使用观察到的子网络进行分析可能无法推广到更大的不完整网络[
为了推测非受访者之间的友谊,我们开发了一个机械模型来预测他们的可能性。虽然关于非受访者的个人属性的信息很少(结果中提供了更多细节),但他们每个人与受访者共享的友谊数量是完全观察到的。我们还知道,Facebook关系往往具有较高的平均度和较高的方差。因此,我们可以合理地假设,在Facebook的背景下,那些与受访者更有社交性的非受访者之间也可能更有社交性。(相反的情况是,观察到与受访者的许多关系,可能表明这个人的许多关系是固定的
社交性是一个节点级参数,衡量受访者或非受访者与受访者共享的关系数量,选择性混合表示为衡量受访者和非受访者之间的关系数量的单个参数,如图中的对角线单元格中的任意一个表示
一旦一个模型来估算缺失的数据,我们模拟这个模型的随机实现。在完全观察到的网络中,来自估计的ERGM的模拟固定了节点集,并使用随机马尔科夫链蒙特卡罗(MCMC)算法来切换关系,从而得到一个表示从ERGM指定的概率分布中随机抽取的网络。在这种情况下,我们固定观察到的二元组合的值,只允许在MCMC算法期间选择未观察到的二元组合作为切换的候选。这一规范被用于输入100个随机生成的网络,每个网络的观察到的和未观察到的联系的数量与我们上面描述的拟合模型的随机抽取一致。100次impuimput被认为是足够的,因为在imput边数的最大可变性较低(<平均值的1.8%,其中平均值=40,970,范围=40,610-41,340)。
在模拟的网络中,非受访者之间在Facebook上的友谊被估算。我们使用这些网络来识别pca。值得注意的是,我们的pca所来自的人群并不仅限于YBMSM,而是YBMSM的潜在影响者。当考虑到感兴趣的流过程类型时,这种PCA识别程序可以说是最成功的[
我们使用特征向量中心性和关键参与者在观察到的Facebook数据上识别候选pca,其中所有未观察到的联系都被假设为不存在,然后在100个估算网络中的每个网络上识别候选pca。这些算法被设计用于给定的观测网络,当网络观测完美时,理论工作得最好。然而,当网络未被完全观察到时,另一种方法是将每种算法应用于估算网络的样本,而不是仅在观察到的数据集上进行优化[
我们做了一个程序性的决定,根据观察到的网络上的每个测量选择300个个体,并选择了估算网络上最常见的300个pca。招募和培训的pca数量是同伴干预的一个关键考虑因素,有人认为,如果招募的同伴领导者数量约为干预设计对象人口规模的7-8%,同伴干预就可能成功[
我们计算了每个个体在每个算法的估算中被识别为PCA的次数分布,以评估哪些个体值得进一步考虑。这些分布被用来确定
的
的
所有的计算和可视化都是使用R编程语言的软件包进行的[
298名uConnect受访者共有182998个Facebook好友。数据集中有327741个被观察到的友谊,其中3256个仅存在于受访者之间,其余的友谊存在于受访者和非受访者之间。
如上所述,由于非应答者的数量很大,而且关于非应答者的个人层面信息有限,我们根据观察到的关系指定了非应答者纳入的边界:与至少10.1%(30/298)应答者为朋友的非应答者(n=587)被纳入我们的样本。将在不同边界下选择的非应答者的数量已给出
在这个样本中,受访者和非受访者报告的年龄中位数都是23岁(有271名非受访者报告缺失)。此外,96.9%(289/298)的受访者和92.5%(543/587)的非受访者在他们的Facebook个人资料中表示他们目前的性别是男性(2份非受访者报告缺失)。大约81.5%(243/298)的受访者在他们的Facebook资料中将芝加哥列为他们的城市。在其余55名参与者中,52人在面对面访谈中报告他们的居住地为芝加哥南侧/南郊,3人报告他们的居住地为芝加哥东南侧。此外,66.2%(389/587)的非受访者将芝加哥列为他们的城市;大约5.9%(35/587)的非受访者没有报告他们所在的城市。剩下的非受访者中,大约一半的人将伊利诺伊州或另一个中西部州作为他们的主要居住地,其余的人分散在美国各地。
非受访者与受访者之间友谊数量的边界规范,作为非受访者的选择标准。
非应答者必须连接到的最小应答者数量(N=298), N (%) | 符合该边界规范的非受访者,n | 观察受访者和非受访者之间的友谊,n | 未被观察到的两对,n |
3 (1.0) | 20746年 | 139600年 | 215187885年 |
15 (5.0) | 1633 | 47473年 | 1332528年 |
30 (10.1)一个 | 587一个 | 26444年一个 | 171991年一个 |
60 (20.1) | 97 | 5898 | 4656 |
一个显示了我们分析中使用的案例。
指数随机图模型拟合总结。
网络参数 | 日志赔率 | 标准错误 |
|
边缘 | −5.36 | 0.029 | <措施 |
社交能力(以与受访者相处的程度衡量) | 0.044 | 0.0002 | <措施 |
受访者和非受访者之间的混合 | 0.208 | 0.022 | <措施 |
总的来说,我们观察到29700个友谊,其中3256个是受访者之间的友谊,26444个是受访者和非受访者之间的友谊。因此,每个受访者平均有110.5个友谊,其中与其他受访者的友谊平均为21.8个,与非受访者的友谊平均为88.7个。每个符合我们边界规范的非受访者平均有45.1个观察到的友谊。
受访者之间的友谊密度(定义为观察到的友谊数量与最大可能的友谊数量之比)为7.4%。受访者与非受访者的友谊密度为15.1%。(这些密度将帮助我们解释下面的imputation程序的输出。)
装有ERGM的估计值已经出来了
在
的右上角显示的非应答者之间估算友谊的平均密度
在观察网络和一个随机选择的估算网络中,受访者和非受访者的度分布如图所示
我们的边界规范的第二个结果是,我们看到非受访者的最低友谊数量是30。此外,在观察到的网络中,我们注意到非受访者之间的友谊数量范围更窄(30-100)。然而,在imputation之后,我们看到非应答者的程度分布更右偏,与应答者的程度分布相当。由于我们没有理由相信应答者和非应答者应该有不同的度分布,这种归算后形状上的对应是一个积极的信号,表明我们的方法在这个意义上是合理的。估算的非应答者分布的左侧与应答者分布的左侧不相似,但考虑到我们为选择非应答者施加的基于程度的边界规范,这是意料之中的。
估算网络的频率图:上图显示了所有885个节点的数据,下图显示了由前50个受访者和前50个非受访者组成的子集(下图),uConnect 2013-2014。左下和对角线单元在两个矩阵中完全由观察到的不需要imputation的二元组合组成。右上单元格包含未观察到的二元组合,这些二元组合中的边缘是随机估算的,因此,显示为灰色。显示底部面板以产生更清晰的单元格阴影显示。
在观察到的网络上,大小为300的PCA集都包含受访者和非受访者的混合,精确的细分因算法而异;特征向量中心性集包含62.0%(186/300)非应答者,关键人物集包含66.0%(197/300)非应答者。回想一下,非应答者占我们样本的66.3%(885个节点中的587个)。因此,当未观察到的联系被视为不存在时,对于特征向量中心,主成分分析集中的非应答者的比例高于其在观察到的网络中的比例,对于关键人物来说也是如此。尽管在没有归责的情况下被选为pca的非受访者比例高似乎令人惊讶,但根据我们基于学位的边界规范,这是有道理的,该规范选择了与芝加哥YBMSM有高度连通性的非受访者,因此可能处于关键位置。如果我们没有指定边界,非应答者将占整个样本的99.9%以上。
在100个估算的网络中,
对于后续的分析,我们采用了一个充分性条件,说明为中截断点
我们还发现,使用特征向量选择的非受访者spca与受访者的友谊最少为44个,而使用关键玩家选择的spca与受访者的朋友最少为30个,这与我们的非受访者纳入的边界相同。因此,特征向量只选择了远高于边界规范的非应答pca,而关键球员则没有。这表明特征向量较少受到非响应包含的边界规范的影响。
受访者(上)和非受访者(下)在观察和估算网络中的程度分布。顶部图表中的受访者程度分布是相同的,因为归因不影响受访者关系。度数以大小为10的一组分装在一起。
在估算网络上选择为对等变更代理的节点数量的分布,条件是它们至少被选择一次。该图还说明了每个算法的截止点,用于确定在100个估算中每个算法的对等更改代理选择的充分性条件。KP: keyplayer;电动汽车:特征向量。
在100个估算网络中选择对等变化代理的平均次数,条件是它们至少被选择一次。
主成分分析一个识别算法 | 一个节点被识别为PCA的次数,平均值(SD) | 被调查者作为主成分分析出现的次数,平均值(SD) | 非应答者作为PCA出现的次数,平均值(SD) |
特征向量中心 | 76.9 (36.8) | 99.3 (5.6) | 72.1 (38.9) |
Keyplayer | 33.9 (8.3) | 34.9 (11.7) | 33.4 (5.9) |
一个PCA:对端变更代理。
在估算网络上被选为spca(满足两种对等变化代理识别算法的充分性条件的对等变化代理)的节点在观察网络上也被选为对等变化代理的比例。
我们发现,所有被特征向量选为spca的69个受访者(100%)也被选为观测网络上的pca (
虽然两种PCA识别算法中哪一种提供了PCA位置(未知)的真实个体集尚不清楚,但它们在考虑的各种度量之间的对比——稳定性、灵敏度和边界规范的效果——非常突出。
本文提出了一种新颖的方法,在芝加哥YBMSM部分观察到的Facebook网络上选择候选pca,目标是在未来开发一个管道,允许来自社交网站的数据用于同伴健康干预。我们讨论了实施这种干预的几个挑战,包括处理大量未观察到的网络数据的方法,以及两种PCA识别算法,这些算法与我们的目标一致,即通过位于网络关键位置的个人传播预防信息。我们发现特征向量中心性对imputation的敏感性远远低于keyplayer,这与之前的结果一致[
这个结论背后有几个值得讨论的潜在考虑。尽管以同伴为基础的干预在公共卫生方面已显示出前景[
该研究的一个重要局限性是,在imputation模型中没有明确的同质性参数。回想一下,未观察到的非受访者-非受访者的友谊必须从可观察到的受访者-非受访者的友谊中推断出来。许多关键的个人属性,包括年龄、出生性别、居住地和种族(或民族),要么定义了受访者的纳入标准,要么与他们的纳入标准密切相关。正如调查结果中所描述的那样,符合边界规范的非受访者与受访者年龄相当,几乎所有人在他们的Facebook个人资料上都被确认为男性,大多数人将芝加哥视为他们的居住地。考虑到受访者和非受访者之间的年龄、性别和居住地重叠的程度,不可能有意义地衡量这些属性的同质性。此外,不可能测量种族/民族的同质性,因为这一属性对于大多数非受访者来说是不可用的。该模型也不包括任何测量高阶网络结构的参数。理想情况下,适合Facebook数据的ERGM将包括更高阶的效应,如三合会关闭,因为Facebook算法鼓励拥有共同朋友的人彼此成为朋友。我们在整合三合会关闭术语方面所做的大量努力使用了在更稀疏的网络上开发的现有参数(例如,共享伙伴统计数据),但它们并不成功。(关于我们探索过的三元闭包模型的信息载于
未来的研究方向包括建模分析,以识别后续波中的PCA,并评估两个波之间PCA集重叠的程度。这一点很重要,因为培训pca需要大量的前期投资,并且在一些网络中观察到,关键职位的个人在一年内就离职了[
这项研究是一个跨学科的招聘策略的个人位于一个大的社会网络的关键职位的审查。我们的首要目标是找到一组pca,在理解我们的数据施加的约束的同时,使我们的干预成功的可能性最大化。随着Facebook和其他在线社交媒体越来越多地以创造性的方式来影响健康行为,我们的案例研究将帮助研究人员在计划研究时预测一些潜在的困难。如果我们所描述的挑战是不可避免的,那么我们的经验可以提供有用的启发,以最大限度地发挥以同伴为基础的健康干预措施取得成功的潜力。
详细的研究背景。
指数随机图模型
随机失踪
完全随机失踪
马尔科夫链蒙特卡洛
失踪不是随机的
对等变更代理
暴露前预防
respondent-driven抽样
满足两种对等变化代理识别算法的充分性条件的对等变化代理
与男性发生性关系的年轻黑人
本研究得到NIH R01 DA 033875、AI 120700和P30 AI11794的支持。作者非常感谢芝加哥大学研究计算中心提供的计算资源,以及芝加哥艾滋病毒消除中心和芝加哥大学村庄的研究人员提供的支持。
没有宣布。