发表在2卷第二名(2022): Jul-Dec

本文的预印本(早期版本)可在https://preprints.www.mybigtv.com/preprint/35702,首次出版
Reddit用户在讨论直接面向消费者的基因检测结果时,将注意力优先于隐私并暴露他们的面孔的隐含动机:主题和注意力分析

Reddit用户在讨论直接面向消费者的基因检测结果时,将注意力优先于隐私并暴露他们的面孔的隐含动机:主题和注意力分析

Reddit用户在讨论直接面向消费者的基因检测结果时,将注意力优先于隐私并暴露他们的面孔的隐含动机:主题和注意力分析

原始论文

1范德堡大学计算机科学系,美国田纳西州纳什维尔

2美国田纳西州纳什维尔范德堡大学医学中心生物医学信息系

3.美国田纳西州纳什维尔范德堡大学法学院

4美国田纳西州纳什维尔范德比尔特大学医学中心儿科

5美国田纳西州纳什维尔范德堡大学医学中心卫生政策部

6美国密苏里州圣路易斯华盛顿大学计算机科学与工程系

7德克萨斯大学达拉斯分校计算机科学系,理查森,美国

8美国田纳西州纳什维尔范德堡大学医学中心生物统计系

通讯作者:

Bradley A Malin博士

生物医学信息系

范德比尔特大学医学中心

西端大街2525号房间/ 1030号套房

纳什维尔,田纳西州,37203

美国

电话:1 615 343 9096

电子邮件:b.malin@vumc.org


背景:随着直接面向消费者的基因检测服务越来越受欢迎,公众越来越依赖在线论坛来讨论和分享他们的检测结果。最初,用户是匿名的,但最近,他们在讨论搜索结果时加入了人脸图像。多项研究表明,在社交媒体上分享图片往往会得到更多的回复。然而,这样做的用户放弃了他们的隐私。当这些图像真实地代表用户时,它们就有可能泄露该用户的身份。

摘要目的:本研究调查了在线环境中直接面向消费者的基因检测用户的人脸图像共享行为,以确定人脸图像共享与其他用户收到的关注之间是否存在关联。

方法:这项研究集中在r/23andme上,这是reddit上一个致力于讨论直接面向消费者的基因检测结果及其影响的子版块。我们应用自然语言处理来推断与包含人脸图像的帖子相关的主题。我们应用回归分析来描述一个帖子收到的关注之间的关系,就评论数量而言,因果评分(定义为赞数减去反对票数),以及帖子是否包含人脸图像。

结果:我们收集了r/23andme版块2012年至2020年间发布的1.5万多篇帖子。面部图片发布始于2019年底,并迅速增长,到2020年初,已有800多人晒脸。包括人脸在内的帖子的主题主要是分享、讨论祖先组成,或者分享通过直接面向消费者的基因检测发现的亲人的家庭团聚照片。平均而言,包含人脸图像的帖子收到的评论多60%(5/8),因果报应得分是其他帖子的2.4倍。

结论:r/23andme reddit版块的直接面向消费者的基因检测消费者越来越多地在社交平台上发布人脸图像和检测报告。发布脸部照片和更高程度的关注之间的联系表明,人们正在放弃自己的隐私,以换取他人的关注。为了降低这种风险,平台组织者和版主可以直接、明确地告知用户发布人脸图像的风险,明确表示如果个人图像被分享,他们的隐私可能会受到损害。

中国生物医学工程学报(英文版)

doi: 10.2196/35702

关键字



随着时间的推移,基因组测序的成本稳步下降[1],从而使直接面向消费者的基因检测(DTC-GT)服务得以向公众提供[2].DTC-GT使消费者无需咨询医疗保健提供者即可了解其遗传信息[3.].参加DTC-GT的人数急剧增加,从2018年1月的1200万增加到2019年1月的2600万[4].截至2021年底,两家最大的DTC-GT公司AncestryDNA和23andme分别积累了超过2000万和1200万客户[5].最近的研究表明,人们追求DTC-GT的原因多种多样,主要是为了了解他们的祖先,并发现或确认亲属关系[67].

随着DTC-GT服务越来越受欢迎,消费者越来越依赖在线社交平台来讨论和分享他们的测试结果(尽管并不总是原始的基因组序列)[8].一个特别值得注意的平台是Reddit,这是一个在线内容评级和讨论网站,用户可以根据感兴趣的特定主题创建不同的Reddit子版块。与DTC-GT相关的最受欢迎的看板之一是r/23andme,截至2022年5月,订阅人数超过8.14万。在r/23andme中,用户讨论了与基因检测相关的广泛主题,包括检测服务、检测结果、解释和解释,并分享了进行检测后发生的故事(例如,与健康有关的决定)[8].

当r/23andme用户分享他们的结果供讨论时,有些用户不是简单地输入文本,而是附上他们的DTC-GT结果页面的截图(例如,祖先组成)。由于Reddit是一个虚拟的在线社区,用户通常依靠假名进行交流,这样的结果截图通常不包含用户的真实姓名。因此,即使当用户分享和讨论他们的DNA测试结果时,这个版块历史上一直是一个匿名文化的社区。

然而,在2019年,r/23andme用户开始在他们的帖子上附上个人图片。图1左边是用户的DTC-GT结果页面的截图示例,右边是该用户的全脸图像。这种倾向于暴露面部的行为直接影响了个人隐私。910].虽然这些帖子使用了假名,但在网络环境中发布人脸图像构成了一种故意放弃个人隐私的决定。其他用户可能会利用这些人脸图像来确定用户的身份,这在一定程度上依赖于现代人脸识别的快速发展和部署[11]及身份侦测系统[12].这是一个值得关注的问题,因为身份披露可能会给个人带来各种负面后果,包括身份盗窃[13]、歧视[14],以及对人身安全的威胁[15].由于Reddit是一个公共平台,用户的帖子和面部图像很容易被访问,这使得身份泄露攻击变得可行,而且成本很低。16].

图1。一个发布在r/23andme子reddit上的人脸图像的例子。该报告与人脸图像和测试结果一起显示。在这篇文章中,实际的面孔和名字被掩盖了;然而,这些数据存在于公共领域。
查看此图

虽然用户可能意识到暴露自己的脸可能会损害他们的隐私,但尚不清楚他们为什么选择这样做。对行为心理学和经济学的各种调查表明,有些人放弃自己的隐私权,以换取他们珍视的服务。17].因此,我们假设r/23andme用户可能会通过发布更多的个人信息而获得更多的关注。其他社交平台的调查结果也证实了这一点。例如,在推特平台上的推文中包含照片可以使转发量提高35% [18].Instagram上有脸的照片获得点赞的可能性要高38%,获得评论的可能性要高32%。19].然而,与Twitter或Instagram不同的是,本文研究的DTC-GT论坛为用户提供了一个匿名的环境来分享和讨论敏感的个人遗传信息。因此,我们试图确定该论坛是否支持相同的隐私服务交换假设。为了正式验证我们的假设,我们调查了以下研究问题:(1)用带有人脸图像的帖子的自然语言交流的主题是什么?(2)张贴人脸图片是否与帖子受到的关注有关?

为了回答这些问题,我们从reddit的r/23andme子版块收集了帖子,并将它们分为三种类型:(1)只有文字的帖子,(2)有人脸图片的帖子,(3)图片不含人脸的帖子。接下来,我们测量了关于帖子类型的时间发布趋势。然后,我们应用主题建模来比较与文章类型相关的主要主题。最后,我们进行了回归分析,以推断一个帖子收到的关注(投票、评论)与该帖子是否包含人脸图像之间的关联。


道德的考虑

这项研究只涉及了Reddit上可以公开访问的在线帖子。我们仅在本文中发表了分析结果,为保护用户隐私,所有引用的文章或数字都进行了匿名处理。

概述

图2提供研究管道的概述,其中有两个主要步骤。第一步涉及数据收集和分类,我们收集了r/23andme子reddit上的帖子,并使用人脸识别软件提取出带有人脸图像的帖子。第二步是分析。具体来说,我们首先进行了探索性分析,以调查帖子的时间趋势,然后利用主题建模来推断这些帖子中传播的主题。最后,我们进行了回归分析,以确定在帖子中包含人脸图像是否与它所受到的关注有关。在这项研究中,我们通过评论数量和一篇帖子从其他在线用户那里收到的因果报应得分来表征注意力。Reddit上的因果评分被定义为“赞”票数减去“减”票数,表明一篇文章的受欢迎程度。

图2。r/23andme后期分析的研究工作流程概述。RQ:研究问题。
查看此图

数据收集和分类

为了从r/23andme子reddit收集数据,我们首先使用pushshift.io收集了所有帖子(即提交)和评论的id。然后,我们应用Python Reddit应用程序编程接口包装器包(版本6.3.1)从Reddit中提取每个帖子ID的数据。具体来说,我们收集了2012年12月31日至2020年1月31日期间r/23andme上发表的所有帖子和评论。每个收集的帖子包含以下信息:(1)作者标识符,(2)帖子标题,(3)帖子正文,(4)图片URL(如果帖子中有图片),(5)帖子评论,(6)发布日期,以及(7)帖子和附属评论的业力分数。

我们从包含图像URL的帖子中下载了图像,并应用了面部识别Python包(版本1.3.0)[20.将图像分为(1)有脸的图像和(2)没有脸的图像(即无脸图像)。为了评估人脸检测算法的准确性,我们从每组中随机选择100张图像,并手动检查分类质量。我们发现7张无脸图像被归类为人脸图像,假阳性率为7%(7/100),2张人脸图像被归类为无脸图像,假阴性率为2%(2/100)。为了达到100%的精度,我们手动检查了人脸组中的所有图像,并重新标记了错误分类的图像。由于无脸图像的真阳性率高达98%(98/100),且无脸图像的数量很大(3865),我们没有对这组无脸图像进行人工复查。因此,我们将所有收集到的帖子分为三种类型:(1)纯文本帖子;(2)无脸图片的帖子;以及(3)贴带有人脸图片的帖子(如图1),对应3类用户。

数据分析

为了描述人脸图片的发布行为,我们从(1)发布时间趋势,(2)发布主题,(3)从评论数量和因果关系评分方面比较了人脸图片帖子和其他两种类型的帖子。

主题分析

为了研究这三种帖子类型之间的主题差异,我们应用了主题建模[21],因为41.1%(6404/ 15596)的帖子正文是空的。我们首先对数据进行标记并删除所有标点符号。接下来,我们使用nltk Python包(3.3版)将单词分解为基本形式(例如,“walks”变成了“walk”)。我们还替换了人称代词,比如“我们”、“她”和“他们”,加上符号“- pron -”,并将数字替换为“datum”。然后应用潜狄利克雷分配(LDA) [22],在gensim Python包(3.8.1版)中实现,用于提取主题。由于LDA是一种无监督学习模型,我们根据相干分数校准了最佳模型的主题数量,相干分数衡量了主题中成对单词的语义相似性。为此,我们在lemm化的单词集上运行了2到20个主题的LDA模型(步长为2),并选择了获得最高一致性分数的主题数。最后,为了证明主题建模的质量,我们使用t-分布随机邻域嵌入[23]以聚类主题,并将结果以2D表示形式显示(图S1和图S2)多媒体附件1).

回归分析

我们调查了两种类型的关联。首先,我们考虑了一个图片帖子(有脸和没有脸)和它收到的关注之间的联系。其次,我们考虑了脸贴和它所受到的关注之间的联系。由于评论的数量和因果报应分数是非负计数变量,我们应用负二项回归来推断关联[24].

考虑到更早发布的文章可能会被更多的读者阅读,从而获得更多的评论和投票,我们将一篇文章的发布天数作为控制变量。此外,关于不同主题的帖子可能受到不同程度的关注。为了减少帖子主题的影响,我们将每个帖子的主题分布作为一组额外的控制变量。在模型拟合过程中,我们省略了一个主题(T4,见下文)以解决共线性问题。

此外,用户的活跃程度可能会影响其帖子的受欢迎程度。例如,来自活跃用户的帖子可能会获得更多关注。为了减少用户活动的影响,我们将每个用户的帖子数量和评论数量作为额外的控制变量集。我们在statsmodels Python包(版本0.11.1)中使用了负二项式回归的实现来分别为因果报应得分和评论数量拟合模型。我们报告了达到统计显著性的特征P<措施level.


在2012年12月31日至2020年1月31日期间,我们收集了20883名用户发布的15596条帖子和188843条评论。在收集的帖子中,24.8%(3818/ 15596)包含无人脸图像,5.4%(849/ 15596)包含人脸图像。

时间趋势

图3A,该图描述了每个月的时间后趋势。可以看到,r/23andme版块在2017年之前的活跃度都比较低,之后每月的帖子数量增长很快。2018年之后,图片帖子(有脸和没有脸)开始流行起来。在图3B,该图显示了职位数量的季度增长率。绿色虚线表示,自2019年以来,人脸帖子数量呈现快速增长,增速超过了所有帖子(蓝色线表示)和图片帖子(橙色虚线表示)的增速。值得注意的是,我们发现在23andme的重大促销活动(例如,作为黑色星期五和亚马逊黄金日的一部分,亚马逊公司举办的广告活动)后,所有3种类型的帖子的发帖率都迅速上升,这与Yin等人的发现是一致的[8].

图3。平滑了三类岗位的时间趋势,包括每月发布的岗位数量(A)和每季度岗位增长率(B)。
查看此图

职位注意事项

图4A是一个箱线图,显示每种文章类型的每篇文章的评论数量。有脸的帖子收到的评论最多,其次是没有脸的帖子。纯文字帖子的评论中位数是6条,但无人脸图片帖子的评论中位数增加到9条,有人脸图片帖子的评论中位数增加到13条。图4B是一个箱形图,按post类型显示业力得分。有脸帖子的中位数业力得分最高(34分),其次是无脸图片的帖子(中位数业力得分13分)。相比之下,文字帖子的因果报应得分中位数仅为4。评论和因果报应得分的单向方差分析表明,差异具有统计学意义(P<措施)。

图4。注意三类岗位。每篇文章的评论数(A)和因果报应得分(B)。为了表示目的,我们删除了超过80条评论或因果报应得分大于150的帖子(占数据的3%)。完整的数据集在图S3和图S4中提供多媒体附件1
查看此图

用户活动

我们根据帖子和评论的数量来衡量用户活动。我们发现26.8%(2442/9114)的用户发布了无脸图片,而8.5%(774/9114)的用户发布了人脸图片。图5A是一个图表,显示所有3种用户类型的帖子中位数为1。然而,发布图片(有脸或没有脸)的用户的第三个四分之一是2。这表明,平均而言,发布图片(有或没有人脸)的作者比只发布文本的作者发表的文章更多。图中图5B描述每种用户类型发布的评论数量。发布脸部照片的用户评论最多,中位数为8条。对于发布不含人脸图片的用户,中位数下降到6。对于那些只发布文字的用户,评论的中位数要低得多,只有3条。文章数量和评论数量的单因素方差分析结果表明,差异有统计学意义(P<措施)。

图5。每个用户发布(1)纯文字、(2)无人脸图像和(3)人脸图像的帖子数量(A)和每个用户评论数量(B)。为了表示,我们删除了发表帖子超过10条或评论超过50条的用户,占用户总数的4.4%。完整的数据集在图S3和图S4中提供多媒体附件1
查看此图

主题分析

表1显示了10个推断的主题,它们最相关的单词,以及主题分布(图S1和图S2)多媒体附件1显示详细的选题数量)。最相关的单词是根据它们在主题中的边际分布进行排名,并按降序显示。主题分布是按属于该主题的帖子的百分比计算的。根据每个话题概率最高的相关词汇和帖子,我们进一步将这10个话题分为三类:(1)血统组成,(2)亲属关系和家庭发现,(3)关于基因检测的一般问题。

血统组成包括4个主题:T1T2T3.,和T4.这个类别的帖子集中在祖先成分测试结果的展示和讨论。这4个主题捕获了祖先信息,这些信息传达了用户的种族、大陆血统和国籍。文本框1显示每个主题的示例帖子。亲属关系发现和家庭发现在T5和T6.具体来说,T5交流祖先和不同亲属的发现,可以看到“家庭”和“历史”等术语经常被使用。在T6例如,“发现”、“爸爸”和“兄弟姐妹”等词表明,这个话题主要集中在与直系亲属有关的发现上。关于DTC-GT的一般问题在T7T8T9,和T10.具体来说,T7帖子主要询问测试服务进度。“时间”和“等待”等词在这个话题中被高度重视。T8帖子主要是DTC-GT公司的比较。其中提到了“MyHeritage”、“23andme”和“WeGene”等公司。T9涵盖了关于理解或关于测试结果报告的问题的帖子。T10文章主要讨论了基因测试算法的升级以及测试结果的后续变化。“测试”、“更新”和“改变”等词的权重很高。

图6为每种类型的帖子提供主题分布。1-way ANOVA检验显示,所有10个主题的3种帖子类型的平均值之间存在统计学显著差异(P<措施)。面部帖子更有可能交流祖先组成(T1T2T3.,和T4)和亲属关系和家庭发现(T5和T6),而短信帖子更有可能是关于一般性问题(T7T8,和T9).T10,一个关于23andMe算法升级的话题,结果显示,无脸图片帖子更有可能传播这个话题,其次是文字帖子,然后是人脸图片帖子。这可能是因为用户倾向于发布算法升级前后的结果截图,以便进行比较。

表1。从r/23andme子reddit推断的主题。样本词根据它们在主题中的相关性得分降序排列。
类别 最相关的20个词汇 主题分布
祖先组成

话题1 欧洲的,- pron -,结果,意大利的,爱尔兰的,英国的,惊讶,犹太的,白人的,中国的,广泛的,一点,东方的,德系犹太人的,惊讶的,斯堪的纳维亚的,给,眼睛,很多,惊讶的 11.6%

话题2 - pron -,祖先,德语,猜测,法语,制作,post,遗产,年份,种族,祖母,共同,祖父母,解释,超级线程,感觉,波兰,加拿大,困惑,错误 7.9%

话题3 结果,- pron -,期望,最后,回来,祖先,有趣,漂亮,AncestryDNA,熊,自信,最近,位置,菲律宾人,酷,家伙,生活,思想,芬兰,大 9.1%

主题4 美国人,亚洲人,非洲人,土著,墨西哥人,人,南方,百分比,地区,尼安德特人,基因,高,部分,西班牙人,未分配,东部,北部,变体,痕迹,添加 10.6%
亲属关系和家庭发现

主题5 - pron -,家庭,今天,接近,树,理解,价值,信息,don,特质,历史,链接,发生,图片,兴奋,爱,列表,连接,继承,风险 6.5%

主题6 - pron -,找到,爸爸,一半,妈妈,爸爸,表哥,妈妈,身边,姐姐,收养,哥哥,伟大,兄弟姐妹,爷爷,满,奶奶,亲生,阿姨,背影 9.2%
一般的问题

主题7 试剂盒,长,时间,提取,等待,时间线,遗传,天,接收,样品,分析,周,测试,步骤,发送,批量,失败,信息,工作,坚持 14.2%

主题8 andme,祖先,数据,健康,原始,准确,GEDmatch, MyHeritage,好,DNA,上传,比较,站点,比较,土地,数据,服务,差异,WeGene,解释 11.0%

主题9 DNA,测试,亲戚,问题,父母,报告,分享,- pron -,阶段,显示,生成,关联,计算,人,意外,噪音,神秘,关系,账目,数字 9.7%

主题10 结果,更新,beta,单倍群,匹配,母性,变化,父性,染色体,地图,混合,芯片,波多黎各,韩国,丢失,评论,迟到,原始,罗马尼亚 10.2%
不同主题的帖子示例。
  • “所以我不像我想象的那么像英国人,而更像瑞士人”(话题1)。
  • “能猜到我朋友的种族吗?”他认为他是法国人/德国人,英国人,也许还有一些斯拉夫人”(话题2)。
  • “在马尼拉出生和长大,从小就认为自己是100%的菲律宾人。对我的结果有点震惊”(话题3)。
  • “发现我是东亚人和美洲原住民,但我的北亚人和美洲原住民血统很高”(话题4)。
  • “我发现我有一打我不知道的表兄妹”(话题6)。
  • “我表姐做了DNA测试,把我们和曾祖母家联系了起来!(话题5)。
  • “在我看来,我妈妈和她的双胞胎妹妹都是我妈妈”(话题6)。
  • “我的工具箱移动得慢吗?”在跟踪显示它已经交付后,花了2周时间才被标记为“到达””(Topic 7)。
  • “23andMe vs WEGENE -将23andMe原始数据上传到WEGENE,这是区别”(主题8)。
  • “如果共享的DNA在80个片段中是1610厘米,那么这种关系可能是什么?”(话题9)。
  • “当选择进入Beta程序时,v5.2 Beta更新现在应该对所有早期芯片(前v5)用户可用”(主题10)。
文本框1。不同主题的帖子示例。
图6。每种帖子类型主题的流行程度。题目是按类别排列的。*P<措施according to a 1-way ANOVA with post-hoc Tukey honestly significant difference tests for pairwise differences between the 3 post types for the topic.
查看此图

回归分析

表2总结了负二项回归的结果。R对于图片→评论和R对于image→score,表示评论数量、因果报应得分与帖子中是否包含无脸或有脸的图像之间的关联。图片发帖与这两个因变量均表现出统计学上显著的正相关,表明图片发帖比纯文字发帖获得了更多的关注。

关于R对于脸→评论和R对于脸→分数测试,我们选择了4717个图像帖子,并评估了评论数量、因果报应分数和图像是否包含人脸之间的关联。人脸图片发布与两个因变量均呈现统计学意义上的显著正相关,表明人脸图片发布比无人脸图片发布获得更多关注。比较R对于图片→评论和R“脸→评论”测试表明,发布人脸图像对收到评论有更积极的影响。比较R对于图像→分数和R面部→分数测试也显示出类似的结果。

此外,关于控制变量,还有两个值得注意的发现。首先,对数转换后的发表天数与R对于图片→评论和R图像→分数测试(β= -。09 for image→comment,β= -。26图像→得分,P<措施)。第二,T8(DTC-GT公司比较)在所有4项测试中均呈负相关(P<措施对于图片→评论和face→comment,P=。003为图像→分数,和P=。013为脸→分数),而主题T7(询问测试服务进度)在R图像→得分,R对于face→score, andR面部→评论测试(P<措施图像→得分,P=。003为面→分,和P=。04为脸→评论)。主题T之间的负相关7T8,脸贴强化了我们之前的发现,包括脸的帖子中的主题不太可能对应关于DTC-GT的一般性问题。

表2。文章类型与评论和因果关系评分的回归分析结果。所有相关性均有统计学意义(P<措施)。
负二项回归 因变量 独立变量 β Z SD P价值
R图像→评论 评论数量 上传图片 .152 6.41 0.024 <措施
R图像→得分 业力的分数 上传图片 .618 12.35 0.050 <措施
R面对→评论 评论数量 张贴人脸图像 .451 10.21 0.044 <措施
R对于面临→得分 业力的分数 张贴人脸图像 .760 9.64 0.079 <措施

主要研究结果

这项调查有几个值得注意的发现。首先,与之前在其他社交平台上的研究一致[1819],我们发现在reddit的r/23andme版块中带有人脸图片的帖子比其他帖子获得了更多的关注。在这种网络环境中,人们对个人信息的关注可能会增加。然而,这只是一个猜想,因为我们的调查并不是为了进行因果分析。不管发布人脸照片的动机是什么,很明显,这种行为在reddit的这个版块中迅速增长。

其次,从r/23andme帖子的标题推断出的10个主题似乎分为三类。第一类的帖子涵盖了10个主题中的4个,主要讨论用户的血统组成。值得注意的是,这一类别的主题与更高的图像和人脸图像发布率相关。进一步观察到,用户援引他们的面部图像作为基因检测结果的证据(或反例)。关于亲属关系和家庭成员发现的帖子显示出中等比例的人脸图像共享。在这类帖子中,“终于找到了同父异母的妹妹”,并附上了团聚的合影,这种帖子比其他类型的帖子更常见。最后,询问有关基因检测的一般性问题的帖子,主要集中在DTC-GT公司之间的比较、测试结果交付的进展以及测试算法的升级,显示出最低的图像共享率。

第三,与我们的预期相反,我们发现帖子的发布天数与帖子的关注度呈负相关。一种可能的解释是,Reddit将6个月以上的帖子存档,不再允许评论。因此,早期帖子的评论和投票数量是有限的。我们进一步注意到,与一般性问题相关的话题与帖子的关注度呈负相关。

相关工作

自然语言处理技术已应用于各种医疗保健应用[25].以与医疗保健相关的社交媒体研究为例,Liu等[26]分析了减肥进度和Reddit用户在线互动之间的关系;克莱因等[27依靠推特数据来确定美国的COVID-19潜在病例;和Ni等[28比较了4个不同社交平台用户对“基因编辑婴儿”事件的态度。对于DTC-GT,大多数调查都集中在消费者动机上[29],对健康的影响[30.],以及伦理影响[31],只有少数公司考虑在社交平台上公开测试报告[83233].以前大多数使用社交媒体数据的研究都只专注于从文本中挖掘知识。在本研究中,我们通过考虑图片发布,评估了DTC-GT论坛上的个人图片分享行为。

本文分析了在网络环境中人脸图像分享和对帖子的关注之间的关系;这种设置可能会激励用户牺牲自己的隐私,以换取社会回应的好处。然而,这一观察结果并不意味着在所有情况下关注都是不可取的,因为一些研究表明,社会参与对个人的身心健康有益。例如,在一个大型乳腺癌在线论坛上,Yin等人[34在线交流的数量与患者的治疗依从性呈正相关。潘等[35他们发现,收到回复可以让抑郁症论坛的在线参与者受益。纳斯伦等人[36]分析了使用社交媒体作为为精神障碍患者提供支持干预的潜在可行平台的好处和风险。因此,在短期内,个人从服务中获得的感知利益通常超过感知的隐私风险。然而,考虑到隐私问题往往要到后来才会被理解[37), Reddit可能会考虑警告用户他们的行为可能带来的负面后果。

限制

尽管我们有了这些发现,但这项工作仍有一定的局限性,我们相信这将为未来的研究提供机会。首先,人脸识别包估计有2%的假阴性率,这意味着3865张人脸图像中约有76张(2%)可能被错误地标记为无脸图像。这些错误分类的图像可能会影响我们发现的准确性,尽管不会影响它们的总体方向。第二,从主题建模推断出的大多数主题是可解释的和直观的,但主题T10很难解释。如表1, T的样词10表达不同类型的信息:“波多黎各人”和“韩国人”与祖先组成有关,而“迟到”和“丢失”是询问分娩进度的证据。在这方面,更新的主题建模技术[38-40]或基于语言模型的主题建模(如top2vec [41]和BERTopic [42)可以更好地洞察社交平台上帖子的语义。然而,重要的是,个别主题的质量对我们的主要结论几乎没有影响,因为回归分析(使用主题分布作为控制变量;表2)和方差分析检验(无主题分布;图4)得出了同样的发现——r/23andme上的人脸图像分享与用户参与度之间存在统计学上的显著关联。

结论

越来越多的DTC-GT用户在社交平台上发布带有DTC-GT结果的全脸图片。在这项研究中,我们在reddit的r/23andme版块调查了这种行为的趋势,以深入了解潜在的动机。我们的研究结果显示,这种行为始于2019年9月,并经历了快速增长,到2020年初,超过849个露脸帖子。此外,我们的研究表明,与其他帖子相比,包含人脸的帖子平均能收到60%(5/8)的评论和2.4倍的因果报应分数。包含人脸图像的帖子主要是关于分享和讨论祖先组成,以及分享通过DTC-GT发现的亲人的家庭团聚照片。这些发现验证了我们的假设,即发布个人照片与获得更多的在线关注有关,这与之前的研究结果一致,即人们似乎愿意放弃他们的隐私(即他们的个人照片)来换取利益(即他人的关注)。基于这一分析,平台组织者和版主可能会以直接、明确的方式告知用户发布人脸图像的风险,并明确表示,如果个人图像被披露,用户的隐私可能会受到损害。

致谢

YL、ZY、ZW、CY提出研究思路,由BAM最终确定。YL和CN收集数据。YL和ZY设计并进行实验。BAM和EWC为数据分析提供了建议。YL起草了手稿。EWC、ZY、BAM、YV、MK、WX编辑最终稿。所有作者都审阅了最终稿。本研究部分由美国国立卫生研究院赞助(RM1-HG009034, R01-HG006844, U2COD023196)。

利益冲突

没有宣布。

多媒体附件1

补充材料。

DOCX文件,386 KB

  1. 人类基因组测序的成本。国家人类基因组研究所。URL:https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost[2022-07-02]访问
  2. 贝尔克罗斯C,佩奇P, Meaney-Delman d,直接面向消费者的个人基因组检测和癌症风险预测。癌症杂志2012;18(4):293-302。[CrossRef] [Medline
  3. 什么是直接面向消费者的基因检测?医疗在线。URL:https://ghr.nlm.nih.gov/primer/dtcgenetictesting/directtoconsumer[2022-07-02]访问
  4. Regalado A.有超过2600万人在家做过血统测试。麻省理工科技评论。URL:https://www.technologyreview.com/s/612880/more-than-26-million-people-have-taken-an-at-home-ancestry-test/[2020-03-08]访问
  5. McDermott M. 23andMe vs AncestryDNA。SmarterHobby。URL:https://www.smarterhobby.com/genealogy/23andme-vs-ancestry-dna/[2021-11-27]访问
  6. 鲁尔GL,黑兹尔JW,克莱顿EW,马林BA。公众对直接面向消费者的基因检测的态度。AMIA年度会议程序2019;2019:774-783 [免费全文] [Medline
  7. Haeusermann T, Greshake B, Blasimme A, Irdam D, Richards M, Vayena E.基因组数据的开放共享:谁做的,为什么?PLoS One 2017 5月9日;12(5):e0177158 [免费全文] [CrossRef] [Medline
  8. 尹喆,宋l, EW Clayton, BA Malin。健康和亲属关系问题:通过在线讨论了解直接面向消费者的基因检测用户体验。PLoS One 2020年9月8日;15(9):e0238644 [免费全文] [CrossRef] [Medline
  9. 徐浩,王浩,Stavrou A.网络照片隐私风险评估。2008年发表于:入侵检测最新进展国际研讨会;2015年11月2日柏林,海德堡页427-447。[CrossRef
  10. 王晓燕,王晓燕,王晓燕,等。基于人脸图像的基因组数据集个体再识别方法。科学通报2021 11月19日;7(47):eabg3296 [免费全文] [CrossRef] [Medline
  11. Masi I, Wu Y, Hassner T, Natarajan P.深度人脸识别:一项调查。2018发表于:第31届SIBGRAPI图形,模式和图像会议;2018年10月29日- 11月1日;巴西巴拉那,页471-478。[CrossRef
  12. Bäuml M, Tapaswi M, Stiefelhagen R.基于约束的半监督学习在多媒体数据中的人物识别。2013发表于:IEEE计算机视觉与模式识别会议;2013年6月23-28日;波特兰,或p. 3602-3609。[CrossRef
  13. Irshad S, Soomro t,身份盗窃和社交媒体。国际计算机科学杂志,2018;18(1):43-55 [免费全文
  14. 阿奎斯蒂A,方C.通过在线社交网络招聘歧视的实验。管理科学2020年3月;66(3):1005-1024。[CrossRef
  15. Nosko A, Wood E, Molema S.关于我的一切:在线社交网络资料的披露:以FACEBOOK为例。Comput Hum Behav 2010 5月;26(3):406-418。[CrossRef
  16. 万泽,尹永杰,夏伟,刘志强,等。再识别风险分析的博弈理论框架。PLoS One 2015 3月25日;10(3):e0120592 [免费全文] [CrossRef] [Medline
  17. 艾奎斯蒂。信息时代的隐私与人类行为。科学通报2015年1月30日;[CrossRef] [Medline
  18. 社交照片产生更多参与:社交媒体营销的新研究。社交媒体审查员。URL:https://www.socialmediaexaminer.com/photos-generate-engagement-research/[2020-03-25]访问
  19. Bakhshi S, Shamma D, Gilbert E.脸吸引我们:有脸的照片在Instagram上吸引更多的点赞和评论。:美国计算机协会;2014年发表于:SIGCHI计算机系统中的人为因素会议;2014年4月26日至5月1日;多伦多,965-974页。[CrossRef
  20. ageitgey/face_recognition:世界上最简单的用于Python和命令行的面部识别api。GitHub。URL:https://github.com/ageitgey/face_recognition[2020-03-19]访问
  21. Mohr JW, Bogdanov P.介绍主题模型:它们是什么以及为什么它们很重要。诗学2013 12月;41(6):545-569。[CrossRef
  22. 李国强,李国强。潜狄利克雷分布。J Mach Learn Res 2003;3:1022 [免费全文] [CrossRef
  23. 范德玛顿,李国强。基于t-SNE的数据可视化。J Mach Learn Res 2008;9:25 9-26 [免费全文
  24. Ver Hoef JM, Boveng PL.准泊松vs.负二项回归:我们应该如何建模过分散的计数数据?生态学报2007 11月;88(11):2766-2772。[CrossRef] [Medline
  25. Elbattah M, Arnaud E, Gignon M, Dequen G.文本分析在医疗保健中的作用:最近的发展和应用回顾。2021年发表于:BIOSTEC 2021:第14届生物医学工程系统和技术国际联合会议;2021年2月11日至13日;奥地利维也纳,第825-832页。[CrossRef
  26. 刘勇,尹哲。通过在线讨论了解减肥:使用主题建模和词聚类技术对Reddit帖子的内容分析。J Med Internet Res 2020 Jun 08;22(6):e13745 [免费全文] [CrossRef] [Medline
  27. Klein AZ, Magge A, O'Connor K, Flores Amaro JI, Weissenbacher D, Gonzalez Hernandez G.使用Twitter跟踪COVID-19:自然语言处理管道和探索性数据集。J Med Internet Res 2021 1月22日;23(1):e25314 [免费全文] [CrossRef] [Medline
  28. 倪超,万卓,闫超,刘勇,Clayton EW, Malin B,等。公众对#基因编辑婴儿事件在多个社交媒体平台上的看法:观察性研究J Med Internet Res 2022年3月11日;24(3):e31687 [免费全文] [CrossRef] [Medline
  29. Roberts JS, Gornick MC, Carere DA, Uhlmann WR, Ruffin MT, Green RC。直接面向消费者的基因检测:用户动机、决策制定和结果的感知效用。公共卫生基因组学2017;20(1):36-45 [免费全文] [CrossRef] [Medline
  30. 欧洲人类遗传学学会。ESHG关于直接面向消费者进行健康相关基因检测的声明。《欧洲学报》2010年12月25日;18(12):1271-1273 [免费全文] [CrossRef] [Medline
  31. 克莱顿EW,哈尔沃森CM,萨瑟NA,马林BA。对美国个人对隐私和遗传信息的观点进行了系统的文献综述。PLoS One 2018 10月31日;13(10):e0204417 [免费全文] [CrossRef] [Medline
  32. Olejnik L, Agnieszka K, Castelluccia C.我是2.8%的尼安德特人——基因暴露癖的开始?2014年发表于:基因组隐私研讨会;2014年7月15日;荷兰阿姆斯特丹网址:https://hal.inria.fr/hal-01087696
  33. 米托斯A,布莱克本J,德克里斯托法罗E.分析推特话语的基因检测。arXiv预印本于2018年4月20日在线发布[免费全文] [CrossRef
  34. 尹泽,宋林,马琳。互惠性与乳腺癌治疗依从性的关系。2017年发表于:第30届IEEE计算机医疗系统国际研讨会(CBMS);2017年6月22-24日;希腊塞萨洛尼基,公元618-623年。[CrossRef
  35. 潘伟,冯波,沈晨。网络抑郁论坛的社会资本、社会支持和语言使用:社会网络和内容分析。J Med Internet Res 2020 Jun 24;22(6):e17365 [免费全文] [CrossRef] [Medline
  36. 纳斯伦德JA,邦德雷A,托鲁斯J,阿什布伦纳KA。社交媒体和心理健康:研究和实践的好处、风险和机会。科学通报2020年9月20日;5(3):245-257 [免费全文] [CrossRef] [Medline
  37. 电子商务中的隐私和即时满足经济学。:美国计算机协会;2004年发表于:第五届ACM电子商务会议;2004年5月17日;纽约,纽约,第21-29页。[CrossRef
  38. Lindstedt数控。社会科学家的结构主题建模:2005-2017年社会运动研究文献的简要案例研究。2019年5月02日;6(4):307-318。[CrossRef
  39. 李文杰,李文杰,李文杰。基于语义覆盖的主题建模方法研究。第八届词汇与计算语义联合会议论文集,2019年发表于:第八届词汇与计算语义联合会议;2019年6月6日至7日;明尼阿波利斯,MN,第92-102页。[CrossRef
  40. 詹艳,刘锐,李强,李瑞松,曾德东。电子烟用户生成内容的主题识别:基于多社交媒体平台的案例研究。J Med Internet Res 2017 Jan 20;19(1):e24 [免费全文] [CrossRef] [Medline
  41. Angelov D. Top2vec:主题的分布式表示。arXiv预印本于2020年8月19日在线发布[免费全文] [CrossRef
  42. grotendorst M. BERTopic:基于类的TF-IDF过程的神经主题建模。arXiv预印本于2022年3月11日在线发布[免费全文] [CrossRef


DTC-GT:直接面向消费者的基因检测
NLP:自然语言处理
LDA:潜在狄利克雷分配


M·米查姆编辑;提交14.12.21;R Thompson, M Elbattah, W Ceron同行评审;对作者29.03.22的评论;订正版本收到24.05.22;接受22.06.22;发表03.08.22

版权

©刘永泰,尹志军,万志宇,闫超,夏维义,倪聪宁,Ellen Wright Clayton, Yevgeniy Vorobeychik, Murat Kantarcioglu, Bradley A Malin。最初发表于JMIR infodeology (https://infodemiology.www.mybigtv.com), 03.08.2022。

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用最初发表在JMIR Infodemiology上的原创作品。必须包括完整的书目信息,https://infodemiology.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。


Baidu
map