医学互联网研究杂志-消除社会媒体数据偏见以更好地了解电子烟相关态度和行为的重要性

给编辑的信

¹南加州大学凯克医学院预防医学系，洛杉矶，加州，美国

²南加州大学计算机科学系信息科学研究所，美国加州洛杉矶

*所有作者贡献均等

通讯作者:

Jon-Patrick Allem，硕士，博士

凯克医学院

预防医学系

南加州大学

索托街2001号三楼邮电局

洛杉矶，加州，90032

美国

电话:1 8586030812

传真:1 3234428201

电子邮件:allem@usc.edu

相关文章评论://www.mybigtv.com/2016/2/e41/
评论://www.mybigtv.com/2017/6/e165/

医学互联网研究，2016;18(8):e219

doi: 10.2196 / jmir.6185

关键字

互联网；监测；电子香烟；推特；社交媒体

在最近一期的JMIR,Kim及其同事描述了一个用于健康研究的社交媒体数据收集、质量评估和报告标准的框架[1]。作者的框架基于两个原则:检索精度或“检索到的数据有多少是相关的”和检索召回率或“检索到的相关数据有多少”。通过对调查主题的深入了解，以及对关键字的细化来开发可靠的搜索过滤器，作者建议可以剔除不相关的内容，并确保高质量的数据收集。作者以推特上讨论的电子烟(电子烟)为例，展示了他们的框架，展示了如何使报告标准变得系统化和透明。虽然作者有说服力地主张在健康研究中使用的社交媒体数据中采用更好的报告标准，并且他们关于检索精度和检索召回率的原则经过了深思熟虑的阐述，但他们忽视了在数据收集过程中识别捕获内容来源的重要性。例如，Twitter已经迅速成为第三方操纵的对象，行业组织和私营公司创建了自动账户，旨在影响讨论并推广特定的想法或产品。2]。这一事实在Kim及其同事的框架中是不存在的。1]，根据他们的检索精度原则，研究人员可以将有关电子烟的推文归类为高质量数据，而不管其来源如何。

最近的研究表明，70%到80%提到电子烟的推文来自自动账户[3.]。利用推特进行的研究，旨在深入了解个人层面的态度和行为，现在面临着带有大量偏见和噪音的数据。根据这些数据得出的任何结果，如果没有经过去噪技术的预处理，就会失去有效性和意义。忽视Twitter数据中的这种偏见，就像公共卫生研究人员在一项基于烟草相关态度的调查研究中，忽视了参与者样本的偏见，其中1000名参与者中有700人碰巧受雇于一家烟草公司。调查研究人员将被迫重新考虑他们的抽样框架，同样的困境适用于依赖Twitter作为数据源的社交媒体研究人员。在此，我们建议在应用Kim及其同事的框架之前，实施适当的分析以获得有效的数据集，消除偏见和噪声的来源。

应获取数据集中收集的每条推文的Twitter用户名，并分析每个账户最近的历史记录、互动和元数据，以确定该账户是否为社交机器人，即一种旨在自动生成内容并与Twitter上的人互动的计算机算法[2]。这些社交机器人看起来像是个人在运营Twitter账户，这些账户有完整的元数据(姓名、位置、精炼的引言)和一张照片或图片。来自这些账户的推文污染了社会和健康研究数据集，需要被识别和删除。像“Bot Or Not?”“(2使用一个分类系统，将每个Twitter帐户的特征分为6个主要类别:网络(扩散模式)，用户(元数据)，朋友(帐户的联系人)，时间(tweet率)和情绪(消息内容)。这个分类系统最终会生成一个分数，这个分数落在一个范围内，然后可以用来确定任何一个账户是社交机器人的可能性。如果一个账户被识别为社交机器人，那么该账户和该账户产生的任何推文都应该从数据集中删除。这个平台是免费的，易于使用，并已证明可以成功地减少由计算机科学家领导的早期研究数据集的偏差和噪音[2]。

利用Twitter来调查与电子烟相关的讨论是一种新颖的方法;然而，信噪比已越来越低[3.]。换句话说，与社交机器人的内容相比，代表个人感知、情绪和行为的信息比例很低。先前的研究试图通过使用粗糙的技术(例如，删除任何带有URL的tweet)来提高信噪比[4]。然而，这种方法和其他生硬的方法(例如，仅依赖于社区检测的方法或仅依赖于无辜的关联范式的方法-与人类用户交互的帐户被认为是人类)会导致错误分类(例如，从数据集中删除有效的推文，仅仅因为它伴随着URL或保留无效的推文，因为人类与它的原始帐户进行了交互)[5]。社交媒体研究人员在此提出的消除偏见技术可以用来克服早期的限制。

社交机器人只是Twitter帖子研究中偏见的一个来源。例如，与美国的一般人口相比，Twitter用户的人口代表了年轻人和少数民族群体。这种偏见的来源不容易被机器算法解决，纠正这种偏见应该是未来研究的重点。社交机器人的使用不仅限于讨论电子烟，还被发现渗透政治话语、操纵股市、获取个人信息和传播错误信息。5]。“要不要?”并不是一个完美的机器人检测系统，然而，它的检测准确率超过95%，这表明，与早期的方法相比，不当删除合法账户的偏见是最小的[5]。研究人员需要利用旨在可靠地识别和删除对社交媒体数据中的噪音负责的第三方账户的资源。一旦利用了消除偏见的技术，就应该采用数据收集框架、质量评估框架和卫生研究中使用的社交媒体数据报告标准。

致谢

本出版物中报道的研究得到了国家癌症研究所和FDA烟草制品中心(CTP)的补助金# P50CA180905的支持。NIH或FDA在研究设计、数据收集、分析和解释、撰写报告和决定提交报告发表方面没有任何作用。内容完全是作者的责任，并不一定代表NIH或FDA的官方观点。

利益冲突

没有宣布。

金勇，黄军，张建军。垃圾输入、垃圾输出:社交媒体数据在健康研究、信息流行病学和数字疾病检测中的数据收集、质量评估和报告标准。医学互联网研究，2016;18(2):e41 [J]免费全文] [CrossRef] [Medline]
Davis CA, Varol O, Ferrara E, Flammini A, Menczer F. Botornot:一个评估社交机器人的系统。发表于:第25届万维网国际会议;2016;加拿大蒙特利尔，第273-274页。
Clark EM, Jones CA, Williams JR, Kurti AN, Norotsky MC, Danforth CM等。雾化营销:揭露Twitter上无处不在的电子烟广告。科学通报，2016;11(7):e0157304 [j]免费全文] [CrossRef] [Medline]
黄杰，孔菲德，陈晓明。推特上电子烟营销的横断面研究。Tob Control 2014 july;23增刊3:iii26-iii30 [j]免费全文] [CrossRef] [Medline]
刘建军，刘建军，刘建军。社交机器人的发展趋势。Commun。中国计算机学报，2016;59(7):96-104。［CrossRef]

P·巴米迪斯编辑;提交09.06.16;A Benton, L Fernandez-Luque的同行评议;对作者的评论15.07.16;接受27.07.16;发表09.08.16

这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章，该许可允许在任何媒介上不受限制地使用、分发和复制，前提是原始作品首次发表在《医学互联网研究杂志》上，并适当引用。必须包括完整的书目信息，到//www.mybigtv.com/上原始出版物的链接，以及版权和许可信息。

本文内容如下e-collection /主题问题:

消除社交媒体数据的偏见对更好地了解电子烟相关态度和行为的重要性

消除社交媒体数据的偏见对更好地了解电子烟相关态度和行为的重要性

给编辑的信

通讯作者:

关键字

致谢

利益冲突

参考文献