卡塔尔世界杯8强波胆分析|卡塔尔世界杯4强波胆分析

JMIR

J医疗互联网服务

医学互联网研究杂志

1438 - 8871

卡塔尔世界杯8强波胆分析

加拿大多伦多

v21i9e13837

31482849

10.2196/13837

原始论文

美国的#MeToo运动:早期Twitter对话的文本分析

Eysenbach

冈瑟

Daughton

Ashlynn

贝尼省

阿赫耶

Modrek

Sepideh

博士学位 1

卫生公平研究所旧金山州立大学

1600 Hollaway Avenue HSS 386

旧金山，加州，94132

美国 1 415 405 7556 smodrek@sfsu.edu

http://orcid.org/0000-0003-4557-7156

Chakalov

Bozhidar

妈 2

http://orcid.org/0000-0001-5022-2697

1 卫生公平研究所旧金山州立大学

旧金山，加州

美国 2 经济学系旧金山州立大学

旧金山，加州

美国

通讯作者:Sepideh Modrek smodrek@sfsu.edu

09 2019

03 09 2019

21 9

e13837

26 2 2019 28 3. 2019 28 6 2019 7 7 2019

©Sepideh Modrek, Bozhidar Chakalov。最初发表于《医疗互联网研究杂志》(//www.mybigtv.com)， 2019年9月3日。

2019

这是一篇开放获取的文章，根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布，允许在任何媒介上无限制地使用、分发和复制，前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息，//www.mybigtv.com/上的原始出版物的链接，以及此版权和许可信息。

背景

#MeToo运动自2017年10月发起以来，引发了一场关于性骚扰、性侵和性侵犯的国际大讨论，并向多个方向发展。早期的大部分对话都发生在Twitter等公共社交媒体网站上，这也是标签运动的发源地。

客观的

本研究的目的是通过美国推特数据记录、描述和量化#MeToo运动的早期公共话语和对话。我们专注于公开的第一人称揭露性侵犯/性虐待的帖子，以及此类事件的早期生活经历。

方法

我们在2017年10月14日至21日(即运动的第一周)期间从Twitter高级应用程序编程界面购买了完整的推文和相关元数据。我们研究了来自美国境内带有“MeToo”短语的新颖英语推文的内容(N=11,935)。我们使用机器学习方法、最小绝对收缩和选择算子回归以及支持向量机模型，对揭露性侵和性虐待以及性侵和性虐待早期生活经历的单个推文内容进行总结和分类。

结果

我们发现，最具预见性的词语会为性侵犯和性虐待的揭露创造出一个生动的原型。然后我们估计，在运动的第一周，带有“MeToo”字样的新奇英语推文中，11%透露了发帖者遭受性侵犯或性虐待的细节，5.8%透露了此类事件的早期生活经历。我们研究了性侵犯和性虐待海报的人口构成，发现25-50岁的白人女性在Twitter上的比例过高。此外，我们发现，大规模分享性侵犯和性虐待的个人经历具有很大的影响力，600万至3400万推特用户可能在运动的第一周从他们关注的人那里看到了这种第一人称爆料。

结论

这些数据表明，分享的信息不仅仅是承认自己经历过性骚扰，而且往往包括对早年遭受性侵犯和虐待的生动和创伤性描述。这些发现和方法强调了内容分析的价值，在新颖的机器学习方法的支持下，提高了我们对这些揭露的广泛程度的理解，这可能放大了#MeToo运动的传播和显著性。

社交媒体性虐待性侵犯机器学习 infodemiology infoveillance

简介

从性暴力到健康(错误行为)等敏感话题，越来越多地出现在Twitter等社交网络平台上。 1- 3.］．公共卫生官员和社会科学家都在转向Twitter，以更好地了解哪些人参与了这些对话，可能会收集到哪些新信息，以及在线信息的传播范围。在卫生领域，对社交媒体帖子内容的研究有多种目的，包括产生支持监测工作的新数据，预测各种疾病的发病，以及有针对性的干预措施[ 4］．对帖子的详细内容分析，超越搜索频率和标签分析，研究了健康问题，如流感、过敏和各种精神健康状况(抑郁症、产后抑郁症、饮食失调等)[ 5- 10］．同样，社会科学家对社交媒体帖子进行了详细的内容和网络分析，以了解特定网络中的突出主题(黑色Twitter和在线女权主义)以及突出主题的影响范围[ 11- 14］．

最近关于性暴力的公共讨论的爆发是一个值得考虑的有趣案例。性暴力，包括性骚扰、虐待和攻击，非常普遍，会造成长期的行为和精神健康后遗症[ 15］．在美国，三分之一的女性一生中经历过不情愿的性接触[ 16］．尽管像#被强奸从未报道这样的标签运动有吸引力，并鼓励公开披露个人强奸经历[ 12]，这些最初的运动相对较小。2017年10月15日，公众对性暴力的讨论发生了重大变化，女演员艾丽莎·米兰诺呼吁她的粉丝，如果他们曾经经历过不必要的或不适当的性接触，就发布“MeToo”[ 5］．

米兰诺女士的推文立即在网上疯传，第一周就有1595453条推文发布，并引发了一场运动，性侵犯、虐待和骚扰的受害者感到自己有权透露或多或少关于个人经历的信息。“我也是”(MeToo)这个词是由民权活动家塔拉娜·伯克(Tarana Burke)提出的，旨在提高人们对性暴力幸存者的认识，并为他们提供支持。米兰诺在推特上使用了这一短语，而不是#BeenRapedNeverReported等更明确的标签，让发帖者保留了一些关于事件细节的隐私，并且仍然参与其中。这导致数以百万计的用户加入到对话中，并随后常态化的揭露。与此同时，通用口号#MeToo的广泛使用，催生了大量详细的爆料。由于#MeToo运动的规模庞大，许多可能没有经历过性暴力的人都面临着他们的网络成员所知道的情况。

在这项研究中，我们的目标是描述在#MeToo运动的第一周内性暴力的公开披露。在这里，我们记录了内容，量化了规模，并呈现了在#MeToo运动的Twitter早期对话中披露性侵犯/性虐待事件的Twitter用户的人口统计学特征。我们使用简单的机器学习工具创建了推文的原型，其中通常包括来自各行各业的女性对性侵犯和性虐待的详细描述，以及此类事件的早期生活经历。接下来，我们对个人层面的推文内容进行分类，以估计在运动的第一周内，所有#MeToo推文中有此类爆料的比例。此外，我们使用我们的分类来详细描述带有公开事件的海报的人口统计特征，以及所披露事件在Twitter平台上的一般影响范围。

方法数据

这个项目的数据是Twitter用户(Twitter用户名)发送给他们的追随者网络的140个字符或更少的短消息。Twitter数据被视为公共领域的现有数据，因此无需进行人工主体审查。

我们申请并获得了Twitter高级应用程序编程接口(API)平台的访问权限，该平台允许用户购买和查询自2006年发布第一条推文以来所有未删除的公开推文。我们从2017年10月14日至21日(即运动的第一周)的历史推特数据中购买了计数和完整的推文。不像其他社交媒体运动需要几个月的时间才能形成，#MeToo运动在第一周就有了最大的活跃度( 图1)，这也是我们将数据收集限制在这一时期的原因之一。在我们的分析中，我们只关注文本中带有“MeToo”的新颖或用户生成的英语推文。新奇的推文不包括对他人推文的回复，没有评论的转发，以及到其他网站或图片的链接。这是为了捕捉与特定用户绑定的帖子，并且这些帖子将对一个人的所有追随者开放。我们进一步将推文限制为带有地理标记信息的推文，将推文放置在美国(N=12,337;这一计数受到一些可变性的影响，因为它取决于查询的日期，并且只包括未删除的推文)。

图1显示了推特上每个标签创建前一天开始的新奇英语推文的每日计数(BlackLivesMatter, 2013年7月13日，MeToo, 2017年10月14日)。来自Twitter Premium API的计数因查询日期而异。这些计数提取于2018年8月14日。

用于内容分析的分析样本包括研究期间97%以英语为基础的新奇推文的全文和相关元数据(N= 11935)。图2给出对捕获和分析的推文样本进行过滤的流程图(见多媒体附件1参阅遴选过程的详情)。

图1

比较包括MeToo和BlackLivesMatter在内的新颖英语推文的相对时间模式。“我也是”的数量在左轴，“BlackLivesMatter”的数量在右轴。BLM: BlackLivesMatter。

图2

数据流程图。LASSO:最小绝对收缩和选择算子;支持向量机:支持向量机。

分析

我们首先提出证据，证明我们选择用于分析的美国新颖的#MeToo英文推文样本，在时间趋势方面与所有新颖的#MeToo英文推文具有可比性。我们绘制了从10月14日开始的每小时#MeToo推文数量的图表，以显示比较所有#MeToo推文、新颖的#MeToo英文推文和基于美国地理标记的新颖的#MeToo英文推文的时间趋势。我们还报告了这些类别中每小时推文数量的相关定量测量(Pearson相关和决定系数)。

注释过程

在分析数据之前，两位作者回顾了运动第一周的大约2000条推文。在此初步回顾的基础上，我们选择将分析的重点放在性侵和性虐待的第一人称披露和童年性侵和性虐待的经历上。这些推文显示了几类带有#MeToo标签的评论。其中包括(1)以#MeToo为主题的推文，这些推文是支持声明(例如，“有多少不在聚光灯下的女性有#MeToo #Notaceleb #StillAStar。为他们骄傲!正如博斯所说:“每个人都很重要，或者没有人重要””)，(2)对事件进行模糊揭示的陈述(例如，“我也是”和“将它埋藏了很多年，甚至没有真正意识到它对我的影响。”)，(3)对事件进行详细揭示的陈述(例如，“我在8岁的时候被一个家庭成员性侵犯 (原文如此)它永远不会结束，在你毁了别人的生活之前，请记住这一点”)，以及(4)其他(即，负面评论，无关的内容，或利用标签;“这个周末没有看任何比赛@NFL @nflcommish @nflnetwork #我今年也没有买nfl的商品，已经退了# nfl周日票”)。

基于最初的回顾，我们选择关注第二和第三类，并创建了一个注释标题来分类第一人称爆料。对于明确发生过的事件的模糊陈述(即第二类)，例如透露了所谓的攻击者的姓名或情况，但对实际行动的细节很少，我们认为这种回忆可能反映了持久的创伤，应该被归类为公开的虐待或攻击。如果这些模糊的事件是在童年经历的，它将被归类为早期的虐待或攻击经历(“我是一个太害怕说话的孩子。直到今天，它仍然困扰着我”)。如果声明过于模糊，没有提及童年，或提供很少的细节，我们就不会将其归类为虐待(例如，“有时我们不分享的故事是那些影响我们并继续让我们害怕的故事”以及“试图在推特上发布我的#metoo时刻，然后删除了它，因为它仍然感觉是我的错。”你没有听到的声音震耳欲聋”)。对于第三类——基于所谓事件的最清晰的案例，我们根据所提供的细节将揭露的内容分为虐待或攻击和早期生活经历。图3提供注释过程的示意图。

我们从以英语为基础的#MeToo推文中随机选择了650条推文的子集作为分析的训练集。根据我们的标题，两位作者对这650条随机选择的推文进行了分类。每条推文都按照两个主要维度进行分类:这条推文是否揭示了性侵犯和性虐待经历的细节，以及这些细节是否表明事件发生在早年。所有其他类型的推文(支持、过于模棱两可或其他)都被归类为没有透露虐待或攻击事件。我们用22岁的大致年龄(或大学或更早的教育)来区分和描绘早期的生活经历。这是为了将大学经历归入早期生活的范畴。所有其他推文都被归类为“其他”。两位作者对性虐待和性侵犯的分类一致性为94%，童年经历的一致性为98%。大多数关于虐待/攻击分类的分歧都发生在揭露模糊的案件上，这两种说法都有可能。大多数关于童年经历的分歧都发生在揭露的事件发生在过去的情况下。 Many cases point to an event in the distant past, but it was hard to ascertain the age of the poster at the time of the revealed event, because we did not have the current age of the poster. Given these minor differences in interpretation, we decided to use one author’s (BC) categorization in the training set. To assess our model performance, we used the other author’s (SM) classification in the test set for calculating positive and negative predictive values.

推文按照两个维度进行分类:如果他们披露了性侵犯和性虐待的经历(红色部分) 图3)，以及细节是否表明该事件发生在早期生活(橙色在图3)．所有其他推文都被归类为“其他”。多媒体附件2提供了作者进行分类的例子，这些分类以Ranger Cervix和Jaime Chandra在2016年年中创建的“强奸文化金字塔”图形版本1中的分类为指导[ 17］．

图3

分类流程图。

预测方法

为了提供已披露推文的样本，我们在训练样本上使用了简单的监督机器学习方法——最小绝对收缩和选择算子(LASSO)回归模型，以在两个维度上找到用于分类的最具预测性的单词[ 18］．这使我们能够呈现最具预测性的词语，作为具有此类启示的推文的原型。

LASSO回归是经济学家使用文本作为数据并进行简单计算语言分析的常用工具[ 19］．LASSO是一个具有L1惩罚的惩罚线性模型，作为一种收缩方法来帮助执行特征/单词选择，以在监督学习环境中从候选单词列表中识别出最具预测性的单词。推荐使用这些方法，因为它们直观且可解释。LASSO回归优于ridge回归，后者是另一种带有L2惩罚的线性模型，因为它对变量选择更有效。此外，我们选择了LASSO而不是弹性净回归，当特征/单词之间存在大量相关性时，弹性净回归有时是首选的，因为我们发现训练集数据中的单词之间的相关性有限。

在移除停止词后，我们的训练集中有11931个独特的单词，来自650条推文。我们剔除了每个单词，检查了列表中的拼写错误，并考虑了至少出现在五条推文中的单词(和存根)，以限制样本的稀疏性，最终得到1186个独特的单词。从这些词汇中，作者选择了109个与性侵犯和性侵犯有关的词汇。这种过滤进一步限制了数据的稀疏性。然后，我们对650条编码为性侵犯/性虐待(或编码为早期生活经历)的推文和109个单词的矩阵使用LASSO回归，如果每个单词出现在每条推文中，则每个单词都被视为二进制标志。例如，如果推文中包含“强奸”或“强奸”一词，那么变量“强奸”就被编码为1。

LASSO模型最小化一个目标函数，这是一个有约束的普通最小二乘模型(OLS)，旨在寻找在编码为揭露性侵犯或性虐待的推文中具有最强预测能力的词。

方程1:,在那里为估计β系数的L1范数;这是所有β系数绝对值的和，和是预测结果相对于每个观察结果的实际结果的方差平方和。该算法与OLS相同，但增加了对大估计β系数的惩罚。惩罚的形式与L1范数驱动许多β系数的大小为零。这本质上使算法识别和选择最具预测性的特征/单词[ 18］．

LASSO模型在统计软件R([计算机程序]3.5.0版)中实现。奥地利维也纳:R统计计算基金会;2018)使用“glmnet”软件包。对LASSO模型的结果进行了十倍交叉验证。交叉验证允许我们选择具有最小均方误差或模型方差的λ值的模型。从这个选择的模型中，我们获得了一份关于揭露性侵犯/性虐待词汇的推文的35个最具预测性的单词列表，以及关于揭露性侵犯/性虐待早期生活经验的推文的34个最具预测性的单词列表。然后作者对这些单词列表进行了分类。

然后，我们使用相同的推文训练样本来训练支持向量机(SVM)模型，沿着相同的两个维度对其余的推文样本(N=11,285)进行分类——性侵犯/性虐待的经历和性侵犯/性虐待的早期生活经历[ 18， 20.］．

SVM是一种判别分类器，用于训练数据，在多维空间中定义一个分离的超平面，然后使用这个超平面对新数据进行分类。在训练集中，更接近潜在定义超平面的数据点(即支持向量)被赋予更多的权重。底层算法的目标是使用代价函数最大化支持向量数据点和分离超平面之间的裕度[ 18］．

在我们的例子中，我们有一个11931个唯一单词(维度)的矩阵和650个标记的结果数据。根据这些信息，算法定义了一个分离超平面。基于这个超平面，其余11285条推文被分类。在R软件中使用“RTextTools”包进行SVM模型操作。

我们用四个测试集评估SVM模型的分类质量，每个分类类别两个测试集，以估计阳性和阴性的预测值。为了计算正预测值(PPV)和负预测值(NPV)，我们对50条推文进行了四次采样作为测试集。前两个样本用于评估PPV和NPV对性侵犯和性虐待的模型预测。第二个样本用于评估PPV和NPV对性侵犯和性虐待早期生活经历的模型预测。鉴于训练集中使用了BC的分类，我们在测试集中使用SM的分类来评估模型。

对于前两个样本中的每个样本，一名作者(SM)评估了推文的内容，以揭示性侵犯和性虐待的经历。我们将人类评估的内容作为金标准，并计算SVM算法的分类与人类分类相同的时间比例。PPV的计算方法为真阳性数(人与算法的一致性)除以支持向量机算法发现的阳性数。NPV的计算方法为真阴性数除以SVM算法发现的阴性病例数。我们重复这一过程，并对后两个样本的内容进行手动分类，以揭示性侵犯或性虐待的早期生活经历，以计算PPV和NPV

基于这些分类，我们使用了之前经过审查的商业服务——人口统计专业服务(demographic Pro)。 21， 22]，以推断有过虐待/攻击事件及童年经历的个人的人口特征( 多媒体附件1他们的算法的描述)。然后，我们根据经验得出了每个发布事件的帖子的粉丝数量的25%-75%的估计。这使我们能够进行粗略的计算，以获取运动第一周揭露性侵犯/性虐待的推文的影响范围的下限。这一估计数字代表了潜在的Twitter用户数量，这些用户可能会被他们关注的人发布的性侵犯/性虐待信息曝光。

结果

图4显示了#MeToo推文的时间趋势，说明了这项运动是如何发展的。我们展示了从2017年10月14日00:00 GMT开始的每小时推文计数，也就是运动开始的前一天。我们还比较了所有#MeToo推文、新颖的英文#MeToo推文和新颖的英文#MeToo推文(本研究使用的主要样本)，以表明它们在第一周遵循类似的总体时间趋势。每小时发布的#MeToo推文数量和带有地理标签的#MeToo英文推文数量之间的Pearson相关系数为0.96，决定系数为0.92。中的高级API派生的计数图4根据查询日期而有所不同。这些计数提取于2018年6月12日。

作者BC对训练集中随机选择的650条推文进行了分类，揭示了大约19%的推文包括第一人称揭露性侵犯/性虐待。在带有LASSO回归的监督机器学习方法中使用BC的分类来识别最具预测性的单词。文本框1总结和组织与性侵犯/性侵犯揭露相关的最具预测性的词汇。最具预见性的词汇被组织成对时间、人物、动作、身体部位的描述，以及表示状态和其他的词汇。例如，预测动作动词包括“强奸”、“摸”、“抢”和“喊”等。其他高度预言性的词与醉酒状态有关(“醉酒”或“毒品”)。许多预言性的词语将启示的事件放在过去，特别是在早年生活中(“年龄”、“大学”、“第一次”和“几岁”)。

图4

“我也是”推文的每小时计数。上图:按类别划分的“我也是”推文的小时计数(总体、小说英语和带有地理标记的小说英语)。下图:每小时统计所有带有“MeToo”短语的新奇英语推文，以及每小时统计美国所有带有地理标记的新奇英语推文。

推文中包含的词语总是预测性侵犯或性侵犯的揭露(大多数预测性词汇被分类)。

时间/年龄

年龄

大学

第一次

年级

Hasnumber (Hasnumber是文本中是否有数字的总体指标。)

幼儿园

老

一年

年前

岁

人

的男朋友

同事

日期

父亲

男人。

强奸犯

警察

陌生人

老师

叔叔

行动

优势

追逐

抓住

摸索

强奸

喊

身体的一部分

手臂

女人的乳房

屁股

状态

药物

喝醉了

其他

日光

门

面试

Frat(这个术语可以表示一个地点，时间/年龄，或隐含的中毒程度。frat这个词可以表示一个时间(大学是大多数人去兄弟会的时候)，一个地方，比如兄弟会的房子，以及醉酒的程度，因为兄弟会通常是提供酒精的地方。)

在训练集中随机选择的650条推文中，作者将5%的推文归类为表明早期性侵犯/性虐待的经历。文本框2总结和组织与性侵犯或性侵犯早期经历相关的最具预测性的词汇。虽然许多预测性的术语是相同的，但为那些有早期生活经历的人列出的人员名单或可能的攻击者名单包括“邻居”和“继父”等术语。此外，“睡着”和“害怕”的状态具有很强的预测性。总之，这些预测性词汇提供了一幅运动早期阶段发布的推文类型的图片。注意，预测词不同于捕捉单词频率的词云。例如，“MeToo”出现在我们检查的每一条推文中，但根据我们的方法，它不是，也不可能预测性侵犯/性虐待的披露。另一方面，“猥亵”这个词并不是出现在每条推特上，而是在揭露性侵/虐待的推特上的预言性词汇。

接下来，我们对训练集中相同的650条分类推文使用SVM算法。在剩下的11285条推文中，SVM算法将1287条推文(11.4%)归类为揭露性侵犯/性虐待，657条推文(5.8%)归类为揭露早期性侵犯/性虐待( 多媒体)．为了评估SVM分类的有效性，我们计算了PPV和NPV与人类分类测试集的比较。性侵犯/性虐待的支持向量机分类的PPV为87%，这意味着算法与我们对揭露性侵犯/性虐待的推文的人工评估之间有87%的一致性。NPV为83%，这表明与作者的评估相比，该算法可能略微少报了揭露性侵犯/性虐待的推文数量。对于早期生活经历分类，PPV为79%，NPV为95%。算法和作者对被识别为揭示性侵犯/虐待早期生活经历的推文的评估之间的一致性略低，但假阴性率相当低。总之，对算法的这些评估表明，我们的算法表现良好，并且与人工生成的分类高度一致。

在表1，基于SVM分类，我们给出了每天揭露性侵犯/性虐待的推文和性侵犯/性虐待早期生活经历的百分比。在运动的头两天(10月15日至17日)，11%-13%的推文透露了性侵犯或性侵犯的经历，超过一半的推文透露了性侵犯/性侵犯的经历发生在早年。随着运动的推进，在第一周的最后一天，揭露性侵犯/性虐待的推文减少到约6%，但这些事件的早期生活经历的相对比例增加到80%以上，这表明更多的创伤性事件被分享。

基于SVM分类，然后我们使用demographic Pro预测服务来了解和比较早期#MeToo运动期间性侵犯/性虐待海报的人口统计数据。我们在表2．基于支持向量机模型的结果，我们确定了1168个独特的海报/推特处理，揭示了性侵犯/性虐待事件，612个独特的海报，揭示了性侵犯/性虐待的早期生活经历。我们把这些推特账号分享给了人口统计学专业人士，他们给了我们关于这些海报人口统计学特征分布的汇总预测。我们发现，在这些发布性侵犯/性虐待经历的推特用户中，90%是女性。这与国家估计的90%的性侵犯受害者是女性是一致的[ 23］．我们还发现，在我们的Twitter数据中，白人女性在美国人口、Twitter用户比例以及报告遭受性侵犯的全国估计人数(数据未显示)的早期对话中所占比例过高。年龄分布还显示，年龄在25-50岁之间的推特老年用户披露事件的比例不成比例。

最后，从SVM分类中，我们使用了在#MeToo运动的第一周揭露性侵犯/性虐待的帖子的粉丝数量提供的元数据，以更好地了解此类披露的影响范围。根据发帖者的粉丝数量，我们从有这种经历的用户中选取了25%-75%的粉丝，并计算出可能看过第一人称爆料的Twitter用户数量的下限范围。这个简单的计算提供了5,955,342到34,251,628个Twitter用户的覆盖范围，我们认为这是一个相当大的下限( 多媒体)．

我们认为报告的覆盖范围被低估了，因为我们没有包括回复或转发，而且我们的算法有更高的误报率。我们没有调查披露事件的人的网络，这可能是高度重叠的，这意味着许多用户会看到多条披露事件的推文。此外，发布关于性侵犯的帖子的关注者的分布似乎与Twitter用户的总体关注者的分布没有实质性的变化( 多媒体附件4)．最后，我们只捕获了Twitter上的帖子。许多人还在Facebook等其他社交媒体平台上发布了#MeToo帖子。

推文中包含的词语持续预测早期性侵犯或性侵犯经历的揭露(大多数预测性词语分类)。

时间/年龄

年龄

大学

第一次

大一新生

年级

Hasnumber (Hasnumber是文本中是否有数字的总体指标。)

高中

幼儿园

老

学校

年前

岁

人

警察

同事

日期

医生

父亲

男性

邻居

强奸犯

一步的父亲

老师

叔叔

行动

强奸

把

螺杆

身体的一部分

手臂

屁股

猫咪

状态

害怕

睡着了

喝醉了

其他

音乐会

表1

#MeToo推文中披露性虐待/性侵犯和早期经历的推文的数量和百分比。

日期	总n^一个	虐待/攻击，n (%)	早期经历，n (%)
10/15/17	371	43 (11.59)	25 (6.74)
10/16/17	5987	817 (13.65)	420 (7.02)
10/17/17	3174	336 (10.59)	142 (4.47)
10/18/17	1155	113 (9.78)	54 (4.68)
10/19/17	676	57 (8.43)	21日(3.11)
10/20/17	356	31 (8.71)	14 (3.93)
10/21/17	215	14 (6.51)	12 (5.58)

^一个美国带有地理标记的新奇英语推文的数量。

表2

独特Twitter用户的虐待/攻击和早期生活经历样本的人口统计学特征。

特征		美国人口普查，%^一个	Twitter整体，%^b	虐待/殴打样本(N=1168)， %^{b, c}	早期经验样本(N=612)， %^{b, c}
性
	男性	49.2	45.8	10.6	9.2
	女	50.8	54.2	89.4	90.8
年龄(年)
	≤19	25.4	25.02	15.2	13.1
	至24	6.70	45.33	25.5	24.1
	25 - 29	7.10	16.10	20.	20.
	- 34	6.70	7.16	17.8	22
	35-39	6.60	2.40	8.1	7.3
	40至49	12.5	3.25	9.7	9
	50-59	13.3	0.49	2.6	3．7
	≥60	21.7	０．２５	1	0.8
种族/民族
	白色/白种人	60.7	78.7	90.7	89.8
	拉美裔	18.1	7.6	6.2	6.1
	非裔美国人	13.4	13.1	2.6	3．3
	亚洲	5.8	0.6	0.4	0.8
	美国土著/太平洋岛民	1．5	- - - - - -^d	- - - - - -	- - - - - -

^一个年龄分布基于2017年美国社区调查1年估计(2017年7月1日)。

^b人口统计专业于2018年10月18日提供的比例。

^c基于我们在美国地理标记的新奇英语推文分析样本中的分类。

^d不可用。

讨论主要研究结果

我们对推特上#MeToo运动早期对话的内容进行了首次定量文本分析，这是2017年推特上最大的标签运动[ 24以及最大规模的关于性暴力的公开讨论。我们使用机器学习在运动的第一周提供披露的范例。最具预见性的词语创造了一个揭露性侵犯/性虐待的推文内容原型。它们包括我们会想到的“摸索”和“强奸”，以及“喝醉了”、“睡着了”和“害怕”等状态。根据我们的模型，在运动的第一周，11%的新推文公开透露了性侵犯/性虐待的经历，6%的人透露了性侵犯/性虐待的早期生活经历。最初共享的女性主要是25-50岁的白人女性。从老海报上的推文来看，这些经历深深印在了这些女性的记忆中，并不是无关紧要的短暂事件。值得注意的是，在早期的对话中，非洲裔美国人相对于他们在推特上的表现不足。此外，考虑到推特上可能存在的连通性，我们估计有600万到3400万推特用户可能已经暴露在至少一次这样的详细披露中。

限制

这项研究有一些关键的局限性需要注意。首先，基于经济上的考虑，我们无法在#MeToo运动的第一周内提取所有新颖的英语帖子。相反，我们选择关注那些在美国境内有地理标记的人。这一限制使得购买几乎所有符合这一类别的推文成为可能。为了检验这些推文的代表性，我们检查了与所有#MeToo帖子和新颖的英语#MeToo帖子相关的时间模式( 图3)．这一分析表明，新奇的英语地理标记推文的发布时间与新奇的英语推文没有什么不同。然而，如果允许Twitter对推文进行地理标记的用户系统地揭露性侵犯/虐待事件的频率与不允许Twitter对其推文进行地理标记的用户不同，那么我们的估计可能是不准确的。然而，我们注意到，用户可能会在他们发布MeToo推文之前的某个时间在推特上启用地理标签。因此，允许地理标记并不一定与MeToo推文有关。其次，我们只包括了关于#MeToo主题的英语推文，尽管在不同的语言中也有类似的运动(比如#YoTambien或#BalanceTonPorc)，而且我们确实检查了美国以外的推文。例如，基于英国或加拿大的英语#MeToo推文不包括在我们的数据中。同样，可能存在系统差异，这将影响我们的估计，因此，我们承认我们的估计反映了美国的对话。第三，虽然我们研究了发生在同一周的许多相关或反标签运动的时间动态，如#他虽然，#我相信你，#我听到了你，#我不会，#如何改变，但我们没有将这些纳入我们的分析中，因为这些标签是对#我也是帖子的回应。带有这些其他标签的推文内容不太可能揭露性侵犯/性虐待，而只是口头支持。 Future analyses could examine who voiced support rather than who revealed events. Fourth, we did not conduct network analysis examining common retweets, which would have had much greater reach. Our focus was on novel revelations that were rarely retweeted relative to support statements, which were often retweeted. Fifth, we only examined the first week of the movement. This was a deliberate choice because the movement went in many directions afterward, with calls to stop posting traumatic events because they triggered women [ 25或者要求男性发帖，而不是女性发帖并重温她们的创伤。最后，许多推文含糊其词，表明发生了一些事情，但没有足够的细节来确定是否存在虐待或攻击。尽管如此，我们还是基于对数千条推文的阅读使用了一致的方法。根据我们的注释，经过训练的机器学习估计值的NPV和PPV都很好。但是，不同的注释器可能会有稍微不同的估计。

结论

尽管存在明显的局限性，但我们的研究结果强调了性侵犯/性虐待个人经历的大规模分享，充满了早期生活经历的叙述，这使得#MeToo运动得以传播，并在推特上广泛传播。此外，这些推文和这里提出的原型提供了丰富的细节，以补充传统上从调查数据和性侵犯和虐待幸存者的小型深入研究中获取的现有统计数据。原型提供了公众所看到的画面。这些坦率而坦率的陈述提醒了追随者和公众性暴力的严重性，以及性暴力通常是在早年经历并隐藏起来的。因此，描述性叙述可用于公共卫生调查的发展，以评估公众对性侵犯和性虐待的患病率、早期生活经历和持久创伤是否发生了变化或有了更深刻的理解。

本研究中提出的推文内容摘要突出了#MeToo运动早期阶段的初始对话和对话参与者的人口统计数据。虽然我们的研究结果反映了关于性暴力和最初参与者的公共话语的快照，但未来的工作可以检查全国对话的内容和方向，这些对话从那时起就有很多方向，并且因人群而不同。

多媒体附件1

甄选过程的细节。

多媒体附件2

所有推文与新颖推文:示例表。

多媒体

2017年10月14日至21日MeToo推文的数量、比例和覆盖范围的估计。

多媒体附件4

Twitter的追随者虐待/攻击和早期经验样本与所有Twitter用户的比较。

缩写

API

应用程序编程接口

套索

最小绝对收缩和选择算子

净现值

负预测值

OLS

普通最小二乘模型

PPV

阳性预测值

支持向量机

没有宣布。

Cavazos-Rehg

巴勒斯坦权力机构

克劳斯

米

费雪

莎莉

格鲁扎

类风湿性关节炎

五角

推特上关于大麻的讨论

青少年健康 2015 02 56 2 139 45

10.1016 / j.jadohealth.2014.10.270

25620299

s1054 - 139 x (14) 00703 - 4

PMC4306811

Eshleman

杰哈

辛格

通过对社交媒体中的成瘾内容进行计算分析，确定适合药物恢复干预的个人

2017

2017 IEEE生物信息学与生物医学国际会议

2017年11月13日至16日

美国密苏里州堪萨斯城

IEEE

10.1109 / BIBM.2017.8217766

Cavazos-Rehg

克劳斯

米

格鲁扎

五角

描述一个以大麻为重点的Twitter帐户的关注者和推文

J医疗互联网服务 2014 06 16 6 e157

10.2196 / jmir.3247

24974893

v16i6e157

PMC4090385

保罗

乔丹

Dredze

米

你的推文是什么样的:分析推特对公共卫生的影响

2011 07 17

第5 Int AAAI Conf Weblogs Soc Media ICWSM

2011年7月17日

西班牙巴塞罗那

Caputi

贵族

艾尔

艾尔斯

#MeToo运动以来的性骚扰和性侵犯、报告和培训的互联网搜索

美国医学会实习生 2019 02 01 179 2 258 259

10.1001 / jamainternmed.2018.5094

30575847

2719193

埃文斯

科尔多瓦

Sipole

年代

Twitter风格:众议院候选人在2012年竞选中如何使用Twitter的分析

附:政治学与政治学 2014 04 14 47 2 454 462

10.1017 / S1049096514000389

咀嚼

Eysenbach

推特时代的流行病:2009年H1N1爆发期间推特的内容分析

《公共科学图书馆•综合》 2010 11 5 11 e14118

10.1371 / journal.pone.0014118

21124761

PMC2993925

Aramaki

Maskawa

年代

盛田昭夫

米

推特捕捉流感:用推特检测流感流行

2011 07 27

2011年自然语言处理经验方法会议

2011年7月27日

爱丁堡，苏格兰，英国

美国

计算语言学协会

1568 1576

佩特

Haimson

Andalibi

实现

“饥饿伤人，但饥饿起作用”:描述网上饮食失调的表现

2016 02 27

CSCW '16第19届ACM计算机支持合作工作和社会计算会议论文集

2016年2月27日

美国加州旧金山

美国纽约

ACM的新闻

1185 1200

10.1145/2818048.2820030

De Choudhury

Munmun

计数

年代

霍维茨

霍夫

一个

从共享的Facebook数据描述和预测产后抑郁症

2014 02 15

第17届ACM计算机支持合作工作和社会计算会议

2014年2月15日

巴尔的摩，马里兰州，美国

美国纽约

ACM的新闻

628 638

10.1145/2531602.2531675

Freelon

McIlwain

克拉克

米

除了标签之外:#弗格森，#黑人的生命也很重要，以及为线下正义而进行的线上斗争

SSRN杂志 2016 02 26

华盛顿特区

媒体和社会影响中心

凯勒

门德斯

Ringrose

说“不可言说的事情”:记录数字女权主义者对强奸文化的反应

性别研究杂志 2016 07 28 27 1 22 36

10.1080 / 09589236.2016.1211511

门德斯

Ringrose

凯勒

#MeToo，以及通过数字女权运动挑战强奸文化的承诺和陷阱

欧洲妇女研究杂志 2018 04 29 25 2 236 246

10.1177 / 1350506818765318

郭

种族正义活动家的标签:反公众和话语流通

新媒体与社会 2016 08 12 20. 2 495 514

10.1177 / 1461444816663485

沃尔什

最低潮

年代

科龙

性暴力暴露与心理社会后遗症的机制:理论与经验回顾

临床精神科学实践 2012 10 29 19 3. 260 275

10.1111 / cpsp.12004

胡瑞

史密斯

年代

陈

巴西莱

吉尔伯特

梅里克

米

帕特尔

墙体

米

耆那教徒的

一个

疾病控制和预防中心 2017 05 01

2019-02-25

全国亲密伴侣和性暴力调查(NISVS) | 2010-2012年州报告 https://www.cdc.gov/violenceprevention/pdf/NISVS-StateReportBook.pdf

油菜文化金字塔 2019-02-26 第十一条原则同意 https://www.11thprincipleconsent.org/consent-propaganda/rape-culture-pyramid/

詹姆斯

威滕

黑斯蒂

Tibshirani

统计学习及其在R中的应用概论

施普林格 2013

纽约

施普林格

根茨科

米

凯利

Taddy

米

国家经济研究局 2017 03

剑桥,麻

文本作为数据 https://www.nber.org/papers/w23276

20.

Kowalczyk

一个

支持向量机教程 2014 11 23

2018-08-01

SVM教程:如何在R中分类文本 https://www.svm-tutorial.com/2014/11/svm-classify-text-r/

人口统计专业 2019-01-25

https://www.demographicspro.com/

Cavazos-Rehg

巴勒斯坦权力机构

克劳斯

乔丹

Sowles

年代

康诺利

年代

罗萨斯

巴拉

米

五角

抑郁症相关推文内容分析

计算人类行为 2016 01 01 54 351 357

10.1016 / j.chb.2015.08.023

26392678

PMC4574287

Rennison

卡莉玛丽

美国司法部 2002 08 01

2019-07-29

华盛顿特区

美国司法部

强奸和性侵犯:1992-2000年向警察报案和就医 https://www.bjs.gov/content/pub/pdf/rsarp00.pdf

Sini

英国广播公司 2017 12 27

2019-02-25

#MeToo， #TakeAKnee和#Covfefe: 2017年占主导地位的标签 https://www.bbc.com/news/world-42251490

可能

年代

CNN的健康 2017 10 19

2019-02-27

对一些人来说，#MeToo性侵事件引发的是创伤，而不是赋权 https://www.cnn.com/2017/10/19/health/me-too-sexual-assault-stories-trigger-trauma/index.html