JFR JMIR表格规定 形成性研究 2561 - 326 x 卡塔尔世界杯8强波胆分析 加拿大多伦多 v5i12e32427 34854812 10.2196/32427 原始论文 原始论文 平民算法:审查与节制的民主方法 Eysenbach 冈瑟 洛托 Matheus Seeman 尼尔。 Fedoruk 便雅悯 1
理学院 安大略大学 理工学院 西姆科大街2000号 奥沙瓦,上,L1G 0C5 加拿大 1 905 721 8668 benjamin.fedoruk@ontariotechu.net
https://orcid.org/0000-0001-7703-6712
纳尔逊 哈里森 2 https://orcid.org/0000-0001-8306-5448 罗素 3. https://orcid.org/0000-0002-5767-8678 Fucile Ladouceur 4 https://orcid.org/0000-0001-5838-1852
理学院 安大略大学 理工学院 奥, 加拿大 健康科学学院 皇后大学 在金斯顿 加拿大 工程学院 湖首大学 安大略省桑德湾 加拿大 工程技术、贸易和航空学院 联邦大学 安大略省桑德湾 加拿大 通讯作者:Benjamin Fedoruk benjamin.fedoruk@ontariotechu.net 12 2021 21 12 2021 5 12 e32427 27 7 2021 25 8 2021 15 9 2021 26 11 2021 ©Benjamin Fedoruk, Harrison Nelson, Russell Frost, Kai Fucile Ladouceur。最初发表于JMIR Formative Research (https://formative.www.mybigtv.com), 2021年12月21日。 2021

这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。

背景

COVID-19大流行造成的信息大流行引发了若干社会问题,包括公众与卫生专家之间的不信任加剧,甚至一些人拒绝接受疫苗接种;有消息称,四分之一的美国人会拒绝接种疫苗。这种社会关注可以追溯到今天的数字化水平,尤其是社交媒体的形式。

客观的

这项研究的目标是确定一种最优的社交媒体算法,这种算法能够减少错误信息的数量,同时也能确保某些个人自由(如言论自由)得到维护。在完成本文所述的分析之后,抽象出一种算法。发现一组最优社交媒体算法的抽象方面是本研究的目的。

方法

由于社交媒体是错误信息传播的最重要因素,该团队决定在各种基于文本的平台(Twitter、4chan、Reddit、Parler、Facebook和YouTube)上研究信息流行病学。这是通过情绪分析将一般帖子与被标记为错误信息的关键词语(所有这些词语都与COVID-19有关)进行比较,以确定其真实性。在收集数据集时,使用了应用程序编程接口(使用Python的pip安装)和由标准科学第三方编译的现有数据。

结果

这种情绪可以用每个平台的双峰分布来描述,有一个正峰和一个负峰,以及一个偏态。研究发现,在某些情况下,错误的帖子比准确的帖子有高达92.5%的负面情绪倾斜。

结论

在此基础上,提出了一种新颖的平民算法,该算法使用情绪分析和帖子受欢迎程度作为指标,将帖子标记为错误信息。这种算法与现状的算法不同,因为平民算法使用民主的过程来检测和删除错误信息。我们构建了一种方法,将被视为虚假信息的内容从平台上删除,由随机选择的匿名用户陪审团决定。这不仅可以防止这些类型的信息传染病,而且还可以保证以一种更民主的方式使用社交媒体,这有利于修复社会信任,并鼓励公众在循证知情的情况下做出决策。

infodemiology 错误信息 算法 社交媒体 粗俗的人 自然语言处理 情绪分析 情绪 信任 决策 新型冠状病毒肺炎
简介

互联网是传播信息的强大工具;因此,它在传播错误信息方面同样强大。2019年,全球社交媒体用户数量为34.84亿[ 1],该数字每年平均增长9% [ 1 2].随着这种使用的增加,“超级用户”或微影响者现象出现了,受欢迎的社交媒体账户能够接触到大量读者。随着越来越多的人开始使用社交媒体作为新闻来源,这一点变得越来越重要。 3.].这则新闻来自第三方,由一位受欢迎的网红发布,而不是由社交媒体公司自己发布或审核。过去对在线错误信息的分析通常使用“指向-射击”算法将帖子归类为错误信息;这就是现状。然而,有些算法在打击错误信息方面会比其他算法更好。“平民算法”创建了社交媒体网站在设计算法以减少错误信息时应考虑的标准。这种错误信息的减少被认为是通过检查情绪和错误信息之间的相关性来实现的;研究发现,与其他涉及同一问题的帖子相比,包含错误信息的帖子往往会产生更多负面情绪[ 4].由于这种相关性,假设一种鼓励积极互动的算法也会通过民主的方式减少平台上出现的错误信息的数量。

错误信息是一个关键问题,但许多术语在研究中被混淆。在这里,作者将定义几个经常互换使用的关键术语,但其定义是具体的和不同的。首先,misinformation应定义为故意或无意传播虚假信息[ 5].传播信息的个人意图无关紧要。第二,disinformation是指有目的地传播虚假信息[ 5].一个类似但截然不同的定义是恶意传播虚假或误导性信息[ 5].最后,假新闻被定义为读者认为值得信赖的任何错误信息(有意或无意)。 5].本研究将对错误信息进行深入研究;然而,应该指出的是,未来的补充研究可能会对虚假信息、虚假信息或假新闻进行类似的调查。信息学还可以应用于卫生保健领域;当公众对循证预防和保护性健康措施不确定时,信息传染病有可能加剧疫情[ 6].

在调查错误信息的传播之前,有必要定义信息流行病学和错误信息的概念。根据世界卫生组织(世卫组织)的定义,这篇研究论文将“信息大流行”定义为“在疾病爆发期间,数字和物理环境中有太多信息,包括虚假或误导性信息”,这“导致混乱和冒险行为,可能损害健康,[并且]还导致对卫生当局的不信任,破坏公共卫生应对措施”[ 6].对大规模传播信息的研究,特别是与医疗错误信息有关的研究,被称为信息流行病学。世卫组织还将COVID-19大流行期间此类信息流行病的迅速激增与“日益增长的数字化”联系起来,数字化可以支持信息的全球传播,但也可以迅速放大恶意或捏造的信息[ 6].第二个相关定义是错误信息的概念,其定义与世界卫生组织对“信息大流行”的定义相似[ 6,但特指与特定领域相关的信息明显缺乏真实性。

大多数社交媒体网站的核心目标是最大化用户在其平台上花费的时间。这种用户页面时间的最大化导致公司使用高度专业化和训练有素的机器学习在用户的feed上发布广告内容[ 7].与此同时,这可能会产生意想不到的不利影响,例如最大限度地延长用户使用未经验证的内容的时间。对于参与和正直之间的差距,建议的解决方案是创造民主调节的空间。民主空间和对具有更积极情绪的帖子的推荐是平民算法中不可或缺的概念,基于最新的证据,错误信息往往更消极[ 5].平民算法(Plebeian Algorithm)是本文描述的一种算法,用于控制社交媒体上错误信息的传播。与其他现有算法相比,它是有益的,这将变得很明显。目前实现的指向和射击算法被超调到围绕特定主题的特定错误信息源。然而,它们不适应真实信息定义的流动性。

如前所述,大多数社交媒体平台的工作模式与Twitter、Facebook或YouTube类似,内容是根据用户参与度推荐的。 7];然而,并不是所有的网站都是如此。4chan就是一个打破人们对社交媒体算法预期的网站。4chan是短暂社交媒体的一个很好的缩影,其中的内容是完全匿名的,无论是否受欢迎,都会被迅速丢弃[ 8];此外,几乎没有节制,内容往往更消极的情绪。2018年9月成立的另类社交媒体平台Parler也体现了这一点,该平台旨在打造一个完全言论自由的平台。因此,帕勒吸引了那些被其他社交媒体网站禁止的人,创造了“回音室,庇护危险的阴谋和暴力极端主义团体”[ 9例如那些参与2021年1月6日袭击美国国会大厦的人。Reddit也有一个类似于4chan的论坛系统。然而,这些平台上的个人论坛都有版主,他们致力于消除整个网站的负面情绪。Reddit的问题在于其极其孤立的论坛,因为定制一个人的feed,使其成为明确挑选的论坛的绝大多数,这是体验的一部分;这使得一些论坛几乎没有节制。 10].

在社交媒体平台上的错误信息检测领域已经有一些相关的研究工作。这些工作包括研究错误信息和认知心理学之间的联系[ 11]、地理空间信息流行病学分析[ 12],推荐算法对信息流行病学的影响[ 13],使用分布式共识算法来遏制错误信息的传播[ 14],以及用于病毒的命名约定[ 15].虽然这些工作与本研究一致,但他们并没有提出相同的解决方案。这项研究提供了一个最接近平民算法提出的解决方案,讨论了通过外行判断遏制错误信息传播的有效性[ 16].值得注意的是,这项工作讨论了围绕外行算法的优点,但没有对其实现提出建议。

这项研究的目的是确定最佳的社交媒体算法,以减少错误信息的传播,同时确保个人自由。本文进行的调查将产生深远影响,将改变社交媒体平台上错误信息的处理方式。

这三项主要影响包括:

在社交媒体平台上创造一个更加开放和民主的环境

线上和线下的政治分歧和极端主义情绪全面减少

增加能够对主题提出明智意见的知情用户

方法

在整个研究过程中,采用了详细的基于步骤的方法来分析数据。Python 3.9 (Python Software Foundation)是项目各个方面的首选语言。所有使用的库都可以使用pip访问。数据的可视化是使用Python中的matplotlib和seaborn库执行的。应用程序编程接口(api)来自Twitter、Reddit和4chan,收集有关用户名、日期、帖子和文本的数据。此外,从学术来源收集了两个数据集,其中包含来自Twitter的帖子数据[ 17]和Parler [ 9].各种Python库被用于与api交互和连接,包括twarc、urllib3和basc_py4chan。使用以下Python库来清理数据:beautifulsoup4、demoji和pyenchant。Python的pandas库用于检索和存储第三方数据集[ 8 17- 20.], numpy库用于各种数组操作。最后,使用nltk库进行情感分析,使用sklearn进行回归。

选择Python是因为它易于连接到各种api;它在强大的社区中得到了很好的支持,因此,连接到各种api是通过预先编写的库完成的。这减少了编程时间,同时提高了代码的效率和可靠性。

在使用API的三个社交媒体服务中(即Twitter、Reddit和4chan),执行了四个步骤:(1)使用API和相关的Python库收集数据;(2)干净的数据创建一个Python字符串集,不包含url(使用正则表达式删除),HTML(使用beautifulsoup4删除),用户名(使用正则表达式删除),表情符号(使用demoji替换为文本),或非英语语言(使用pyenchant删除);(3)使用nltk的SentimentIntensityAnalyzer类进行情感分析;(4)将清理和情感分析后的数据帧保存为pickle文件。然后编写了一个可视化脚本来显示从社交媒体帖子数据中收集到的情绪数据。为了保证用户的机密性,只显示汇总数据。用核密度估计(KDE)绘制直方图会产生由研究团队生成的各种图形。由于文本限制,情感分析返回不确定的数据从可视化中删除。将语言限制为英语有统计比较一致性的好处。Facebook就是一个没有使用API的著名平台。 The reason for this is due to the restrictions placed on the Facebook API, in terms of depth and breadth of research.

分析的六种社交媒体服务(4chan、Twitter、Parler、Reddit、YouTube和Facebook)有不同数量的相关数据。本文分析的数据的细目描述在 图1

为本文执行的分析选择的情感分析字典是价感字典和情感推理器(VADER)。该词典被选中是因为它是广泛的通用语句分析的行业标准,特别是在社交媒体平台上产生高度准确的结果。因此,VADER是本研究目的的最佳字典。虽然理想的算法应该对实现的情感分析系统进行各种制衡,但本文将严格关注VADER字典,它仅仅是积极和消极的情感。还有一些情绪分析工具可以检查特定的情绪(包括愤怒、恐惧、惊讶、快乐等)。

关键字分析用于数据清理过程,以确定哪些字符串被分类为与特定主题相关。这些关键词是从推特上收集的与错误信息直接相关的最常使用的术语列表中收集来的。

社交媒体数据分解。

确认学术文献[ 5关于负面情绪与信息真实性之间的相关性,使用Twitter进行分析。数据经过过滤,只有包含一组潜在错误关键字的推文才会被分配给使用情绪分析进行评估。通过直方图绘制两者,并比较kde(相对于每个各自的极大值)。

错误信息与消极情绪直接相关。错误信息的帖子通常是负面的情绪。然而,这并不是必然的。因此,在确定最佳算法时,使用情绪分析来缩小潜在的错误信息候选人,然后使用进一步的方法(陪审团过程)来准确检测错误信息将是至关重要的。

这项研究定义了几个数学术语。前面描述的许多直方图和kde形成了双峰分布。两个峰集中的极性分数被称为极性分数 μ+而且 μ- - - - - -,其中符号表示该术语是指正峰值还是负峰值。另一个定义的变量是分布作为一个整体的偏度,用符号γ来描述。当正峰为主模态时,则 γ∈(0,∞)。反之,当正峰为小模态时,则 γ∈(-∞,0).频率函数 f描述了KDE表示的频率曲线(使得 f (p)表示具有极性分数的字符串的频率 p).偏度计算公式如下:

这个偏度方程通过以下推导得到:

结果

分析结果将根据社交媒体平台进行划分。它们将按以下顺序提出:

Reddit

4 chan

脸谱网

YouTube

推特

Reddit

在分析Reddit的数据时,我们选择了一系列的Reddit子版块。被选中的看板是r/AskReddit, r/AskThe_Donald, r/conspiracy, r/covid, r/kindness, r/movies, r/politics和r/EnoughTrumpSpam。这些小reddit被选为选项数组,允许分析可能的错误信息,可能的真实,和未知的来源。数据是使用Python库urllib3收集的。这里要检查的第一个子reddit是r/AskReddit。这个版块倾向于包含来自无数对话主题的各种各样的帖子。因此,它是相对指示的Reddit整体。r/AskReddit的直方图可以在 图2.双峰分布 μ- - - - - -≈-0.54, μ+≈0.48, γ≈-0.03214。

Reddit /AskReddit频率的积极性直方图。

值得注意的是,双峰分布的极值频率在负峰和正峰之间大致相等。Reddit调查的另一个值得注意的子版块是r/politics,它提供了一个可能受Reddit用户政治倾向影响的帖子样本。该分析的直方图和KDE显示在 图3.r/politics的双峰分布为 μ- - - - - -≈-0.56, μ+≈0.43, γ≈-0.37776。

Reddit /政治频率的积极性直方图。

r/politics的内容具有更强的负面倾斜,这在KDE中很明显。最后一个要检查的reddit子版块是一个前卫的reddit子版块:r/conspiracy。在这个社区里,用户们分享各种阴谋论。当一个人滚动r/conspiracy时,可以很容易地注意到大量的错误信息,包括围绕地平论和QAnon的错误信息。r/conspiracy的直方图在 图4.r/conspiracy呈双峰分布 μ- - - - - -≈-0.56, μ+≈0.39, γ≈-0.33904。

Reddit /阴谋频率的正性直方图。

正如r/conspiracy所指出的,阴谋论的帖子(已知包含大量错误信息)通常是负面的。这可以注意到,由于双峰分布的峰值的差异。

4 chan

为了分析4chan数据,我们选择了5个板:/b/, /a/, /v/, /pol/和/r9k/。与其他4chan板相比,这五个板的发布频率更高。使用basc_py4chan收集数据。对于这些板,绘制了一个包含30个箱子的直方图(使用重叠的KDE)。/b/的情绪直方图的可视化可以在 图5./b/被描述为随机板,包含来自4chan的广泛对话。/b/的双峰分布为 μ- - - - - -≈-0.55, μ+≈0.46, γ≈0.11380。

正性直方图4chan /b/频率。

本报告中要可视化的另一个板块是/pol/情绪的可视化,可以在 图6;/pol/包含政治讨论。/pol/的双峰分布为 μ- - - - - -≈-0.61, μ+≈0.38, γ≈-0.16559。

值得注意的是,与/b/相比,/pol/的极端负面情绪水平(即极化得分低于0.75)要高得多。这表明政治话题在4chan上更倾向于负面。

总的来说,应该注意的是,4chan一直包含大量的负面帖子,这在很大程度上取决于论坛的主题。与特定娱乐活动有关的符号(例如,/v/代表电子游戏或/a/代表动漫)具有较小程度的负面极性。

阳性直方图4chan /pol/频率。

脸谱网

本文有必要对Facebook进行分析,Facebook是目前拥有最大用户群的社交平台,每月活跃用户达28亿。 21].Facebook已被证明是拥有最高用户基础的社交媒体平台,因此,本文对为Facebook收集的数据进行分析是相关的。访问了专门包含COVID-19大流行之前数据的数据集,以扩大情绪分析的范围[ 22].数据集包括从Facebook成立到2017年收集的数据。一个数据集,从时间范围内随机选择Facebook评论[ 22]使用VADER进行情感分析。

图7,用30个箱子绘制了直方图,描绘了不同情绪分析水平上Facebook评论的频率。一个KDE被叠加在图上以显示总体趋势。

双峰直方图的显著特征是正峰明显,负峰宽。值得注意的是,KDE的积分如下所示:

此外,从KDE中提取了以下值: μ+≈0.43, μ- - - - - -≈-0.29, γ≈0.49858。

Facebook正能量频率直方图。

YouTube

YouTube完全基于长篇视频内容,并倾向于更深入的主题。预先选定的YouTube评论数据集[ 23],经过情感分析后,已在 图8

数据集[ 22]是2017年收集的,因此不包含与COVID-19有关的错误信息。这有助于扩大分析的时间范围,并确保当前趋势适用于2019冠状病毒病大流行(即2020年1月之前)以外的数据。它的地理范围也仅限于美国、英国和加拿大。这种限制是由于数据的可用性。值得注意的是,这三个国家代表了七国集团的英语成员国,七国集团是世界上最民主、最富裕、最多元化的七个国家。

可以注意到,在数据中有很强的正偏态,与 μ+≈0.67, μ- - - - - -≈-0.52, γ≈0.66593。这些YouTube评论的高度正偏性值得注意。对这一趋势的可能解释将在后面的部分中讨论。

YouTube COVID-19阳性频率直方图。

对Parler的分析是对Reddit和4chan的传统分析的一个过渡,因为Parler并没有被分解成用户订阅的社区,而是一个单一的新闻feed风格的系统。对Parler的分析应该与后面部分对Twitter的分析进行对比,因为用户从Twitter迁移到Parler是因为他们意识到自己在Twitter上的言论自由受到了限制。

在分析Parler时,数据被收集到COVID-19大流行期间和2021年1月6日事件前后的数据集中[ 9]. 图9包含2020年1月至2020年3月期间发布的与covid -19相关的谈判可视化。双峰分布 μ- - - - - -≈-0.53, μ+≈0.45, γ≈0.22063。

Parler COVID-19阳性频率直方图。

推特

本文的大部分分析都是在社交媒体服务Twitter上进行的。究其原因,是因为该平台上有大量关于错误信息的数据,该平台作为一般案例研究的总体受欢迎程度,以及该平台的普遍性(与其他一些非正统的数据源(如YouTube评论)相比)。

与帕勒类似,推特的推文是向公众公开的。没有频道,板,或任何形式的看板。然而,由于推特算法的存在,每个人的消息都被允许在一个回音室里。显然,回音室应该尽可能避免。回音室是围绕COVID-19大流行的错误信息猖獗传播的一个重要因素[ 24].

这项研究结合了从Twitter API收集的数据和预先收集的COVID-19推文数据集[ 17 18 20.].用于将Python代码(以及情感分析)连接到Twitter API的接口是twarc。这种重复分析的原因是为了确保使用的数据是准确的。必须在api收集的数据和较长时间内保持精度。

在两项研究中(使用API和数据集[ 17),该研究分析了与covid -19相关的推文的广泛情绪,并按关键词过滤数据。使用的关键词包括“中国病毒”、“生化武器”、“微芯片”等与COVID-19有关的错误信息。然后对过滤后的数据进行情感分析。两种情感分析的数据都用覆盖KDE绘制在标准直方图上。

在讨论中,研究主要集中在从Twitter API收集的数据上,因为类似的方法被用于收集其他被研究的社交媒体平台的数据。然而,应该注意的是,使用数据集也得到了类似的结果[ 17]. 图10是Twitter API收集的与COVID-19(广泛的主题)有关的推文的图形,其中推文的情绪用KDE绘制在直方图上。由于推文太多,无法合理地分析总体,因此我们采用了随机数据样本进行分析。双峰分布 μ- - - - - -≈-0.36, μ+≈0.47, γ≈0.86500。

未经过滤的COVID-19推特应用程序编程界面阳性频率直方图。

可以注意到,KDE的正峰值几乎是负峰值的两倍。这表明正面推文的数量远远超过负面推文的数量。相对于 图11时,双峰分布的负峰与正峰相等。该图是过滤后推文极性得分的直方图表示。所选推文只包含已知与COVID-19错误信息有关的术语。双峰分布 μ- - - - - -≈-0.42, μ+≈0.47, γ≈0.80080。

过滤的COVID-19推特API阳性直方图频率。API:应用程序编程接口。

该研究对负峰与正峰相比比例增加背后的原因的讨论将在后续部分中进一步讨论。同样,必须指出的是,当对从数据集中收集的数据进行相同的分析时,可以看到相同的结果[ 17].

讨论

在讨论部分,不仅将对结果和错误进行分析,而且还将讨论平民算法及其好处,以及如何将其与所研究的社交媒体平台的算法进行比较。

结果分析

关于“结果”部分中产生的定量特征的分析,必须提出几个关键的注意事项。

首先,需要注意的是,4chan是唯一一个整体上具有正γ的社交媒体平台,特别是在/b/的全面板上。通过观察,一个让用户自由决定哪些内容得到推广的系统——而不是人工智能算法——改善了平均帖子的情绪。这是Plebeian算法中的一个关键点,将在后面的章节中描述。其次,Twitter有一个更温和的倾斜(即接近0,或中性) μ- - - - - -这表明,用户往往比研究中分析的其他社交媒体平台的用户更积极。

同样重要的是要记住,情绪分析算法确定的极性分数与所传达信息的真实性之间存在很强的相关性[ 5].因此,本文提供的分析可以应用于社交媒体帖子的情绪和真实性。

回音室

在分析kde所代表的数据以及数据向负面情绪的双峰分布的倾斜时,证实了回音室效应(一种理论,认为“互联网产生了一系列孤立的同质回音室,在那里相似的观点相互加强,导致态度极化”[ 25),因为负面情绪与愤怒等情绪有着明显的联系,这已经被证明“……[加强]回声室动力学…在数字公共领域”[ 25].事实上,其他研究也预测了这种效应的联系是虚拟空间中使用的特定算法的影响[ 26].这一链接提供了强有力的证据,表明社交媒体公司目前部署的算法正在创造一种最佳媒介,通过这种媒介,错误的观点和内容可以无限制地增长。这些回音室确保用户无法获得与他们的信仰冲突的论点,并扩展他们的观点。

错误的来源

虽然这项研究试图限制误差,但由于所使用的分析方法,仍然存在若干误差来源。第一个错误来源是使用关键字搜索的麻烦,因为它不仅会给我们提供传播错误信息的个人的帖子结果,还会给我们提供那些试图引起人们关注错误信息问题的人以及传播错误信息的人的帖子结果。此外,情绪分析也无法区分错误的帖子和试图引起人们注意的帖子。这是因为一些真实的推文显示了整体的负面情绪。关键字搜索的最后一个问题是,一些被确定为错误信息的关键字可能在将来被证明是准确的信息。

潜在错误的另一个来源是所使用的社交媒体平台。一个问题是,只有四个社交媒体平台被评估,从而限制了研究的范围。研究中发现的趋势可能不会出现在其他社交媒体平台(如Facebook)上。评估来源的另一个问题是,它们都只是基于文本的,因此所提出的方法可能无法复制到更多基于图形的社交媒体平台(如YouTube、Instagram或Snapchat)。

平民算法的定义与实现

如前所述,平民算法是一种通过民主手段识别和删除错误信息的新算法。它分为两个不同的阶段:标记阶段,以确定哪些帖子是错误的,以及陪审团阶段,以判断信息,以确定删除是否合适。

标记阶段

挂旗阶段的任务是确定可能的误导帖子。在此过程中,算法选择有大量阅读的帖子,然后对原始帖子和“无替换的简单随机样本”进行情感分析[ 27的评论或回复。如果整体情绪倾向负面,那么这篇文章就被标记为可能具有误导性。标记的帖子将被传递到陪审团阶段。

陪审团阶段

陪审团阶段的任务是审判和删除真正错误的帖子。这些帖子将从用户的主页或新闻提要中删除。在陪审团阶段,标记的帖子被发送给随机选择的匿名用户,即陪审员。这一选择应提供一个由不同政治观点组成的多元化群体,以使该职位得到公平的审判。陪审员的选择采用人口中"无替换的简单随机样本" [ 27].选出的陪审员人数正好是一篇文章的观众人数的10%。然而,应该指出的是,陪审员并不是被迫参与或投票的。假定投票陪审员的人数将远远少于陪审员的总人数。因此,选择10%的人口为陪审员参与的不确定性留出了空间。然后,陪审员被要求投票支持或反对罢免该职位。一旦审议持续了一段时间(或达到了响应的阈值),结果将被统计,该帖子将保留在网站上或被算法删除。

作为参考,详细描述平民算法的总结流程图可在 图12.洋红色的区域构成了旗帜阶段,而薄荷绿色的区域构成了陪审团阶段。

平民算法流程图。

现有的算法

在下一节中,将详细介绍用于Reddit、4chan、Parler和Twitter的每种算法。这些分析将基于学术期刊文章[ 10- 12 28 29].我们有必要根据具体情况进行分析,因为我们必须确保用户基础能够忠实于品牌和平台。 30.].目前流行的算法包括PageRank算法和Hits算法[ 31].

在分析目前用于各种平台的各个社交媒体算法之前,必须指出的是,这些算法中的大多数都有一个相同的目标:让用户留在平台上,从而确保其组织的持续收入。这一目标与防止错误信息在平台上传播的目标相矛盾,因为防止错误信息需要进行一些审查,从而导致收入减少。然而,这并不是说平民算法对网站企业家没有什么价值。值得注意的是,社交媒体公司(帕勒公司除外)的最终目标已经表明,他们有兴趣通过实施“定点射击”算法,以及审查高调的帖子和账户(例如,Twitter禁止@realDonaldTrump),来遏制和调节自己的社交媒体平台。然而,正如前面所描述的,这些算法并不能有效地完成减少错误信息的任务,进一步,导致用户对服务的幻想破灭。这导致许多用户加入了利用这种幻灭的平台(如Parler)。因此,通过实施平民算法,这些社交媒体公司终于有了一种谨慎地平衡适度和言论自由的方法,这将在他们的用户群中重新激发敬畏感,并带回社交媒体是一个有趣的在线空间的概念,人们可以自由地协作和分享。

Reddit

Reddit所使用的算法是一个简单的upvote/downvote系统,如引言部分所述。Reddit鼓励用户对他们喜欢的内容投赞,并鼓励用户对他们不喜欢的内容投反对票。获得更多赞的帖子被更广泛地分享,而获得更多赞的帖子则相反。在Reddit上,用户可以对原始帖子和任何评论进行投票。“评论树”是系统在用户对评论进行评论时固有地创建的(因此将评论链接在一起形成树状结构)。

Reddit算法是根据Reddit用户的兴趣量身定制的。通过订阅系统订阅各种话题的对话或看板。用户将从他们所订阅的reddits子版块中收到混合的内容,以及额外的零星广告。

该系统基本上是为特定用户量身定制的。这与平民算法(Plebeian Algorithm)形成了鲜明对比,后者强调的是由用户群决定真实性的民主过程。目前,Reddit除了“报告”按钮外,没有任何用户控制的手段来打击虚假信息,该按钮可以让Reddit的工作人员注意到这个问题。这个过程被公司认为是人工审查,因此,它不构成类似于平民算法的东西。对于Reddit来说,要实现一个平民算法,它必须确保错误信息的判断过程仍然掌握在用户群的手中。

尽管Reddit目前看起来是一个民主制度,但它更像是一个封地。 29].例如,2013年r/ findbostonbomber在reddit版块的审核员的指导下,将布朗一家与2013年波士顿马拉松袭击联系起来,诽谤布朗一家[ 32].像这样的例子在Reddit上引起了共鸣,比如“the Fappening”,受害者不知道的情况下,裸体照片被发布给了公众。像这样的事件凸显了Reddit根本问题的症结:版主。这促进了由社区的少数精英成员来审核内容,而不是由整个社区的成员来审核。

值得注意的是,Reddit是一个建立在匿名感基础上的平台。用户不需要添加个人电子邮件地址或真实姓名。就像所有平民算法的实现一样,社交媒体公司批判性地分析现有的市场服务和用户可能被吸引的现有质量是很重要的。在Reddit上实现平民算法应该保持用户的匿名性,并且仍然不应该要求使用个人电子邮件或真实全名。

4 chan

4chan的算法类似于Reddit;它使用一种系统,由观众决定内容是否对其用户可见。与Reddit不同的是,4chan的内容使用了一个临时系统。 10].4chan还分为几个板块,分别囊括了不同的话题。此外,任何内容都可以发布在/b/板上,因为这个板的主题被描述为“随机”[ 10].4chan算法的第二个关键方面是匿名的概念。4chan鼓励其用户在发帖时保持匿名。在4chan最受欢迎的论坛/b/上,超过90%的帖子和评论都是匿名的[ 10].

4chan是最接近提出的Plebeian算法的算法;然而,有一些细微而显著的区别。平民算法不包含任何匿名性和短暂性的概念。内容必须是可追踪的和永久记录的。这将有助于确保社交媒体公司的目标(通常与4chan的目标不同)保持一致。保持每个社交媒体平台的目标一致,对于确保平台用户保持忠诚度,同时获得平民算法提供的额外好处至关重要。

要让4chan的算法成为一个平民算法,它应该消除它的短暂性。这对于确保内容有时间经历这个过程是至关重要的。在4chan的/b/上发布的内容通常持续不到1分钟[ 10].因此,平民算法将没有时间经历两个阶段(旗帜和陪审团阶段),这是算法民主方法所必需的关键步骤。

脸谱网

Facebook是一个有价值的选择,它展示了一个强大的社交媒体平台和量身定制的用户体验;它的流行使得它对分析很有用。尽管Facebook公司并非完全透明。 9],该公司宣布,它非常青睐用户的个性化内容(例如,来自亲密朋友和私人群组的帖子),而不是用户喜欢和关注的公共群组和页面[ 33 34].这对Facebook数据的分析提出了一个限制,因为理想情况下,数据必须通过预先选择的数据集收集来进行定量分析[ 24].

在Facebook算法和Plebeian算法之间有很多不同。Facebook使用的方法,特别是在COVID-19大流行期间,旨在打击错误信息的传播,并基于经过训练的神经网络,在文本元素(包括帖子、评论和状态)中搜索关键词。还应该指出的是,Facebook的算法包含了大量的人工工作,这很容易产生偏见。正如前面几节所述,这种错误信息审查方法存在几个问题;最值得注意的是,Facebook算法的范围仅限于虚假信息主题的特定子集。这种性质的算法将检测帖子文本中包含的特定关键词,如“COVID”,以便为观众提供额外的信息和资源;这些算法还将在发布帖子之前向分享帖子的用户提供信息。相反,平民算法在本质上是积极主动的:它普遍适用于所有形式的错误信息,并在信息传播之前与之斗争。如前所述,错误信息的传播导致流行病问题加剧,从而使公共卫生工作者更难控制。通过实施平民算法,公共卫生将得到改善,特别是在未来的大流行病方面,因为有关情况的潜在危险的不实陈述或虚假陈述将被控制在更小比例的民众中,从而确保可靠和值得信赖的信息更容易获得和广泛传播。 The Plebeian Algorithm also requires less maintenance by developers, actively running automatically without the requirement of hard coding key terms to flag.

对于Facebook来说,实现一个平民算法,需要高度的规划。由于Facebook是最流行的社交媒体平台,建议在滚动的基础上逐步实施。应该使用AB测试来确保顺利和成功的实现。Facebook应该自动化和民主化他们的主页算法,为其服务实现一个平民算法。

YouTube

由于视频视觉情感分析的固有难度,我们对YouTube视频的评论进行了分析。这并不是YouTube算法的全貌,它试图通过提供量身定制的feed来让用户在网站上停留更长时间;最终目标是,算法可以在用户搜索之前预测他们想看的视频。 35].该算法查看一系列用户数据,包括观看时间、关闭视频选项卡、用户的兴趣、新鲜度以及用户与视频的互动[ 35].这种算法已被证明在发现和传播病毒式内容方面非常有效。

通过与用户的情绪保持一致,该算法可以有效地产生更多积极的评论,如图所示 图8.YouTube使用的情绪过滤器包括删除不符合广告商准则的视频。 36].YouTube目前的内容审核方法与平民算法(Plebeian Algorithm)实施的内容审核之间的主要区别在于内容删除的民主方面。YouTube社区内的许多争议都是围绕着缺乏沟通和对大型创作者的审查而展开的。 37].

YouTube的审核系统已经是一种“平民算法”(Plebeian Algorithm)的形式,用户可以喜欢和不喜欢评论或视频,如果这些评论或视频不受欢迎,用户还可以报告它们。这与平民算法之间的主要脱节在于,当一个评论或视频被报告时,没有公共陪审团阶段,社区决定是否保留它。YouTube社区内围绕着诸如缺乏沟通和对YouTube网红Logan Paul的审查等问题的争议已经变得很明显。如果YouTube实施了“平民算法”,那么在内容被报告之后,在内容被删除之前,就需要一个陪审团阶段。还应该指出的是,YouTube的陪审员并不是随机分布的。调节算法是由人类编程的,因此,很难确保始终做出正确的决策。人工智能构成了YouTube算法的基础,但平民陪审团被一名法官所取代,后者可能很容易被说服或持有个人偏见。群众现象的智慧(quod vide)在平民算法的陪审团使用中发挥了重要作用。

帕勒使用了一种更典型的算法。它将帖子限制在1000个字符以内,并将其分发给广大用户。因此,与Reddit和4chan不同,Parler上没有发布内容的社区。Parler是作为言论自由的推动者成立的,因此,它的用户群高度关注他们的帖子缺乏审查。 11].

虽然从表面上看,这似乎与任何算法的实现直接相反,但重要的是要注意,平民算法确保了关于信息真实性的任何和所有决策仍然掌握在用户手中。帕勒仍然会从实施平民算法中受益,因为它将保留帕勒的最终目标(促进言论自由),同时限制错误信息的传播。

对于Parler来说,要实现一个平民算法,它必须实现平民算法的旗帜阶段和陪审团阶段。值得注意的是,必须首先确保保护平台上的言论自由。这将确保用户群对变革保持忠诚和支持,不会抵制Parler或转向新的社交媒体平台(因为他们已经从Twitter迁移了)。Parler的用户基础显然是不稳定的,它必须确保用户基础对平台保持忠诚。这应该通过适当的过渡营销来实现,这将在后面讨论。

推特

最后,Twitter使用了类似的算法(与Reddit和4chan相对),将帖子和内容发布给广大用户。这种算法的技术特别意味着,与其他平台(如Reddit和4chan)相比,错误信息更有可能在Twitter(和Parler)上传播。Twitter上庞大的用户基础和广泛的数据可用性必须被考虑在内,因为维持Twitter的文化和氛围以确保用户基础对任何算法变化都保持满意是至关重要的。Twitter的高管们很可能会有兴趣通过重新获得那些迁移到Parler的人的信任来扩大他们的影响力。这些人高度关注审查制度的减少和言论自由的增加。他们认为社交媒体平台应与内容的提升和降级过程保持分离[ 11].

对于Twitter来说,要实现“平民算法”(Plebeian Algorithm),它必须努力促进言论自由,减少审查,同时保持其可靠性。这是使用Plebeian算法完成的,它利用了这两个关注点。外行算法已被证明在遏制错误信息传播和提高可靠性方面有效[ 18].根据Epstein等人的定义[ 16],平民算法将被归类为一种外行算法。Twitter需要在一定程度上信任外行,为用户群提供自由,同时保持发布内容的真实性。

孔多塞的陪审团定理

正如18世纪孔多塞侯爵所研究的那样,孔多塞陪审团定理[ 38]清楚地证明了平民算法中陪审团阶段的必要性。这个定理描述了被选为陪审团成员,对另一个人的罪行进行审判的大量个人的行为。该定理由孔多塞(Condorcet)提出(后来在20世纪后期被众多数学家和统计学家证明),它解释了当试图通过对人口样本进行投票来确定真相时,可能会出现两种情况[ 38].首先,如果样本对主题的理解很差,他们的判断就不会确定。在这种情况下,最佳样本量将是单个个体,因为增加陪审员的数量只会增加不确定性[ 38].

然而,在平民算法中实现的陪审团应该考虑孔多塞的陪审团定理,确保陪审团属于第二种情况。当陪审团对某一主题的知识相对较高或被认为相对较高时,就会出现第二类陪审团[ 38].因此,最优的平民模式在UI/UX方面应该是被动的,而不是积极的。应确保担任陪审员完全是可选的,是自愿加入而不是自愿退出。用户界面应该最小化,以确保公众对平民算法实现的接受是积极的。虽然这可能会降低选择担任陪审员的样本百分比,但由于算法实现的积极接受,将实现一致性。一个理想的平民算法实现,以确保由孔多塞陪审团定理定义的陪审团的第二个子集,可能不会被普通用户注意到。

假设平民算法的实现可以确保其陪审团进入后一种陪审团类型,它将确保人群的智慧。增加作为潜在陪审员的样本将增加确定性。这种现象被称为“大众的智慧”[ 39].随着样本量的增加,陪审团做出决定的确定性也会增加。因此,与随机选择10%的样本量相比,1%的样本量有更高的可能性意外选择一组最极端的个体。

根除vs遏制

与现状相比,平民算法的好处之一是根除和遏制之间的区别。当前系统的算法倾向于使用根除方法。他们以狭隘的视角看待错误信息的传播问题[ 35),因此,他们倾向于实现“指向-射击”算法。有了这个系统,媒体公司可以根据具体情况判断哪些帖子包含错误信息,并根除它们。例如,许多社交媒体公司使用COVID-19关键词搜索,并标记包含这些关键词的帖子。然后他们链接到一个政府网站,上面有关于疫情的信息。

这与平民算法(Plebeian Algorithm)形成鲜明对比,后者采用基于遏制的方法来传播错误信息。值得注意的是,目前还不存在消除所有错误信息的技术[ 40].相反,重要的是,算法要尽可能多地检测出错误信息,并将其余的信息提供给广大公众。这本质上“戳破”了任何过滤气泡和回音室[ 26].它允许来自社区的积极讨论,这往往会导致错误信息的减少[ 4].

减少审查

“平民算法”的另一个巨大好处是减少审查。关于新冠疫情,大多数错误信息是由政治正确意识形态的人或共和党人传播的。48%的美国共和党人认为SARS-CoV-2并不比普通流感更危险[ 41)(相比之下,25%的美国民主党人[ 41), 42%的共和党人认为治疗疟疾的羟氯喹是治疗SARS-CoV-2的有效方法[ 41相比之下,只有5%的民主党人[ 41])。此外,共和党人(或那些具有政治右翼意识形态的人)往往更关心保护言论和表达自由。因此,很明显,我们必须保留这些自由,以便任何算法更改都是有效的。平民算法走得更远:它致力于增加个人在跨地区社区匹配的言论自由方面的权利。个人有权随心所欲地发布和发表言论,并促进他们认为相关的信息的传播。此外,他们有权决定自己想在平台上看到什么内容,不想看到什么内容。这些好处将有助于确保公众以积极的态度应对这一变化。实现一个平民算法是一个净积极的;这对于遏制信息流行病和促进社交媒体用户的言论自由都是一个积极的变化。此外,根据“平民算法”,社交媒体公司仍被允许根据其隐私政策分析用户活动,以提供适合用户的广告。 This will ensure that the revenues for social media companies will not be reduced in the process.

病毒式命名约定

本文探讨的一个子主题是病毒命名惯例,以及用于描述COVID-19的名称与社交媒体帖子中真实性水平之间的联系。为了进行分析,只考虑了关于COVID-19的帖子;因此,本文所使用的数据是在2020年之前收集的社交媒体平台(即Facebook和YouTube)没有被分析。Parler使用了一种相对标准的社交媒体算法,可以与Twitter相媲美。从Parler数据集[生成一个过滤到COVID-19的Parler数据pickle文件] 9].附加的过滤器被应用到pickle文件中,稍后将进行描述。

为了简化分析,创建了三类谈判,分别对其进行分析。首先,收集了所有使用任何命名规则提到COVID-19的帖子。这些帖子没有使用额外的过滤器收集,标记为“无”。其次,从COVID-19谈判中,应用过滤器收集所有包含病毒名称的谈判,这些名称涉及的地点包括但不限于“武汉病毒”、“中国病毒”和“印度变种”。所有这些词语都被美国疾病控制和预防中心(CDC)描述为可能传播错误信息和仇外心理[ 42 43].这个过滤器被称为“位置分类学”[ 44].最后一个过滤器,“生物分类学”[ 44,指的是COVID-19的生物学名称,或世界卫生组织正式批准的名称,包括但不限于“SARS-CoV-2”、“Alpha变种”和“B.1.617”。此命名法由CDC使用和推广[ 38来限制仇外心理。因此,有人假设,使用这些术语的谈判不太可能误导信息,更有可能产生积极的情绪[ 45].

对所有三个过滤后的数据集进行情感分析,并将结果绘制为小提琴图 图13.每个子图将三个过滤器描述为沿x轴的离散类别(即,“无”、“位置分类学”和“生物分类学”),与[- 1,1]上的复合极性分数相反。每个子图可视化一个垂直旋转的KDE,以便于可视化,以及中位数、平均值、第一四分位数和第三四分位数的图形表示。

关于帕勒的病毒命名惯例:小提琴情节。

这种可视化提供了非常相关的结果。过滤到COVID-19的数据与结果部分讨论的所有社交媒体算法绘制的kde相似,显示出精确的双峰分布,具有正峰值和负峰值,以及中性低谷。位置和生物分类的小提琴图证实了这一假设。位置分类过滤器显示出强烈的负面情绪,这意味着错误信息的可能性更高。相比之下,生物分类过滤器显示出强烈的积极情绪,意味着更大程度的真实性。

值得注意的是,研究结果并不局限于COVID-19。2009年H1N1/09流感大流行也发现了类似的结果(不涉及社交媒体)[ 46 47]和1918年西班牙流感大流行[ 15],以及其他[ 48 49],有人担心这种排外的病毒命名法。此外,还应讨论在此分析中使用COVID-19数据的具体限制。人们通常很难改变他们的词汇,将一个排外的名字的初始名称改为一个准确的描述符[ 50].具体而言,关于2019冠状病毒病的关注变体(VoC),许多科学来源仍然指出了VoC的发现地点。这使得两个重要问题成为讨论的焦点:首先,国家卫生机构需要从流行病开始时就提供精确和非仇外的命名法;其次,使用位置分类法不应该自动标记一个帖子(即,它应该仅通过情感分析进行标记)。平民算法有助于这种分析,因为它不考虑特定的搜索词,而是纯粹的情感。这可以处理包含位置分类的真实帖子的问题。应该注意的是,科学界对使用位置分类学的潜在好处和缺点缺乏共识[ 15 45].

地理位置

虚拟世界和物理世界之间存在着重要的联系,因为它涉及错误信息的传播和由此产生的各种后果。为此进行了几项研究。使用社交媒体平台来跟踪错误信息传播的一个基本限制是无法在更私人的环境中处理错误信息的传播(例如,面对面互动、视频会议和直接消息)。因此,将对社交媒体平台的错误信息转化为现实世界现象进行深入研究。

围绕资讯学进行了无数的研究[ 51- 53].这包括社交媒体连接的地理位置与各种社会决定因素(如种族、性别和社会经济地位)之间的相关性[ 51],以及一项研究[ 54确定社交媒体上的最佳地理定位方法。另外两项研究讨论了社交媒体背景下地理定位的社会学后果,即发现和减少青少年大麻消费[ 52]以及地理定位在城市规划中的应用[ 53].

此外,研究表明,社交媒体趋势与COVID-19等事件之间存在很强的相关性[ 12 51].显然,社交媒体上的任何变化都会对现实世界产生影响。因此,很明显,社交媒体用户主页上错误信息数量的减少,与他们在面对面对话时传播错误信息的可能性的减少相对应。平民算法的成功实施将限制虚假信息在社交媒体平台及其用户生活中的传播。

公众的反应

对“平民算法”持怀疑态度的人可能会担心,这种对社交媒体算法的大规模改变会引发公众的犹豫。无论这种犹豫是以负面反馈或抵制的形式出现,都是非常合理的,必须加以处理。许多人会指出4chan平台是一个消极的例子,它的算法在内容推广方面给予用户自由裁量权,而不是公司算法。

市场营销

本文将首先论证两种策略之间的主要区别在于营销领域。市场营销是任何社交媒体公司的一个关键方面,尤其是在经历巨大变革的时候。事实上,一些大规模的社会变革需要市场营销策略[ 55].公司必须确保平民算法能够适应社交媒体公司及其用户群的特定需求和目标。出于这个原因,平民算法只是一个建议的实现,脚注是算法必须高度适应独特的情况。每个社交媒体公司都有不同的目标,比如Facebook的目标是连接朋友,Reddit的目标是在志同道合的人之间建立对话,帕勒的目标是保护言论自由。

向平民算法过渡的有效营销策略确保用户意识到社交媒体平台的整体氛围不会被改变。必须优先推广当前的氛围,以免这种改变遭到用户的强烈反对。如果实施不恰当的营销,那么过度节制的个人可能会离开社交媒体平台,让那些持有更极端(通常是被误导的)观点的人接管平台上广泛传播的内容。然而,充分的营销,强调静态的文化和社会氛围的平台在过渡期间缓解这种担忧。

现行算法反馈

其次,本文将讨论社区提供的对当前算法的反馈。这些反馈包括社交媒体平台上关于每个平台算法的讨论。对预选的观点进行分析[ 33 34 56- 62].这些观点文章来自知名新闻或杂志,讨论了本文分析的各种社交媒体平台。

总的来说,人们迫切希望社交媒体平台在算法上更加民主。许多社交媒体用户也普遍认为,为了改进算法,公司应该实施更透明的算法。目前,算法差异很大,大多数算法的功能都不是公开的信息。提高透明度的变化倾向于在平台上获得积极的用户反馈。

同样需要注意的是,对于任何平民算法的实现,一个帖子必须超过流行阈值才能在标记阶段被标记。对于社交媒体平台来说,调整当前的算法来确定这一流行阈值是至关重要的。目前大多数算法的目标是根据用户过去的兴趣向他们展示他们可能喜欢的流行内容。这可以通过大量的指标来实现,包括点赞、观看次数、评论、帖子的最近度(称为“新鲜度”)[ 35,以及更多。例如,Twitter算法倾向于优先考虑评论的数量,而YouTube算法优先考虑新鲜度。

实现

Plebeian算法的潜在实现平台的另一个关注点是实现的技术要求,包括在数百万个帖子上执行Plebeian算法所需的存储和处理能力。此外,Plebeian算法的应用需要是一个连续的过程,以确保当新的评论添加到一个帖子时,算法不断更新。如本文所示,注释的加入增加了详细程度。这里所有可视化的数据分析都包括评论和原始帖子的文本。因此,所需的计算能力似乎很大。然而,可以对平民算法进行许多修改以降低计算成本。

首先,平民算法不需要随着每个新评论的发布而更新。它可以隔一段时间执行,即每隔一段时间检查一段帖子是否有新的评论。这些新的评论(只有新的评论)然后通过情绪分析发送。在数据存储方面,对于社交媒体平台来说,为每个帖子存储一个额外字节的数据可能是有用的。具有最高意义的位,称为“确定需要的标志”,表示为 ϕd 可以用下面的公式来定义:

这样:

在哪里 nd 表示确定值(未缩放), x表示线程, x 表示线程中的特定评论或帖子, ν是一个布尔函数,如果评论是新的,则返回高值,如果评论已被分析,则返回低值,sgn表示sgum函数, v行为 而且 v用力推 以视图数表示线程的实际流行度和阈值,和 N表示线程中帖子或评论的数量。

如果高,该帖子或线程可以被算法安全地跳过。如果低,帖子或线程将被分析,以确保没有错误信息未被发现。其余7位数据表示整个线程的情绪,用 βN ,在那里 N是帖子中的评论数,不包括原始帖子。这些位可以用以下公式计算:

在某些情况下,它可能更便于计算 βN 递归地,可以使用以下方法完成:

这些方程表明,一个字节可以与每个线程相关联,以减少大规模执行Plebeian算法的处理要求。

还应该注意的是,平民算法是一个机器学习模型。它可以与现有的机器学习算法协同工作,从而降低所需的计算能力。使用前面描述的单字节存储方法将数据存储最小化。与所有神经网络一样,平民算法的标志阶段将随着时间的推移通过将字符串数据作为验证集来提高准确性。因此,随着时间的推移,神经网络的准确性将会提高。由于时间和资源的限制,本文使用了VADER;然而,为了随着时间的推移提高标志阶段的精度,建议平台最初实现VADER情绪分析工具,但在此基础上构建以适应特定时期社交媒体平台的特定词汇。这解释了各种社交媒体算法的微小差异,以及随着时间的推移词汇的变化。

平民算法的公开发布应该通过AB测试过程来完成,这是至关重要的。为了有效地修复算法实现中不可避免的错误(包括围绕特定实现/实现的任何潜在哲学问题),AB测试将是至关重要的,以确保在新算法下消费媒体的用户保持对品牌的忠诚,并将任何潜在的负面影响降至最低。它将允许为平民算法实现提供的一小部分用户收集用户反馈。

限制

尽管平民算法是当前社交媒体平台减少错误信息传播的一个很好的替代品,但它受到几个关键因素的限制。首先,如前所述,该算法仅被证实适用于严格基于文本的社交媒体平台和帖子。因此,视频或图像的审核不在其使用范围之内。其次,聊天室和服务器等私人媒体来源不在该算法的范围内,因此,该算法仅限于公共传播媒体。第三,受欢迎程度阈值的确定可能存在问题。例如,在Twitter上,大量的转发是被动的(也就是说,它们不是为了与他人分享而做的,而是用户下意识地做的)。被动分享可能会导致在确定一段内容是否达到流行阈值时出现问题。最后,它在某种意义上是有限的,它不能在瞬时时间选择中确定什么是错误信息,因此,不可能在任何时候从算法中提取错误信息。

结论

本研究意义重大,为社交媒体平台提供了一种新的情绪分析标记方法。这对于检测和预防信息传染病以及使用民主方法至关重要,这种方法使社交媒体用户有权根据准确性最终决定应该在平台上发布什么内容。平民算法直接减少了政治极化和极端思想,在用户之间制造了分歧,促进了在解决困扰人类的关键问题和问题方面的合作,恢复了公众和专家之间的信任。

此外,据预测,这将导致更可靠的社交媒体平台,从而全面减少用户的无知和错误观点。最后,创建的模型将导致用户表达自己而不关心社交媒体平台的政治观点。从本质上讲,这也最大限度地减少了外部偏见的影响,如政治气候,因为投票的人将完全随机和匿名。

许多领域的研究仍未得到分析。这些主题包括但不限于:

对平民算法在选择的社交媒体平台上的使用进行研究,并在其实施后检测错误信息的数量(即,一个真实世界的测试示例),然后将其与当前使用的方法进行比较,例如前面提到的“指向和射击”算法

为图形内容创建一种情绪分析,可以检查图像中的情绪,以确定它是否可能是错误信息(例如Snapchat、Instagram和TikTok) [ 63 64

确定与病毒传播相关的错误信息的传播——这可能有助于预先确定哪些位置(以及扩展的用户)更容易接触或解释错误信息

探索平民算法在监视环境中的适用性,包括刑事调查、员工入职和医疗保健[ 65- 68

分析通过亚马逊或eBay等在线供应商传播的错误信息。特别是,最近对亚马逊(截至2021年)的审计显示,亚马逊对可靠信息的忽视是危险的,例如,在疫苗信息的通用搜索中,将疫苗错误信息书籍与被广泛引用的疫苗信息书籍一起呈现[ 69- 73

应用更复杂的模型进行数据分析和可视化(这需要访问更深入的数据),包括术语频率逆文档度量[ 74]和Levenshtein距离[ 75]除其他外[ 76

研究了Plebeian算法与各种现有网络系统和基础设施的最佳实现和集成方法

继续分析收集到的数据,以证实先前关于社交媒体上信息性帖子情绪的行为影响的研究

分析企业社交媒体平台(如Slack)在虚假信息传播中的作用,尤其是在私人聊天渠道中

研究使用陪审团的错误信息遏制模型,包括维基百科实施的陪审团制度

分析音频形式内容(包括播客、Clubhouse和Spotify Greenroom音频聊天室)的兴起,以了解错误信息的潜在传播——许多此类媒体正在成为许多人越来越有影响力的新闻和信息来源[ 77

探索基于地理位置的社交媒体应用(如Foursquare)与地理错误信息传播之间的联系[ 78

COVID-19对现代社会产生了重大影响。乐观主义者希望,这些影响能让两极分化的世界本着合作和全球安全的精神团结起来。尽管这种情况已经发生,但他们希望团结起来的政治分裂并没有发生。“平民算法”不是针对信息大流行的疫苗;然而,这是一种帮助遏制和防止错误信息病毒继续传播和失控的治疗方法。这有一个关键的副作用,即把权力交还给人民,并消除了单一实体(如社交媒体公司)的潜在统治地位,后者在决定是否应该删除内容时可能会受到外部力量的影响。总而言之,建议社交媒体高管考虑实施平民算法的变体,明确修改以适应平台的具体情况。这将有助于遏制关于COVID-19信息大流行的错误信息,并防止未来的信息大流行。

缩写 API

应用程序编程接口

疾病预防控制中心

疾病控制和预防中心

KDE

核密度估计

维德

价感字典和情感推理器

挥发性有机化合物

关注的不同

世界卫生组织

作者想要感谢来自STEM奖学金的Anish R Verma在构思方面的帮助。此外,作者非常感谢Vinayak Nair从数据科学的角度提供的关于改进论点的帮助。2021年大学生大数据挑战赛的赞助商包括JMIR Publications、Roche、SAS、加拿大科学出版社、Digital S卡塔尔世界杯8强波胆分析cience和Overleaf,他们为这项研究提供了支持。

没有宣布。

卡里姆 F Oyewande AA 阿布达拉 低频 乔杜里Ehsanullah R 年代 社交媒体的使用及其与心理健康的联系:一项系统综述 Cureus 2020 06 15 12 6 e8627 10.7759 / cureus.8627 32685296 PMC7364393 HH 在线社交网络对青少年心理健康(WB)的影响:韩国学龄儿童的人口水平分析 Int J青春期 2016 06 16 22 3. 364 376 10.1080 / 02673843.2016.1197135 沃森 一个 截至2020年2月,全球选定国家中使用社交媒体作为新闻来源的成年人比例 Statista 2020 2021-07-14 https://www.statista.com/statistics/718019/social-media-news-source/ 沃尔什 博士 中立并非中立:对国会骚乱后的错误信息和情绪的分析 研究库@ WVU 2021 05 10 2021-07-14 https://researchrepository.wvu.edu/etd/8055/ 瓦尔德 C 德拉克斯汗 H 信息混乱:研究和政策制定的跨学科框架 欧洲委员会代表 2017 12 27 2017 09 1 109 Bradd 年代 Infodemic 世界卫生组织 2021-07-14 https://www.who.int/health-topics/infodemic#tab=tab_1 Hazelwood K 年代 布鲁克斯 D Chintala 年代 Diril U Dzhulgakov D Fawzy B Y Kalro 一个 法律 J K J Noordhuis P Smelyanskiy l X Facebook的应用机器学习:数据中心基础设施的视角 Facebook Inc . 2017 2021-07-14 https://research.fb.com/wp-content/uploads/2017/12/hpca-2018-facebook.pdf 伯恩斯丁 Monroy-Hernandez 一个 哈利 D 安德烈 P Panovich K 巴尔加斯 G 4chan和/b/:一个大型在线社区的匿名性和短暂性分析 2011 07 17 第五届国际AAAI博客和社交媒体会议 2021年7月17日至21日 巴塞罗那,加泰罗尼亚,西班牙 一个 Aliapoulios Bevensee E 布莱克本 J Bradlyn B De Cristofaro E Stringhini G Zannettou 年代 早期看帕勒在线社交网络 出来了。预印本于2021年1月11日在线发布 Massanari 一个 #Gamergate和The fapping: Reddit的算法、治理和文化如何支持有毒的技术文化 新媒体Soc 2016 07 09 19 3. 329 346 10.1177 / 1461444815608807 库马尔 肃贪会 Geethakumari G 利用认知心理学检测在线社交网络中的错误信息 以人为中心的计算 2014 09 24 4 1 1 22 10.1186 / s13673 - 014 - 0014 - x 史蒂芬斯 地理空间信息流行病:绘制关于COVID-19的推特阴谋论 嗡嗡的地理 2020 06 23 10 2 276 281 10.1177 / 2043820620935683 费尔南德斯 Bellogin 一个 Cantadlr 分析了推荐算法对错误信息放大的影响 出来了。预印本于2021年3月26日在线发布 广场 帕拉迪诺 l Opara Firstenberg 威尔逊 B Papadimos T Stawicki 年代 使用分布式共识算法来减少医疗错误信息的传播 国际学术医学 2019 5 2 93 10.4103 / ijam.ijam_47_19 霍普 T “西班牙流感”:当传染病的名称模糊起源和污名化的感染者 公共卫生 2018 11 108 11 1462 1464 10.2105 / AJPH.2018.304645 30252513 PMC6187801 爱普斯坦 Z Pennycook G 兰德 D 大众会与算法博弈吗?使用外行判断来打击社交媒体上的错误信息,降低不可信来源的等级 2020年计算系统中的人为因素CHI会议论文集 2020 04 25 气的20 2020年4月25日至30日 火奴鲁鲁,嗨 10.1145/3313831.3376232 Kaushik 年代 Covid疫苗推文 Kaggle 2021 2021-07-14 https://www.kaggle.com/kaushiksuresh147/covidvaccine-tweets Memon SA Carley 公里 CMU-MisCov19:一个用于描述COVID-19错误信息的新型Twitter数据集 Zenodo 2020 09 19 2021-07-14 https://zenodo.org/record/4024154 Gruzd 一个 P 预防信息大流行:加拿大范围内的Covid-19新闻、社交媒体和错误信息调查 SSRN J.预印本于2020年5月11日在线发布 10.2139 / ssrn.3597462 Palachy 年代 Twitter数据集 GitHub 2020 2021-07-14 https://github.com/shaypal5/awesome-twitter-data Tankovska H 截至2021年第一季度,Facebook全球月活跃用户数量 Statista 2021 2021-07-14 https://www.statista.com/statistics/264810/number-of-monthly-active-facebook \全球用户 跨度 J FacebookR评论 GitHub 2017 2021-07-14 https://github.com/jerryspan/FacebookR 米切尔 J 热门YouTube视频统计和评论 Kaggle 2017 2021-07-14 https://www.kaggle.com/datasnaek/youtube 罗兹 Sc 过滤泡沫、回音室和假新闻:社交媒体如何使个人对政治错误信息不那么挑剔 政治Commun 2021 05 01 1 22 10.1080 / 10584609.2021.1910887 Wollebæk D Karlsen R Steen-Johnsen K 安灼拉 B 愤怒、恐惧和回音室:网络行为的情感基础 媒体系统 2019 04 09 5 2 205630511982985 10.1177 / 2056305119829859 Pariser E 过滤气泡:互联网对你隐藏的东西 斯坦福HCI集团 2011 2021-07-14 https://hci.stanford.edu/courses/cs047n/readings/The_Filter_Bubble.pdf 雷利查斯 RR 简单随机抽样 乔纳森和卡琳菲尔丁公共卫生学院 2021-07-14 https://www.ph.ucla.edu/epi/rapidsurveys/RScourse/RSbook_ch3.pdf 罗森博格 H 赛义德 年代 Rezaie 年代 推特大流行:在COVID-19大流行期间,推特在传播医疗信息和错误信息方面的关键作用 CJEM 2020 07 06 22 4 418 421 10.1017 / cem.2020.361 32248871 S1481803520003619 PMC7170811 奥尔巴赫 大卫 Reddit丑闻:Reddit有透明度问题吗? 板岩 2021-07-14 https://slate.com/technology/2014/10/reddit-scandals-does-the-site-have-a-transparency-problem.html DeVito Gergle D Bernholtz J 算法毁了一切:RIPTwitter,民间理论,以及在社交媒体HCI和集体行动中对算法变化的抵抗 2017年计算系统中的人为因素CHI会议论文集 2017 05 02 气的17 2017年5月6日至11日 科罗拉多州丹佛市 3163 3174 10.1145/3025453.3025659 基于HITS和PageRank Link的排名算法比较研究 康奈尔大学博客服务 2015 10 27 2021-07-14 https://blogs.cornell.edu/info2040/2015/10/27/comparative-study-of-hits-and-pagerank-link-based-ranking-algorithms/ 麦金太尔 毫米 关系机构,网络技术,以及波士顿马拉松爆炸案后的社交媒体 ProQuest 2015 09 16 2021-07-14 https://www.proquest.com/openview/f3b73d2fae6805d92eed81229392053b/1?cbl=18750&parentSessionId=hkM46Px9ikwBr%2FfL65fe%2FaUV3N0iqN0Q4j6bazFyTvE%3D&pq-origsite=gscholar&accountid=47192 哈钦森 一个 从页面的角度来看,Facebook即将改变信息流的利与弊 今天的社交媒体 2018 01 17 2021-07-14 https://www.socialmediatoday.com/news/the-pros-and-cons-of-facebooks-coming-newsfeed-changes-from-a-page-pers/514776/ 库珀 P 2021年Facebook的算法如何运作,如何让它为你服务 Hootsuite博客 2021 02 10 2021-07-14 https://blog.hootsuite.com/facebook-algorithm/ 卡温顿 P 亚当斯 J Sargin E 用于YouTube推荐的深度神经网络 第十届ACM推荐系统会议论文集 2016 09 15 RecSys的16 2016年9月15日至19日 波士顿 1 8 10.1145/2959100.2959190 服务条款 YouTube 2021 2021-07-14 https://www.youtube.com/static?template=terms Southerton C 马歇尔 D Aggleton P 拉斯穆森 毫升 封面 R 受限模式:社交媒体、内容分类和LGBTQ性公民身份 N媒体系统 2020 02 13 23 5 920 938 10.1177 / 1461444820904362 Austen-Smith D 银行 JS 信息聚合,合理性和孔多塞陪审团定理 Polit Sci Rev 2014 08 01 90 1 34 45 10.2307 / 2082796 年代 Steyvers 医学博士 乔丹 组合问题中的大众智慧 Cogn Sci 2012 04 36 3. 452 70 10.1111 / j.1551-6709.2011.01223.x 22268680 Ghoshal 正义与发展党 达斯 N 达斯 年代 社区结构对在线社交网络错误信息遏制的影响 以知识为基础的系统 2021 02 213 106693 10.1016 / j.knosys.2020.106693 考克斯 哈尔平 J 阴谋论、错误信息、COVID-19和2020年大选科技 美国生活调查中心 2020 10 13 2021-07-14 https://www.americansurveycenter.org/research/conspiracy-theories-misinformation-covid-19-and-the-2020-election/ 卡里姆 党卫军 de Oliveira T 掠夺者 G COVID-19变体的适当名称 科学 2021 03 19 371 6535 1215 10.1126 / science.abh0836 33737481 371/6535/1215 科学术语 疾病控制和预防中心 2014 2021-07-14 https://wwwnc.cdc.gov/eid/page/scientific-nomenclature 船体 R 裂缝 B 病毒分类学和分类:病毒种的命名 拱性研究 2020 11 165 11 2733 2736 10.1007 / s00705 - 020 - 04748 - 7 32740831 10.1007 / s00705 - 020 - 04748 - 7 Masters-Waage TC 杰哈 N 犹太人的尊称 J COVID-19,冠状病毒,武汉病毒,还是中国病毒?了解如何在命名传染病时“不造成伤害” 前面Psychol 2020 11 561270 10.3389 / fpsyg.2020.561270 33362626 PMC7756064 中收取ø O 命名是框架:猪流感、新型流感和甲型H1N1流感 Observatorio 2010 01 4 1 麦考利 明斯基 年代 Viswanath K H1N1大流行:媒体框架、污名化和应对 BMC公共卫生 2013 12 03 13 1116 10.1186 / 1471-2458-13-1116 24299568 1471-2458-13-1116 PMC3907032 出售 TK Hosangadi D Trotochaud 错误信息和美国埃博拉传播危机:分析与引发恐惧的传染病爆发相关的社交媒体信息的真实性和内容 BMC公共卫生 2020 05 07 20. 1 550 10.1186 / s12889 - 020 - 08697 - 3 32375715 10.1186 / s12889 - 020 - 08697 - 3 PMC7202904 辛格 RP Valkonen JPT 灰色的 SM Boonham N 琼斯 RAC Kerlan C 舒伯特 J 讨论论文:马铃薯Y病毒株的命名 拱性研究 2008 153 1 1 13 10.1007 / s00705 - 007 - 1059 - 1 17943395 Mallapaty 年代 在大流行期间,病毒命名规则应该改变吗?病毒学家对这个问题产生了分歧 自然 2020 08 584 7819 19 20. 10.1038 / d41586 - 020 - 02243 - 2 32733098 10.1038 / d41586 - 020 - 02243 - 2 Baucom E Sanjari 一个 X 在社交媒体中反映现实世界:推特、地理定位和情感分析 2013年利用自然语言处理挖掘非结构化大数据国际研讨会论文集 2013 10 UnstructureNLP“13 2013年10月28日 旧金山,加州 61 68 10.1145/2513549.2513559 T Pelechrinis K 凯利斯 海里卡 l Suffoletto B 费尔德斯坦尤因 西南 加强青少年大麻治疗的创新途径:跨社交媒体和地理位置的同伴影响的相互作用 Curr瘾君子代表 2016 4 1 3. 2 221 229 10.1007 / s40429 - 016 - 0095 - x Milusheva 年代 马蒂 R Bedoya G 威廉姆斯 年代 Resor E Legovini 一个 将机器学习和地理定位技术应用于社交媒体数据(Twitter),为城市规划开发资源 《公共科学图书馆•综合》 2021 16 2 e0244317 10.1371 / journal.pone.0244317 33534801 玉米饼- d - 20 - 27914 PMC7857609 威廉姆斯 E 灰色的 J 迪克森 B 改善社交媒体帖子的地理位置 普及移动计算 2017 04 36 68 79 10.1016 / j.pmcj.2016.09.015 科特勒 P 左特曼 G 社会营销:有计划的社会变革的方法 J标志 1971 07 35 3. 3. 12 12276120 梅菲尔德 D 2021年社交媒体算法:按平台更新和提示 StoryChief 2021-07-14 https://storychief.io/blog/social-media-algorithms-updates-tips Settlage B 社交媒体算法时代的利弊 Amplimark 2021 02 17 2021-07-14 https://www.amplimark.com/pros-and-cons-of-the-social-media-algorithm-age/2021 Facebook算法的缺点以及如何解决它 在地图上!数字营销公司 2020 07 01 2021-07-14 https://onthemaps.com/disadvantages-of-the-facebook-algorithm-and-how-you-can-workaround-it/ Thottam 推特新算法时间线的利弊 粘贴杂志 2016 02 17 2021-07-14 https://www.pastemagazine.com/tech/twitter/pros-and-cons-of-twitters-new-algorithmic-timeline/ Curvelo R 使用Twitter作为数字营销策略的一部分的利与弊 矩阵网络 2020 02 28 2021-07-14 https://www.matrixinternet.ie/the-pros-and-cons-of-twitter/ 卡斯珀 H 你需要知道的关于推特时间线算法的一切 点击Tweet 2017 03 14 2021-07-14 https://clicktotweet.com/blog/everything-you-need-to-know-about-twitter-timeline-algorithm 比阿斯 D Facebook的新算法对电台有用吗? 无线电世界 2018 03 02 2021-07-14 https://www.radioworld.com/news-and-business/does-facebooks-new-algorithm-add-up-for-radio Agung N 达玛 G Instagram算法提升竞争优势的机遇与挑战 国际创新科学与技术 2019 01 4 1 1 校友马克·法杜尔发现TikTok算法中存在种族偏见 加州大学伯克利分校信息学院 2021-07-14 https://www.ischool.berkeley.edu/news/2020/alumnus-marc-faddoul-discovers-racial-biases-tiktoks-algorithm Mateescu 一个 勃氏 D 布拉特 一个 巴顿 D 黄金 Z 博伊德 D 社交媒体监控和执法 数据民权与时代治安正义 2015 10 27 1 11 古普塔 一个 Katarya R 使用机器学习的基于社交媒体的医疗保健监控系统:系统回顾 J生物医学信息 2020 08 108 103500 10.1016 / j.jbi.2020.103500 32622833 s1532 - 0464 (20) 30128 - 3 PMC7331523 Bizzi l 人力资源经理是否应该允许员工在工作中使用社交媒体?员工博客的行为和动机结果 资源管理 2017 11 14 31 10 1285 1312 10.1080 / 09585192.2017.1402359 亚历山大 电子商务 马德尔 Drd 马德尔 跳频 在招聘过程中使用社交媒体:招聘人员和求职者之间的比较 全球学者营销科学 2019 01 14 29 1 78 87 10.1080 / 21639159.2018.1552530 胫骨 J 瓦伦特 T 算法和健康错误信息:亚马逊上疫苗书籍的案例研究 J健康社区 2020 05 03 25 5 394 401 10.1080 / 10810730.2020.1776423 32536257 Juneja P 密特拉 T 对电子商务平台进行算法策划的疫苗错误信息审计 计算系统中的人为因素2021年CHI会议论文集 2021 05 06 气的21 2021年5月8日至13日 日本横滨 1 27 10.1145/3411764.3445250 史密斯 B 林登 G 亚马逊网站20年的推荐系统 IEEE互联网计算 2017 5 21 3. 12 18 10.1109 / mic.2017.72 •克里 年代 eBay和亚马逊的比较分析 2004 西雅图,华盛顿州 华盛顿大学 29 44 TT Z 马蒂松 预测易趣商品的转化率 信息检索研究与发展的第34届国际ACM SIGIR会议论文集 2011 07 " 11 2011年7月24日至28日 中国,北京 10.1145/2009916.2010188 Aizawa 一个 tf-idf测度的信息理论视角 处理管理 2003 1 39 1 45 65 10.1016 / s0306 - 4573 (02) 00021 - 3 一个 Onak K 在近线性时间内近似编辑距离 第41届ACM计算理论研讨会论文集 2009 07 02 获得STOC 09年 2009年5月31日至6月2日 马里兰州贝塞斯达 199 10.1145/1536414.1536444 在香港 卢瑟福 一个 Cebrian 社会动员和两极分化会导致COVID-19大流行控制的不稳定 应用网络科学 2021 6 1 11 10.1007 / s41109 - 021 - 00356 - 9 33614902 356 PMC7877319 Alang N 俱乐部聊天击败社交媒体喷子:无论是好是坏,网站提供了志同道合者之间的对话 多伦多星报 2021 03 2021-07-14 https://www.pressreader.com/canada/toronto-star/20210306/281900185950631 Y l X T 通过跨区域社区匹配,为游客个性化推荐当地有趣的场地 ACM Trans智能系统技术 2014 10 5 3. 1 26 10.1145 / 2532439
Baidu
map