这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
COVID-19大流行造成的信息大流行引发了若干社会问题,包括公众与卫生专家之间的不信任加剧,甚至一些人拒绝接受疫苗接种;有消息称,四分之一的美国人会拒绝接种疫苗。这种社会关注可以追溯到今天的数字化水平,尤其是社交媒体的形式。
这项研究的目标是确定一种最优的社交媒体算法,这种算法能够减少错误信息的数量,同时也能确保某些个人自由(如言论自由)得到维护。在完成本文所述的分析之后,抽象出一种算法。发现一组最优社交媒体算法的抽象方面是本研究的目的。
由于社交媒体是错误信息传播的最重要因素,该团队决定在各种基于文本的平台(Twitter、4chan、Reddit、Parler、Facebook和YouTube)上研究信息流行病学。这是通过情绪分析将一般帖子与被标记为错误信息的关键词语(所有这些词语都与COVID-19有关)进行比较,以确定其真实性。在收集数据集时,使用了应用程序编程接口(使用Python的pip安装)和由标准科学第三方编译的现有数据。
这种情绪可以用每个平台的双峰分布来描述,有一个正峰和一个负峰,以及一个偏态。研究发现,在某些情况下,错误的帖子比准确的帖子有高达92.5%的负面情绪倾斜。
在此基础上,提出了一种新颖的平民算法,该算法使用情绪分析和帖子受欢迎程度作为指标,将帖子标记为错误信息。这种算法与现状的算法不同,因为平民算法使用民主的过程来检测和删除错误信息。我们构建了一种方法,将被视为虚假信息的内容从平台上删除,由随机选择的匿名用户陪审团决定。这不仅可以防止这些类型的信息传染病,而且还可以保证以一种更民主的方式使用社交媒体,这有利于修复社会信任,并鼓励公众在循证知情的情况下做出决策。
互联网是传播信息的强大工具;因此,它在传播错误信息方面同样强大。2019年,全球社交媒体用户数量为34.84亿[
错误信息是一个关键问题,但许多术语在研究中被混淆。在这里,作者将定义几个经常互换使用的关键术语,但其定义是具体的和不同的。首先,misinformation应定义为故意或无意传播虚假信息[
在调查错误信息的传播之前,有必要定义信息流行病学和错误信息的概念。根据世界卫生组织(世卫组织)的定义,这篇研究论文将“信息大流行”定义为“在疾病爆发期间,数字和物理环境中有太多信息,包括虚假或误导性信息”,这“导致混乱和冒险行为,可能损害健康,[并且]还导致对卫生当局的不信任,破坏公共卫生应对措施”[
大多数社交媒体网站的核心目标是最大化用户在其平台上花费的时间。这种用户页面时间的最大化导致公司使用高度专业化和训练有素的机器学习在用户的feed上发布广告内容[
如前所述,大多数社交媒体平台的工作模式与Twitter、Facebook或YouTube类似,内容是根据用户参与度推荐的。
在社交媒体平台上的错误信息检测领域已经有一些相关的研究工作。这些工作包括研究错误信息和认知心理学之间的联系[
这项研究的目的是确定最佳的社交媒体算法,以减少错误信息的传播,同时确保个人自由。本文进行的调查将产生深远影响,将改变社交媒体平台上错误信息的处理方式。
这三项主要影响包括:
在社交媒体平台上创造一个更加开放和民主的环境
线上和线下的政治分歧和极端主义情绪全面减少
增加能够对主题提出明智意见的知情用户
在整个研究过程中,采用了详细的基于步骤的方法来分析数据。Python 3.9 (Python Software Foundation)是项目各个方面的首选语言。所有使用的库都可以使用pip访问。数据的可视化是使用Python中的matplotlib和seaborn库执行的。应用程序编程接口(api)来自Twitter、Reddit和4chan,收集有关用户名、日期、帖子和文本的数据。此外,从学术来源收集了两个数据集,其中包含来自Twitter的帖子数据[
选择Python是因为它易于连接到各种api;它在强大的社区中得到了很好的支持,因此,连接到各种api是通过预先编写的库完成的。这减少了编程时间,同时提高了代码的效率和可靠性。
在使用API的三个社交媒体服务中(即Twitter、Reddit和4chan),执行了四个步骤:(1)使用API和相关的Python库收集数据;(2)干净的数据创建一个Python字符串集,不包含url(使用正则表达式删除),HTML(使用beautifulsoup4删除),用户名(使用正则表达式删除),表情符号(使用demoji替换为文本),或非英语语言(使用pyenchant删除);(3)使用nltk的SentimentIntensityAnalyzer类进行情感分析;(4)将清理和情感分析后的数据帧保存为pickle文件。然后编写了一个可视化脚本来显示从社交媒体帖子数据中收集到的情绪数据。为了保证用户的机密性,只显示汇总数据。用核密度估计(KDE)绘制直方图会产生由研究团队生成的各种图形。由于文本限制,情感分析返回不确定的数据从可视化中删除。将语言限制为英语有统计比较一致性的好处。Facebook就是一个没有使用API的著名平台。 The reason for this is due to the restrictions placed on the Facebook API, in terms of depth and breadth of research.
分析的六种社交媒体服务(4chan、Twitter、Parler、Reddit、YouTube和Facebook)有不同数量的相关数据。本文分析的数据的细目描述在
为本文执行的分析选择的情感分析字典是价感字典和情感推理器(VADER)。该词典被选中是因为它是广泛的通用语句分析的行业标准,特别是在社交媒体平台上产生高度准确的结果。因此,VADER是本研究目的的最佳字典。虽然理想的算法应该对实现的情感分析系统进行各种制衡,但本文将严格关注VADER字典,它仅仅是积极和消极的情感。还有一些情绪分析工具可以检查特定的情绪(包括愤怒、恐惧、惊讶、快乐等)。
关键字分析用于数据清理过程,以确定哪些字符串被分类为与特定主题相关。这些关键词是从推特上收集的与错误信息直接相关的最常使用的术语列表中收集来的。
社交媒体数据分解。
确认学术文献[
错误信息与消极情绪直接相关。错误信息的帖子通常是负面的情绪。然而,这并不是必然的。因此,在确定最佳算法时,使用情绪分析来缩小潜在的错误信息候选人,然后使用进一步的方法(陪审团过程)来准确检测错误信息将是至关重要的。
这项研究定义了几个数学术语。前面描述的许多直方图和kde形成了双峰分布。两个峰集中的极性分数被称为极性分数
这个偏度方程通过以下推导得到:
分析结果将根据社交媒体平台进行划分。它们将按以下顺序提出:
4 chan
脸谱网
YouTube
讲
推特
在分析Reddit的数据时,我们选择了一系列的Reddit子版块。被选中的看板是r/AskReddit, r/AskThe_Donald, r/conspiracy, r/covid, r/kindness, r/movies, r/politics和r/EnoughTrumpSpam。这些小reddit被选为选项数组,允许分析可能的错误信息,可能的真实,和未知的来源。数据是使用Python库urllib3收集的。这里要检查的第一个子reddit是r/AskReddit。这个版块倾向于包含来自无数对话主题的各种各样的帖子。因此,它是相对指示的Reddit整体。r/AskReddit的直方图可以在
Reddit /AskReddit频率的积极性直方图。
值得注意的是,双峰分布的极值频率在负峰和正峰之间大致相等。Reddit调查的另一个值得注意的子版块是r/politics,它提供了一个可能受Reddit用户政治倾向影响的帖子样本。该分析的直方图和KDE显示在
Reddit /政治频率的积极性直方图。
r/politics的内容具有更强的负面倾斜,这在KDE中很明显。最后一个要检查的reddit子版块是一个前卫的reddit子版块:r/conspiracy。在这个社区里,用户们分享各种阴谋论。当一个人滚动r/conspiracy时,可以很容易地注意到大量的错误信息,包括围绕地平论和QAnon的错误信息。r/conspiracy的直方图在
Reddit /阴谋频率的正性直方图。
正如r/conspiracy所指出的,阴谋论的帖子(已知包含大量错误信息)通常是负面的。这可以注意到,由于双峰分布的峰值的差异。
为了分析4chan数据,我们选择了5个板:/b/, /a/, /v/, /pol/和/r9k/。与其他4chan板相比,这五个板的发布频率更高。使用basc_py4chan收集数据。对于这些板,绘制了一个包含30个箱子的直方图(使用重叠的KDE)。/b/的情绪直方图的可视化可以在
正性直方图4chan /b/频率。
本报告中要可视化的另一个板块是/pol/情绪的可视化,可以在
值得注意的是,与/b/相比,/pol/的极端负面情绪水平(即极化得分低于0.75)要高得多。这表明政治话题在4chan上更倾向于负面。
总的来说,应该注意的是,4chan一直包含大量的负面帖子,这在很大程度上取决于论坛的主题。与特定娱乐活动有关的符号(例如,/v/代表电子游戏或/a/代表动漫)具有较小程度的负面极性。
阳性直方图4chan /pol/频率。
本文有必要对Facebook进行分析,Facebook是目前拥有最大用户群的社交平台,每月活跃用户达28亿。
在
双峰直方图的显著特征是正峰明显,负峰宽。值得注意的是,KDE的积分如下所示:
此外,从KDE中提取了以下值:
Facebook正能量频率直方图。
YouTube完全基于长篇视频内容,并倾向于更深入的主题。预先选定的YouTube评论数据集[
数据集[
可以注意到,在数据中有很强的正偏态,与
YouTube COVID-19阳性频率直方图。
对Parler的分析是对Reddit和4chan的传统分析的一个过渡,因为Parler并没有被分解成用户订阅的社区,而是一个单一的新闻feed风格的系统。对Parler的分析应该与后面部分对Twitter的分析进行对比,因为用户从Twitter迁移到Parler是因为他们意识到自己在Twitter上的言论自由受到了限制。
在分析Parler时,数据被收集到COVID-19大流行期间和2021年1月6日事件前后的数据集中[
Parler COVID-19阳性频率直方图。
本文的大部分分析都是在社交媒体服务Twitter上进行的。究其原因,是因为该平台上有大量关于错误信息的数据,该平台作为一般案例研究的总体受欢迎程度,以及该平台的普遍性(与其他一些非正统的数据源(如YouTube评论)相比)。
与帕勒类似,推特的推文是向公众公开的。没有频道,板,或任何形式的看板。然而,由于推特算法的存在,每个人的消息都被允许在一个回音室里。显然,回音室应该尽可能避免。回音室是围绕COVID-19大流行的错误信息猖獗传播的一个重要因素[
这项研究结合了从Twitter API收集的数据和预先收集的COVID-19推文数据集[
在两项研究中(使用API和数据集[
在讨论中,研究主要集中在从Twitter API收集的数据上,因为类似的方法被用于收集其他被研究的社交媒体平台的数据。然而,应该注意的是,使用数据集也得到了类似的结果[
未经过滤的COVID-19推特应用程序编程界面阳性频率直方图。
可以注意到,KDE的正峰值几乎是负峰值的两倍。这表明正面推文的数量远远超过负面推文的数量。相对于
过滤的COVID-19推特API阳性直方图频率。API:应用程序编程接口。
该研究对负峰与正峰相比比例增加背后的原因的讨论将在后续部分中进一步讨论。同样,必须指出的是,当对从数据集中收集的数据进行相同的分析时,可以看到相同的结果[
在讨论部分,不仅将对结果和错误进行分析,而且还将讨论平民算法及其好处,以及如何将其与所研究的社交媒体平台的算法进行比较。
关于“结果”部分中产生的定量特征的分析,必须提出几个关键的注意事项。
首先,需要注意的是,4chan是唯一一个整体上具有正γ的社交媒体平台,特别是在/b/的全面板上。通过观察,一个让用户自由决定哪些内容得到推广的系统——而不是人工智能算法——改善了平均帖子的情绪。这是Plebeian算法中的一个关键点,将在后面的章节中描述。其次,Twitter有一个更温和的倾斜(即接近0,或中性)
同样重要的是要记住,情绪分析算法确定的极性分数与所传达信息的真实性之间存在很强的相关性[
在分析kde所代表的数据以及数据向负面情绪的双峰分布的倾斜时,证实了回音室效应(一种理论,认为“互联网产生了一系列孤立的同质回音室,在那里相似的观点相互加强,导致态度极化”[
虽然这项研究试图限制误差,但由于所使用的分析方法,仍然存在若干误差来源。第一个错误来源是使用关键字搜索的麻烦,因为它不仅会给我们提供传播错误信息的个人的帖子结果,还会给我们提供那些试图引起人们关注错误信息问题的人以及传播错误信息的人的帖子结果。此外,情绪分析也无法区分错误的帖子和试图引起人们注意的帖子。这是因为一些真实的推文显示了整体的负面情绪。关键字搜索的最后一个问题是,一些被确定为错误信息的关键字可能在将来被证明是准确的信息。
潜在错误的另一个来源是所使用的社交媒体平台。一个问题是,只有四个社交媒体平台被评估,从而限制了研究的范围。研究中发现的趋势可能不会出现在其他社交媒体平台(如Facebook)上。评估来源的另一个问题是,它们都只是基于文本的,因此所提出的方法可能无法复制到更多基于图形的社交媒体平台(如YouTube、Instagram或Snapchat)。
如前所述,平民算法是一种通过民主手段识别和删除错误信息的新算法。它分为两个不同的阶段:标记阶段,以确定哪些帖子是错误的,以及陪审团阶段,以判断信息,以确定删除是否合适。
挂旗阶段的任务是确定可能的误导帖子。在此过程中,算法选择有大量阅读的帖子,然后对原始帖子和“无替换的简单随机样本”进行情感分析[
陪审团阶段的任务是审判和删除真正错误的帖子。这些帖子将从用户的主页或新闻提要中删除。在陪审团阶段,标记的帖子被发送给随机选择的匿名用户,即陪审员。这一选择应提供一个由不同政治观点组成的多元化群体,以使该职位得到公平的审判。陪审员的选择采用人口中"无替换的简单随机样本" [
作为参考,详细描述平民算法的总结流程图可在
平民算法流程图。
在下一节中,将详细介绍用于Reddit、4chan、Parler和Twitter的每种算法。这些分析将基于学术期刊文章[
在分析目前用于各种平台的各个社交媒体算法之前,必须指出的是,这些算法中的大多数都有一个相同的目标:让用户留在平台上,从而确保其组织的持续收入。这一目标与防止错误信息在平台上传播的目标相矛盾,因为防止错误信息需要进行一些审查,从而导致收入减少。然而,这并不是说平民算法对网站企业家没有什么价值。值得注意的是,社交媒体公司(帕勒公司除外)的最终目标已经表明,他们有兴趣通过实施“定点射击”算法,以及审查高调的帖子和账户(例如,Twitter禁止@realDonaldTrump),来遏制和调节自己的社交媒体平台。然而,正如前面所描述的,这些算法并不能有效地完成减少错误信息的任务,进一步,导致用户对服务的幻想破灭。这导致许多用户加入了利用这种幻灭的平台(如Parler)。因此,通过实施平民算法,这些社交媒体公司终于有了一种谨慎地平衡适度和言论自由的方法,这将在他们的用户群中重新激发敬畏感,并带回社交媒体是一个有趣的在线空间的概念,人们可以自由地协作和分享。
Reddit所使用的算法是一个简单的upvote/downvote系统,如引言部分所述。Reddit鼓励用户对他们喜欢的内容投赞,并鼓励用户对他们不喜欢的内容投反对票。获得更多赞的帖子被更广泛地分享,而获得更多赞的帖子则相反。在Reddit上,用户可以对原始帖子和任何评论进行投票。“评论树”是系统在用户对评论进行评论时固有地创建的(因此将评论链接在一起形成树状结构)。
Reddit算法是根据Reddit用户的兴趣量身定制的。通过订阅系统订阅各种话题的对话或看板。用户将从他们所订阅的reddits子版块中收到混合的内容,以及额外的零星广告。
该系统基本上是为特定用户量身定制的。这与平民算法(Plebeian Algorithm)形成了鲜明对比,后者强调的是由用户群决定真实性的民主过程。目前,Reddit除了“报告”按钮外,没有任何用户控制的手段来打击虚假信息,该按钮可以让Reddit的工作人员注意到这个问题。这个过程被公司认为是人工审查,因此,它不构成类似于平民算法的东西。对于Reddit来说,要实现一个平民算法,它必须确保错误信息的判断过程仍然掌握在用户群的手中。
尽管Reddit目前看起来是一个民主制度,但它更像是一个封地。
值得注意的是,Reddit是一个建立在匿名感基础上的平台。用户不需要添加个人电子邮件地址或真实姓名。就像所有平民算法的实现一样,社交媒体公司批判性地分析现有的市场服务和用户可能被吸引的现有质量是很重要的。在Reddit上实现平民算法应该保持用户的匿名性,并且仍然不应该要求使用个人电子邮件或真实全名。
4chan的算法类似于Reddit;它使用一种系统,由观众决定内容是否对其用户可见。与Reddit不同的是,4chan的内容使用了一个临时系统。
4chan是最接近提出的Plebeian算法的算法;然而,有一些细微而显著的区别。平民算法不包含任何匿名性和短暂性的概念。内容必须是可追踪的和永久记录的。这将有助于确保社交媒体公司的目标(通常与4chan的目标不同)保持一致。保持每个社交媒体平台的目标一致,对于确保平台用户保持忠诚度,同时获得平民算法提供的额外好处至关重要。
要让4chan的算法成为一个平民算法,它应该消除它的短暂性。这对于确保内容有时间经历这个过程是至关重要的。在4chan的/b/上发布的内容通常持续不到1分钟[
Facebook是一个有价值的选择,它展示了一个强大的社交媒体平台和量身定制的用户体验;它的流行使得它对分析很有用。尽管Facebook公司并非完全透明。
在Facebook算法和Plebeian算法之间有很多不同。Facebook使用的方法,特别是在COVID-19大流行期间,旨在打击错误信息的传播,并基于经过训练的神经网络,在文本元素(包括帖子、评论和状态)中搜索关键词。还应该指出的是,Facebook的算法包含了大量的人工工作,这很容易产生偏见。正如前面几节所述,这种错误信息审查方法存在几个问题;最值得注意的是,Facebook算法的范围仅限于虚假信息主题的特定子集。这种性质的算法将检测帖子文本中包含的特定关键词,如“COVID”,以便为观众提供额外的信息和资源;这些算法还将在发布帖子之前向分享帖子的用户提供信息。相反,平民算法在本质上是积极主动的:它普遍适用于所有形式的错误信息,并在信息传播之前与之斗争。如前所述,错误信息的传播导致流行病问题加剧,从而使公共卫生工作者更难控制。通过实施平民算法,公共卫生将得到改善,特别是在未来的大流行病方面,因为有关情况的潜在危险的不实陈述或虚假陈述将被控制在更小比例的民众中,从而确保可靠和值得信赖的信息更容易获得和广泛传播。 The Plebeian Algorithm also requires less maintenance by developers, actively running automatically without the requirement of hard coding key terms to flag.
对于Facebook来说,实现一个平民算法,需要高度的规划。由于Facebook是最流行的社交媒体平台,建议在滚动的基础上逐步实施。应该使用AB测试来确保顺利和成功的实现。Facebook应该自动化和民主化他们的主页算法,为其服务实现一个平民算法。
由于视频视觉情感分析的固有难度,我们对YouTube视频的评论进行了分析。这并不是YouTube算法的全貌,它试图通过提供量身定制的feed来让用户在网站上停留更长时间;最终目标是,算法可以在用户搜索之前预测他们想看的视频。
通过与用户的情绪保持一致,该算法可以有效地产生更多积极的评论,如图所示
YouTube的审核系统已经是一种“平民算法”(Plebeian Algorithm)的形式,用户可以喜欢和不喜欢评论或视频,如果这些评论或视频不受欢迎,用户还可以报告它们。这与平民算法之间的主要脱节在于,当一个评论或视频被报告时,没有公共陪审团阶段,社区决定是否保留它。YouTube社区内围绕着诸如缺乏沟通和对YouTube网红Logan Paul的审查等问题的争议已经变得很明显。如果YouTube实施了“平民算法”,那么在内容被报告之后,在内容被删除之前,就需要一个陪审团阶段。还应该指出的是,YouTube的陪审员并不是随机分布的。调节算法是由人类编程的,因此,很难确保始终做出正确的决策。人工智能构成了YouTube算法的基础,但平民陪审团被一名法官所取代,后者可能很容易被说服或持有个人偏见。群众现象的智慧(quod vide)在平民算法的陪审团使用中发挥了重要作用。
帕勒使用了一种更典型的算法。它将帖子限制在1000个字符以内,并将其分发给广大用户。因此,与Reddit和4chan不同,Parler上没有发布内容的社区。Parler是作为言论自由的推动者成立的,因此,它的用户群高度关注他们的帖子缺乏审查。
虽然从表面上看,这似乎与任何算法的实现直接相反,但重要的是要注意,平民算法确保了关于信息真实性的任何和所有决策仍然掌握在用户手中。帕勒仍然会从实施平民算法中受益,因为它将保留帕勒的最终目标(促进言论自由),同时限制错误信息的传播。
对于Parler来说,要实现一个平民算法,它必须实现平民算法的旗帜阶段和陪审团阶段。值得注意的是,必须首先确保保护平台上的言论自由。这将确保用户群对变革保持忠诚和支持,不会抵制Parler或转向新的社交媒体平台(因为他们已经从Twitter迁移了)。Parler的用户基础显然是不稳定的,它必须确保用户基础对平台保持忠诚。这应该通过适当的过渡营销来实现,这将在后面讨论。
最后,Twitter使用了类似的算法(与Reddit和4chan相对),将帖子和内容发布给广大用户。这种算法的技术特别意味着,与其他平台(如Reddit和4chan)相比,错误信息更有可能在Twitter(和Parler)上传播。Twitter上庞大的用户基础和广泛的数据可用性必须被考虑在内,因为维持Twitter的文化和氛围以确保用户基础对任何算法变化都保持满意是至关重要的。Twitter的高管们很可能会有兴趣通过重新获得那些迁移到Parler的人的信任来扩大他们的影响力。这些人高度关注审查制度的减少和言论自由的增加。他们认为社交媒体平台应与内容的提升和降级过程保持分离[
对于Twitter来说,要实现“平民算法”(Plebeian Algorithm),它必须努力促进言论自由,减少审查,同时保持其可靠性。这是使用Plebeian算法完成的,它利用了这两个关注点。外行算法已被证明在遏制错误信息传播和提高可靠性方面有效[
正如18世纪孔多塞侯爵所研究的那样,孔多塞陪审团定理[
然而,在平民算法中实现的陪审团应该考虑孔多塞的陪审团定理,确保陪审团属于第二种情况。当陪审团对某一主题的知识相对较高或被认为相对较高时,就会出现第二类陪审团[
假设平民算法的实现可以确保其陪审团进入后一种陪审团类型,它将确保人群的智慧。增加作为潜在陪审员的样本将增加确定性。这种现象被称为“大众的智慧”[
与现状相比,平民算法的好处之一是根除和遏制之间的区别。当前系统的算法倾向于使用根除方法。他们以狭隘的视角看待错误信息的传播问题[
这与平民算法(Plebeian Algorithm)形成鲜明对比,后者采用基于遏制的方法来传播错误信息。值得注意的是,目前还不存在消除所有错误信息的技术[
“平民算法”的另一个巨大好处是减少审查。关于新冠疫情,大多数错误信息是由政治正确意识形态的人或共和党人传播的。48%的美国共和党人认为SARS-CoV-2并不比普通流感更危险[
本文探讨的一个子主题是病毒命名惯例,以及用于描述COVID-19的名称与社交媒体帖子中真实性水平之间的联系。为了进行分析,只考虑了关于COVID-19的帖子;因此,本文所使用的数据是在2020年之前收集的社交媒体平台(即Facebook和YouTube)没有被分析。Parler使用了一种相对标准的社交媒体算法,可以与Twitter相媲美。从Parler数据集[生成一个过滤到COVID-19的Parler数据pickle文件]
为了简化分析,创建了三类谈判,分别对其进行分析。首先,收集了所有使用任何命名规则提到COVID-19的帖子。这些帖子没有使用额外的过滤器收集,标记为“无”。其次,从COVID-19谈判中,应用过滤器收集所有包含病毒名称的谈判,这些名称涉及的地点包括但不限于“武汉病毒”、“中国病毒”和“印度变种”。所有这些词语都被美国疾病控制和预防中心(CDC)描述为可能传播错误信息和仇外心理[
对所有三个过滤后的数据集进行情感分析,并将结果绘制为小提琴图
关于帕勒的病毒命名惯例:小提琴情节。
这种可视化提供了非常相关的结果。过滤到COVID-19的数据与结果部分讨论的所有社交媒体算法绘制的kde相似,显示出精确的双峰分布,具有正峰值和负峰值,以及中性低谷。位置和生物分类的小提琴图证实了这一假设。位置分类过滤器显示出强烈的负面情绪,这意味着错误信息的可能性更高。相比之下,生物分类过滤器显示出强烈的积极情绪,意味着更大程度的真实性。
值得注意的是,研究结果并不局限于COVID-19。2009年H1N1/09流感大流行也发现了类似的结果(不涉及社交媒体)[
虚拟世界和物理世界之间存在着重要的联系,因为它涉及错误信息的传播和由此产生的各种后果。为此进行了几项研究。使用社交媒体平台来跟踪错误信息传播的一个基本限制是无法在更私人的环境中处理错误信息的传播(例如,面对面互动、视频会议和直接消息)。因此,将对社交媒体平台的错误信息转化为现实世界现象进行深入研究。
围绕资讯学进行了无数的研究[
此外,研究表明,社交媒体趋势与COVID-19等事件之间存在很强的相关性[
对“平民算法”持怀疑态度的人可能会担心,这种对社交媒体算法的大规模改变会引发公众的犹豫。无论这种犹豫是以负面反馈或抵制的形式出现,都是非常合理的,必须加以处理。许多人会指出4chan平台是一个消极的例子,它的算法在内容推广方面给予用户自由裁量权,而不是公司算法。
本文将首先论证两种策略之间的主要区别在于营销领域。市场营销是任何社交媒体公司的一个关键方面,尤其是在经历巨大变革的时候。事实上,一些大规模的社会变革需要市场营销策略[
向平民算法过渡的有效营销策略确保用户意识到社交媒体平台的整体氛围不会被改变。必须优先推广当前的氛围,以免这种改变遭到用户的强烈反对。如果实施不恰当的营销,那么过度节制的个人可能会离开社交媒体平台,让那些持有更极端(通常是被误导的)观点的人接管平台上广泛传播的内容。然而,充分的营销,强调静态的文化和社会氛围的平台在过渡期间缓解这种担忧。
其次,本文将讨论社区提供的对当前算法的反馈。这些反馈包括社交媒体平台上关于每个平台算法的讨论。对预选的观点进行分析[
总的来说,人们迫切希望社交媒体平台在算法上更加民主。许多社交媒体用户也普遍认为,为了改进算法,公司应该实施更透明的算法。目前,算法差异很大,大多数算法的功能都不是公开的信息。提高透明度的变化倾向于在平台上获得积极的用户反馈。
同样需要注意的是,对于任何平民算法的实现,一个帖子必须超过流行阈值才能在标记阶段被标记。对于社交媒体平台来说,调整当前的算法来确定这一流行阈值是至关重要的。目前大多数算法的目标是根据用户过去的兴趣向他们展示他们可能喜欢的流行内容。这可以通过大量的指标来实现,包括点赞、观看次数、评论、帖子的最近度(称为“新鲜度”)[
Plebeian算法的潜在实现平台的另一个关注点是实现的技术要求,包括在数百万个帖子上执行Plebeian算法所需的存储和处理能力。此外,Plebeian算法的应用需要是一个连续的过程,以确保当新的评论添加到一个帖子时,算法不断更新。如本文所示,注释的加入增加了详细程度。这里所有可视化的数据分析都包括评论和原始帖子的文本。因此,所需的计算能力似乎很大。然而,可以对平民算法进行许多修改以降低计算成本。
首先,平民算法不需要随着每个新评论的发布而更新。它可以隔一段时间执行,即每隔一段时间检查一段帖子是否有新的评论。这些新的评论(只有新的评论)然后通过情绪分析发送。在数据存储方面,对于社交媒体平台来说,为每个帖子存储一个额外字节的数据可能是有用的。具有最高意义的位,称为“确定需要的标志”,表示为
这样:
在哪里
如果高,该帖子或线程可以被算法安全地跳过。如果低,帖子或线程将被分析,以确保没有错误信息未被发现。其余7位数据表示整个线程的情绪,用
在某些情况下,它可能更便于计算
这些方程表明,一个字节可以与每个线程相关联,以减少大规模执行Plebeian算法的处理要求。
还应该注意的是,平民算法是一个机器学习模型。它可以与现有的机器学习算法协同工作,从而降低所需的计算能力。使用前面描述的单字节存储方法将数据存储最小化。与所有神经网络一样,平民算法的标志阶段将随着时间的推移通过将字符串数据作为验证集来提高准确性。因此,随着时间的推移,神经网络的准确性将会提高。由于时间和资源的限制,本文使用了VADER;然而,为了随着时间的推移提高标志阶段的精度,建议平台最初实现VADER情绪分析工具,但在此基础上构建以适应特定时期社交媒体平台的特定词汇。这解释了各种社交媒体算法的微小差异,以及随着时间的推移词汇的变化。
平民算法的公开发布应该通过AB测试过程来完成,这是至关重要的。为了有效地修复算法实现中不可避免的错误(包括围绕特定实现/实现的任何潜在哲学问题),AB测试将是至关重要的,以确保在新算法下消费媒体的用户保持对品牌的忠诚,并将任何潜在的负面影响降至最低。它将允许为平民算法实现提供的一小部分用户收集用户反馈。
尽管平民算法是当前社交媒体平台减少错误信息传播的一个很好的替代品,但它受到几个关键因素的限制。首先,如前所述,该算法仅被证实适用于严格基于文本的社交媒体平台和帖子。因此,视频或图像的审核不在其使用范围之内。其次,聊天室和服务器等私人媒体来源不在该算法的范围内,因此,该算法仅限于公共传播媒体。第三,受欢迎程度阈值的确定可能存在问题。例如,在Twitter上,大量的转发是被动的(也就是说,它们不是为了与他人分享而做的,而是用户下意识地做的)。被动分享可能会导致在确定一段内容是否达到流行阈值时出现问题。最后,它在某种意义上是有限的,它不能在瞬时时间选择中确定什么是错误信息,因此,不可能在任何时候从算法中提取错误信息。
本研究意义重大,为社交媒体平台提供了一种新的情绪分析标记方法。这对于检测和预防信息传染病以及使用民主方法至关重要,这种方法使社交媒体用户有权根据准确性最终决定应该在平台上发布什么内容。平民算法直接减少了政治极化和极端思想,在用户之间制造了分歧,促进了在解决困扰人类的关键问题和问题方面的合作,恢复了公众和专家之间的信任。
此外,据预测,这将导致更可靠的社交媒体平台,从而全面减少用户的无知和错误观点。最后,创建的模型将导致用户表达自己而不关心社交媒体平台的政治观点。从本质上讲,这也最大限度地减少了外部偏见的影响,如政治气候,因为投票的人将完全随机和匿名。
许多领域的研究仍未得到分析。这些主题包括但不限于:
对平民算法在选择的社交媒体平台上的使用进行研究,并在其实施后检测错误信息的数量(即,一个真实世界的测试示例),然后将其与当前使用的方法进行比较,例如前面提到的“指向和射击”算法
为图形内容创建一种情绪分析,可以检查图像中的情绪,以确定它是否可能是错误信息(例如Snapchat、Instagram和TikTok) [
确定与病毒传播相关的错误信息的传播——这可能有助于预先确定哪些位置(以及扩展的用户)更容易接触或解释错误信息
探索平民算法在监视环境中的适用性,包括刑事调查、员工入职和医疗保健[
分析通过亚马逊或eBay等在线供应商传播的错误信息。特别是,最近对亚马逊(截至2021年)的审计显示,亚马逊对可靠信息的忽视是危险的,例如,在疫苗信息的通用搜索中,将疫苗错误信息书籍与被广泛引用的疫苗信息书籍一起呈现[
应用更复杂的模型进行数据分析和可视化(这需要访问更深入的数据),包括术语频率逆文档度量[
研究了Plebeian算法与各种现有网络系统和基础设施的最佳实现和集成方法
继续分析收集到的数据,以证实先前关于社交媒体上信息性帖子情绪的行为影响的研究
分析企业社交媒体平台(如Slack)在虚假信息传播中的作用,尤其是在私人聊天渠道中
研究使用陪审团的错误信息遏制模型,包括维基百科实施的陪审团制度
分析音频形式内容(包括播客、Clubhouse和Spotify Greenroom音频聊天室)的兴起,以了解错误信息的潜在传播——许多此类媒体正在成为许多人越来越有影响力的新闻和信息来源[
探索基于地理位置的社交媒体应用(如Foursquare)与地理错误信息传播之间的联系[
COVID-19对现代社会产生了重大影响。乐观主义者希望,这些影响能让两极分化的世界本着合作和全球安全的精神团结起来。尽管这种情况已经发生,但他们希望团结起来的政治分裂并没有发生。“平民算法”不是针对信息大流行的疫苗;然而,这是一种帮助遏制和防止错误信息病毒继续传播和失控的治疗方法。这有一个关键的副作用,即把权力交还给人民,并消除了单一实体(如社交媒体公司)的潜在统治地位,后者在决定是否应该删除内容时可能会受到外部力量的影响。总而言之,建议社交媒体高管考虑实施平民算法的变体,明确修改以适应平台的具体情况。这将有助于遏制关于COVID-19信息大流行的错误信息,并防止未来的信息大流行。
应用程序编程接口
疾病控制和预防中心
核密度估计
价感字典和情感推理器
关注的不同
世界卫生组织
作者想要感谢来自STEM奖学金的Anish R Verma在构思方面的帮助。此外,作者非常感谢Vinayak Nair从数据科学的角度提供的关于改进论点的帮助。2021年大学生大数据挑战赛的赞助商包括JMIR Publications、Roche、SAS、加拿大科学出版社、Digital S卡塔尔世界杯8强波胆分析cience和Overleaf,他们为这项研究提供了支持。
没有宣布。