这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。gydF4y2Ba
为控制COVID-19感染率,全球已采用接触者追踪方法。为了实现这一目标,一些移动应用程序已经被开发出来。然而,人们越来越关注这些应用程序的工作机制和性能。文献已经提供了一些有趣的探索性研究,通过分析来自不同来源的信息,如新闻和用户对应用程序的评论,来研究社区对应用程序的反应。然而,据我们所知,目前还没有一种解决方案可以自动分析用户的评论并提取所引发的情绪。我们相信,这样的解决方案与用户友好的界面相结合,可以作为一种快速监控工具来监控应用程序的有效性,并在不经过密集的参与式设计方法的情况下立即进行更改。gydF4y2Ba
在本文中,我们旨在通过提出一个情绪分析框架来自动分析用户对COVID-19接触追踪移动应用程序的评论,分析人工智能和NLP技术在自动提取和分类用户情绪极性方面的有效性。我们还旨在提供一个大规模的带注释的基准数据集,以促进该领域未来的研究。作为概念的证明,我们还基于提出的解决方案开发了一个web应用程序,它有望帮助社区快速分析应用程序在该领域的潜力。gydF4y2Ba
我们提出了一个管道,从人工注释开始,通过众包研究,最后开发和训练人工智能(AI)模型,用于自动分析用户评论的情绪。详细地,我们收集并注释了大规模的用户对COVID-19接触者追踪应用程序的评论数据集。我们使用经典和深度学习方法进行分类实验。gydF4y2Ba
我们在3个不同的任务中使用了8种不同的方法,平均F1分数高达94.8%,表明所提出的解决方案是可行的。众包活动产生了一个由34,534个手工注释的评论组成的大规模基准数据集。gydF4y2Ba
现有文献大多依赖于人工或探索性分析用户对应用程序的评论,冗长且耗时。在现有的研究中,通常只分析较少应用的数据。在这项工作中,我们展示了人工智能和自然语言处理技术在分析和分类用户情绪极性方面提供了良好的结果,自动情绪分析可以帮助更准确、更快速地分析用户的反应。我们还提供了一个大规模的基准数据集。我们相信,所提供的分析、数据集和建议的解决方案与用户友好的界面相结合,可以作为一种快速监控工具,用于分析和监控在紧急情况下部署的移动应用程序,从而导致应用程序的快速变化,而无需通过密集的参与式设计方法。gydF4y2Ba
自COVID-19出现以来,全球公共当局都在尽最大努力减缓病毒的感染率。作为努力的一部分,他们已经实施了一些解决方案,如关闭公共场所,实施全面或部分封锁,限制人们的接触。接触者追踪已被全球公认为减缓病毒感染率的有效方法之一[gydF4y2Ba
理想情况下,如果接触者追踪机制能够大规模追踪受感染者的接触者,接触者追踪的潜力就可以得到充分利用。例如,在理想情况下,如果有关当局能够追踪受感染者去过哪里,并识别和通知患者的潜在接触者,那将是有益的。智能手机和可穿戴设备中的接近传感器等技术可以在这种情况下提供帮助,使当局能够更快速、更准确地自动通报潜在病例[gydF4y2Ba
为增加这些应用程序的用户人数,政府已制订不同的策略和政策[gydF4y2Ba
然而,在有效性和隐私方面,这些应用程序存在一些问题。例如,由于应用程序需要使用GPS和其他传感器跟踪个人的活动,以跟踪他们的互动,因此可能会出现隐私问题[gydF4y2Ba
这项研究的动机源于观察,尽管取得了成功,但由于隐私和其他技术问题(包括电池消耗增加)的担忧,接触追踪应用程序在全球范围内受到了公众的批评和审查。我们相信,分析用户对这些应用程序的评论将有助于更好地理解对这些应用程序的关注。在这方面已经有了一些努力[gydF4y2Ba
为了便于对这些应用程序的用户评论进行自动情感分析,需要一个大规模的人工注释数据集来训练和评估用于情感分析的机器学习(ML)模型。在这项工作中,我们收集并注释了大量手工注释的46个不同应用程序的用户评论。更具体地说,我们收集并注释了Android和iOS移动应用程序用户对COVID-19接触者追踪的评论的大规模数据集。gydF4y2Ba
我们分析了人工智能模型如何帮助自动提取和分类用户情绪的极性,并提出了一个情绪分析框架,用于自动分析用户对COVID-19接触者追踪手机应用程序的评论。提出了几种算法,并在数据集上进行了评估,作为概念证明,以显示对用户对这些应用程序的评论进行自动情感分析的有效性。在手动分析和注释用户的评论后,我们同时使用了经典(即,多项Naïve贝叶斯[MNB],支持向量机[SVM],随机森林[RF])和深度学习(即,神经网络[gydF4y2Ba
这项工作的主要贡献可以总结如下:我们根据对46个不同的COVID-19接触者追踪应用程序的40,000条评论的分析,提供了34,534条手动标记的评论。标签由情绪极性(即积极、中性和消极)和标签(技术问题)组成。我们对数据集进行了深入分析,展示了不同的特征和见解。我们与研究界共享数据集和数据分割,以提高可重复性和进一步增强。我们使用8个不同的分类实验报告基准结果,这可以作为未来研究的基线。我们还提出了一个web应用程序,采用所提出的NLP技术,并具有用户友好的界面,允许利益相关者快速分析人们对此类移动应用程序的看法。gydF4y2Ba
为了抗击COVID-19大流行,几乎所有的研究领域,如卫生、NLP和计算机视觉,都发挥了重要作用。因此,去年提出了针对这一流行病不同方面的若干有趣的解决办法[gydF4y2Ba
本研究中使用的COVID-19接触追踪移动应用程序。gydF4y2Ba
美国没有。gydF4y2Ba | 国家gydF4y2Ba | 应用程序gydF4y2Ba | 技术gydF4y2Ba |
1gydF4y2Ba | 澳大利亚gydF4y2Ba | COVIDSafegydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
2gydF4y2Ba | 奥地利gydF4y2Ba | 阻止电晕gydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
3.gydF4y2Ba | 巴林gydF4y2Ba | BeAwaregydF4y2Ba | 蓝牙、位置gydF4y2Ba |
4gydF4y2Ba | 孟加拉国gydF4y2Ba | 电晕示踪剂BDgydF4y2Ba | 蓝牙,谷歌gydF4y2Ba |
5gydF4y2Ba | 比利时gydF4y2Ba | CoronalertgydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
6gydF4y2Ba | 保加利亚gydF4y2Ba | ViruSafegydF4y2Ba | 位置,蓝牙,谷歌/ApplegydF4y2Ba |
7gydF4y2Ba | 加拿大gydF4y2Ba | COVID警报gydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
8gydF4y2Ba | 塞浦路斯gydF4y2Ba | CovTracergydF4y2Ba | 位置、全球定位系统(GPS)gydF4y2Ba |
9gydF4y2Ba | 捷克共和国gydF4y2Ba | eRouskagydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
10gydF4y2Ba | 丹麦gydF4y2Ba | SmittestopgydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
11gydF4y2Ba | 爱沙尼亚gydF4y2Ba | HOIAgydF4y2Ba | 蓝牙,DP-3T,谷歌/ApplegydF4y2Ba |
12gydF4y2Ba | 斐济gydF4y2Ba | CareFijigydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
13gydF4y2Ba | 芬兰gydF4y2Ba | KoronavilkkugydF4y2Ba | 蓝牙,DP-3TgydF4y2Ba |
14gydF4y2Ba | 法国gydF4y2Ba | TousAntiCovidgydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
15gydF4y2Ba | 德国gydF4y2Ba | Corona-Warn-AppgydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
16gydF4y2Ba | 加纳gydF4y2Ba | GH COVID-19追踪器gydF4y2Ba | 位置,谷歌和苹果gydF4y2Ba |
17gydF4y2Ba | 直布罗陀gydF4y2Ba | 打败直布罗陀疫情gydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
18gydF4y2Ba | 匈牙利gydF4y2Ba | VirusRadargydF4y2Ba | 蓝牙,谷歌gydF4y2Ba |
19gydF4y2Ba | 冰岛gydF4y2Ba | Rakning C-19gydF4y2Ba | 位置,谷歌和苹果gydF4y2Ba |
20.gydF4y2Ba | 印度gydF4y2Ba | Aarogya是以gydF4y2Ba | 蓝牙,位置,谷歌/ApplegydF4y2Ba |
21gydF4y2Ba | 印尼gydF4y2Ba | PeduliLindungigydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
22gydF4y2Ba | 爱尔兰gydF4y2Ba | Covid追踪gydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
23gydF4y2Ba | 以色列gydF4y2Ba | HaMagengydF4y2Ba | 位置,谷歌和苹果gydF4y2Ba |
24gydF4y2Ba | 意大利gydF4y2Ba | ImmunigydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
25gydF4y2Ba | 日本gydF4y2Ba | 可可gydF4y2Ba | 谷歌和苹果gydF4y2Ba |
26gydF4y2Ba | 沙特阿拉伯王国gydF4y2Ba | TawakkalnagydF4y2Ba | 蓝牙,谷歌gydF4y2Ba |
27gydF4y2Ba | 沙特阿拉伯王国gydF4y2Ba | TabaudgydF4y2Ba | 谷歌gydF4y2Ba |
28gydF4y2Ba | 科威特gydF4y2Ba | ShlonikgydF4y2Ba | 位置,谷歌和苹果gydF4y2Ba |
29gydF4y2Ba | 马来西亚gydF4y2Ba | MyTracegydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
30.gydF4y2Ba | 墨西哥gydF4y2Ba | CovidRadargydF4y2Ba | 蓝牙gydF4y2Ba |
31gydF4y2Ba | 新西兰gydF4y2Ba | 新西兰COVID示踪剂gydF4y2Ba | 二维码,谷歌/ApplegydF4y2Ba |
32gydF4y2Ba | 北马其顿gydF4y2Ba | StopKoronagydF4y2Ba | 蓝牙gydF4y2Ba |
33gydF4y2Ba | 北爱尔兰gydF4y2Ba | StopCOVID倪gydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
34gydF4y2Ba | 挪威gydF4y2Ba | SmittestoppgydF4y2Ba | 蓝牙,位置,谷歌gydF4y2Ba |
35gydF4y2Ba | 巴基斯坦gydF4y2Ba | COVID-Gov-PKgydF4y2Ba | 蓝牙,GPS,谷歌/ApplegydF4y2Ba |
36gydF4y2Ba | 菲律宾gydF4y2Ba | StaySafegydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
37gydF4y2Ba | 波兰gydF4y2Ba | 盔甲护身安全gydF4y2Ba | 蓝牙,谷歌gydF4y2Ba |
38gydF4y2Ba | 卡塔尔gydF4y2Ba | EhterazgydF4y2Ba | 蓝牙,位置,谷歌/ApplegydF4y2Ba |
39gydF4y2Ba | 新加坡gydF4y2Ba | TraceTogethergydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
40gydF4y2Ba | 南非gydF4y2Ba | COVID警报SAgydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
41gydF4y2Ba | 瑞士gydF4y2Ba | SwissCovidgydF4y2Ba | 蓝牙,DP-3T,谷歌/ApplegydF4y2Ba |
42gydF4y2Ba | 泰国gydF4y2Ba | MorChanagydF4y2Ba | 位置,蓝牙gydF4y2Ba |
43gydF4y2Ba | 突尼斯gydF4y2Ba | E7migydF4y2Ba | 谷歌和苹果gydF4y2Ba |
44gydF4y2Ba | 火鸡gydF4y2Ba | 哈亚特·伊夫·萨格˘argydF4y2Ba | 蓝牙,位置,谷歌/ApplegydF4y2Ba |
45gydF4y2Ba | 阿拉伯联合酋长国gydF4y2Ba | TraceCovidgydF4y2Ba | 蓝牙gydF4y2Ba |
46gydF4y2Ba | 联合王国gydF4y2Ba | NHS COVID-19应用程序gydF4y2Ba | 蓝牙,谷歌和苹果gydF4y2Ba |
尽管这些应用是降低感染率的可行解决方案,但由于与之相关的风险,它们受到了批评。在文献中,已经报道了一些问题,如隐私、功耗和恼人的警报。例如,Bengio等[gydF4y2Ba
文献还描述了一些有趣的研究,这些研究通过分析人们对这些应用程序的反应或反馈来评估这些移动应用程序的可行性[gydF4y2Ba
在本节中,我们将概述本文采用的方法。拟议工作的完整流程描述在gydF4y2Ba
新冠肺炎接触者追踪手机应用用户反馈情感分析管道框图,大致分为2个部分,即(1)数据集开发和(2)实验。gydF4y2Ba
为了获得真实的用户评论,以供我们分析,我们从世界不同地区使用的46个COVID-19接触追踪应用程序中抓取评论,这些应用程序托管在谷歌Play和苹果应用程序商店上。这些应用程序在gydF4y2Ba
对于情绪的注释,通常使用3种情绪极性:积极、消极和中性。从我们最初的分析中,我们意识到应用程序可能存在技术问题;因此,我们为注释使用了另一个标签,技术问题。因此,我们的注释由4个标签组成:(1)积极的,(2)消极的,(3)中性的,和(4)技术问题。我们注意到中性评论是指那些既不赞扬也不抱怨应用程序的评论。gydF4y2Ba
为了方便注释过程,我们开发了一个web应用程序,通过该应用程序,用户对应用程序的评论被呈现给注释人员,以手动标记它们。在gydF4y2Ba
总共分析了4万条评论。为了保证注释的质量,每一篇评论都由至少2名参与者(来自不同年龄段的研究生)进行分析,我们考虑了大多数注释者同意的评论和标签。在注释过程中,我们删除了一些评论,原因包括:(1)不是英文,(2)有大量的表情符号或符号,(3)不相关(即没有直接评论应用程序)。这个过程总共产生了34,534个带注释的评论。gydF4y2Ba
我们将数据集公开,供研究人员进一步探索NLP技术在自动分析接触追踪应用程序用户反馈方面的潜力[gydF4y2Ba
注释平台的截图。gydF4y2Ba
总的来说,数据集涵盖了每个类的大量样本。然而,有一类,即中性类,由相对较少的样本组成。我们总共有15,587个正面评论,而负面和技术问题类别分别由8178个和9496个样本组成。少数民族阶级(即中立阶级)总共只有1271人。gydF4y2Ba
通过对第二个问题(Q.2)的分析,我们确定了影响参与者决策的原因和信息。在本节中,我们将提供与第二个问题(Q.2)相关的统计数据。在gydF4y2Ba
在gydF4y2Ba
分类主要原因或原因的积极和消极的评价,以及技术问题。gydF4y2Ba
评论中提供反馈的常见原因(n=34,534)。gydF4y2Ba
反馈的类型gydF4y2Ba | 反应频率,n (%)gydF4y2Ba | |
|
||
|
易于安装或使用gydF4y2Ba | 1137 (7.3)gydF4y2Ba |
|
有用的,信息量大的,有用的gydF4y2Ba | 5673 (36.4)gydF4y2Ba |
|
喜欢这个想法或倡议gydF4y2Ba | 904 (5.8)gydF4y2Ba |
|
工作正常gydF4y2Ba | 3226 (20.7)gydF4y2Ba |
|
没有任何原因gydF4y2Ba | 4645 (29.8)gydF4y2Ba |
|
||
|
注册的问题gydF4y2Ba | 4111 (43.3)gydF4y2Ba |
|
更新问题gydF4y2Ba | 978 (10.3)gydF4y2Ba |
|
频繁的事故gydF4y2Ba | 1443 (15.2)gydF4y2Ba |
|
没有任何原因gydF4y2Ba | 2954 (31.1)gydF4y2Ba |
|
||
|
电力消耗gydF4y2Ba | 1733 (21.2)gydF4y2Ba |
|
隐私问题gydF4y2Ba | 1063 (13.0)gydF4y2Ba |
|
无用的gydF4y2Ba | 2020 (24.7)gydF4y2Ba |
|
不友好的gydF4y2Ba | 1022 (12.5)gydF4y2Ba |
|
没有任何原因gydF4y2Ba | 2339 (28.6)gydF4y2Ba |
在大多数正面评价中,用户认为这些应用程序有用、信息丰富,有助于抗击COVID-19。一些正面评价的例子如下:gydF4y2Ba
非常感谢。它非常有用,信息量很大。它帮助人们远离可疑区域。gydF4y2Ba
一个非常好的追踪和阻止冠状病毒的应用程序gydF4y2Ba
总是能得到关于病毒的最新信息gydF4y2Ba
非常有用和信息丰富的应用程序。gydF4y2Ba
相当一部分的积极评价也是基于安装的便利性,而一些评价提到他们使用的应用程序运行良好,但没有进一步的细节。然而,最令人鼓舞的是,相当大比例的用户对当局为降低感染率而追踪接触者的想法、概念和努力表示赞赏。一些示例评论包括:gydF4y2Ba
政府的好举措gydF4y2Ba
很好地预防了冠状病毒的传播,我感谢幕后工作人员的努力。gydF4y2Ba
还有大量简短的评论,用户只是简单地表达了他们的积极回应,而没有提到任何特定的原因。除此之外,用户强调的其他积极评价的常见原因包括世界不同地区不同应用程序的一些特定功能。例如,沙特政府的Takkawalna应用程序被用于在封锁期间寻求外出许可,被称赞为寻求许可的来源。gydF4y2Ba
另一方面,这些应用程序的关键技术问题包括注册和更新问题。此外,大量的评论还强调了应用程序崩溃或经常停止工作。除了这些常见问题外,这些评论还暗示了某些技术问题,如设备兼容性和连接问题;缺乏对某些语言的支持,如英语;而不是纠正来自不同应用程序的二维码。一些突出应用程序中的技术问题的示例评论包括:gydF4y2Ba
应用程序不断崩溃。gydF4y2Ba
我有商务签证,无法注册,请给一个解决方案。gydF4y2Ba
我安装了,但我还不能注册。gydF4y2Ba
我不能更新?gydF4y2Ba
安装应用程序,但仍然显示连接错误。即使重启手机,也一样。gydF4y2Ba
最常见的问题包括功耗、无用性和隐私(gydF4y2Ba
收集了太多的个人信息。隐私风险。不符合国际标准。gydF4y2Ba
允许太多的权限,请禁止此应用程序。完全是浪费。gydF4y2Ba
我担心他们的数据隐私。gydF4y2Ba
这个应用程序很耗电。gydF4y2Ba
我们也提供国家的统计数据gydF4y2Ba
在我们的数据集中,按国家报告的应用程序的负面、正面和中性评论的分布以及技术问题。gydF4y2Ba
为了分析用户情绪极性随时间的变化,在gydF4y2Ba
在数据分析过程中,虽然对隐私有一些怀疑,但我们观察到,在一开始,接触追踪的倡议或想法在很大程度上受到了世界各地用户的赞赏。此外,我们还观察到,随着时间的推移,这些应用程序的用户面临着设备兼容性和应用程序的注册问题。有趣的是,在大多数应用程序中,负面评论的数量随着时间的推移而增加。增加的一个可能原因是应用程序未能实现它们的承诺。gydF4y2Ba
初步的时间分析反映了情绪类别随时间分布的变化。这些数据是通过分析最近(即2020年12月25日)的前200名应用程序和一些有足够数量评论的应用程序的最初200条评论编制的。gydF4y2Ba
为了理解词汇内容,我们对每个评论的标记数量进行了分析。它有助于理解数据集的特征。例如,对于卷积神经网络和基于长短期记忆的架构,需要定义最大序列长度。数据集中令牌的最小、最大和平均数量分别为3、198和18。gydF4y2Ba
我们还分析了每个类别的词汇内容,以了解它们在词汇内容顶部n-gram方面是否具有独特性。该分析还证明了标记数据的质量。我们使用效价分数[来比较所有类别的词汇。gydF4y2Ba
其中C(.)是一个给定类的标记x的频率gydF4y2Ba
在整个数据集中不同长度的评论数。gydF4y2Ba
令牌数量gydF4y2Ba | 评论,ngydF4y2Ba |
0-20gydF4y2Ba | 23602年gydF4y2Ba |
意向gydF4y2Ba | 6611gydF4y2Ba |
41-60gydF4y2Ba | 2463gydF4y2Ba |
61 - 80gydF4y2Ba | 1068gydF4y2Ba |
81 - 100gydF4y2Ba | 664gydF4y2Ba |
101 - 120gydF4y2Ba | 68gydF4y2Ba |
> 120gydF4y2Ba | 60gydF4y2Ba |
最常见的基于valance分数的分类n-grams。gydF4y2Ba
排名gydF4y2Ba | 负gydF4y2Ba | 积极的gydF4y2Ba | 技术问题gydF4y2Ba |
1gydF4y2Ba | 电池坏了gydF4y2Ba | 最好的应用gydF4y2Ba | 错误的请求gydF4y2Ba |
2gydF4y2Ba | 要删除这个gydF4y2Ba | 优秀的应用程序,gydF4y2Ba | 不能注册。gydF4y2Ba |
3.gydF4y2Ba | 过热和电池gydF4y2Ba | 和有用的gydF4y2Ba | 什么是错的gydF4y2Ba |
4gydF4y2Ba | 不高兴gydF4y2Ba | 非常好gydF4y2Ba | 解决这个问题,gydF4y2Ba |
5gydF4y2Ba | 卸载原因:gydF4y2Ba | 感到更安全gydF4y2Ba | 我看不出来gydF4y2Ba |
6gydF4y2Ba | 耗尽电池和gydF4y2Ba | 非常好的应用程序gydF4y2Ba | 无法继续gydF4y2Ba |
7gydF4y2Ba | 巨大的消耗gydF4y2Ba | 有用的信息gydF4y2Ba | 错误而gydF4y2Ba |
8gydF4y2Ba | 电量太大,gydF4y2Ba | 拯救生命gydF4y2Ba | 有错误gydF4y2Ba |
9gydF4y2Ba | 大量电池损耗gydF4y2Ba | 非常有用gydF4y2Ba | 电话号码。试着gydF4y2Ba |
如前所述,我们获得了大量正面、负面和技术问题(PNT)的样本,而中性类的样本较少。此外,突出应用程序中的技术问题的评论也可能被视为负面评论。因此,为了涵盖问题的不同方面,我们将其分为3个不同的任务。gydF4y2Ba
任务1涉及PNT的三元分类。我们将该问题视为三元分类问题,其中考虑了PNT。为这项任务训练的模型被期望帮助识别应用程序中突出技术问题的评论以及积极和消极的评论。gydF4y2Ba
任务2涉及二元分类(正面或负面[PN])。负面和技术问题类被合并为一个单一的负面类,形成一个二元分类问题的2个类别以及正面评论(即PN)。将该任务视为二元分类问题的主要原因之一是中性类样本的可用性较低。gydF4y2Ba
任务3涉及3类三元分类:阳性、阴性或中性(PNN)。我们注意到,在这项任务中,否定类是原始否定类和技术问题类的结合。gydF4y2Ba
所有这些任务都有助于分析所提出的情感分析器的性能如何随着不同的注释集而变化。gydF4y2Ba
对于分类实验,我们将数据集分为训练集、验证集和测试集,比例分别为60.3%、6.7%和30.0%。在划分数据集时,我们使用分层抽样来保持不同集之间的类分布。对每个任务分别执行数据分割或分布,这导致每个任务的训练、验证和测试集的样本数量不同。每项任务的数据分割将分别公开,以确保在未来的工作中进行公平比较。gydF4y2Ba
任务1中类标签的数据分割和分布。gydF4y2Ba
类gydF4y2Ba | 火车gydF4y2Ba | 验证gydF4y2Ba | 测试gydF4y2Ba | 总计gydF4y2Ba |
积极的gydF4y2Ba | 9370gydF4y2Ba | 1041gydF4y2Ba | 5176gydF4y2Ba | 15587年gydF4y2Ba |
负gydF4y2Ba | 5000gydF4y2Ba | 556gydF4y2Ba | 2622gydF4y2Ba | 8178gydF4y2Ba |
技术问题gydF4y2Ba | 5686gydF4y2Ba | 632gydF4y2Ba | 3178gydF4y2Ba | 9496gydF4y2Ba |
总计gydF4y2Ba | 20056年gydF4y2Ba | 2229gydF4y2Ba | 10976年gydF4y2Ba | 33261年gydF4y2Ba |
任务2中类标签的数据分割和分布。gydF4y2Ba
类gydF4y2Ba | 火车gydF4y2Ba | 验证gydF4y2Ba | 测试gydF4y2Ba | 总计gydF4y2Ba |
积极的gydF4y2Ba | 9342gydF4y2Ba | 1038gydF4y2Ba | 5207gydF4y2Ba | 15587年gydF4y2Ba |
负gydF4y2Ba | 10715年gydF4y2Ba | 1191gydF4y2Ba | 5770gydF4y2Ba | 17676年gydF4y2Ba |
总计gydF4y2Ba | 20057年gydF4y2Ba | 2229gydF4y2Ba | 10977年gydF4y2Ba | 33263年gydF4y2Ba |
任务3中类标签的数据分割和分布。gydF4y2Ba
类gydF4y2Ba | 火车gydF4y2Ba | 验证gydF4y2Ba | 测试gydF4y2Ba | 总计gydF4y2Ba |
积极的gydF4y2Ba | 9364gydF4y2Ba | 1040gydF4y2Ba | 5183gydF4y2Ba | 15587年gydF4y2Ba |
负gydF4y2Ba | 10690年gydF4y2Ba | 1188gydF4y2Ba | 5798gydF4y2Ba | 17676年gydF4y2Ba |
中性gydF4y2Ba | 770gydF4y2Ba | 85gydF4y2Ba | 416gydF4y2Ba | 1271gydF4y2Ba |
总计gydF4y2Ba | 20824年gydF4y2Ba | 2314gydF4y2Ba | 11398年gydF4y2Ba | 34534年gydF4y2Ba |
在继续实验之前,还通过删除不必要的标记来清理数据,例如非ascii字符、标点符号(替换为空格)和其他符号。gydF4y2Ba
对于这项研究,我们的分类实验包括使用经典和深度学习算法进行多类分类,如下所示。gydF4y2Ba
在本研究中,我们使用了几种经典算法,如MNB [gydF4y2Ba
fastText是一个NLP库,旨在提供高效的单词嵌入和文本分类,与传统的深度学习解决方案相比,速度更快[gydF4y2Ba
变压器的双向编码器表示(BERT) [gydF4y2Ba
为了衡量每个分类器的性能,我们使用加权平均精度(P)、召回率(R)和F1。我们使用加权指标,因为它们有能力考虑到阶级不平衡分布。gydF4y2Ba
为了使用MNB、SVM和RF训练分类器,我们将文本转换为用对数术语频率(tf)乘以逆文档频率(idf)加权的n-gram矢量袋。为了利用上下文信息,例如对分类有用的n-gram,我们提取了unigram、biggram和trigram特征。gydF4y2Ba
我们使用网格搜索来优化MNB, SVM和RF的参数。对于MNB,我们优化了α参数的拉普拉斯平滑,在0到1之间有20个值。对于支持向量机,我们优化了具有C参数的线性核(30个值,范围从0.00001到10)和具有C和γ参数的径向基函数核(对于γ,我们使用了从1e-5到1e-1的10个值)。对于RF,我们优化了树的数量(200到2000的10个值)和树的深度(10到110的11个值)。选择这样的值范围取决于可用的计算资源,因为它们的计算成本很高。gydF4y2Ba
对于fastText,我们使用在Common Crawl和默认超参数设置上训练的预训练嵌入[gydF4y2Ba
对于基于变压器的模型,我们使用变压器工具包[gydF4y2Ba
每个模型的参数的详细数量,说明了模型的大小,如下:gydF4y2Ba
BERT (BERT -base-uncase):这个模型是在小写英文文本上训练的。它由12层、768个隐藏状态、12个头部和1.1亿个参数组成。gydF4y2Ba
DistilBERT (DistilBERT -base un外壳):这是BERT模型的蒸馏版,由6层、768个隐藏状态、12个头和6600万个参数组成。gydF4y2Ba
RoBERTa (RoBERTa -large): RoBERTa采用BERT-large架构,由24层、1024个隐藏状态、16个头部和3.55亿个参数组成。gydF4y2Ba
XML-RoBERTa (xlm-roberta-large):它由355M个参数组成,24层,1027个隐藏状态,4096个前馈隐藏状态,16个头部。gydF4y2Ba
实验中使用的超参数设置。gydF4y2Ba
参数gydF4y2Ba | 价值gydF4y2Ba |
批量大小gydF4y2Ba | 8gydF4y2Ba |
学习率(Adam)gydF4y2Ba | 2 e-5gydF4y2Ba |
纪元数gydF4y2Ba | 10gydF4y2Ba |
最大序列长度gydF4y2Ba | 128gydF4y2Ba |
为了更好地分析所提出方法的性能,我们还提供了按类的性能。总体而言,三个班均取得了合理的结果;然而,正类的所有方法的性能都更高。其他两类学生表现相对较差的原因之一可能是班级间差异较小。如前所述,负面问题类和技术问题类的评论包含类似类型的单词,并且在课堂上有更高的混淆几率。任务1的实验结果为任务2提供了基础,在任务2中,负面问题和技术问题类别被合并。gydF4y2Ba
任务1的实验结果:正面、负面和技术问题(PNT)的三元分类。gydF4y2Ba
方法gydF4y2Ba | 积极的gydF4y2Ba | 负gydF4y2Ba | 技术问题gydF4y2Ba | 总体(加权平均)gydF4y2Ba | |||||||||||
|
PgydF4y2Ba一个gydF4y2Ba | RgydF4y2BabgydF4y2Ba | F1gydF4y2Ba | PgydF4y2Ba | RgydF4y2Ba | F1gydF4y2Ba | PgydF4y2Ba | RgydF4y2Ba | F1gydF4y2Ba | AccgydF4y2BacgydF4y2Ba | PgydF4y2Ba | RgydF4y2Ba | F1gydF4y2Ba | ||
MNBgydF4y2BadgydF4y2Ba | .910gydF4y2Ba | .892gydF4y2Ba | .901gydF4y2Ba | .679gydF4y2Ba | .664gydF4y2Ba | .671gydF4y2Ba | .751gydF4y2Ba | .789gydF4y2Ba | .769gydF4y2Ba | .808gydF4y2Ba | .809gydF4y2Ba | .808gydF4y2Ba | .808gydF4y2Ba | ||
射频gydF4y2BaegydF4y2Ba | .854gydF4y2Ba | .923gydF4y2Ba | .887gydF4y2Ba | .809gydF4y2Ba | .538gydF4y2Ba | .646gydF4y2Ba | .729gydF4y2Ba | .833gydF4y2Ba | .777gydF4y2Ba | .805gydF4y2Ba | .806gydF4y2Ba | .805gydF4y2Ba | .797gydF4y2Ba | ||
支持向量机gydF4y2BafgydF4y2Ba | .946gydF4y2Ba | .867gydF4y2Ba | .905gydF4y2Ba | .660gydF4y2Ba | .707gydF4y2Ba | .683gydF4y2Ba | .745gydF4y2Ba | .803gydF4y2Ba | .773gydF4y2Ba | .810gydF4y2Ba | .820gydF4y2Ba | .810gydF4y2Ba | .814gydF4y2Ba | ||
fastTextgydF4y2Ba | .930gydF4y2Ba | .904gydF4y2Ba | 原来得到gydF4y2Ba | .713gydF4y2Ba | .691gydF4y2Ba | .702gydF4y2Ba | .752gydF4y2Ba | .806gydF4y2Ba | .778gydF4y2Ba | .825gydF4y2Ba | .827gydF4y2Ba | .825gydF4y2Ba | .825gydF4y2Ba | ||
DistilBERTgydF4y2BaggydF4y2Ba | .943gydF4y2Ba | .934gydF4y2Ba | .939gydF4y2Ba | .753gydF4y2Ba | .714gydF4y2Ba | .733gydF4y2Ba | .778gydF4y2Ba | .824gydF4y2Ba | .800gydF4y2Ba | .849gydF4y2Ba | .850gydF4y2Ba | .849gydF4y2Ba | .849gydF4y2Ba | ||
伯特gydF4y2Ba | .938gydF4y2Ba | .936gydF4y2Ba | .937gydF4y2Ba | .750gydF4y2Ba | .718gydF4y2Ba | .734gydF4y2Ba | .786gydF4y2Ba | .817gydF4y2Ba | .801gydF4y2Ba | .850gydF4y2Ba | .849gydF4y2Ba | .850gydF4y2Ba | .849gydF4y2Ba | ||
罗伯塔gydF4y2Ba | .943gydF4y2Ba | .946gydF4y2Ba | .945gydF4y2Ba | .754gydF4y2Ba | .716gydF4y2Ba | .734gydF4y2Ba | .788gydF4y2Ba | .817gydF4y2Ba | .802gydF4y2Ba | .854gydF4y2Ba | .853gydF4y2Ba | .854gydF4y2Ba | .853gydF4y2Ba | ||
XML-RoBERTagydF4y2Ba | .941gydF4y2Ba | .946gydF4y2Ba | .943gydF4y2Ba | .744gydF4y2Ba | .705gydF4y2Ba | .724gydF4y2Ba | .783gydF4y2Ba | .811gydF4y2Ba | .797gydF4y2Ba | .849gydF4y2Ba | .848gydF4y2Ba | .849gydF4y2Ba | .848gydF4y2Ba |
一个gydF4y2BaP:精度。gydF4y2Ba
bgydF4y2Ba接待员:召回。gydF4y2Ba
cgydF4y2BaAcc:准确性。gydF4y2Ba
dgydF4y2BaMNB:多项式Naïve贝叶斯。gydF4y2Ba
egydF4y2BaRF:随机森林。gydF4y2Ba
fgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
ggydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba
从表中可以看出,与任务1相比,在不同的类上,方法的表现没有显著差异,这表明在应用程序中突出技术问题的评论引起了负面情绪或情绪。此外,在特定类上没有观察到方法性能的显著变化。gydF4y2Ba
任务2的实验结果:二元分类(阳性或阴性[PN])。gydF4y2Ba
方法gydF4y2Ba | 积极的gydF4y2Ba | 负gydF4y2Ba | 总体(加权平均)gydF4y2Ba | |||||||||
|
PgydF4y2Ba一个gydF4y2Ba | RgydF4y2BabgydF4y2Ba | F1gydF4y2Ba | PgydF4y2Ba | RgydF4y2Ba | F1gydF4y2Ba | AccgydF4y2BacgydF4y2Ba | PgydF4y2Ba | RgydF4y2Ba | F1gydF4y2Ba | ||
MNBgydF4y2BadgydF4y2Ba | .925gydF4y2Ba | .873gydF4y2Ba | .898gydF4y2Ba | .891gydF4y2Ba | .936gydF4y2Ba | .913gydF4y2Ba | .906gydF4y2Ba | .907gydF4y2Ba | .906gydF4y2Ba | .906gydF4y2Ba | ||
射频gydF4y2BaegydF4y2Ba | .902gydF4y2Ba | .879gydF4y2Ba | .891gydF4y2Ba | .894gydF4y2Ba | .914gydF4y2Ba | .904gydF4y2Ba | .898gydF4y2Ba | .898gydF4y2Ba | .898gydF4y2Ba | .898gydF4y2Ba | ||
支持向量机gydF4y2BafgydF4y2Ba | .944gydF4y2Ba | .876gydF4y2Ba | .909gydF4y2Ba | .895gydF4y2Ba | .953gydF4y2Ba | .923gydF4y2Ba | .916gydF4y2Ba | .918gydF4y2Ba | .916gydF4y2Ba | .916gydF4y2Ba | ||
fastTextgydF4y2Ba | .947gydF4y2Ba | .890gydF4y2Ba | 原来得到gydF4y2Ba | .905gydF4y2Ba | .955gydF4y2Ba | .929gydF4y2Ba | .924gydF4y2Ba | .925gydF4y2Ba | .924gydF4y2Ba | .924gydF4y2Ba | ||
DistilBERTgydF4y2BaggydF4y2Ba | .947gydF4y2Ba | .932gydF4y2Ba | .939gydF4y2Ba | .939gydF4y2Ba | .953gydF4y2Ba | .946gydF4y2Ba | .943gydF4y2Ba | .943gydF4y2Ba | .943gydF4y2Ba | .943gydF4y2Ba | ||
伯特gydF4y2Ba | .947gydF4y2Ba | .936gydF4y2Ba | .941gydF4y2Ba | .943gydF4y2Ba | .953gydF4y2Ba | .948gydF4y2Ba | .945gydF4y2Ba | .945gydF4y2Ba | .945gydF4y2Ba | .945gydF4y2Ba | ||
罗伯塔gydF4y2Ba | .948gydF4y2Ba | .942gydF4y2Ba | .945gydF4y2Ba | .948gydF4y2Ba | .953gydF4y2Ba | .951gydF4y2Ba | .948gydF4y2Ba | .948gydF4y2Ba | .948gydF4y2Ba | .948gydF4y2Ba | ||
XML-RoBERTagydF4y2Ba | .953gydF4y2Ba | .930gydF4y2Ba | .942gydF4y2Ba | .939gydF4y2Ba | .959gydF4y2Ba | .949gydF4y2Ba | .945gydF4y2Ba | .946gydF4y2Ba | .945gydF4y2Ba | .945gydF4y2Ba |
一个gydF4y2BaP:精度。gydF4y2Ba
bgydF4y2Ba接待员:召回。gydF4y2Ba
cgydF4y2BaAcc:准确性。gydF4y2Ba
dgydF4y2BaMNB:多项式Naïve贝叶斯。gydF4y2Ba
egydF4y2BaRF:随机森林。gydF4y2Ba
fgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
ggydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba
任务3的实验结果:三元分类(阳性、阴性或中性[PNN])。gydF4y2Ba
方法gydF4y2Ba | 积极的gydF4y2Ba | 负gydF4y2Ba | 中性gydF4y2Ba | 总体(加权平均)gydF4y2Ba | ||||||||||||
|
PgydF4y2Ba一个gydF4y2Ba | RgydF4y2BabgydF4y2Ba | F1gydF4y2Ba | PgydF4y2Ba | RgydF4y2Ba | F1gydF4y2Ba | PgydF4y2Ba | RgydF4y2Ba | F1gydF4y2Ba | AccgydF4y2BacgydF4y2Ba | PgydF4y2Ba | RgydF4y2Ba | F1gydF4y2Ba | |||
MNBgydF4y2BadgydF4y2Ba | .902gydF4y2Ba | .873gydF4y2Ba | .888gydF4y2Ba | .854gydF4y2Ba | .935gydF4y2Ba | .892gydF4y2Ba | .379gydF4y2Ba | .027gydF4y2Ba | .050gydF4y2Ba | .874gydF4y2Ba | .859gydF4y2Ba | .874gydF4y2Ba | .860gydF4y2Ba | |||
射频gydF4y2BaegydF4y2Ba | .875gydF4y2Ba | .881gydF4y2Ba | .878gydF4y2Ba | .862gydF4y2Ba | .916gydF4y2Ba | .888gydF4y2Ba | 对于brutegydF4y2Ba | .005gydF4y2Ba | .010gydF4y2Ba | .866gydF4y2Ba | .844gydF4y2Ba | .866gydF4y2Ba | .851gydF4y2Ba | |||
支持向量机gydF4y2BafgydF4y2Ba | .926gydF4y2Ba | .844gydF4y2Ba | .883gydF4y2Ba | .881gydF4y2Ba | .914gydF4y2Ba | .897gydF4y2Ba | .211gydF4y2Ba | .330gydF4y2Ba | .257gydF4y2Ba | .861gydF4y2Ba | .877gydF4y2Ba | .861gydF4y2Ba | .868gydF4y2Ba | |||
fastTextgydF4y2Ba | .947gydF4y2Ba | .890gydF4y2Ba | 原来得到gydF4y2Ba | .905gydF4y2Ba | .955gydF4y2Ba | .929gydF4y2Ba | .463gydF4y2Ba | .177gydF4y2Ba | .256gydF4y2Ba | .891gydF4y2Ba | .883gydF4y2Ba | .891gydF4y2Ba | .883gydF4y2Ba | |||
DistilBERTgydF4y2BaggydF4y2Ba | .932gydF4y2Ba | .918gydF4y2Ba | .925gydF4y2Ba | .913gydF4y2Ba | .934gydF4y2Ba | .923gydF4y2Ba | .364gydF4y2Ba | .312gydF4y2Ba | 巨人队gydF4y2Ba | .904gydF4y2Ba | .901gydF4y2Ba | .904gydF4y2Ba | .902gydF4y2Ba | |||
伯特gydF4y2Ba | .933gydF4y2Ba | .927gydF4y2Ba | .930gydF4y2Ba | .913gydF4y2Ba | .940gydF4y2Ba | .926gydF4y2Ba | .387gydF4y2Ba | 下来gydF4y2Ba | .312gydF4y2Ba | .909gydF4y2Ba | .903gydF4y2Ba | .909gydF4y2Ba | .905gydF4y2Ba | |||
罗伯塔gydF4y2Ba | .933gydF4y2Ba | .931gydF4y2Ba | .932gydF4y2Ba | .919gydF4y2Ba | .941gydF4y2Ba | .930gydF4y2Ba | 原始素材gydF4y2Ba | .269gydF4y2Ba | .317gydF4y2Ba | .912gydF4y2Ba | .906gydF4y2Ba | .912gydF4y2Ba | .909gydF4y2Ba | |||
XML-RoBERTagydF4y2Ba | .941gydF4y2Ba | .932gydF4y2Ba | .936gydF4y2Ba | .923gydF4y2Ba | .936gydF4y2Ba | .929gydF4y2Ba | .341gydF4y2Ba | .319gydF4y2Ba | 对于brutegydF4y2Ba | .911gydF4y2Ba | .910gydF4y2Ba | .911gydF4y2Ba | .911gydF4y2Ba |
一个gydF4y2BaP:精度。gydF4y2Ba
bgydF4y2Ba接待员:召回。gydF4y2Ba
cgydF4y2BaAcc:准确性。gydF4y2Ba
dgydF4y2BaMNB:多项式Naïve贝叶斯。gydF4y2Ba
egydF4y2BaRF:随机森林。gydF4y2Ba
fgydF4y2Ba支持向量机:支持向量机。gydF4y2Ba
ggydF4y2BaBERT:来自变压器的双向编码器表示。gydF4y2Ba
我们观察到,不同经典或基于变压器的模型之间的性能差异很小;为了了解这些差异是否具有统计学意义,我们进行了统计学显著性检验。我们对二元分类任务(即任务2)使用McNemar检验,对任务1和任务3使用Bowker检验。有关这项测试的详情,请参阅[gydF4y2Ba
模型在不同任务上的表现差异可能与每个任务中涵盖的评审类别(即,积极的、消极的、中性的和技术问题)有关。例如,在三元分类任务1中,考虑了正面、负面和技术问题3个类别,由于负面评价和突出技术问题的评价有相似之处,所以绩效较低。同样,在二元分类Task 2中,当消极问题类和技术问题类合并为一个类时,性能显著提高。另一方面,在三元分类任务3中,由于中性类样本数量较少,性能下降。gydF4y2Ba
任务1的不同方法比较的统计显著性(McNemar)检验结果。BERT:变压器的双向编码器表示;MNB:多项式Naïve贝叶斯;RF:随机森林;支持向量机:支持向量机。gydF4y2Ba
任务2的不同方法比较的统计显著性(McNemar)检验结果。BERT:变压器的双向编码器表示;MNB:多项式Naïve贝叶斯;RF:随机森林;支持向量机:支持向量机。gydF4y2Ba
任务3的不同方法比较的统计显著性(McNemar)检验结果。BERT:变压器的双向编码器表示;MNB:多项式Naïve贝叶斯;RF:随机森林;支持向量机:支持向量机。gydF4y2Ba
为了方便不同的利益相关者(即建议的用户对COVID-19接触追踪应用程序的评论的情感分析仪的用户),我们还旨在开发一个具有用户友好界面的web应用程序。gydF4y2Ba
基于提议的解决方案的潜在工具的屏幕截图。gydF4y2Ba
COVID-19患者的接触者追踪是全球公认的控制感染率的最有效方法之一。然而,现有机制存在一些局限性。手动追踪接触者是一个繁琐且耗时的过程。此外,很难跟踪患者的所有潜在接触者。数字解决方案,如使用移动应用程序,一直被认为是一种有前途的解决方案,通过它可以快速追踪和通知患者的联系人。但是,在应用程序的工作机制和性能方面存在一些问题。这项工作揭示了COVID-19接触追踪应用程序的不同方面、优点、缺点以及用户对这些应用程序的担忧。gydF4y2Ba
我们的发现表明,通过移动应用程序追踪接触者的想法或倡议受到了全球人们的高度赞赏。除了接触者追踪外,这些应用程序在执行和确保COVID-19公共政策方面也很有用。然而,对于应用程序的工作机制和有效性也存在一些担忧。在这方面,分析用户对这些应用程序的评论有助于更好地了解和纠正对这些应用程序的关注。gydF4y2Ba
我们观察到,大多数的评论都属于3类,即积极的、消极的和技术问题。另一方面,很少有中立的评论被观察到。通过GPS跟踪和应用程序访问图库和其他信息的隐私是主要问题。此外,世界各地的这些应用程序的绝大多数用户都不满意这些应用程序的高功耗。大多数用户在使用这些应用程序时还面临一些技术问题。一些关键的技术问题包括设备兼容性、注册、更新缓慢、连接问题以及缺乏对某些语言的支持(如英语)。另一个重要的观察是,负面、正面、中性和技术性问题的分布可能会随着时间的推移而变化。gydF4y2Ba
就人工智能模型的性能而言,在用户评论的情感分析中,所有模型的整体性能都有所提高,可以更快地高效分析用户对应用程序的响应。在这项工作中用于情感分析的模型中,变形金刚是最有效的。这表明人工智能和NLP技术在自动分析COVID-19接触者追踪应用方面的有效性。gydF4y2Ba
本文重点对COVID-19接触者追踪手机应用的使用评论进行情感分析,分析用户对这些应用的反应。为了实现这一目标,管道由多个阶段组成,如数据收集;通过众包活动进行注释;以及用于情感分析的AI模型的开发、训练和评估。现有文献大多依赖于人工或探索性分析用户对应用程序的评论,这是一个繁琐和耗时的过程。此外,在现有的研究中,一般来说,分析的数据来自较少的应用程序。在这项工作中,我们展示了自动情感分析如何帮助更快地分析用户对应用程序的响应。此外,我们还提供了一个由来自46个不同应用程序的34,534个评论组成的大规模基准数据集。我们相信提出的分析和数据集将支持未来关于该主题的研究。gydF4y2Ba
我们相信,将数据集作为基线可以进行许多有趣的应用和分析。时间分析和局部分析是今后研究的重点。gydF4y2Ba
人工智能gydF4y2Ba
来自变压器的双向编码器表示gydF4y2Ba
机器学习gydF4y2Ba
多项式Naïve贝叶斯gydF4y2Ba
正面或负面gydF4y2Ba
积极的、消极的或中性的gydF4y2Ba
积极、消极和技术问题gydF4y2Ba
随机森林gydF4y2Ba
支持向量机gydF4y2Ba
本文由卡塔尔国家研究基金(卡塔尔基金会成员)的国家优先研究计划(NPRP)资助号[13S-0206-200273]得以发表。在此所作的声明完全是作者的责任。gydF4y2Ba
没有宣布。gydF4y2Ba