这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR精神健康杂志上的原创作品。必须包括完整的书目信息,https://mental.www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
之前的研究表明,使用由单一平台(如Facebook或Twitter)的社交媒体数据训练的机器学习模型来区分诊断为精神疾病或经历不良结果的个体与健康对照组的可行性。然而,这些模型在来自训练数据中未见的新型社交媒体平台(例如Instagram和TikTok)的数据上的表现在以前的文献中没有被研究过。
我们的研究考察了构建机器学习分类器的可行性,该分类器可以有效地预测即将到来的精神疾病住院治疗,尽管被调查的社交媒体平台上有身份碎片化的初步证据,但这些分类器来自分类器训练数据中未见的平台的社交媒体数据。
在已知住院事件之前诊断为精神分裂症谱系障碍的患者和健康对照组的窗口时间轴数据来自3个平台:Facebook(254/268, 94.8%的参与者),Twitter(51/268, 19%的参与者)和Instagram(134/268, 50%的参与者)。然后,我们使用3 × 3组合二进制分类设计来训练机器学习分类器,并评估它们在所有可用平台的测试数据上的性能。我们进一步比较了平台内实验模型(即属于同一平台的训练和测试数据)与平台间实验模型(即属于不同平台的训练和测试数据)的结果。最后,我们使用Shapley相加解释值来提取顶级预测特征,以解释和比较每个平台上预测住院的底层结构。
我们发现平台内实验中的模型平均达到了
我们证明,建立在一个平台数据上的模型,用于预测关键的心理健康治疗结果,如住院治疗,不能推广到另一个平台。在我们的案例中,这是因为不同的社交媒体平台始终反映不同的参与者身份。随着不同人群使用社交媒体的生态系统的变化,以及基于网络的身份在平台上继续变得碎片化,需要进一步研究利用这些不同数据源的整体方法。
尽管与其他精神健康障碍相比,其患病率相对较低,但精神分裂症谱系障碍(SSD)对患者、家庭和社会的负担是巨大的[
考虑到这些信息,已经有一个成熟的研究机构使用机器学习分类器使用社交媒体数据来识别和预测SSD社交媒体用户的精神结果[
尽管这些结果证明了自动化技术在通过社交媒体数据预测SSD患者心理健康结果方面的潜力,但在精神科医生能够可靠地将这些技术用于临床目的之前,仍有许多研究空白需要解决。这一领域的大多数先前工作主要集中在单一的社交媒体数据来源上,要么完全来自Twitter或Facebook,用于下游分类和分析任务[
我们试图回答的研究问题如下:鉴于被调查的社交媒体平台上反映的碎片化身份的初步证据,我们能否建立分类器,利用训练数据中未见的平台上的社交媒体数据,有效地检测出有即将发生精神疾病住院风险的用户?
为了回答我们的研究问题,我们从同意参与者的Facebook、Twitter和Instagram的社交媒体数据中整理了文本和图像内容(如果可用)。然后,我们训练了特定于平台的分类器,以区分来自健康对照组的社交媒体数据和来自即将住院的SSD患者的数据。我们比较了分类器在训练数据中可见和未见的社交媒体平台测试数据上的性能。我们还比较和分析了3个平台特定分类器之间的顶级预测特征和特征重要性分布,以期为不同社交媒体平台之间的碎片化身份找到潜在的经验证据。
我们招募了临床诊断为SSD的参与者和临床验证的健康对照组,年龄在15至35岁之间。这些数据是作为一项更广泛的研究计划的一部分收集的,该计划涉及本文作者,旨在识别基于技术的健康信息,为患有SSD的年轻成年人提供早期识别、干预和治疗[
对于年龄在15至35岁之间的SSD参与者(141/ 268,52.6%),诊断基于最近发作的临床评估,并从参与者同意时的医疗记录中提取。该小组的参与者是从位于密歇根州东兰辛的诺斯韦尔健康朱克山医院和合作机构招募的。如果参与者的智商低于70(根据临床评估)、自闭症谱系障碍或物质诱发的精神障碍,则被排除在外。
此外,我们还从现有的数据库中招募了年龄在15 - 35岁之间(127/268,47.4%)的健康志愿者,这些志愿者已经通过了Zucker Hillside医院以前的研究项目的筛选,并同意重新联系以获得更多的研究机会。健康状况由过去2年内进行的《精神疾病诊断及统计手册》的结构化临床访谈或精神病学诊断筛选问卷确定[
所有同意的参与者都被要求下载并分享他们的Facebook、Twitter和Instagram数据档案。我们从参与者的Facebook和Twitter档案中收集了所有语言内容(即Facebook上的状态更新和评论以及Twitter上分享的帖子)。此外,我们还从参与者的Facebook和Instagram档案中收集了图像内容,包括头像和故事照片。
接下来,我们还收集了每个参与者的病史(在同意并采用符合健康保险携带和责任法案的政策后)。这包括初级和次级诊断代码、住院总次数以及每个住院事件的入院和出院日期。住院数据从同意时的医疗记录中收集。由于所有自愿参与研究的患者也曾在朱克山德医院接受过治疗,医院的医疗记录是准确的,是最新的,体现了医院的最大努力。我们只计算了精神病住院(不包括其他非精神病原因的住院)。此后,研究小组访问了相应的同意患者的医疗记录,以类似于使用此数据来源的以往研究的方式提取其所有记录的住院事件[
最后,我们从所有可用平台上收集了每个参与者的社交媒体数据,这些参与者在最近一次住院事件之前的6个月内至少有一次已知的住院事件,确保在这6个月内没有住院事件。这样做是为了确保收集的数据能够代表参与者在症状加重和随后住院治疗前的健康精神状态。6个月的期限,我们称之为
表示住院事件前用于收集参与者社交媒体数据的窗口过程的图表。粗体文本表示所选数据窗口。十字表示住院事件。X表示无效的数据窗口。A:窗户-住院;B:不用住院。
为了对参与者的社交媒体数据进行编码,用于我们研究目标中列出的下游分类和分析任务,我们为所有3个被调查的社交媒体平台从这些数据中识别并提取了以下类别的特征:(1)n-gram语言特征(n=500),(2)语言探究和字数统计(n=78),(3)词汇语义特征(n=3),(4)活动特征(n=9),(5)图像特征(n=23;仅限Instagram和Facebook)。
具体的特征类别是根据以前的相关文献选择的,特别是与使用社交媒体数据来推断心理健康属性和精神病结果有关[
使用上述特征,对于3个被检查的社交媒体平台,我们将参与者在Facebook和Instagram上的文本和图像数据编码为613维特征向量,并将Twitter上的文本数据编码为590维特征向量。这得到了一个维度为254 × 613的Facebook数据集,一个维度为51 × 590的Twitter数据集,以及一个维度为134 × 613的Instagram数据集。我们将这些数据集分别称为Facebook, Twitter和Instagram的F, T和I。
由于特征集可能包含有噪声和不相关的特征,分类模型可能不稳定,产生次优结果[
我们训练了一个随机森林模型,使用5次分层交叉验证来微调超参数,在数据集F, T和I上使用80:20的训练测试分割,只使用顶部
为了回答引言部分中提出的研究问题,我们采用了3 × 3组合分类设计,其中我们使用所有可能的训练和测试数据集对精神病住院预测任务训练和测试机器学习模型。
表示在3 × 3组合设计中进行的分类实验及其性质的图表。
对于平台内和平台间的实验,由前20%的特征表示的训练数据(如特征选择部分所述)被输入到模型中来学习分类任务。我们尝试用几种算法训练模型,包括随机森林、逻辑回归、支持向量机和多层感知器[
我们使用中列出的度量标准来测量模型的性能
max_depth: 15
n_estimators: 100
max_features:没有
处罚:l2
C: 0.1
内核:rbf
C: 0.01
Gamma:规模
α:0.0001
Hidden_layer_sizes: (512, 256, 128)
也被称为兰德准确率,正确预测与所有预测的比率
正确的正面预测与正面预测总数的比率
正确的阳性预测与真实阳性实例总数的比率
精密度和召回率之间的调和平均值
AUROC用于绘制假阳性率与真阳性率的关系,在实践中,通常使用梯形规则和以下公式进行估计:
我们使用Shapley加法解释(SHAP)来研究某些特征是如何影响我们的模型的决策,以预测用户可能因SSD而住院的精神疾病,因为他们的社交媒体数据来自3个被检查的社交媒体平台。我们之所以决定使用SHAP而不是其他解释性方法,是因为SHAP不仅是模型不可知的,而且是可用选项中理论上最可靠的解释性框架。这是因为可以为局部样本和整个全局数据集计算SHAP特征分数[
对于3 × 3组合设计中的每个平台内实验和每个机器学习模型,我们计算了测试集中所有实例中每个特征(即它们对预测的重要性)的平均SHAP值。然后,我们记录了根据每个模型测量的平均SHAP值降序排序的特征列表。对于具有原生特征重要性提取支持的模型,包括随机森林(基尼重要性)和逻辑回归(特征系数),我们也以与SHAP值等效的方式计算和记录它们。
为了确保当训练和测试数据集的某些方面变得更加理想时,我们关于模型之间以及平台内和平台间实验之间模型性能差异的发现仍然成立,我们进行了几次稳健性检查,在
该研究得到了Northwell Health(协调机构)的机构审查委员会和参与伙伴的机构审查委员会的批准(佐治亚理工学院批准H21403)。参与者在2016年6月23日至2020年12月4日期间被招募。获得成年参与者和年龄<18岁参与者的法定监护人的书面知情同意。已获得参与的未成年人的同意。
共有268名参与者(平均年龄24.73岁,SD 5.64岁;男性:127/268,47.4%;SSD: 141/268, 52.6%),包括至少一个平台的非空窗口数据。在这268名参与者中,254名(94.8%;SSD: 133/254, 52.4%)拥有有效的Facebook窗口数据,51 (19%;SSD: 7/51, 13.7%)拥有有效的窗口Twitter数据,134 (50%;SSD: 42/134, 31.3%)拥有有效的窗口Instagram数据。在拥有多个平台有效数据的参与者中,17.5% (47/268;SSD: 5/47, 10.6%)拥有Facebook和Twitter的有效数据,14.2% (38/268;SSD: 4/ 38,10.5%)同时拥有Twitter和Instagram的有效数据,44.4% (119/268; SSD: 34/119, 28.6%) had valid data for both Facebook and Instagram. Finally, 14.2% (38/268; SSD: 4/38, 10.5%) of participants had valid data for all 3 platforms.
参与者的人口学和临床特征(N=268)。
特征 | 固态硬盘一个(n = 141) | 控制(n = 127) | 完整的样品 | ||||
年龄(年),平均值(SD) | 24.86 (5.49) | 24.57 (5.82) | 24.73 (5.64) | ||||
|
|||||||
|
男性 | 89 (63.1) | 38 (29.9) | 127 (47.4) | |||
|
女 | 52 (36.9) | 89 (70.1) | 141 (52.6) | |||
|
|||||||
|
非裔美国人或黑人 | 64 (45.4) | 19 (15) | 83 (31) | |||
|
亚洲 | 20 (14.2) | 23日(18.1) | 43 (16) | |||
|
白色 | 37 (26.2) | 75 (59.1) | 112 (41.8) | |||
|
混血儿或其他种族 | 15 (10.6) | 5 (3.9) | 20 (7.5) | |||
|
拉美裔 | 5 (3.5) | 4 (3.1) | 9 (3.4) | |||
|
太平洋岛民 | 0 (0) | 1 (0.8) | 1 (0.4) | |||
|
|||||||
|
精神分裂症 | 67 (47.5) | N/Ab | 67 (25) | |||
|
精神分裂症样的 | 26日(18.4) | N/A | 26日(9.7) | |||
|
分裂情感性 | 25 (17.7) | N/A | 25 (9.3) | |||
|
未指明的ssd | 23日(16.3) | N/A | 23日(8.6) | |||
|
没有诊断 | N/A | 127 (100) | 127 (47.4) |
一个SSD:精神分裂症谱系障碍。
bN/A:不适用。
对照类和精神分裂症谱系障碍(SSD)类(即因SSD住院的参与者)的窗口数据的汇总统计。在这个表格中,我们考虑了之前提到的Facebook、Twitter和Instagram的数据。
|
Facebook(用户:n=254;职位:n = 169425) | Twitter(用户:n=51;职位:n = 23777) | Instagram(用户:n=134;职位:n = 23551) | |||||
|
SSD类 | 控制类 | SSD类 | 控制类 | SSD类 | 控制类 | ||
总用户数,n (%) | 133 (52) | 121 (48) | 7 (14) | 44 (86) | 42 (31) | 92 (69) | ||
总帖子,n (%) | 114793 (68) | 54632 (32) | 991 (4) | 22786 (96) | 7111 (30) | 16440 (70) | ||
岗位,平均值(SD) | 863.1 (2365.1) | 451.5 (818.87) | 141.6 (255) | 519.9 (1166.9) | 169.3 (445.4) | 178.7 (234.6) | ||
帖子,中位数 | 260 | 184 | 37 | 138 | 54.5 | 103 | ||
帖子,范围 | 2 - 23589 | 1 - 4852 | 1 - 758 | 1 - 7056 | 1 - 2909 | 1 - 1328 |
精神分裂症谱系障碍和控制类别的用户及其每个数据集的帖子数量的累积分布函数(CDF)曲线:(A) Facebook(左),(B) Twitter(中),(C) Instagram(右)。
我们报告了平台内实验的全部结果
详细阐述从
相比之下,通过聚合中提出的平台间实验的指标
所有平台内分类实验的分类结果。例如,在这个表格中,Facebook表示Facebook-Facebook实验。
模型 | 脸谱网 | 推特 | |||||||||||||||
|
Acc一个 | Pb | Rc |
|
AUROCd | Acc | P | R |
|
AUROC | Acc | P | R |
|
AUROC | ||
随机森林 | 0.739 | 0.739 | 0.738 | 0.738 | 0.709 | 0.745 | 0.150 | 0.116 | 0.116 | 0.494 | 0.7 | 0.648 | 0.637 | 0.637 | 0.681 | ||
支持向量机e | 0.722 | 0.747 | 0.692 | 0.715 | 0.723 | 0.854 | 0.541 | 0.45 | 0.463 | 0.697 | 0.740 | 0.737 | 0.757 | 0.743 | 0.805 | ||
中长期规划f | 0.506 | 0.406 | 0.507 | 0.367 | 0.516 | 0.845 | 0.458 | 0.45 | 0.426 | 0.692 | 0.792 | 0.771 | 0.794 | 0.77 | 0.840 | ||
逻辑回归 | 0.759 | 0.767 | 0.758 | 0.756 | 0.727 | 0.881 | 0.742 | 0.6 | 0.63 | 0.772 | 0.792 | 0.771 | 0.801 | 0.773 | 0.848 |
一个Acc:准确性。
bP:精度。
c接待员:召回。
dAUROC:受试者工作特征曲线下的面积。
e支持向量机:支持向量机。
fMLP:多层感知器。
Facebook训练数据平台间分类实验的分类结果。
模型 | 推特 | ||||||||||
|
Acc一个 | Pb | Rc |
|
AUROCd | Acc | P | R |
|
AUROC | |
随机森林 | 0.392 | 0.221 | 0.88 | 0.354 | 0.579 | 0.379 | 0.328 | 0.952 | 0.488 | 0.537 | |
支持向量机e | 0.545 | 0.253 | 0.72 | 0.373 | 0.612 | 0.432 | 0.337 | 0.860 | 0.483 | 0.550 | |
中长期规划f | 0.587 | 0.240 | 0.55 | 0.334 | 0.573 | 0.435 | 0.332 | 0.812 | 0.471 | 0.539 | |
逻辑回归 | 0.628 | 0.246 | 0.47 | 0.323 | 0.567 | 0.472 | 0.344 | 0.775 | 0.476 | 0.555 |
一个Acc:准确性。
bP:精度。
c接待员:召回。
dAUROC:受试者工作特征曲线下的面积。
e支持向量机:支持向量机。
fMLP:多层感知器。
推特训练数据平台间分类实验的分类结果。
模型 | 脸谱网 | ||||||||||
|
Acc一个 | Pb | Rc |
|
AUROCd | Acc | P | R |
|
AUROC | |
随机森林 | 0.531 | 0.569 | 0.378 | 0.452 | 0.536 | 0.628 | 0.331 | 0.207 | 0.252 | 0.512 | |
支持向量机e | 0.514 | 0.53 | 0.537 | 0.530 | 0.513 | 0.563 | 0.340 | 0.42 | 0.373 | 0.523 | |
中长期规划f | 0.533 | 0.561 | 0.440 | 0.492 | 0.536 | 0.557 | 0.325 | 0.395 | 0.356 | 0.512 | |
逻辑回归 | 0.534 | 0.552 | 0.522 | 0.535 | 0.535 | 0.578 | 0.362 | 0.47 | 0.408 | 0.548 |
一个Acc:准确性。
bP:精度。
c接待员:召回。
dAUROC:受试者工作特征曲线下的面积。
e支持向量机:支持向量机。
fMLP:多层感知器。
对Instagram训练数据进行平台间分类实验的分类结果。
模型 | 脸谱网 | 推特 | |||||||||
|
Acc一个 | Pb | Rc |
|
AUROCd | Acc | P | R |
|
AUROC | |
随机森林 | 0.51 | 0.523 | 0.612 | 0.563 | 0.507 | 0.751 | 0.369 | 0.42 | 0.386 | 0.624 | |
支持向量机e | 0.524 | 0.544 | 0.51 | 0.524 | 0.525 | 0.691 | 0.213 | 0.25 | 0.229 | 0.521 | |
中长期规划f | 0.554 | 0.584 | 0.48 | 0.526 | 0.557 | 0.683 | 0.201 | 0.23 | 0.214 | 0.51 | |
逻辑回归 | 0.516 | 0.524 | 0.689 | 0.595 | 0.51 | 0.628 | 0.256 | 0.52 | 0.342 | 0.587 |
一个Acc:准确性。
bP:精度。
c接待员:召回。
dAUROC:受试者工作特征曲线下的面积。
e支持向量机:支持向量机。
fMLP:多层感知器。
受试者工作特征(ROC)曲线为分类实验给出最佳逻辑回归模型。(A), (B), (C)分别是Facebook, Twitter和Instagram平台内结果的曲线
我们假设,从平台内实验到平台间实验的性能下降,如前所述,是由模型在不同社交媒体平台的数据上训练时学习到的特征重要性的差异所驱动的(即使它们共享相同的特征集)。通过根据前面描述的方法从模型中提取SHAP特征列表,我们找到了对这一假设的支持。具体来说,我们观察到,在每个模型和平台的前25个特性中,它们之间几乎没有重叠(当保持模型不变时)。同一逻辑回归分类模型跨平台的重叠特征平均只有4.66个(基于前面讨论的最佳模型)。此外,我们发现,基于逻辑回归模型,每个平台的特征重要性列表具有非常弱的等级相关性。充分阐述肯德尔排名相关系数的统计结果,我们发现Facebook和Twitter的特征重要性排名列表之间的排名相关性非常弱(τb= 0.081;
基于Shapley附加解释(SHAP)值,每个平台的逻辑回归(LR)模型的前10个特征(语言查询和字数特征为斜体)。
平台和功能首字母缩略词 | 功能描述 | 世鹏科技电子价值 | LR系数 | 固态硬盘一个组平均(SD) | 对照组平均(SD) | |||||
|
||||||||||
|
Avg_post_readability | 平均后可读性,使用烟雾测量b指数 | 0.761 | −0.268 | 5.6341 (2.74) | 6.8048 (1.92) | ||||
|
|
“量词”范畴内的词的比例 | 0.4195 | −0.189 | 0.0012 (0.0012) | 0.0016 (0.0012) | ||||
|
|
“负面情绪”类别词汇的比例 | 0.0953 | 0.244 | 0.0043 (0.0035) | 0.0031 (0.0022) | ||||
|
|
在“钱”范畴内的单词比例 | 0.0739 | −0.216 | 0.0007 (0.001) | 0.0011 (0.002) | ||||
|
|
在“发誓”范畴内的词语比例 | 0.0628 | 0.236 | 0.0017 (0.0025) | 0.0007 (0.001) | ||||
|
Ratio_octile8 | 从晚上9点到午夜的活动比例 | 0.0443 | 0.077 | 0.1443 (0.149) | 0.1241 (0.158) | ||||
|
Ratio_octile7 | 下午6点到9点的活动比例 | 0.0409 | 0.177 | 0.1561 (0.1745) | 0.1054 (0.125) | ||||
|
|
“愤怒”类词汇的比例 | 0.0095 | 0.191 | 0.0018 (0.002) | 0.0009 (0.001) | ||||
|
梦想 | “梦想”在整个单词包中的比例 | 0.0077 | 0.224 | 0.2028 (0.468) | 0.0746 (0.24) | ||||
|
有趣的 | “乐趣”在整个词汇包中的比例 | 0.0043 | −0.209 | 0.5722 (1.19) | 1.1315 (1.76) | ||||
|
||||||||||
|
|
“连词”范畴内的词语比例 | 0.2319 | −0.063 | 0.0001 (0.0002) | 0.0003 (0.0004) | ||||
|
|
形容词类词汇的比例 | 0.1825 | −0.05 | 0.0057 (0.004) | 0.0080 (0.005) | ||||
|
Avg_post_negativity | 平均后负性,使用VADER计算c图书馆 | 0.1509 | 0.082 | 0.071 (0.042) | 0.0519 (0.036) | ||||
|
|
“男性”类词汇的比例 | 0.1355 | 0.039 | 0.0011 (0.0013) | 0.0007 (0.001) | ||||
|
Ratio_octile_8 | 从晚上9点到午夜的活动比例 | 0.1265 | 0.045 | 0.0231 (0.356) | 0.1227 (0.188) | ||||
|
|
“摄取”类别内的单词的比例 | 0.0627 | −0.056 | 0.0003 (0.0007) | 0.0014 (0.0018) | ||||
|
|
“洞察”范畴内的词语比例 | 0.0516 | 0.053 | 0.0044 (0.004) | 0.0035 (0.003) | ||||
|
|
在“权力”范畴内的词语比例 | 0.0308 | −0.058 | 0.0024 (0.0026) | 0.0042 (0.0036) | ||||
|
|
“我们”类词汇的比例 | 0.0196 | −0.056 | 0.0001 (0.0002) | 0.0002 (0.0004) | ||||
|
|
“介词”范畴内单词的比例 | 0.0117 | 0.063 | 0.0028 (0.0026) | 0.0017 (0.0017) | ||||
|
||||||||||
|
Avg_post_readability | 平均帖子可读性,使用SMOG指数衡量 | 0.761 | −0.203 | 5.1018 (1.15) | 6.2564 (1.638) | ||||
|
|
“空格”范畴内的字数比例 | 0.733 | −0.147 | 0.0031 (0.0025) | 0.0042 (0.0025) | ||||
|
|
“隶属”范畴内的词语比例 | 0.6839 | −0.181 | 0.0032 (0.0027) | 0.0056 (0.0034) | ||||
|
|
“朋友”范畴内的词语比例 | 0.5336 | −0.159 | 0.0009 (0.0027) | 0.0018 (0.0034) | ||||
|
|
“女性”类词汇的比例 | 0.4576 | −0.168 | 0.0008 (0.001) | 0.0019 (0.0023) | ||||
|
|
“悲伤”类词汇的比例 | 0.4554 | 0.113 | 0.0011 (0.0008) | 0.0007 (0.0012) | ||||
|
|
量词范畴内的词的比例 | 0.4195 | −0.118 | 0.0012 (0.0013) | 0.0019 (0.0016) | ||||
|
走了 | “away”在整个单词包中的比例 | 0.4064 | −0.105 | 0.0768 (0.276) | 0.2505 (0.5) | ||||
|
|
“同意”范畴内的字数比例 | 0.3913 | −0.102 | 0.0008 (0.0012) | 0.0013 (0.0014) | ||||
|
下一个 | “next”在整个单词包中的比例 | 0.3854 | −0.12 | 0.0957 (0.267) | 0.6466 (1.236) |
一个SSD:精神分裂症谱系障碍。
b雾霾:官样文章的简单衡量标准。
如何解释平台内模型构建效度的观察差异?在本文的早期,我们假设这些差异可能源于人们在不同平台上的身份碎片化。为了确定这些不同的身份确实是差异跨平台模型构建有效性和性能背后的驱动因素,我们采用了一种策略来测量给定参与者在被调查平台之间提取的特征空间内的差异。由于在本研究中,所有平台上参与者的社交媒体数据都是通过特征向量编码的,因此我们使用余弦相似度[
我们发现,Facebook-Twitter平台间、参与者内部的平均余弦相似度为0.3093,Facebook-Instagram为0.2304,Twitter-Instagram为0.3905。这低于或类似于被调查平台的平台内、参与者之间的平均余弦相似度:Facebook为0.5072,Twitter为0.5427,Instagram为0.373。即使在使用SSD参与者的数据和使用所有3个平台的数据的健康对照组的数据计算平均值时,也存在同样的趋势。
我们的研究旨在衡量心理健康分类器在跨平台推广的能力(或无能),以及SSD患者在社交媒体上碎片化身份的表面证据。总的来说,我们发现,即使在训练和测试数据之间保持特征集不变,在其他社交媒体平台的数据上评估时,使用社交媒体平台数据训练的模型的泛化性也很差。这一趋势甚至在2个健壮性测试中也是如此,其中在训练和测试数据中使用了相同的参与者和数据集大小(如方法部分所述)。即使训练数据来自数据可用性高的平台,而测试数据来自数据可用性低的平台,这种趋势也是如此。例如,最好的
接下来,我们将更详细地讨论关于特征重要性的研究结果。首先,观察每个平台前10个特征的理论有效性和特征的逻辑回归系数符号的解释,我们发现与以前的文献和临床意义的证据一致[
也就是说,每个平台对应的每个模型似乎从各自的训练数据中接收到相反的信号,这就是为什么我们注意到前面提到的顶级SHAP特征的低重叠。在之前报道的前10个特征中,我们发现“avg_post_readability”被Facebook和Instagram模型选为高度预测的特征,而“ratio_octile8”被Facebook和Twitter模型选为高度预测的特征。在我们的例子中,“avg_post_readability”是使用Gobbledygook索引的简单度量来计算的,该索引近似于完全理解一篇书面文本所需的教育年限。SSD组和对照组的负逻辑回归系数和平均值表明,SSD患者书写的文本本质上更简单,这表明语言功能障碍。这是一种已知的精神分裂症和相关精神障碍的阴性症状,如之前的工作所观察到的[
在这些差异的关键,我们发现模型在不同平台上具有固有的不同的构造有效性。每个平台上的数据只反映了个人身份的一部分——这一部分在另一个平台上可能没有。一个人在社交媒体上的身份碎片化在所有三个平台上都有数据的参与者中最为明显。在结果部分最后的分析中,我们发现平台之间参与者的平均余弦相似度较低,特别是在比较同一平台内不同参与者的余弦相似度时。这表明,即使在同一参与者的同一特征空间内,平台之间的社交媒体数据也可能发散为多个不同的方向,映射到这些身份碎片。这种差异至少等于,如果不是更大的话,在同一个社交媒体平台上,不同个人在身份呈现上的差异。因此,当在一个平台的数据上训练的模型学习这个特定的身份片段时,它们在测试捕获不同身份的数据时效率较低。
我
该死的
我一个
你呆
我们的发现为先前研究中的几个线索提供了复制有效性。具体而言,我们发现在具有临床验证标签(即SSD或对照)的社交媒体数据上训练的模型的性能与之前研究中提出的类似模型一致,包括在类似患者群体和临床场所上训练的模型[
我们的发现对心理健康研究和实践具有重要意义。近年来,利用数字追踪数据对精神疾病的住院预测具有重要意义。这些先前的研究探索了智能手机传感器数据(即地理位置、身体活动、手机使用和语音)、可穿戴设备和社交媒体活动的用途,以预测症状波动,并了解诊断过程和住院识别[
最后,那些被吹捧为由社交媒体数据驱动的数字干预措施,应该考虑到患者分散的网络身份的重要方面[
我们的工作有一些局限性,可以在未来的研究中加以解决。首先,尽管使用了数据增强技术来重新平衡每个数据集的SSD数据和控制数据之间的比例,并使3个被检查平台(即Instagram、Twitter和Facebook)的数据集大小相互比较,但我们承认,有限的可用数据可能影响了观察到的分类性能。尽管人们普遍认为收集患者社交媒体数据具有挑战性,就像本研究中的情况一样,但未来的研究可能会考虑创建大型基准数据集的潜力,这些数据集可能支持该领域更好的可重复性研究[
在这项研究中,我们表明,在新的社交媒体数据上建立有效的模型来预测SSD患者未来的精神病住院治疗是具有挑战性的,这些数据来自模型训练数据中从未见过的平台。具体来说,我们证明了建立在一个平台数据上的模型不能推广到另一个平台,因为每个平台一致地反映了参与者身份的不同部分。这种身份的碎片化在经验上得到了支持,这是由三个被调查的社交媒体平台之间平台内分类器的构造有效性和参与者内部的发散特征向量的显著差异所支持的。为了确保数字技术有效地融入早期精神病干预,特别是预防复发住院,进一步的研究必须精确探索精神疾病的症状如何通过各种平台上不断变化的语言和活动模式在网络上表现出来,以及如何设计全面、道德和有效的治疗和参与策略,使患者在碎片化的网络身份中无缝地发挥作用。
关于特征选择过程和健壮性检查的附加信息。
接收机工作特性曲线下面积
沙普利加法解释
精神分裂症谱系障碍
这项研究部分由国家精神卫生研究所资助R01MH117172(主要研究人员:MDC;共同首席研究员:MLB和JMK)。研究小组感谢Anna Van Meter和Asra Ali在患者数据收集的早期阶段提供的帮助。作者还感谢佐治亚理工学院社会动力学和幸福实验室的成员在研究的各个阶段提供了宝贵的反馈。
MLB是HearMe和Northshore Therapeutics的顾问。JMK是Alkermes, Allergan, Boehringer-Ingelheim, Cerevel, Dainippon Sumitomo, H. Lundbeck, Indivior, Intracellular Therapies, Janssen Pharmaceutical, Johnson & Johnson, LB Pharmaceuticals, Merck, Minerva, Neurocrine, Newron, Novartis, Otsuka, Roche, Saladax, Sunovion, Teva, HLS和HealthRhythms的顾问委员会成员,Click Therapeutics, Teva, Newron, Sumitomo, Otsuka, Lundbeck和Novartis。他获得了Otsuka, Lundbeck, Sunovion和Janssen的资助,并且是Vanguard Research Group的股东;LB Pharmaceuticals, Inc;以及北岸治疗公司。其他作者没有利益冲突需要声明。