这是一篇开放获取的文章,根据创作共用署名许可(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上无限制地使用、分发和复制,前提是正确引用最初发表在《医学互联网研究杂志》上的原创作品。必须包括完整的书目信息,//www.mybigtv.com/上的原始出版物的链接,以及此版权和许可信息。
妊娠暴露登记是孕产妇孕期用药安全的主要信息来源。这种登记在怀孕早期以自愿的方式登记孕妇,并跟踪她们直到怀孕结束或更长时间,以系统地收集有关具体妊娠结果的信息。虽然妊娠登记模式与其他研究设计相比具有明显的优势,但也面临着入围率低、成本高、选择偏倚等诸多挑战和限制。
本研究的主要目标是系统地评估社交媒体(Twitter)是否可以用于发现孕妇队列,并开发和部署自然语言处理和机器学习管道,用于自动收集队列信息。此外,我们还试图初步确定从收集的队列信息中可以挖掘出哪些类型的纵向信息。
我们对孕妇的发现依赖于检测怀孕提示推文(pit),这是孕妇发布的关于怀孕的声明。我们使用了一组14种模式来首先检测潜在的pit。我们手动标注了14,156个检索到的用户帖子样本,以区分真实的pit和假阳性,并训练了一个监督分类系统来检测真实的pit。我们通过交叉验证优化了分类系统,其特征和设置旨在优化阳性类别的精度。对于通过自动分类被识别为发布真实pit的用户,我们的管道收集了他们所有可用的过去和未来帖子,从中可以挖掘其他信息(如药物使用和胎儿结局)。
我们基于规则的PIT检测方法在18个月的时间里检索了超过20万个帖子。在kappa (κ =.79)时,三名标注者的手动标注一致性非常高。在一个盲测试集上,所实现的分类器获得了一个总体的F10.84分(怀孕组0.88分,非怀孕组0.68分)。妊娠分级的精密度为0.93,召回率为0.84。特征分析表明,稠密向量与稀疏向量相结合的分类效果最佳。使用经过训练的分类器,从收集的帖子中识别出71,954个用户。这些用户检索了超过2.5亿篇帖子,提供了关于他们的大量纵向信息。
像Twitter这样的社交媒体资源可以用来识别大量的孕妇群体,并通过自动处理她们的帖子来收集纵向信息。考虑到怀孕登记的许多缺点和限制,社交媒体挖掘可能提供有益的补充信息。虽然通过社交媒体确定的队列规模很大,但未来的研究必须评估通过社交媒体获得的信息的完整性。
上市前临床试验在有限的环境下评估药物的安全性,因此,这些药物对特定人群(如孕妇、儿童或患有特定疾病的人)的影响无法评估。出于对胎儿安全的考虑,孕妇在新药开发期间被积极排除在临床试验之外[
为了解决这些问题,为新药开发了妊娠暴露登记。这些登记以自愿的方式前瞻性地登记妇女(例如,暴露后但分娩前),并在整个怀孕期间或更长时间内跟踪她们。这种妊娠暴露登记的设计使研究人员能够进行前瞻性观察性研究,这种研究优于回顾性研究,因为与回顾性研究相关的偏差(例如,出生缺陷等结果在回顾性研究中已经已知)[
尽管与其他研究设计相比有优势,但妊娠暴露登记面临着许多挑战。登记或招募可能是最关键的问题,大多数登记处只能登记一小部分暴露的怀孕,导致缺乏评估具体畸形或健康结果的能力[
就全球用户而言,社交网络已经出现了前所未有的增长。根据皮尤研究报告[
设计并验证一组查询模式,用于从Twitter用户中检索高度表明怀孕的帖子。
开发和评估一种有监督的机器学习方法,可以准确区分真实的怀孕提示推文(pit)和假阳性。
设计一个从已确定的妊娠队列中收集纵向数据的端到端管道。
对提取的健康时间线进行初步分析,以评估其有用性,确定局限性,并确定未来的研究目标。
本文的主要贡献如下:
我们提出了一种机制和一组查询,通过这种机制和查询,可以在社交媒体上识别出大量潜在的孕妇。
我们提出了一种监督文本分类方法,用于准确检测和登记一个怀孕队列进行数据收集。
我们讨论了一种结合上述两种技术的管道,以主动收集由检测到的怀孕队列发布的信息。
我们讨论了从队列中收集的数据的潜在用途。
为了评估社交媒体是否可以用来识别孕妇群体,我们使用Twitter进行了初步分析[
在同一分析中,我们还评估了使用自动监督分类器进一步过滤收集的推文的可能性,以便能够更精确地识别怀孕队列。我们尝试了几种有监督的分类方法,包括Naïve贝叶斯和支持向量机(svm),发现后者在F的情况下产生了可接受的性能1PIT类的得分为0.80(精度约为0.83)。我们的可行性分析研究的这些结果为我们进一步探索这个问题并开发一个更强大的队列收集解决方案提供了强有力的鼓励。我们将在以下小节中讨论这一初步研究的扩展。
从社交媒体发现怀孕队列的流程图。
我们手动研究了初步研究中识别的推文,并使用Twitter图形界面(即实际的网站),我们确定了额外的高频单词n-gram模式和规则,通过这些模式和规则可以高精度地检测pit。对于每个潜在的模式,我们通过在Twitter图形界面上手动使用它作为查询来评估其有用性。对于每个查询,大约有50条推文被手动评估。能够检索大约60%以上真实妊娠post的模式被选择用于大规模检索。那些检索到大量真阳性,但有太多噪声的假阳性的模式被丢弃了,因为我们主要关注的是确保高精度。
通过这种方式,除了初步分析中使用的模式外,我们还确定了13个查询模式。一旦确定了每个查询,就会使用它从Twitter Streaming应用程序编程接口(API)收集推文。该API实时公开所有公开推文的示例,并支持收集。但是,API不允许直接使用正则表达式。因此,我们使用种子术语“怀孕”、“怀孕”、“婴儿”、“家庭”和“妈妈”从API检索推文,然后将它们与特定的正则表达式匹配。数据收集模块运行了18个月,对14个查询中的每个查询都有微小的变化。
在收集期间早期收集的数据样本已准备好用于注释。我们在收集阶段的早期观察到,每个查询检索到的tweet数量有很大的差异(如中第三列所示)
三个注释器以二进制方式注释了所有推文,并对1000个推文进行了重叠注释。多数投票是用来解决重叠推文的分歧。样本注释者之间的一致性为κ=.79(Fleiss kappa),这代表着重要的共识。总共有9819条推文被标记为真实的pit, 4338条推文被标注为假阳性。然后,这些带注释的推文被传递到下一个阶段,用于训练和优化自动监督分类器。
在完成的14300条注释中,有14156条tweet适合用于分类。其余部分由于编码问题和其他语言的存在等各种原因被删除。我们探索了许多有效执行分类任务的特征集,包括那些我们通过在该领域的广泛过去工作确定的对社交媒体文本分类有用的特征集。
用于检索怀孕提示推文和指定其他详细信息的一些注释的查询模式。”。“*”表示任意长度的字符序列,“|”表示“或”,“&”表示“和”的任意顺序。查询以简化的形式显示。每种模式的推文频率和相对频率也被显示出来(N=14,156)。
查询模式 | 笔记 | 相对频率,n (%) |
(im |我|我)。* ( |
时间可以是周、周、月或月 | 4374 (30.90) |
婴儿&到来 | N/A一个 | 375 (2.65) |
宝宝快来了 | 精确的顺序,中间有空格或标点符号 | 297 (2.10) |
是。* |
时间可以是天、天、周、周、月或月;“一直时间”的精确顺序,中间有空格或标点符号 | 22 (< 1.00) |
成长,婴儿和肚子 | N/A | 150 (1.06) |
(im|i am|i 'm)期待。*宝贝 | “(我是|,我是|,我)期待”的精确顺序,带有空格或标点符号。“baby”必须出现在后面的任何地方 | 74 (< 1.00) |
(im|i am|i 'm) going to (b|be) a mom | 精确的顺序,中间有标点或空格 | 179 (1.26) |
(im|i |i)有一个孩子 | N/A | 1396 (9.86) |
我曾经怀孕过 | N/A | 88 (< 1.00) |
(ive|我)怀孕了 | N/A | 735 (5.19) |
“我们的家庭” | “我们的家庭”的确切顺序,中间有标点或空格 | 13 (< 1.00) |
我怀孕 | 精确的顺序,中间有空格或标点符号 | 6211 (43.88) |
(im|i |i 'm)将要有一个孩子 | N/A | 234 (1.65) |
我们的家庭。*成长。*(2| 2)英尺 | N/A | 8 (< 1.00) |
一个N/A:不适用。
在文本分类中,单词n-gram通常是信息量最大的特征。这些n-gram是经过预处理的单词序列,它们在捕捉文本片段的含义方面非常出色。我们通过降低推文的大小写并使用波特词干算法进行词干预处理[
n-gram(尤其是Twitter数据)的一个潜在问题是,n-gram集合中可能有很多变化,从而产生非常稀疏的向量。最近,密集词向量或嵌入的使用在自然语言处理(NLP)研究中变得流行。
解决分类中稀疏向量问题的一种策略是使用基于一些预定义分组标准创建的术语的广义表示。在过去的工作中,我们发现使用单词的聚类表示可以提高分类性能[
在生成特征时,我们为推文中的每个令牌使用集群号(如果可用),并将集群表示为二进制向量。因此,每条推文的聚类向量代表了推文中出现的单词的一般类别。
由14个查询检索的示例推文及其二进制注释。“真”表示真实的怀孕迹象,“假”表示假阳性。对于true类别,我们从14个查询中每个查询至少包含一个样本。
推特 | 类别 |
大概一个月后的今天,我就要当妈妈了……我等不及想看看我的宝贝女儿长什么样了:-) | 真正的 |
所以我想我应该让推特知道我在8个月后怀孕了!! | 真正的 |
这个肚子和里面可爱的宝宝是我想要的最好的圣诞礼物!!圣诞快乐… | 真正的 |
我已经三个星期没有听到或看到它了。所以有时候我感觉不到怀孕,但这个新的妊娠纹证明事实并非如此 | 真正的 |
再过几个月,我们家又添了一个孩子! ! | 真正的 |
准备好过圣诞节了,兴奋地宣布小男孩****将于2017年5月出生!# MC3 | 真正的 |
我们家长大了两尺一心 | 真正的 |
希望并祈祷收入问题的解决。宝宝快来了!需要更好的工作和更高的薪水 | 真正的 |
我真的无法接受我将在16天或更短的时间内生孩子的事实。 | 真正的 |
所以我要生孩子了,超级兴奋 | 真正的 |
我发誓,自从我怀孕以来,每个人都把我忘了,没有让我参与任何事情 | 真正的 |
嗯…我现在怀孕39周零6天……亲爱的,你什么时候都可以来 | 真正的 |
我刚把我怀孕的渴望提升到了一个全新的高度:我在通心粉和奶酪上放了牧场奶酪。# Yummmmmmmm | 真正的 |
自从我怀孕以来,我就很狡猾,甚至连彩虹都不会涂。 | 真正的 |
我永远惊讶于有那么多女性问我什么时候要孩子,而不是问我的职业目标。 | 假 |
我发誓我已经怀孕两年了。# theobesityneedstostop # ineedwine | 假 |
我要生宝宝了,JB日快把我累死了。我太爱他了@贾斯汀比伯 | 假 |
我妹妹怀孕五周零三天了。我要当阿姨了天啊 | 假 |
怀孕两天的女孩就会发照片说“我变大了”。 | 假 |
真不敢相信我有个小弟弟了! | 假 |
在初步分析期间,我们对收集的推文进行了检查,发现用户在宣布怀孕时可能会表达强烈的情绪,这可以从一些例子中看出
这些功能包括显示每条推文的结构信息。这些特征包括推文长度(以单词和字符为单位)、推文中的句子数、平均句子长度等等。
对于前面提到的四个分类器中的每一个,我们使用训练集来探索特征,并在适当的时候通过10倍交叉验证来确定特定超参数的接近最优设置。训练集由11325条推文组成,测试集由2832条推文组成。这些分类器的优化设置被用于对测试集中的推文进行分类。此外,我们还将三个分类器组合成一个集合,并通过多数投票预测测试集标签。然后使用表现最好的分类器对我们的模式收集的所有与怀孕相关的推文进行分类。在对收集到的未标记数据进行分类之前,使用整个标注数据集进行训练。
我们还评估了每种类型查询模式的最佳分类器的性能,以了解由特定查询检索的推文是否需要更多关注。此外,我们通过在相同的测试集上使用不同比例的训练集进行分类来分析分类器的学习率——从1133/ 11325(10.0%)条推文开始,每一步增加10%。我们分析了每个训练集大小下的受试者工作特征(ROC)曲线,以及整体性能,以评估进一步注释是否有可能提高性能。我们将在下一节中介绍结果,以及每个特性集的贡献的详细信息。我们使用python scikit-learn库实现svm和RF,使用TensorFlow实现DNN。
所有与我们选择的分类器分类为积极的推文相关的用户句柄都被收集和存储。对于每个用户,根据API的限制,使用Twitter搜索API收集该用户过去所有可用的帖子。此外,这些用户每周发布的新推文被收集,从而形成了一个
从时间轴上可以获得关于每个用户怀孕情况的广泛纵向信息。这些信息包括但不限于药物使用情况、健康习惯(如吸烟或饮酒)和生育结果。我们的检测和收集方法的目标是对这些信息进行大规模分析。我们在讨论部分提出了一些可能性,并将具体的分析留给将来的工作,因为这超出了本研究的范围。
我们使用收集到的数据进行了几次初步分析,以评估时间线的效用,它们在未来研究中的潜在用途,以及为提高它们的有用性所需的面向nlp的未来工作。这些分析包括:(1)评估从收集的队列中检测妊娠期信息的可能性,(2)确定队列成员是否存在与药物相关的信息,以及(3)确定时间线中是否存在与杂项健康状况有关的信息。我们现在简要地讨论一下这些分析方法。
妊娠期可分为三个三个月:第一周至第12周,第二周至第13周,第三周至第28周。妊娠期信息对于未来妊娠队列分析至关重要,因为健康事件(如药物摄入)可能会独特地影响胎儿结局,这取决于妊娠期。要成功识别与已发布的健康相关事件相关的三个月,需要有关怀孕开始日期的信息。我们对时间轴样本的分析表明,这个问题的关键NLP挑战是检测关于怀孕进展的陈述,这些陈述通常可以在我们的查询检索到的怀孕推文中找到。我们采用了一个简单的,基于规则的方法来评估妊娠队列的部分,从中可以得到三个月的信息。在我们基于规则的算法中,我们首先尝试识别时间轴内提到术语“怀孕”和“怀孕”(种子词)的所有推文。接下来,收集出现在种子项大小为6的对称上下文窗口内的项。然后,在上下文窗口中,算法搜索关键的时间术语,如“周”和“月”,以及提到的数字(如“6”、“12”、“18”等)。如果所有这些规则都满足,则使用提及的数量和时间术语来确定怀孕的进展(例如,“怀孕6周”中的“6周”和“怀孕”)。该数字和其他提到的术语被提取出来,并与相关推文的时间戳进行比较,以确定怀孕的大致开始日期和三个月。
如本文前面所述,怀孕期间药物摄入及其与胎儿结局的潜在联系是一个重要的研究课题。怀孕登记目前是这方面的唯一信息来源。在未来,如果要将社交媒体用作研究孕期药物安全性的补充来源,必须在收集的孕期时间线内提供与摄入相关的信息。虽然完整的研究超出了本文的范围,但我们通过自动计算我们数据样本(检测到潜在妊娠期信息的同一样本)上一组药物的提及频率来进行初步评估。我们的目标是确定药物使用信息是否可用,而不是执行彻底的分析,这是我们未来的工作。
我们手动分析了30个用户时间线的小样本,以确定存在的健康信息类型,并确定需要执行哪些未来任务来提高所收集信息的效用。我们在“结果”部分给出一个时间轴样本,并在“讨论”部分提供进一步的细节。
最终的训练集由7830个怀孕类实例和3494个非怀孕类实例组成。测试集由1989个怀孕类实例和843个非怀孕类实例组成。
基于注释集上的这些结果,我们选择在我们的系统中使用支持向量机。与DNN相比,svm似乎有更高的精度,这是我们整个管道的首选。请注意,使用更深的dnn可能会导致更好的性能,这是典型的情况。然而,更深层次的网络在计算上也要昂贵得多,所以我们没有把它们包括在我们的探索中。支持向量机的表现比DNN和集合快得多。因此,考虑到所有这些因素有利于支持向量机的使用。
在18个月的时间里,我们系统的数据收集组件(检索和分类)共收集了71,954名潜在怀孕用户。过去收集用户数据的结果是收集了超过2.5亿条推文,平均每个用户约3500条推文。怀孕的新用户以每月9000到10000的速度被检测出来,同期平均检测到2500万到3500万的新推文。按照这个速度,我们预计在未来12个月内将收集到额外的10万到12万条时间线。
三个强分类器、Naïve贝叶斯基线和集成分类器的分类器性能。精度,召回率和F1每个分类器的妊娠类别评分以及总体准确度和准确度的95% CI。
分类器 | 怀孕类 | 两个班级 | ||
精度 | 回忆 | F1分数 | 准确度(95%置信区间) | |
朴素贝叶斯 | 0.44 | 0.90 | 0.59 | 0.57 (0.56 - -0.58) |
随机森林 | 0.95 | 0.79 | 0.86 | 0.81 (0.80 - -0.82) |
深度神经网络 | 0.90 | 0.87 | 0.88 | 0.84 (0.83 - -0.85) |
支持向量机 | 0.92 | 0.85 | 0.88 | 0.84 (0.83 - -0.85) |
系综 | 0.93 | 0.85 | 0.89 | 0.84 (0.83 - -0.85) |
为分类中使用的特征保留一个和单个特征分数。“-”表示该特性被移除。
特性集 | 怀孕类 | Nonpregnancy类 | 全套 | |||||||
P一个 | Rb | Fc | P | R | F | P | R | F | ||
|
0.92 | 0.85 | 0.88 | 0.62 | 0.76 | 0.69 | 0.85 | 0.83 | 0.84 | |
|
-N-grams | 0.90 | 0.85 | 0.87 | 0.61 | 0.73 | 0.67 | 0.83 | 0.82 | 0.82 |
|
密集的向量 | 0.92 | 0.85 | 0.88 | 0.61 | 0.76 | 0.68 | 0.84 | 0.83 | 0.83 |
|
词群 | 0.92 | 0.84 | 0.88 | 0.58 | 0.76 | 0.66 | 0.84 | 0.82 | 0.83 |
|
情绪特征 | 0.92 | 0.85 | 0.88 | 0.62 | 0.76 | 0.68 | 0.85 | 0.83 | 0.84 |
|
结构特性 | 0.92 | 0.85 | 0.88 | 0.62 | 0.76 | 0.68 | 0.85 | 0.83 | 0.84 |
字格 | 0.92 | 0.83 | 0.86 | 0.55 | 0.76 | 0.63 | 0.84 | 0.81 | 0.82 | |
密集的向量 | 0.89 | 0.82 | 0.85 | 0.54 | 0.68 | 0.61 | 0.81 | 0.79 | 0.80 | |
词群 | 0.90 | 0.83 | 0.86 | 0.56 | 0.70 | 0.82 | 0.82 | 0.80 | 0.81 | |
情绪特征 | 0.70 | 0.64 | 0.67 | 0.28 | 0.20 | 0.24 | 0.55 | 0.49 | 0.52 | |
结构特点 | 0.67 | 0.69 | 0.68 | 0.30 | 0.28 | 0.29 | 0.55 | 0.56 | 0.56 |
一个P:精度。
b接待员:召回。
cF: F1得分。
监督分类器对每个查询模式的怀孕类的性能。
我们对34,895名在研究早期被分类器分类为怀孕的用户时间线应用了我们的妊娠三个月提取算法。我们的算法检测了15,523名(约44%)用户的妊娠三个月信息。该算法进一步将属于这些时间线的每条推文分类为三个三个月中的一个。虽然检测三个月信息的可用性是非常准确的,但对时间线的一个小样本的人工分析表明,在将时间线分为三个月方面,该算法仅在大约50%的情况下是准确的。这验证了在我们队列的大样本中,三个月的信息是可用的,但需要一个更健壮的算法来自动将信息分类到三个月。
计算同一样本的药物提及频率,其中三个月的信息被检测,验证有一些药物相关的颤振可用的时间轴。
怀孕推文分类器在不同训练数据大小下的接收者工作特征(ROC)曲线(上图)。ROC曲线下面积(AUC)的值也显示为每个训练集的比例。每个类的分类精度、召回率和F1分数以及每个训练集的完整数据集的比例(底部)。
从我们的系统分类为怀孕的用户的时间轴中抽取20个相关帖子的样本。这些帖子是手动筛选和分类的。用户名已被匿名化。
号# | 推特 | 三个月 | 信息类型或注释 |
1 | 扁桃体正在被清除……1st October they will be no more! | 第一个 | 健康状况 |
2 | 神……我30....T他right thing to do is probably to eat lots of cake to make it better #happybirthdaytome #30s | 第一个 | 用户年龄 |
3. | @username是的,我都做完了,现在感觉不太糟,药房里满是止痛药,看我通过!感谢xx | 第一个 | 药物治疗 |
4 | @用户名谢谢,回家前吃了一些吐司,刚刚做了第二批吃止痛药! | 第一个 | 药物治疗 |
5 | @用户名hazel在dw上计算出了成人的calpol剂量,所以我把它存起来以备不时之需,我们总是有calpol !Xx | 第一个 | 药物治疗 |
6 | @用户名@用户名我这周在扁桃体炎后吃了曲马多,可以确认它肯定会让你感到生气和困! | 第一个 | 药物治疗 |
7 | 可怜你听起来可不好玩。我没事,喉咙好多了,现在不用吃止痛药了,这很好! | 第一个 | 停止药物治疗 |
8 | 20周扫描今天!很高兴它的第一件事,我不需要等待一整天。最大的问题是,粉色还是蓝色? | 第二个 | 进展信息 |
9 | 所以二号宝宝是个女孩!亚历克斯一直都是对的,现在我需要一些好听的女孩名字!#宝宝 | 第二个 | 婴儿性别或健康状况 |
10 | 期待#oneborneveryminute,爱宝宝秀,即使我已经怀孕25周了 | 第二个 | 我们的查询检测到怀孕后 |
11 | 没有什么比看到一个小婴儿更让我意识到我很快就会有一个这样的孩子了 | 第三 | 妊娠进展 |
12 | 看来我们也要加入瘟疫的行列了,还有谁?#水痘 | 第三 | 健康状况 |
13 | 我想我们已经度过了天花的最坏时期,第五天没有新的斑点,但有很多结痂。# poxwatch | 第三 | 健康状况 |
14 | 我!怀孕36周,从阳光韦斯顿超级母马来看你! | 第三 | 怀孕指示岗位 |
15 | @username我没有被烧伤,因为我主要是在车内或有空调的车里,那里更凉爽#37周怀孕 | 第三 | 妊娠进展 |
16 | 这是夏洛特·阿米莉亚·康恩11点22分出生体重7磅10盎司 | 出生 | 出生公告 |
17 | 夏洛特原本是7磅10盎司,今天降到了6磅12盎司。显然任何超过10%的下跌都会引发一大堆问题 | 后出生 | 新生儿体重减轻 |
18 | @username认为你会这么想!是的,很明显10%是底线,她的是11.2%。希望明天能避免再入院 | 后出生 | 新生儿体重减轻 |
19 | @用户名没错。她需要增重,结果又减了10克。: - ( | 后出生 | 持续减肥 |
20. | @username作为一个成年人确实很糟糕。我们现在很好,谢谢,洛蒂也长胖了。不过还需要多睡一会儿! | 后出生 | 新生儿体重回升 |
在我们收集的妊娠队列样本中收集的数据中提到一组药物的分布情况。提及也被我们初步的三个月检测方法分类。
我们研究的目标是确定是否可以使用公开发布的社交媒体数据和自然语言处理来检测孕妇群体。我们设计了用于检索强烈表明用户怀孕的用户帖子的查询。在收集这些帖子后,使用监督分类进一步过滤假阳性,并收集一组极有可能怀孕的用户。获得的结果表明,这种方法能够检测孕妇,并创建一个基于社交媒体的妊娠队列,可用于进一步分析。我们的首要目标是从社交媒体数据中挖掘数据,补充现有的怀孕安全信息来源。为了能够做到这一点,第一步,也是最关键的一步,是能够高精度或精确地检测孕妇。我们的研究证实,通过使用精心构造的查询和设计良好的监督分类策略,这是可以实现的。尽管查询能够为每个查询收集具有不同准确性的pit,但监督分类方法的总体评分为F1怀孕类的得分为0.88,这几乎等同于人类对这些数据的认同。这表明,我们的模型确实有效地从嘈杂的社交媒体数据中准确检测出怀孕人群。
除了分类器的性能外,从队列中收集到的大量用户帖子和通过小规模分析检测到的健康相关信息强烈支持了我们建立这样一个系统的最初动机。根据我们的小型分类后分析,从队列中收集的数据似乎封装了关于各种健康相关信息的关键知识,尽管在大量嘈杂的、不相关的信息中。因此,这些数据可用于研究药物摄入与妊娠结局、孕产妇健康模式、行为模式及其与妊娠结局、新生儿健康等之间的潜在关联。
我们的监督分类方法也有可能被应用到其他类似的问题。我们的方法结合了稀疏和密集向量,它们独立地在分类任务中表现良好。这种组合表示可能有利于其他使用短文本块作为输入的社交媒体文本分类任务,这些文本块具有有限的上下文信息。
如手稿第一节所述,某些队列(如孕妇)不包括在临床试验中。因此,当药物投放市场时,孕妇群体的药物安全信息通常是不知道的,发现与不良反应的新关联可能需要数年时间。利用社交媒体数据开发成功的监测技术可能会加快发现未知关联的过程。未来,这些技术将不得不在我们的探测机制的基础上发展。此外,社交媒体可能会提供有关母亲行为模式的信息,而这些信息可能不会向医生透露。这些模式可能包括吸烟、饮酒、抑郁行为和滥用处方药。这些信息可能有助于得出与不良胎儿结局和孕后产妇健康之间的因果关系。
我们的框架也可以用于检测和监测其他队列。关键在于能够识别可以检索用户所在帖子的查询
我们进行了有限误差分析,以确定哪些因素通常会导致错误。分析结果与中所示的每个查询结果分解非常一致
在这些常见错误案例的基础上,我们设想了几种可能的解决方案,可以在未来尝试进一步提高分类精度。由于我们选择分层随机样本进行注释,检索率低的模式检索到的一些推文只接收了少量的注释。因此,如果注释了更多的推文,这些推文的性能可能会提高。然而,考虑到它们的低检索率,从我们未来的检索工作中删除这种容易出错的模式可能是谨慎的做法。至于我们的查询所检测到的孕妇男性的推文(例如,查询模式包括
深入了解描述和区分“怀孕”和“非怀孕”推文的语言特征,可以为将来的数据检索修改查询提供信息。为了获得这样的见解,我们使用了一个语料库分析工具
分析中的一个因素揭示了词语
因子分析可以揭示微观层面的语言线索,这些线索潜在地促成了注释者将推文归类为“真实”或“虚假”怀孕迹象的高层决定;因此,它还可以深入了解在推文自动分类中起重要作用的语言特征。例如,知道第一人称引用是“怀孕”推文的一个显著特征,这可能解释了分类器在“生孩子”查询模式上相对较弱的性能;在推特上,比如“我有一个小弟弟了。
本研究在方法学上存在一些局限性,值得进一步研究。首先,这项研究的队列成员是从单一的社交网络Twitter中选择的。Twitter作为一种独特的社交媒体资源,帖子的最大长度为140个字符。这给NLP工具带来了许多问题,因为缺乏上下文,替代拼写等等[
通过Twitter接触到的人群也很有限,而且样本只偏向于社交网络用户。然而,对于类似的任务,在所有样本中都存在这种偏见,而社交媒体可能是与大量不同人群接触、沟通和协作的最有效方式[
据我们所知,目前还没有现有的工作试图通过社交媒体识别孕妇群体,以进行大规模的药物安全性分析。基于社交媒体的研究主要集中在更一般的监测任务,如流感传播预测[
在本文中,我们提出了一种通过社交媒体自动识别大型孕妇队列的方法。我们提出的两步检测方法首先使用有针对性的查询来识别潜在的孕妇,然后使用监督分类来过滤掉大多数假阳性。我们彻底评估了我们的队列识别和分类方法,以验证这是一种可行的妊娠队列检测方法。我们还展示了收集到的信息的潜在用途和未来的任务。
基于我们的研究结果,社交媒体有望成为对妊娠队列进行药物安全性研究的有用资源,特别是考虑到与其他来源(包括妊娠登记)相关的缺陷。然而,必须指出的是,人们并不期望社交媒体取代这些传统资源,而是作为一种补充资源。相同的管道也可以用于自动检测其他类型的队列。未来的研究,收集到的数据的具体目标应用,将提供关于其有用性的进一步见解。
怀孕推文注释指南。
方差分析
应用程序编程接口
深度神经网络
自然语言处理
pregnancy-indicating推
随机森林
接收机工作特性
支持向量机
作者要感谢凯伦·奥康纳和亚历克西斯·厄普舒尔在注释过程中的努力。
AS负责分类算法的训练和评估,以及分类策略的开发。他还负责准备大部分的手稿。PC机设计并分析了部分查询模式,并进行了初始数据收集和初步研究。AM设计并分析了一些查询模式,并进行了一些初始数据收集。他也是注释者之一,并编写了注释指南。AK进行因子分析,并帮助准备最终的手稿。HC负责实现端到端收集和存储管道,并实施研究的技术方面(如数据库集成和查询)。GG负责为项目提供高层指导,并负责最终稿件的编写。
没有宣布。