这是一篇在知识共享署名许可(http://creativecommons.org/licenses/by/2.0/)下发布的开放获取文章,该许可允许在任何媒介上不受限制地使用、分发和复制,前提是原始作品首次发表在《医学互联网研究杂志》上,并适当引用。必须包括完整的书目信息,到//www.mybigtv.com/上原始出版物的链接,以及版权和许可信息。gydF4y2Ba
在线社区被父母用作核实与孩子有关的发展和健康问题的平台。随着公众对自闭症谱系障碍(ASD)认识的提高,越来越多的家长怀疑自己的孩子患有自闭症。ASD的早期识别对于早期干预非常重要。gydF4y2Ba
对怀疑孩子可能患有ASD的父母提出的在线查询中提到的症状进行表征,并确定这些症状是否具有年龄特异性。为了测试机器学习工具在根据父母的叙述对儿童患自闭症风险进行分类方面的功效。gydF4y2Ba
为此,我们分析了担心孩子可能患有ASD的父母提出的在线查询,并根据ASD特异性和非ASD特异性域对他们提到的警告信号进行了分类。然后,我们使用这些数据来测试训练有素的机器学习工具对ASD风险程度进行分类的有效性。雅虎答案(Yahoo Answers)是一个发布问题和寻找答案的社交网站,该网站是针对家长询问社区他们的孩子是否患有自闭症谱系障碍的问题进行挖掘的。本研究共收集了195份问卷(儿童平均年龄=38.0个月;84.7%[160/189]男生)。对查询进行内容文本分析,目的是对所描述的症状类型进行分类,并获得对儿童asd风险水平的临床判断。gydF4y2Ba
重复性和限制性行为和兴趣(RRBI)相关的担忧最为普遍(75.4%,147/195),其次是语言相关的担忧(61.5%,120/195)和情绪标记(50.3%,98/195)。在195个问题中,18.5%(36/195)被临床专家评为低风险,30.8%(60/195)为中风险,50.8%(99/195)为高风险。风险组别差异显著(gydF4y2Ba
研究结果呼吁卫生保健提供者按照筛查指南的建议,密切倾听父母与自闭症相关的担忧。他们还证明了基于互联网的筛选系统的必要性,该系统使用决策树提问方法利用父母的叙述。gydF4y2Ba
自闭症谱系障碍(ASD)诊断率的上升[gydF4y2Ba
一方面,家长在网上描述他们对孩子发展的担忧,为及早转介提供了机会;而另一方面,自由文本格式的使用使确定特定诊断的风险程度变得困难。从公共卫生的角度来看,在线查询是一个窗口,可以了解父母认为是自闭症警报信号的行为。反过来,这些信息可以用来设计筛选程序,帮助家长发现不容易注意到的迹象。此外,机器学习工具可以提供一种方法来估计在线查询中描述症状的儿童的ASD风险程度。该研究的目的有两个:(1)对怀疑孩子可能患有ASD的父母提出的在线查询中提到的症状进行表征,并根据临床风险水平和孩子的年龄对查询进行分类;(2)测试机器学习工具在根据父母的叙述分类儿童患ASD风险方面的功效。gydF4y2Ba
从父母第一次怀疑发育问题到得到自闭症谱系障碍诊断的整个过程可能需要数年时间[gydF4y2Ba
由美国儿科协会设计的一种系统筛查自闭症谱系障碍的算法,被卫生保健专业人员用来引起父母对孩子发育的关注,计算自闭症谱系障碍风险累积评分,并对发现有风险的儿童进行更密切的监测[gydF4y2Ba
有证据表明,父母早期关注的数量和类型预示着以后的发育障碍[gydF4y2Ba
一些研究将父母第一次引起担忧的孩子的年龄与征兆的类型及其预测有效性联系起来。研究表明,在自闭症谱系障碍诊断高风险家庭中,父母关注的自闭症谱系障碍症状的数量比关注6个月儿童的父母关注的自闭症谱系障碍症状的数量更能预测自闭症谱系障碍[gydF4y2Ba
总之,经过审查的证据支持了一个工作假设,即父母从孩子两岁开始的早期关注可以预测后来的ASD诊断。然而,大多数研究都是基于对自闭症儿童父母的回顾性报告[gydF4y2Ba
有几个项目使用技术来自动早期识别发育问题,包括ASD。例如,《幼儿自闭症修订检查表》(M-CHAT-R/F)已电子化实施,其中包括自闭症筛查问卷和随访访谈。与纸张筛选相比,M-CHAT-R/F在降低假阳性和阴性方面均有成效[gydF4y2Ba
无论是否患有自闭症,父母,尤其是头胎婴儿的父母,都经常在网上寻找与健康和发育相关的信息[gydF4y2Ba
机器学习工具[gydF4y2Ba
本文的其余部分组织如下。方法部分描述了抽样查询的性质、编码过程和数据分析步骤。结果部分描述了父母提到的症状类型以及自闭症风险组和年龄组之间的比较。本节以文本中ASD风险自动预测的描述结束。讨论部分列出了该研究的解释和含义。gydF4y2Ba
这项研究利用雅虎问答平台来检查怀疑孩子患有自闭症的父母的问题。在Yahoo Answers平台上,查询使用自然语言发布,答案由用户提交,围绕这种交互形成了一个社区。一个问题可以引出多个答案;其中一个被提问者或社区评为最佳答案。本研究选择了雅虎答案的查询,而不是搜索引擎的查询,因为它们由匿名发布在公共平台上的查询组成,因此更有可能代表家长对答案的真实需求。gydF4y2Ba
我们提取了2006年6月6日至2013年12月12日期间提交的所有包含单词的雅虎答案的英语查询gydF4y2Ba
在1081个怀疑父母的问题中,随机抽取195个进行分析。其中,96.4%(188/195)的查询中提及儿童的年龄,平均为3.2岁(SD 2.9;1.25个月至18年;60.3%[114/189] 3岁以下)。男孩占84.7%(160/189),女孩占15.3%(29/189),其余未注明孩子的性别。gydF4y2Ba
在4.6%(9/195)的问询中,父母报告了ASD家族史。在30.8%(60/195)的询问中,父母没有提到向卫生保健提供者报告他们的担忧。gydF4y2Ba
Yahoo Answers查询的内容分析使用NVIVO软件进行。应用了两种类型的内容分析流程:gydF4y2Ba
首先,一种类型的内容分析被用来将儿童患自闭症的风险分为低、中、高。为此,制定了一套规则,用于从文本中定义自闭症风险等级。中等风险被定义为与一种ASD特异性体征相关的担忧,发育迟缓的一般描述,需要评估的非ASD特异性担忧,以及提及ASD的风险因素,如家庭成员患有ASD但没有ASD特异性体征。例如:gydF4y2Ba
我的儿子19个月大,兴奋或跳舞时有时会拍打手臂,他会不会是自闭症?他提前3个月出生,我不知道这是否是幼儿的正常行为。请帮助!gydF4y2Ba
高风险被定义为与至少两种asd特异性症状相关的担忧,一种来自RRBI领域,另一种来自社交和沟通领域。高风险等级还考虑了所描述症状的严重程度和家长表达的紧迫性:gydF4y2Ba
我儿子两岁半了,他能数到15,还能唱整首abc歌,但他说话没有意义,问我要果汁之类的东西。他还整天重复卡通片里的长句子,但这与他当时正在做的事情毫无关系……gydF4y2Ba
默认情况下,低风险被定义为不符合上述标准的查询,例如:gydF4y2Ba
我的孩子双手的食指都弯曲了。有时会弄清楚这是否意味着她患有自闭症?gydF4y2Ba
然后,2名ASD临床专家分别对38个(19.49%)问题中描述的儿童的风险水平进行评分,他们对风险问题的区分kappa达到0.72。最后,由1名临床专家评定其余问题的ASD风险。gydF4y2Ba
其次,进行另一个内容分析过程,以确定家长注意到的警告信号类型。这一过程涉及演绎和归纳分析方法,由不同的临床专家进行。演绎方法暗示根据符合DSM-V标准的域和子域对警告标志进行编码。采用归纳法识别不符合DSM-V诊断标准的相关症状,如描述认知障碍或语言延迟。家长查询中所提及的有关标志的分类结果包括12个域名和72个子域名(gydF4y2Ba
关于孩子的年龄和性别的数据是使用自动文本分析的组合提取的,然后是众包评级来纠正错误。有年龄资料的样本分为4个年龄组:0-2岁(n=62)、2-3岁(n=52)、3-6岁(n=58)和≥6岁(n=18)。gydF4y2Ba
只有出现率超过5%的体征才被纳入分析。Alpha水平(类型1错误)使用Bonferroni对多个比较进行校正,从而使阈值gydF4y2Ba
然后进行数据分析,以评估是否可以使用设计的文本编码方法从查询中检测到有自闭症风险的儿童。该分析的目标是区分低风险、中风险和高风险查询。为此,对每个查询进行分析,以确定(1)每个单词或单词对(双元图)在文本中出现的次数,以及(2)根据域和子域编码的警告标志,如前所述。gydF4y2Ba
分析的其他属性包括孩子的年龄和性别,查询中的单词数量,以及查询的长度,通过查询中的字符数量来衡量。我们训练了一个线性分类器[gydF4y2Ba
超过三分之一的担忧是asd特定领域:RRBI 75.4%(147/195),社交48.21%(94/195),沟通42.05% (82/195);以及非asd特定领域:语言61.5%(120/195),情感50.3%(98/195),认知26.7%(52/195)。在至少5%的问询中提到的其他标志领域是注意缺陷多动障碍(ADHD) 18.97%(35/195),医疗状况15.9%(31/195),运动12.3%(24/195),日常生活活动(ADL) 11.8%(23/195),饮食8.7%(17/195)和睡眠问题6.7%(13/195)。查询中提到的警告标志类型的分布见gydF4y2Ba
由临床专家确定的3个asd风险级别的查询分布为:低风险(n=35),中风险(n=60)和高风险(n=100)。查询中提到的符号域的分布在gydF4y2Ba
在≥5%的查询中提到警告标志的域和子域的百分比。RRBI:重复性和限制性的行为和兴趣;ADHD:注意缺陷多动障碍;ADL:日常生活活动gydF4y2Ba
根据asd风险级别呈现的查询中提到的警告标志域的分布。gydF4y2Ba
符号定义域gydF4y2Ba | 风险组,n (%)gydF4y2Ba | χgydF4y2Ba2gydF4y2Ba | 区分子域gydF4y2Ba一个gydF4y2Ba | ||
|
低风险的gydF4y2Ba |
中等风险gydF4y2Ba |
高风险gydF4y2Ba |
|
|
RRBIgydF4y2BabgydF4y2Ba | 15 (42.9)gydF4y2BacgydF4y2Ba | 37 (61.7)gydF4y2BacgydF4y2Ba | 95 (95.0)gydF4y2BadgydF4y2Ba | 46.78gydF4y2BadgydF4y2Ba | 1.3感官问题gydF4y2Ba |
社会gydF4y2Ba | 3 (8.6)gydF4y2BacgydF4y2Ba | 18 (30.0)gydF4y2BacgydF4y2Ba | 73 (73.0)gydF4y2BadgydF4y2Ba | 54.61gydF4y2BadgydF4y2Ba | 2.1交友困难,2.1.3社交游戏gydF4y2Ba |
沟通gydF4y2Ba | 9 (25.7)gydF4y2BacgydF4y2Ba | 15 (25.0)gydF4y2BacgydF4y2Ba | 58 (58.0)gydF4y2BadgydF4y2Ba | 21.43gydF4y2BadgydF4y2Ba |
|
语言gydF4y2Ba | 8 (22.9)gydF4y2BacgydF4y2Ba | 40 (66.7)gydF4y2BadgydF4y2Ba | 72 (72.0)gydF4y2BadgydF4y2Ba | 27.42gydF4y2BadgydF4y2Ba |
|
情感gydF4y2Ba | 14 (40.0)gydF4y2Ba | 29 (48.3gydF4y2Ba | 55 (55.0gydF4y2Ba | 2.46gydF4y2Ba |
|
认知gydF4y2Ba一个gydF4y2Ba | 3 (8.6)gydF4y2Ba | 13 (21.7)gydF4y2Ba | 36 (36.0)gydF4y2Ba | 11.08gydF4y2Ba |
|
医疗条件gydF4y2Ba | 5 (14.3)gydF4y2Ba | 11 (18.3)gydF4y2Ba | 15 (15.0)gydF4y2Ba | 0.40gydF4y2Ba |
|
电动机gydF4y2BaegydF4y2Ba | 1 (2.9)gydF4y2Ba | 6 (10.0)gydF4y2Ba | 17 (17.0)gydF4y2Ba | 5.23gydF4y2Ba |
|
诽谤联盟gydF4y2BafgydF4y2Ba | 2 (5.7)gydF4y2Ba | 7 (11.7)gydF4y2Ba | 14 (14.0)gydF4y2Ba | 1.71gydF4y2Ba |
|
注意力缺陷多动症gydF4y2BaggydF4y2Ba | 2 (5.7)gydF4y2Ba | 11 (18.3)gydF4y2Ba | 24 (24.0)gydF4y2Ba | 5.66gydF4y2Ba |
|
睡觉gydF4y2BaegydF4y2Ba | 2 (5.7)gydF4y2Ba | 2 (3.3)gydF4y2Ba | 9 (9.0)gydF4y2Ba | 2.00gydF4y2Ba |
|
吃gydF4y2Ba | 3 (8.6)gydF4y2Ba | 3 (5.0)gydF4y2Ba | 11 (11.0)gydF4y2Ba | 1.70gydF4y2Ba |
|
一个gydF4y2Ba
bgydF4y2BaRRBI:重复性和限制性的行为和兴趣。gydF4y2Ba
c, dgydF4y2Ba不同下标的风险组在Fisher精确两两比较中差异显著。对于显著不同的域,使用卡方检验确定区分风险组的标志gydF4y2Ba
egydF4y2Ba在不到5%的查询中观察到与这些域有关的警告标志。gydF4y2Ba
fgydF4y2BaADL:日常生活活动。gydF4y2Ba
ggydF4y2BaADHD:注意缺陷多动障碍。gydF4y2Ba
观察儿童年龄与风险水平之间的关系表明,来自每个风险组的查询百分比在4个年龄组之间没有差异(χgydF4y2Ba2gydF4y2Ba6gydF4y2Ba= 11.39,gydF4y2Ba
接下来,我们测试了基于文本的自动化自闭症风险评估器的有效性。当将高风险查询与低风险查询和中风险查询区分开来时,发现ROC曲线下的面积(AUC)为0.67(0.50-0.78)。使用编码符号的AUC为0.82 (0.80-0.86;看到gydF4y2Ba
最后,我们创建了一个回归模型,从文本和(分别)标志中预测实际风险评分。使用文本的Spearman相关性为0.29 (gydF4y2Ba
按年龄组查询中提到的符号域的百分比。RRBI:重复性和限制性的行为和兴趣;ADHD:注意缺陷多动障碍;ADL:日常生活活动。gydF4y2Ba
受试者工作曲线(ROC)图预测文本与编码信号的风险。gydF4y2Ba
用于区分低风险查询与中高风险查询的决策树分类器。RRBI:重复性和限制性的行为和兴趣。gydF4y2Ba
我们的研究调查了那些担心自己的孩子可能患有自闭症的父母的在线查询的性质。互联网为家长提供了一个在任何时间和地点匿名表达和验证他们担忧的场所。对这些叙述的分析强调了一些迹象,这些迹象提醒父母,在公众中,他们的孩子可能患有自闭症谱系障碍。这些担忧反映了父母的发展知识、意识和期望,以及父母的焦虑程度。大多数雅虎问答的问题被临床专家判断为反映了自闭症谱系障碍的高风险或中等风险,证实了父母的担忧。在生命早期鉴别自闭症是很重要的,这样自闭症儿童才能从有针对性的干预中获益最多[gydF4y2Ba
我们的研究发现,大多数没有ASD家族史的父母(95.4%[186/195])与广泛的ASD特异性症状相关,这是令人鼓舞的。家长们认为令人担忧的普遍迹象在DSM-V中[gydF4y2Ba
在线关注的儿童平均年龄为38.03个月,接近ASD诊断的平均年龄[gydF4y2Ba
在极端情况下,有些父母过早提出担忧,无法确定风险,例如:gydF4y2Ba
我8周大的儿子还没有第一次露出真正的微笑。我知道所有婴儿的发育都不一样,但我担心自闭症……gydF4y2Ba
在光谱的另一端,有些大孩子的父母要么质疑他们的孩子得到的非自闭症谱系障碍诊断,要么从未接受过评估,但总觉得有些不同,例如:gydF4y2Ba
(关于一个18岁的孩子)我们一直都知道他与众不同,他表现出一些——但不是全部——常见的症状,但我们只是把它归结为他与众不同和内向……除了电脑游戏的虚拟世界,他正在变成一个隐士。也没有社交技巧。gydF4y2Ba
在设计在线筛查工具时,必须考虑儿童的年龄,并且根据调查结果,有必要继续监测这样的儿童。gydF4y2Ba
尽管不同风险组的RRBI担忧率存在差异,但至少75.4%的查询中提到了RRBI[147/195]。RRBI领域包括子领域编码的最大层次层次以及个体标志(子领域是:重复动作、刻板印象和重复使用物体、感官问题、不寻常和狭隘的兴趣、重复的言语、饮食、难以改变、僵化的思维和仪式)。这反映了DSM-V标准中描述的症状类型的多样性。最常见的rrbi是重复运动、重复使用物体和感觉异常。表征中等或高风险查询的rrbi是重复言语、感官问题(特别是触觉过度反应)、不寻常的物体使用、重复言语(特别是特殊语言)和重复兴趣。有趣的是,研究表明,rrbi并不是后来被诊断为ASD的孩子的父母最关心的问题[gydF4y2Ba
我们的研究结果表明,一旦文本被分类到符号域,就可以使用机器学习方法从文本中预测风险,而单独使用文本提供的信息(至少在我们的语料库中)不足以准确识别有风险的儿童。开发一个特定于自闭症谱系障碍的流程图,家长可以将他们对某些类型的担忧的叙述插入其中,这可能为更准确地预测自闭症谱系障碍的风险提供基础。在线论坛中的自动筛选工具将受益于从社会关注问题开始,如果没有出现,则询问沟通情况,如果出现,则询问rrbi的存在。虽然ASD的特定问题需要主导这样的工具,但探索非ASD特异性的认知和运动标记也很重要。决策树的结果表明,来自社会、RRBI和运动领域的信号组合预测了编码文本中ASD风险的最高可能性。这与证据一致,证据表明,父母对几个领域的组合的关注可以预测自闭症谱系障碍的诊断[gydF4y2Ba
在线查询中提到的标志类型的分布并不完全符合以前研究中最常见的标志。例如,在一项ASD研究中,父母的语言和沟通问题被发现是最普遍的早期问题,其次是社交、RRBI、医疗和情感领域[gydF4y2Ba
目前探索性研究的局限性在于缺乏对儿童的实际asd风险状态的临床测试,而不是其他神经发育障碍。下一步将是使用标准化的发展措施研究风险状态的外部有效性,为家长提供一个结构化的格式来输入他们的担忧,并使用新的语料库测试我们的算法来预测文本的风险。从文本中提取符号有其自身的局限性,因为在某些情况下,它需要对意义进行临床推断,而不是探究父母的能力,从而提取出担忧背后的意义。我们试图通过开发编码规则和测试编码可靠性来减少这种偏见。在线查询的匿名性使在线父母关注成为一种独特的资源,它提供了父母与自闭症相关关注的真实快照,不受社会期望或其他情感偏见的影响。gydF4y2Ba
早期父母的关注是早期儿童筛查的重要组成部分。越来越多的证据表明,早期父母对特定ASD标记的关注与最终ASD诊断的更高可能性有关[gydF4y2Ba
分类域和子域的警告标志编码从雅虎查询。gydF4y2Ba
注意缺陷多动障碍gydF4y2Ba
日常生活活动gydF4y2Ba
自闭症谱系障碍gydF4y2Ba
曲线下面积gydF4y2Ba
精神障碍诊断与统计手册gydF4y2Ba
改良的幼儿自闭症检查表——经随访修订gydF4y2Ba
音乐电视gydF4y2Ba
受者工作曲线gydF4y2Ba
重复和受限的行为和兴趣gydF4y2Ba
这项研究是由凯撒利亚罗斯柴尔德研究所资助的。ABS是由yalon奖学金资助的。我们感谢Yael Schwartz-Klein和Neta Katz在本研究中对文本分析的帮助,以及Danielle Wolinski在手稿准备方面的帮助。gydF4y2Ba
没有宣布。gydF4y2Ba