这是一篇开放获取的文章,根据创作共用署名许可协议(https://creativecommons.org/licenses/by/4.0/)的条款发布,允许在任何媒介上不受限制地使用、分发和复制,前提是正确引用了首次发表在JMIR Formative Research上的原创作品。必须包括完整的书目信息,https://formative.www.mybigtv.com上的原始出版物的链接,以及此版权和许可信息。
语音用户界面在医疗保健领域越来越普遍,通常用于患者参与。人们对识别这种形式的界面在慢性疾病管理中对患者参与数字疗法(DTx)的潜力越来越感兴趣。根据现有的研究,通过替代交互模型使DTx可用也有可能更好地满足一些患者的需求,例如老年人和有身体和认知障碍的患者。
这项研究旨在评估心力衰竭的参与者如何与语音应用程序版本的DTx互动,
采用混合方法并行三角测量设计,以更好地了解使用的可接受性和可行性
总体平均参与度为73% (SD为9.5%),在第1周和第4周之间下降了14%。最大的差异是年龄最大和年龄最小的人群的平均参与水平,分别为84%和43%,但这些结果并不显著- kruskal - wallis检验,H(2)=3.8 (
总而言之,参与者大都成功地使用了
慢性疾病是全世界死亡和残疾的主要原因,每年有4100万人死于这些疾病[
会话代理是人机交互领域的一种对话类型,可以是基于语音的,也可以是基于打字的[
以前的研究已经开始调查声控技术监测心衰患者的可行性[
迄今为止,研究使用语音应用程序进行心衰自我管理的潜力的研究有限。一些语音应用程序包括帮助患者管理病情的基本功能,例如询问预约前的临床筛查问题、安排预约和设置药物提醒[
的
以前的可用性研究的目的主要集中在是否
本研究要求心衰患者与心脏相互作用
鉴于本研究是作为概念验证而设计的,因此使用了小样本量来收集初步证据,为这种干预的成功提供了见解。根据初步研究提供的类似指导,共招募了20名参与者参与这项研究[
所有的参与者都被要求将他们的
获得了UHN研究伦理委员会的伦理批准(20-6095)。
评估
数据通过三份问卷收集,即系统可用性量表[
研究协调员通过电话与每位参与者进行了入职培训,以帮助他们设置和访问
采用混合方法,三角计算收敛模型得出结论[
对于定性数据,访谈记录由研究协调员(AB)进行分析和编码。访谈主题采用归纳定性描述方法确定[
研究共招募了20名患者,性别比例相当均衡(女性:9/ 20,45%;男性:11/20,55%),平均年龄57.8岁(标准差13.1岁)。参与者年龄均不小于20岁,10%(2/20)的用户年龄在21 - 40岁之间,35%(7/20)的用户年龄在41 - 60岁之间,55%(11/20)的用户年龄在61 - 80岁之间。
所有被招募的患者都被要求参加
在为期4周的研究期间,整个研究人群的总体参与度为73%,随着时间的推移,参与度明显下降(
4周研究期间的平均投入水平。
周 | 参与水平一个(%),平均值(SD) | 平均遗漏天数(SD) |
1 | 80.7 (11.3) | 1.4 (0.11) |
2 | 75.0 (5.8) | 1.8 (0.06) |
3. | 70.7 (7.9) | 2.0 (0.08) |
4 | 67.1 (8.1) | 2.3 (0.08) |
一个总体平均用户粘性为73.4% (SD.9.5%)。
在4周的时间内(28天),9个条目(在411个条目中)是使用
除了计算总体参与水平外,还计算了描述性统计数据,并使用前面提到的属性来比较研究人群中各个子组的结果。结果显示在
新入职员工(n2)和现有员工之间的平均参与度没有差异
在比较参与者所描述的技术舒适度时,也观察到了类似的趋势(统计测试结果不显著)。那些非常自信的人在4周内比那些报告不太自信的人更多地使用这项技术,总体差异为13.6% (Mann-Whitney
来自SUS问卷调查的结果与来自半结构化访谈的结果相结合,用于更好地了解使用语音应用程序版本的可接受性
从第二周SUS问卷的回复中得出的总体平均得分为69分(满分100分),根据之前的研究,语音应用程序排名在第53百分位。相比之下,第四周的平均分为77分(满分100分),以以往的研究为基础,排在第80百分位。这些数据表明,在使用的满意度总体上有所提高
平均SUS评分也根据不同的患者特征(年龄、
本研究使用NASA-TLX问卷,以更好地评估研究参与者在使用时感受到的工作量
在分析不同年龄组的得分时,发现与中年人(平均为1.61)和老年人(平均为2.12)相比,最年轻的人群认为自己最需要工作(最高平均为2.67);Kruskal-Wallis检验结果并非不显著- h (2)=0.039 (
总之,描述性统计数据显示,最年轻的年龄组认为他们最需要工作,随着时间的推移,研究人群普遍认为他们需要付出更多的努力,而那些对技术不太熟悉的人使用语音应用程序比那些更有信心的人更困难。
使用UTAUT2问卷是为了更好地了解参与者在使用语音应用程序时关于便利条件、努力期望、习惯和行为意图的想法。第2周和第4周结果之间的最大差异是关于他们是否会使用语音应用程序
总体而言,所有参与者都认为语音应用程序使用起来不费力,操作起来很容易。他们不太确定使用语音应用程序是否已经成为他们的习惯(这可以通过参与水平来支持),最不确定的是他们是否会在未来使用语音应用程序,如表S2所示
Proctor等人利用实施结果对访谈主题进行分类[
临床整合的可行性受多种因素影响;在我们的研究结果中,两个子主题(1)用户适应语音应用程序的对话风格和(2)设备的不可靠性有助于确定这项技术必须集成到现有工作流程和实践中的潜力。用户是否能够适应语音应用程序以及设备被认为不可靠的程度将确定语音应用程序在临床环境中实际使用的可行性。关于这两个子主题的进一步细节将在随后的小节中提供。
大多数参与者发现设备的设置和说明相当简单,但有时很难成功地将他们的测量结果记录在设备上
我学会了如何适应她的节奏,而不是她适应我的节奏。
研究人员使用了特定的策略来改变他们的说话风格,其中最常见的是改变他们说话的音量、语气、语速和风格。不同的策略似乎对不同的参与者更有效,特别是他们说话的速度:
现在我只说116.4磅(更快),她现在绝对没有任何问题。
当然,我会确保直接对着它说话,或者提高我的声音或类似的事情。
我想记录一百个,但通常说“一百个”而不是“一百个”,但我注意到它没有注意到这一点。
一旦参与者在与语音应用程序说话时改变了谈话语气,他们就开始注意到互动中的困难,因为它不再像自然的对话:
这就像当你和外国人或者你认识的来自另一个国家或另一种语言的人交谈时,你试着说几句话让他们理解。
我试着把每个词都分开说,就像我说话像机器人一样。
我必须认真,缓慢,并确定我如何说这些数字。
大多数参与者采用的另一种交互策略涉及使用设备的触摸屏功能。在大多数情况下,这种替代输入比使用语音更有利,因为它使用更简单,更重要的是,更快:
我养成了一种习惯,可以让我尽可能快地完成检查,这种习惯就是我会说出体重、血压和心率的结果,然后我直接在触摸屏上互动,告诉她症状,这样我们就不用等她了。所以,是的,每次我使用触摸屏时,它都很好,事实上,我可以使用触摸屏,即使她还没有说完,它也能工作,这对我来说是一个很大的加分项。
研究发现,当参与者不同时处理其他项目时,互动是最成功的:
如果你真的想,你可以同时处理多项任务,但这就是我认为犯错更容易的原因。
我知道过一段时间会被问到的问题,但我仍然在听。那是因为你知道我宁愿做对也不愿做错。
尽管大多数参与者经历了学习曲线,但前面描述的缓解策略支持部署语音应用程序的可行性,例如
几乎所有参与者在与语音应用程序交互时都遇到了不同程度的困难。有时,语音应用程序会死机,会话突然结束;在其他时候,它不会为用户提供纠正任何错误测量的机会:
你可以回去修改,对,但是有时候会有点麻烦,所以我必须重新开始。
然后她就关机了…When she couldn’t get the measurements or something, she would just turn off.
参与者还描述了语音应用程序无法正确接收他们所说的信息的情况,这让他们感到沮丧、恼火、恐慌和沮丧,以至于他们当天不想再使用该设备:
是的,我醒来时心情很好,但经常会很沮丧,之后会变得暴躁。是的,这真的改变了我的心情。有一次她对我重复了一遍,我以为她听懂了,然后她又重复了一遍,说我晕倒了,但我没有晕倒,所以我慌了。
当语音应用程序无法捕捉到正确的测量值时,参与者通常会觉得有必要大声说话。这被认为是有问题的,特别是在参与者可能感觉不舒服,没有能力表达他们的声音的情况下。据一位参与者解释,有了智能手机,他们就可以在不消耗太多精力的情况下分享信息:
当我进医院时,我不希望它不在我的手机上,我有一段时间说话困难。如果我的血压过高或者因为蓄水而过低,我就很难说话,我喜欢把手机扔给医生,说“看,这是我两天前的数据”……我真的很喜欢。
尽管从患者交互的角度来看,语音应用似乎是可行的,但由于各种技术相关的原因,用户在与设备交互时也遇到了困难。了解这些故障的原因和频率将有助于确定何时何地适合使用语音应用程序
这个主题描述了研究参与者发现
除了使用该设备访问之外
她变得像朋友一样。我知道这是一些小怪癖,特别是当它犯错的时候……我想说,对于那些独自生活的人来说,它可以成为一个朋友,对吧?
一些参与者还将他们与该设备互动的体验描述为“愉快的”,还有一些人特别觉得在与它交谈时需要使用礼仪和礼貌:
我和Alexa相处得很好。太可爱了。我在Medly上输入信息,同时我和Alexa一起做,最后我说“Alexa,谢谢你”,她说“当然”……一天晚上,我说,“哦,Alexa晚安”,她说:“晚安,睡个好觉。”
这款设备不仅成为了用户的伴侣,也成为了他们家人和朋友的伴侣:
那天晚上她确实给我孙女讲了个敲门的笑话。(孙辈们)和她一起玩得很开心,问她天气怎么样之类的问题。
这种互动是一个例子,说明该设备可以很容易地融入家庭空间。而在公共区域,用户已经注意到使用该设备进行其他活动,例如:
我可以用它播放音乐,我还可以问问今天天气如何,早上第一件事就是看CTV新闻,我认为这很棒。
在公共场所放置该设备也提醒了一些难以记住表演的参与者
看到柜台上的显示器,我觉得它肯定会鼓励我,激励我,这是一个视觉提醒,而不是手机上的应用程序真正去做。
一开始我以为是我的手机。但你可能知道,现在是Alexa。她就坐在那里,所以可能是Alexa。
一些参与者还把设备放在家里的其他地方,比如卧室。在这些情况下,他们也发现这种设置很有用:
我在晚上睡觉的时候用它,比如放松的音乐。
此外,在某些情况下,语音应用程序比智能手机更受欢迎:
我在我的卧室里,房间里有浴室,所以当我去浴室称体重的时候,我会同时量血压。所以理想情况下,这就是我和(Alexa)交谈的地方……在过去的一周里,它一直在起作用,我真的很喜欢,因为我吃完药后就可以回去睡觉了,所以它不会让我的大脑醒来。
我有点脑震荡的症状手机让我恶心所以目前,我更喜欢只用Alexa来做这件事。
尽管该设备可以很好地集成在家庭的不同空间中,但在公共空间使用该设备可能存在缺点。大多数参与者都指出了拥有一个安静的空间来集中注意力并成功提交阅读材料的重要性:
说实话,就像我没有儿子的时候,我经常这样做,因为他喜欢在我面前说话……他会在我身后重复“Alexa”。
比如,如果我丈夫在我做饭的时候走进厨房,我会把他赶走。
尽管一些参与者在设备突然停止工作或错误地听到他们的声音时感到沮丧,但通常情况下(尤其是在第一周),用户认为错误发生时是他们的错:
我并没有因此而生气。我只是想,哦,我说得不够清楚或不够大声,或者你知道。
我又回到了第一周的学习曲线。有一些挫折,但你不能怪Alexa,这都是我的错。
这些反映表明,用户普遍理解语音应用程序,并在与之交互时具有一定的耐心。
参与者们分享了一些他们所看重的设备特性
整个过程真的很麻烦。我想部分原因是因为(智能手机)应用程序非常简单。我觉得如果我有蓝牙血压和体重秤就会更容易了。
对我来说,说实话,因为他们想在早上看,所以智能手机要快得多。
大多数用户还表示担心,如果他们去过夜旅行,他们将如何使用语音应用。便携设备:旅行时需要并经常提到的一种小到可以随身携带的设备:
我唯一不喜欢它的地方是它又大又笨重,所以我不太愿意带着它旅行。所以,对我来说,如果我不得不依赖它,机动性问题会有点令人担忧。
本文介绍了使用混合方法为心衰患者设计的语音应用程序的概念验证实施研究的结果。据我们所知,这是第一个用于帮助患者在家中管理晚期慢性病的语音应用程序的评估。迄今为止,研究仅报道了在受控实验室环境下的准确性和可接受性水平;然而,这些发现仍然与本文的结果一致[
为了更好地理解语音应用程序的可接受性和实施的可行性,我们试图确定参与者之间在参与水平方面的任何显著差异。虽然我们的定量数据在统计学上不显著,但我们的观察结果与Ware等人的研究结果相似[
受访者在采访中给出的最常见回答之一是,语音应用程序需要很长时间才能完成,特别是比语音应用程序需要更长的时间
这项研究的结果还显示了该设备在许多家庭中的整合程度,以及这可能为参与者带来的潜在好处。由于该设备的多功能性,它迅速成为许多用户日常生活的一部分,从听音乐到询问晚餐食谱,甚至开始变成一个伴侣。该设备不仅提供了社会支持,而且还作为一种视觉提醒来执行他们的任务
这些发现有助于开始揭示这种技术最适合的患者人口统计的“概况”。我们怀疑那些老年人(年龄为>岁,60岁),对使用技术更有信心,日程安排不那么繁忙,在与语音应用程序交互时更轻松,更成功,并且一致。此外,那些患有多种疾病的人可以从使用这个平台中受益,特别是因为他们可能会因为他们的病情而经历常见的副作用。
据我们所知,这项研究只是少数几项研究的一部分,这些研究调查了在预定环境中长时间(4周)使用语音应用程序治疗慢性疾病。同样,这项工作也是第一个研究语音应用程序的工作,该应用程序被设计为针对每个患者的个性化(输出响应取决于患者登录程序时设置的参数)。由Bérubé等人进行的系统综述[
在研究过程中发现了多种局限性,因此,应该认识到这一点,以便更好地理解研究结果的影响。
首先,由于有大量的问卷调查和访谈,研究团队注意到潜在的社会可取性偏差[
本研究采用混合方法来调查将语音应用程序用于慢性疾病管理的数字疗法的可接受性和可行性。总的来说,我们的研究结果表明,参与者在很大程度上成功地使用了
设备使用说明书
参与者的基线问卷。
基于不同患者特征的总体和每周平均参与水平。
显示积极(a)和消极(b)属性问题的数据,以及来自系统可用性量表问卷的结果,第2周的数据在上面,第4周的数据在下面(图S1)。美国国家航空航天局(NASA)-任务负荷指数在第2周和第4周结果中的得分分布(分别为顶部和底部;图S2)。每个nasa任务负荷指数问题的平均分(表S1)。统一理论的接受和使用技术2问卷的每个结构的平均分(表S2)。
心脏衰竭
美国国家航空航天局
系统可用性量表
任务负荷指数
大学卫生网络
技术接受与使用的统一理论
语音用户界面
作者要感谢参与这项研究的患者。他们感谢
JAC和HR是创建