TY -的盟Abd-Alrazaq Alaa盟,萨菲Zeineb盟——Alajlani Mohannad AU -沃伦,吉姆盟——Househ Mowafa盟——Denecke Kerstin PY - 2020 DA - 2020/6/5 TI -技术指标用来评估医疗聊天机器人:范围审查乔- J地中海互联网Res SP - e18301六世- 22 - 6 KW -聊天机器人KW -会话代理KW -医疗保健KW -评价KW -指标AB -背景:对话代理(聊天机器人)在医疗保健领域有着悠久的应用历史,它们被用于支持患者自我管理和提供咨询等任务。随着卫生系统需求的增加和人工智能(AI)能力的提高,预计它们的使用将会增长。然而,评估医疗聊天机器人的方法似乎是多样化和随意的,这导致了该领域发展的潜在障碍。目的:本研究旨在确定以前的研究用于评估医疗聊天机器人的技术(非临床)指标。方法:通过检索7个文献数据库(如MEDLINE和PsycINFO),并对纳入的研究和相关综述进行前向和后向文献列表查询,确定研究。这些研究由两名审稿人独立选择,然后从纳入的研究中提取数据。提取的数据通过将识别的指标分组到基于指标评估的聊天机器人方面的类别来叙述地合成。结果:在检索到的1498篇文献中,有65篇文献被纳入本文。使用27个技术指标评估聊天机器人,这些指标与聊天机器人整体(如可用性、分类器性能、速度)、响应生成(如可理解性、真实性、重复性)、响应理解(如用户评估的聊天机器人理解、单词错误率、概念错误率)和美学(如虚拟代理的外观、背景颜色和内容)有关。 Conclusions: The technical metrics of health chatbot studies were diverse, with survey designs and global usability metrics dominating. The lack of standardization and paucity of objective measures make it difficult to compare the performance of health chatbots and could inhibit advancement of the field. We suggest that researchers more frequently include metrics computed from conversation logs. In addition, we recommend the development of a framework of technical metrics with recommendations for specific circumstances for their inclusion in chatbot studies. SN - 1438-8871 UR - //www.mybigtv.com/2020/6/e18301/ UR - https://doi.org/10.2196/18301 UR - http://www.ncbi.nlm.nih.gov/pubmed/32442157 DO - 10.2196/18301 ID - info:doi/10.2196/18301 ER -
Baidu
map