会议:人工智能与机器学习及翻译告诉我更多?心里模型的个性化智能代理稳健性的影响摘要为了富有成效地和一个智能代理工作一个用户需要知道什么?智能代理和推荐系统获得广泛的应用,有可能造成最终用户了解这些系统如何运作,以解决他们代理人的个人化行为。本文探讨了影响实证研究提供的音乐推荐系统的知识结构等个性化的心理模型的稳健。我们的研究结果表明,参与者能够迅速推荐系统的建立健全的心智模式,在研究过程中能最大提高他们心理模型的参与者更有可能使推荐操作达到他们的满意。这些结果表明,通过帮助最终用户了解系统的推理,智能代理引起更多更好的反馈,从而更紧密地对准其输出与每个用户的意图。关键词引荐人的心智模式;调试;音乐;个性化,智能代理;ACM分类关键词H.5.m[信息接口和演示]:杂项;绪论智能代理已经超越了平凡的任务,如过滤垃圾邮件。现在搜索引擎利用模式识别来检测图像内容(例如,剪贴画,摄影,和面),Facebook和图像编辑这一步,是在受过教育地猜测某个特定的照片。Netflix和亚马逊使用协同过滤感兴趣的项目推荐给他们的客户,而Pandora和Last.fm使用类似的技术来创造制作个人特质口味的电台。简单的以规则为基础的代理系统已经发展成为采用复杂算法的系统。这些智能代理的计算机程序,其行为变得完全指定后,他们才学会最终用户的培训数据。因为这一时期在现场学习,当一个智能代理的推理不正确或意外导致它执行时,只有最终用户在一个更个性化的位置,或者更准确地说,调试代理的有缺陷的推理才能解决。调试,在这种情况下,是指用心,特意调整代理的推理(在初始培训之后),以便它更紧密地匹配用户的期望。最近的研究已经取得了进军以支持这种类型的功能[1,11,14,16]。调试,但是,甚至对于训练软件开发人员来说都可能是困难的,当他们无论是缺乏软件工程还是计算机知识学习,帮助最终用户这样做,均非易事。在本文中,我们考虑有多少普通的最终用户为了调试它们可能需要了解这些代理商。之前的工作都集中在一个智能代理本身可以解释为最终用户[9,13,15,22,27,28],以及最终用户可能会如何作用于这样的解释来调试他们的智能代理[1,11,14,16,24]。相比之下,本文考虑的是用户是否确实需要健全的心智模式,以及,心智模式是如何影响他们的尝试调试一个智能代理。为此,我们调查了四个研究问题:(RQ1):可行性:最终用户是否可以快速建立和调用一个健全的心智模式的一个智能代理的操作?(RQ2):精度:最终用户的心理模型是否有调试一个智能代理的积极作用?(RQ3):信心:是否建立一个健全的心智模式一个智能代理,提高最终用户的计算机自我效能和降低电脑焦虑?(RQ4):用户体验:提供完善的一个智能代理经验的最终用户与相互作用的不健全的模型和用户的心理模型是否不同?为了回答这些研究的问题,我们调查了解释实证研究音乐推荐系统最终用户推理的影响。我们开发了一个原型,AuPair,让参与者设立广播电台,并做出调整,为他们选择的歌曲。一半的参与者收到推荐推理的详细解释,而另一半则没有。我们的论文的贡献是更好的了解用户的心理模型的智能代理行为是如何影响他们的能力来调试他们的个性化剂。背景及相关工作功能和结构的心智模式心理模型的内部表示是人们根据他们的经验在现实世界中建立的。这些模型让人们理解,解释和预测现象,然后采取相应的行动[10]。心智模式的内容可以是概念,概念或事件之间的关系(如因果关系,空间或时间的关系),及相关程序。例如,一个心智模式的电脑如何工作可能是因为它只是显示在键盘上键入和一些“记住”在电脑里面的东西。心理模型可以在不同的丰富的IT专业人士,例如,(理想情况下)更丰富的心理模型的计算机是如何工作的。有两种主要的心智模式:功能(浅)模型意味着最终用户知道如何使用计算机而不是它是如何工作的细节,而结构(深)模型提供了一个详细的了解如何以及为什么它的工作原理。心智模式必须是声音(即,准确),足以支持有效的互动,已经观察到许多情况下不健全的心智模式,引导错误的行为[18]。心理模型的完整性也很重要,尤其是当事情出差错,结构模型比功能模型更完整。虽然结构模型可以帮助某人处理意外的行为,并解决问题,但是一个纯粹的功能模型不提供可能需要抽象的概念[10]。知道如何使用计算机,例如,并不意味着你可以修复一个失败的电源。要建立新的心智模式,用户应公开透明的制度和相应的说明[21]。脚手架的指令对于学习使用新的系统[20]做出了积极贡献,这已被证明是一种方法。然而,面临的挑战之一,就是心智模式,一旦建成,更是出奇地很难改变,即使当人们意识到矛盾的证据[28]。智能代理的推理的心理模型最近一直在支持智能代理的推理调试[1,11,13,14,16,25],但心智模式,用户建立尝试这个任务的同时,已经很少受到关注。一个例外是一个考虑用户的心理模型的正确性与一个基于传感器的智能代理,预测的办公室工作人员的可用性的研究(如交互时,“现在中断所以,和,所以一个良好的时间吗?”)[28],但这项研究并没有让用户调试这些可用性的预测。使代理人的推理更加透明,是一种影响心智模式的方式。由代理解释为特定决策的例子包括为什么......为什么不代理的推理的描述[13,15],可视化描述,助手的已知的正确的预测与已知故障[26],电子“标签门”显示工人可中断的预测与每个预测背后的原因(例如,“会说话的检测”)[28]。戴伊和林最近的工作,导致应用程序的工具箱产生解释为流行的机器学习系统[16]。以前的工作发现,用户可能会改变他们的一个智能代理的心理模型当代理使得其推理透明时,但是,代理商的一些解释可能导致只有浅薄的心理模型。代理推理也可以清晰地对一个智能代理的新功能通过明确的指示,这可以帮助心理模型的它是如何运作的建设。然而,这些研究没有研究心理模型建设可能如何影响最终用户调试智能代理的方法。一个智能代理的推理透明,可以提高满意度和可靠性的看法,例如音乐推荐,以及其他类型的推荐系统[9,27]。然而,有经验的用户满意度,实际上可能由于更多的透明度而减少。心理模型建设的研究,这些研究没有调查最终用户的心理模型和他们的满意度与智能代理的行为之间的联系。实证研究要探索心理模型稳健对最终用户调试的智能代理的作用,我们需要一个域名,鼓舞参与者使用和调试。音乐的建议,可适应互联网电台的形式,满足这些要求,所以我们创建了一个互联网广播平台(名为AuPair的),用户可以个性化播放音乐适合他们的特定口味。为了符合真实世界的情况下使用智能代理,我们延长超越一个简单的实验室实验通过结合现场使用的失控期与控制教程会话的实证研究的长度。该研究历时5天,由第1天的教程会话和预研究问卷,然后3天期间,参与者可以按他们希望得使用的AuPair的原型,并在第5天退出会话。AuPair收音机AuPair允许用户创建自定义的“站”,并对它们进行个性化播放所需的音乐类型。用户通过一个单一艺术家的名字(例如,“播放与艺术家帕蒂·史密斯相似的音乐”)播种启动新站。用户可以通过给予关于个别歌曲的反馈,或通过添加一般指引到站来调试代理。关于个别歌曲的反馈可以提供使用许多媒体引荐的常见到的5点评级规模,以及这首歌的属性(例如,“这首歌太圆润,来一些更充满活力”,图1)。要添加一般指引的站,用户可以告诉它“喜欢”或“避免”描述性的词或短语(例如,“十分喜欢车库摇滚艺人“,图2,顶部)。用户还可以限制该站的搜索空间(例如,“决不会播放歌曲,从20世纪80年代”,图2,底部)。AuPair作为一个交互式的Web应用程序,实现用户交互和控制音频播放使用jQuery和AJAX技术的实时反馈。我们支持所有主要的Web浏览器的最新版本。远程Web服务器提供了基于用户的反馈和悄悄记录下的每一个用户交互通过AJAX的调用的建议。AuPair的建议是基于TheEchoNest(回声巢),允许访问文化的特性(例如,流派,情绪等)和在我们的库中的音乐文件的声学特性(例如,速度,响度,能源等)的数据库。我们建立了我们的音乐库,通过结合研究团队的个人音乐收藏,使得数据库中有来自超过5,300种不同的艺术家d36,000首以上的歌曲。图1:用户可以通过说为什么目前歌曲是好还是坏来调试图2:参加者可以通过加入指定类型的音乐应不应该播放的方针这种广泛的标准调试。回声巢开发商API包括一个动态播放列表功能,这是我们作为我们推荐引擎的核心。动态播放列表放在一起使用机器学习的方法,并对最终用户是“可控”的。这是实现通过自适应搜索算法,构建一条通过收集类似的艺术家的路径(即,播放列表)。艺术家相似在AuPair中基于文化的特点,如使用的术语来形容艺术家的音乐。该算法使用聚类方法基于对一组相似艺术家的距离度量,然后获取相应的歌曲。用户可以调整距离度量(即聚类算法),通过改变具体条款的权重,使得搜索到符合这些条款的喜欢的艺术家。相反也可以告诉该算法可以完全避免不良条款。用户可以加入一组限制,从搜索空间排除特定的歌曲或艺术家。每首歌曲或艺术家可以被查询以显示计算机对其声学和文化的特征的理解,如它的速度或“跳舞能力”。参与者我们的研究组共62人(29名女性和33名男性),年龄从18岁至35岁不等。62人只有一个事先熟悉计算机科学。这些受试者是从俄勒冈州立大学和当地社区,通过e-mail到大学的学生和工作人员,和张贴在城市周围的公共场所(咖啡馆,布告栏等)的传单招募的。参与者为付出的时间得到40美元的报酬。应用的潜在参与者通过网站自动检查一个HTML5兼容的Web浏览器(申请人使用老版本的浏览器升级到较新的浏览器显示指示),以减少招募参加者缺乏可靠的互联网接入或首选Web浏览器不兼容我们的原型的机会。实验设计与程序参与者随机分配到两组,一个是脚手架治疗组,参加者接受有关AuPair的推荐引擎专门的培训,另一个是无脚手架对照组。抵达后,参加者回答了一份广泛应用的、有效的自我效能问卷,来衡量他们对解决一个假设(和不熟悉的)软件应用程序的问题的信心。这两个群体然后接受关于Aupair的培训,只有在解释Aupair如何工作的深度不同。无脚手架组给予15分钟关于Aupair的功能的教程,比如如何创建一个站,如何停止和重新启动播放,和其他的基本使用情况信息。同样的研究者提供了每一位参与者同一脚本的教程来保持一致性。考虑到参与者学习风格的差异,研究者提出了互动式的教程,使用夹杂着示范和亲身参与的数字幻灯片。随着脚手架小组收到一个30分钟关于Aupair的教程(其中15分钟的训练是与无脚手架组的相同),被设计诱发的不仅是一个功能性的心理模型(与无脚手架组相同),但也是一个结构性的心理模型的推荐引擎。这种“幕后”培训内容包括说明Aupair如何决定艺术家相似的例子,推荐人“知道”的声学特性的类型,以及如何提取音频文件的信息。研究人员系统地遴选脚手架组培训内容,通过检查每一个可能的用户与Aupair互动,然后描述推荐人如何响应。例如,每一个参与者被告知,电脑会尝试“播放类似艺术家的音乐”,但然后脚手架参与者被教导TF-IDF(长期频率逆文档频率,一个共同的字衡量信息的重要性检索)如何被用来发现“类似的”艺术家。在另一个实例中,每一位参与者表现出了控制使用描述性词语或短语引导代理,但只有脚手架参与者被告知这些描述来自哪里(传统渠道,像音乐排行榜,以及网路资源,如Facebook网页)。在此指导之后,每个参与者回答一组6个选择题的理解性问题,以建立他们的心理模型的稳健性。每个问题提出一个场景(例如,“假如你想你的站来播放更多类似披头士的艺术家的音乐”),然后问问题,从四项中选择一项,将使站的建议与既定目标相符合。因为心理模型固有的“凌乱,邋遢......恍”,我们需要确定如果参与者猜测或如果他们的心理模型不够健全,以消除一些不正确的反应。因此,作为衡量的信心,每一个问题也问有多少的选择可以在决定一个最终的答案之前消除。第七个问题问参与者在7点量表上评价他们了解推荐人的整体信心。整个介绍会议(包括调查问卷),无脚手架组的参与