情感计算步步进入商业调研领域2015-01-19作者:虎嗅网出处:互联网责编:一宁现在,在理解、存储海量信息方面,机器似乎越来越高能了——但是它们和以前一样,在情感方面却没什么进展。不过,从1990年代以来,一小部分研究者致力于让计算机能够用人类方式去解读情感和反应。语音专家让计算机学会辨认音高、节奏和音强;他们研发的软件可以通过扫描一段女人和孩子间的对话,来判断这个女人是不是母亲,她是不是看着孩子的眼睛进行对话,以及她是生气、沮丧还是开心。其他计算机可以通过判断我们的语序,解读我们各种姿势来衡量情绪。还有其他计算机可以通过解读面部表情来实现这一点。面部是情感交流的器官;研究估计表明,面部表情传达的信息量比语言更多,一些致力于解密面部表情信息的科学家已经取得了巨大的进展。其中最成功的是埃及科学家拉娜埃我卡柳比(RanaelKaliouby)。她现居波士顿,2009年创办了公司Affectiva,曾被商业媒体评为发展最快的创业公司之一。事实证明,具有情感反应能力的计算机很有“钱景”。对卡柳比来说这毫不奇怪:她确信,很快它们将无处不在。Affectiva:基于“表情”的公司Affectiva坐落于马萨诸塞州沃尔瑟姆市,在双行道沿街商业区后的办公园区,是波士顿模仿硅谷而建立的走廊地带的一部分。总部有着西海岸创业公司的典型装饰——台球桌,变形椅——但整体感受是新英格兰地区的风格;许多员工都来自麻省理工学院。从会议室,越过一个大型停车场,可以看到通往波士顿的铁路线。在九月份的一次拜访中,卡柳比和我参观了该公司研究的面部表情图,有些是科学图表,有些来自于漫画。卡柳比是计算机科学博士,也和其他成功的程序猿一样,她能轻松理解贝叶斯概率(Bayesianprobability)和隐马尔科夫模型(hiddenMarkovmodels)。同时她又平易近人、情感丰富、待人热情,甚至爱搞笑。她信仰清真教,两年前开始戴头巾的时候吸引了周围所有人的目光,现在这成为了她的标志。麻省理工学院的媒体实验室的前主任弗兰克莫斯(FrankMoss)告诉我,她“情商极高”。作为两个孩子的母亲,她在担心科技带来的影响。卡柳比告诉我:“只要十年,我们就会完全想不起不能对装置皱眉的情景。未来我们皱眉的时候,机器会说:噢,你不喜欢这样,对吧?”然后她拿出了装有Affdex的iPad,这是她公司推出的一款软件,能够追踪四种情感:开心,困惑,惊讶,厌恶。软件每次扫描一个面部表情;如果有很多的话,首先将其逐个分离。然后,识别脸部的主要区域——嘴,鼻子,眼睛,眉毛——将像素点分别归类到每个部位,以简单几何模型渲染特征。我看着iPad上自己的即时动态表情,面部被绿色的点覆盖。“我们把它们分为可变形的和不可变形的点,”她说:“微笑或是假笑,你的嘴角会到处乱动,因此这里的点对于稳定面部表情特征毫无用处。而另外的点,比如你鼻子顶端的那些,它们不会动。”这些不可变形的点作为锚点,有助于判断其他点的运动距离。Affdex也扫描肌肤变化的纹理——眼角细纹和眉毛皱纹的分布——并结合可变形点的星系来建立面部详细模型并反馈。辨别面部表情的算法,是通过与之前分析过的无数个表情相比较。“比如,你笑的话,它会实时辨别出你在笑,”卡柳比告诉我。我笑了一下,屏幕下端的绿色标识块迅速上涨。“试试看困惑的表情。”她说,我照做了,于是困惑对应的区块上涨。“就是这样。”她说。和这个领域的其他创业公司一样,Affectiva建立在保罗艾克曼(PaulEkman)的研究成果之上。这位心理学家在六十岁是开始研究并建立了权威的理论体系:至少有六种人类通用的表情。不论性别、年龄和文化背景每个人都会一模一样地这样表现。艾克曼将这些表情分解为46个独立动作,即“动作单元”(actionunits)的结合。他汇编了面部动作编码系统(FacialActionCodingSystem,FACS)——长达五百页的面部动作分类。从动画师到对撒谎的微表情感兴趣的警员,这套系统在学界和专业领域内已被使用了数十年。计算机比人类更能读懂表情?通过扫描面部动作单元,在辨别自发的愉悦与社交微笑(socialsmile),以及在区分痛苦是否真实方面,计算机远胜人类。计算机能够判定病人是否情绪压抑。计算机会不知疲惫地运行,能够显示甚至连本人都意识不到的、转瞬即逝的表情。加利福尼亚大学的研究者玛丽安巴特利特(MarianBartlett),是Emotient公司的首席科学家,曾在她的家人聚在一起看电视的时候测试了软件。在一幕低俗喜剧暴力情景出现的时候,单帧画面显示,她的女儿的情绪,由暴怒变换为惊讶,再是大笑。她的女儿都没有意识到一瞬间的不悦——但计算机捕捉到了。最近,在一份同行测评研究报告中,巴特利特的同事证明了扫描微表情,计算机可以预测到:当人们拒绝一笔资金的时候,一瞬间的厌恶表明他们认为这是不公正的,而一瞬间的愤怒预示着拒绝。卡柳比经常强调,这种技术只能解读表情,解读不了思想,但Affdex是被作为一种可靠的情绪推测工具来推广——进入了潜意识领域。该应用发展的可能性非常多样。CBS在拉斯维加斯的电视城应用了该软件去测试新节目。在2012年总统竞选期间,卡柳比的团队使用Affdex追踪两百多人观看奥巴马和罗姆尼辩论片段的表情,结果表明程序能以73%正确率判断选民投票结果。Affectiva与Skype的竞争对手Oovoo,将该程序和视频通话融合。她告诉我:“越来越多的人进行视频会议,但是数据都没能捕捉用以分析。”事实证明,在商业谈判中,使用软件来判定谈话的另一方隐瞒了什么信息。“这种高科技会告诉你,好吧,先生,不管有任何表明可以合作的迹象。或者,他刚刚笑了,意味着他没有被说服。”“情感计算”的由来卡柳比与她的导师罗莎琳德皮卡德(RosalindPicard)一起创办了Affectiva。后者是麻省理工学院媒体实验室的教授,她早年的研究成果为公司打下了基础。皮卡德拥有电气工程和计算机科学双学位,于1990年加入媒体实验室研究图像压缩技术,但她很快遇到了瓶颈。皮卡德认为,如果计算机能识别图像内容,那么程序就能被改进。但要做到这样不仅仅要有洞察力,还要有前瞻性;和大脑一样,计算机必须要“看懂”,而不仅仅是“看见”;和人脑一样,计算机要会识别物体,然后判定哪个重要。某一天,皮卡德拿起了理查德西托威克(RichardCytowic)《尝出外形滋味的人》(TheManWhoTastedShapes),一本关于通感的书。西托威克举例说,部分感知是在大脑边缘系统中处理的。而在神经解剖学中这是原始的部分,主要处理注意力、记忆和情感。注意力和记忆似乎和皮卡德想解决的问题密切相关;而她当时希望,感情是不相干的部分。但当她深入研究神经科学文献,逐渐相信,太少或者太多的感情都会引发不理性的思考。与情感处理相关的脑部受损导致人们丧失了做决定、看见更宏大的图景以及运用常识的能力——而这些都是她想让计算机拥有的。“我想别人认真对待,而当时情感不是一个严肃的话题,”皮卡德这样告诉我。在1995年她发出了研究成果相关的非正式论文,引用了莱布尼茨(Leibniz),星际迷航以及居里和库布里克。论文证明如感情化推理对于真正的机器智能是必须的,且在编写与人产生交互的程序时,程序员应该考虑到情感因素。一开始,她的想法不被人理解。一位科学家问她:“为什么你要研究感情呢?这毫不相关啊!”然而皮卡德不为所动,拒绝了补助图像压缩研究的巨额资金,将她的想法扩充为一本名为《情感计算》(AffectiveComputing)的著作。无意间,她命名了一个计算机科学的新领域。卡柳比当时仍然在开罗,是美国大学的一名本科生。在1998年,她以班级第一名的成绩毕业,获得了硕士学位奖学金。她立志教授计算机科学,但是终身教职要求海外博士工作经验。“我爸爸的意思是,啊,要是你去的话,回来的时候就会嫁不出去了。”在迟疑不决的状态下,她向当地的一家科技创业公司投了简历。但很快,卡柳比就退出了求职大军,继续攻读硕士。但她给那家公司的创始人之一,威尔艾明(WaelAmin)留下了印象。他从小移居阿根廷,非常同情她所面临的社会压力。于是他联系上她,鼓励她继续学业。过了不久他们就结婚了。在研究生院,卡柳比一直在寻找自己的研究方向。“计算机改变了人们连接方式,这就是我被吸引的地方。”她回忆说。某一天,艾明递给她一篇皮卡德著作的书评,然后她买了一本。“花四个月书才到埃及——出于一些我无法理解的原因,它一直被扣在海关。”她说:“但最终我读到了这本书,受到了启发。”尽管没有见过皮卡德,卡柳比已经视她为偶像。“她是成功的女性科学家,并且开辟了让人振奋的新领域。”于是卡柳比确定了她的方向:研发出能解读面部表情的算法。浩大工程、艰难推进人脸如同变换中的地貌,有着无数多的微小差异和高度复杂性。不论脸部特征如何,背景、光源、角度如何,人们都能毫不费力解读表情,这简直是一个奇迹。想要让计算机做到相同的事情,程序员得应付无尽的可能性。这些程序需要机器学习,即计算机要在一堆数据中找到找到模式,然后用以解读新的数据。从开罗,卡柳比联系了一些早期的数据指导团队。艾克曼当时开始将面部动作编码系统自动化,建立能定位离散动作单元的系统。以九十年代的技术,这工作确实很费劲。本科生(或者是艾克曼自己)在设定好的背景下夸张地做表情。视频的每一帧都要花25秒数字化,而在关键帧不得不人工标注每一个面部移动。“实在有太多挑战了,”一位早期的研究员这样说;他所设计的系统其中一个版本,很难追踪可变形点。“经常会有一点点偏差,然后在处理更多帧的时候错误开始累积。”每十秒钟,他必须重新开始实验。卡柳比希望建立一个强大到能在真实环境中使用的系统。但当2001年,她在剑桥攻读博士时,她的指导教师和同学都不了解情感计算。“他们很好奇,也很疑惑:为什么你想要研究这个?”在她研究目标报告中,一位观众说让计算机学会解读表情会遭遇的问题,和他患自闭症的兄弟所遇到的困难不相上下。卡柳比不了解自闭症,于是开始研究,寻找线索。那是,剑桥自闭症研究中心正在进行一项浩大的工程,创建所有人类表情的目录,而这有助于自闭症患者进行社交。不是像艾克曼那样将表情分解为组成部分,研究中心对自然易懂的肖像更感兴趣;在“思考”的主题下,分为担忧,选择,想象,判断和沉思。中心雇佣了六位演员——男女都有,不同年龄层和种族——在摄像机前面表演。二十位评审看每一个片段,只有几乎全体通过才能确定标注表情。在项目的结束,一共识别了412个表情。卡柳比马上意识到这个目录潜藏着一个前所未有的机会:丰富的、经过验证的数据,极其适合计算机学习。在她完成博士学业前,她已经建立了“读心者”,一个可以在相对无序的情况下追踪几种复杂情绪的程序。当她意识到这个程序的潜能,她想知道是否可以为自闭症患者建立起“情感助听器”。佩戴者需要携带一台小型计算机,耳机,摄像机,用以扫描人的表情。计算机会用轻柔的语调指示合适的行为:继续交谈,还是转移话题。在完善这个想法的同时,卡柳比得知皮卡德计划参观她的实验室。“那是我整个夏天的亮点,”她回忆道。“她本来只是和每个学生交谈五分钟,但最后我们两个聊了一个小时。”皮卡德认为卡柳比的系统是最稳定的。两人决心在这方面合作,而美国国家科学基金会给予了将近百万美元来让她们建立原型。两个女性科学家的无间合作媒体实验室几乎是发明创造者的避难所。创立者曾这样说:“忘掉那些技术论文并且专注更小范围的理论。让我们用实践证明它。”卡柳比发扬了这种精神,而尽管皮卡德职位更高。弗兰克莫斯说,她们两人无间合作。实验室的每个人都戴着小型可穿戴的相机,而皮卡德告诉我:“我们聊了许多关于嵌入的话题。”在回埃及的期间,卡柳比会打电话加入会议。皮卡德记得在一次机器人展示中:“拉娜(卡柳比)通过一个笔记本摄像头还是什么的,加入了Skype,然后我们将摄像头留在地板上去看展示。我感觉不太好,像是把拉娜的身体留在地板上了一样。于是我想,需要把摄像机戴在身上。然后,当我四处走动的时候,拉娜就像是在我身上一样。”在卡柳比专注于“读心者”(MindReader)软