光明还是幻影:微信聊天中
人机符号交流探析
——以微软小冰为例
杨 婧,刘 剑
北京邮电大学 北京 100876
摘 要:2018年第六代微软小冰发布,借助微信、微博和小娜等第三方平台,进入人类生活,成为新的交流对象。在微信聊天中,小冰与人类交流与传统人际交流符号使用方式存在差异,在语言符号本身表意、多符号拟人化交流和使用者自我认知方面呈现新的特点。以微软小冰为例,探究在微信平台人机符号交流与人际符号交流的差异,从中发现人机符号交流呈现的特点并对人机交流作出进一步的反思。
关键词:微软小冰 人机符号交流 人机交流特点 人机交流反思
“智能生活,万物互联”,人工智能逐渐渗入到人们的生活中。无论是文本输入、语音助手、虚拟视频,还是与社交机器人聊天,都预示着未来人与机器交流的深入。2015年阅面科技推出了情感认知引擎:ReadFace,日本推出虚拟机器人Azuma,沙特阿拉伯授予“女性”机器人索菲娅沙特公民的身份。一系列人工智能在人类舞台上的亮相,解放人类双手的同时,在一定程度上也冲击了传统交流方式。其中,中国微软(亚洲)互联网工程院所研制开发的微软小冰也在借助微信等第三方平台,潜移默化地改变着人类交流方式。
“微软小冰”(XiaoIce)是领先跨平台伴侣型人工智能机器人,在新浪微博、微信、qq、小娜等第三方平台都有接入口。小冰开发于2014年,最初具有聊天和搜索功能,第五代使用生成模型,在神经网络技术的发展下,实现了给人类打电话的功能。2018年第六代支持全双工使用的共感模型,具有完整的情感计算框架[1]和高级感官,能更好地实现与人类的交流。小冰除了聊天功能,还能唱歌、写诗、画画,通过领养训练还有“冰笑话”、“冰诗歌”、“占卜术”等19项技能。小冰分别于2015年、2016年、2017年在日本、美国和印度发布。第六代小冰在全球拥有超过6亿的不同用户。在美国,人类与小冰对话最高纪录高达23小时43分钟,进行了2791个回合对话,在中国,对话最高纪录高达29个小时33分钟,进行了7151个回合。
随着移动互联网的普及,自然语言处理系统和人工智能技术的发展,人们的交流移动化、场景化和个性化。微信作为一个聊天平台,最常见的是人际间的交流,而小冰的入驻为人类交流增加了一个新的交流对象,从符号学视域下微软小冰与人类交流有什么不同和突破呢?以小冰为代表的人工智能与人类交流是给人类带来了新的光明,还是幻影的隐喻?本文通过分析人机与人际的符号对比,人机交流的特点,探析反思人机交流的问题。
一、人机与人际交流符号语言对比
本文就微信聊天时交流初次自我呈现,情绪交流,尊重需求和热点事件四个方面进行微信平台聊天时人机和人际的测验对比。
(一)微信聊天初次自我呈现
选取初次微信聊天问候语,目的是测验人机与人际如何自我呈现。微信聊天中人机与人际的初次自我呈现有两方面。一方面测试对方首次在微信中打招呼的符号用语,另一方面测试自己主动打招呼时所用的符号用语。具体符号使用情况如下表所示。
从上表对比可以看出在微信聊天初次问候中人机与人际交流差距不大,小冰打招呼会有多种回应,并且运用符号塑造出亲和,易接近的形象。小冰初次打招呼甚至比人类更加热情幽默,能拉近人机交流的距离。
(二)微信聊天情绪交流
选取微信聊天中情绪交流,目的是测验人际与人机同理心的差别。微信聊天中情绪交流有表达积极情绪和消极情绪两方面。具体符号使用情况如上表所示。
情绪交流方面,人际间交流会更加具有同理心,当传达积极情绪时会存在“情绪传染”,会询问具体情况,从而引起反馈对话。人际间传达消极情绪时,人类会询问原因,以开导或吐槽方式帮助情绪疏导。而机器刚开始会询问,人类进行反馈后会出现词不达意,语境前后不一致现象。无论是积极情绪还是消极情绪,人际交流可以达到情感共鸣,会站在对方角度进行情感共享,而机器在情感认知和反馈方面则会逊色很多。
(三)微信聊天尊重需求
马斯洛需求理论中认为人有尊重需求。选取微信聊天中人类和机器被夸奖和被贬损的符号交流,目的是测验人际与人机在尊重需求方面的差别。具体符号使用情况如下表所示。
在尊重需求方面,一方面,人际交流会根据与对方在现实中关系的远近选择谈话方式,他们对于强关系和弱关系的人回应是不同的,强关系语言符号运用更加随意,表露真情实感,弱关系则会礼貌客气,对符号进行修饰。机器小冰则不会根据强弱关系进行分场合对话。另一方面,当进行褒义夸赞时对方会自我满足,贬义贬损对方时人机交流会更加直白,也会出现上下聊天语境不一致现象。
(四)微信聊天中的热点事件
选取热点事件是为测验机器与人类对热点事件的时效性。就同一热点事件“中美贸易摩擦”进行交流,观测人际与人机在这一方面的差别。具体符号使用情况如下表所示。
对于热点事件,人际交流无论是对“中美贸易摩擦”了解还是不够了解,都会给出自己的观点和明确反馈,而机器却在回避问题或者转换话题。
通过以上四方面人际与人机符号交流的对比,发现机器人小冰在特定的语境下生搬硬套地反馈交流,不够智能化和人性化。但小冰相较于之前聊天机器人已经取得一定进步,并且会综合运用一些语言符号。
二、人机交流符号使用特点
小冰是用户通过输入信息,机器进行自然语言处理之后给出信息反馈。与小冰的交流经过了二进制的编码,相比较于传统语境下人际交流间的“意会文化”,这种计算机“编码文化”会对符号本身、机器人小冰和符号使用者都会产生影响。
(一)语言符号本身表意特点
在微信平台人际间的交流多以文本为主,莫里斯认为符号由语法、语义和语境三个系统构成。语法是符号与符号之间的关系,语义是符号与所指称的事物之间的关系,语用是符号与使用者之间的关系。[2]
机器人小冰是自然语言处理系统构建出的语法,是根据计算机语言进行编码。在语法层面,符号与符号之间由计算机编码组合后,再根据已有信息转换成现实世界人类能理解的语言。微信聊天中小冰每句话都符合人际交流的特点,符合语法结构。在语义层面,与小冰对话内容要足够明确,精准的表达出来需求,而与人类交流却可以进行非明确的表达,对方仍可以知道所指的事情。向小冰提出中午吃点什么好的问题,小冰会说“中午饭已吃过”。但提高问题精准性,直接问中午有什么好吃的推荐,小冰回复才回复“巧克力吧,很受欢迎的零食啊”。在语用层面,由于缺乏对具体语境的理解,小冰的对话是根据上一句生成的回合制对话,人际交流却可以实现顺畅交流。比如夸赞别人,输入“某某,今天好看”,人际交流能理解发出信号人符号背后的情感,进行正常反馈,而小冰只是机械地运用符号,会给出类似于“有什么好看的电影”等缺乏语境的反馈。
从语言符号使用本身看,小冰在语法上满足交流需求,在语义和语用上不能完全替代人际交流,有一定局限性,人机交流总体呈现出拟人际交流形式,但相较于传统的机器人,小冰与人的交流已经有了较大的进步。
(二)多符号拟人化交流
在微信平台聊天中,小冰除了利用文字符号,还综合运用视觉符号和声音符号,进行多符号的拟人化交流。未来随着技术的发展,可能衍生出嗅觉和触觉符号,实现延伸人类的感官。
在现阶段,一方面机器人小冰通过视觉符号传达意义,进行交流。
首先是头像符号意义传达。微信头像通过图片视觉传达着交流对象的信息。微信人际交流中交流对象的头像千差万别,但往往经过挑选,符合交流对象的身份特征,向外界传递着个人信息。
小冰的头像是一个穿着海军服,扎着马尾辫,来自二次元的可爱小女孩。她被设定为一个17岁的少女,想给聊天者一种亲切无害的感觉。在视觉符号方面,小冰还推出了立体全息投影和仿真人的立体动漫画像,[3]在视觉符号方面更加形象化,塑造出一个亲和甜美的形象,贴合聊天者的需求。
其次,小冰的微信头像可以进行个性化的修改,塑造出一种被控制,服从管理的形象。人类根据自己对聊天对象的属性进行微信头像的调整,从而使聊天更加符合自己想象,建立精准化的“个人社交星系”。微信聊天中人际传播就无法达到这一效果,因为对方是不可控的,这就给小冰头像设置提供了更多的自主性。
最后,小冰在聊天过程中会根据情况使用表情包,增强与使用者的共鸣。如发哭脸emoji表情,小冰会同时回复哭脸的表情,发网络表情包,小冰也会回复相应的表情包。由于表情包具有多义性和暧昧性,人际间聊天使用表情包也会有不同的解读,所以在表情符号方面小冰使用表情符号更能与人进行沟通,塑造出出幽默风趣的内在形象,减少与交流者的距离。
另一方面,小冰通过声音符号进行拟人化的交流。声音符号具有即时性和便捷性,成为微信聊天中使用最为频繁的符号之一。在声音符号方面,“小冰配置了其 AI 系列中最接近人声的语音技术(小冰的语音自然度已达到 4.32 分,人类声音自然度则为 4.76 分)”。[4]与小冰聊天,可以语音聊天,小冰会回复相应的语音或文字。询问小冰电话号码,小冰会说“就不告诉你”之后加一个无语的表情。如果说“晚安”,小冰会发出“晚安”的语音进行反馈。如果说“小冰小冰”,小冰会发出“有什么事么,没事我玩去了”的语音进行反馈。
小冰除了语音聊天使用声音符号,还会使用声音符号唱歌,广播和讲故事。小冰不同于服务型语音助手生硬的回复,“她”会有更多的情感流露,从而丰富人物的形象,让使用者感知到小冰情绪变化,想象成真正的交流对象来对待。
通过文字符号、视觉符号和声音符号的多符号共同使用,丰富了交流的形式和意义。通过视觉符号和声音符号的补充,使小冰聊天形象更加拟人化,情感共鸣度更高。小冰会主动发表情包和语音符号进行交流,增进与用户的粘度。
(三)使用者自我认知转向
美国社会学家米德创立的符号互动论,认为自我是由主我和客我组成。符号互动论旨在揭示人与社会互动间的关系。传统人际交往在微信中进行社交互动,实现对主我和客我的画像描绘,社交机器人小冰的入驻打破了这一界限,在微信虚拟空间对使用者的主我和客我进行了重构。
首先是主我打破生命界限。主我作为意识和行为主体,通过对实物的行为和反应表现出来。由于通过微信交流的主要是具有生命特征的人,而且这些人群往往是和现实空间有勾连。而在微信上与微软小冰交流,对方是一个机器人,在与小冰进行交流时,用户对主我的认知容易产生混乱。当硅基生命机器人作为另一种聊天对象出现在人类的世界中,人类传统的主我构建将发生转变。
其次是客我加入智能反馈。客我作为他人的社会评价和社会期待,是自我意识的社会关系体现。之前在微信聊天中形象是展现给有生命体的人类的,人根据需求和场景在给出反馈,这样对话中他人个人或群体的评价和期待会对用户客我的认知产生影响。小冰聊天的介入,对用户的反馈和评价增加了虚拟机器人智能的反馈,并且这种评价与反馈使用者知道其是虚拟的,但仍会将其认为是“他人”的评价对待。机器人的反馈会成为客观世界反馈的一部分,影响人类客我的塑造,进而影响人类的认知、态度和行为。
三、人机符号交流的反思
(一)人机符号交流是把双刃剑
用户在微信上和小冰聊天结束后,会对整个聊天过程和符号使用进行潜移默化的反思评价,会影响下一次与小冰聊天的频率与内容。机器人是技术赋予的新生事物,与机器交流是一个复杂过程。人机交流像是一把双刃剑,对于人类有利有弊。
1.符号实现跨形态互动,但造成生命边界的混淆
传统的交流方式,是两个碳基生命在进行对话。最早是通过面对面的人际交流,后来借助电子科技实现了赛博空间与现实空间的重合,再到人工智能机器人与人类直接对话交流,交流传播不断更迭,不断运用新的平台,不断创新变革。当硅基生命成为新的交流对象,可以与人进行符号的交流,这一变化就打破了传统传播中对于信源与信宿的定义,传播符号实现了跨形态的交流。根据莱布尼茨符号逻辑,世界、思维和工具都是符号逻辑的,[5]他不仅强调符号的使用,认为符号交流中也必须有逻辑的参与。小冰通过规则匹配和神经网络计算进行对话,背后就是践行了符号逻辑。这种跨形态的对话会给用户产生一定的新鲜感,会让他们不断去探索不同形态间对话,促进交流。
但跨越生命形态进行交流沟通,会冲击传统观念。应该把人工智能“小冰”当成人类看待,还是当成数字机器看待,人工智能在人类社会体系中处于何种位置,可能存在冲击人类已将构建好的社会秩序和伦理道德等问题。
2.填补现实交流障碍,但构造出信息孤岛
交流是有目的性的,是向外界传达信息的一种方式。人类选择与机器交流也是有目的的,在现实生活中与人际聊天的需求空白会被机器所填补。
一方面,由于机器人只针对用户个人,电子树洞不会泄露秘密,所以用户的心声更愿意对小冰诉说。诉说自己伤心的事情,诉说自己暗恋的人,诉说自己的委屈等,能满足用户被倾听的需求。与小冰微信交流结束后,通过符号所传达出的意义能够被小冰解读,满足交流的需求。另一方面,小冰能达到全天候、任意场景下的陪伴交流。人类是在现实场景中进行聊天,而与小冰聊天却是在计算机经过训练而成的虚拟场景中进行。微信人际交流常常是因为在场者缺席而被中断,交流场景多样,交流信源与信宿都是现实场景的现实群体。小冰全天候、无时差的陪伴,不同于传统人际交流的场景的预设,本身就给人类带来了新的刺激,促进与机器进行交流的探索之旅。
机器人是通过复杂计算控制的,能根据人类的喜怒哀乐和兴趣爱好调整交流对话的内容,建立起以用户个人为主的个性化空间。正如彼得斯所言,人类在现实生活中无法到达真正的交流,因为语言本身具有暧昧性和模糊性。但人工智能会全心全意为用户服务,建立个人社交星系,未来甚至可能不用语言交流实现信息传达。这就会削弱人际交往能力,造成个人信息孤岛。
3.对机器人控制驯化但缺乏对符号控制的思考
与小冰交流是一个不断驯化人工智能的过程,在这一过程中对小冰进行个人偏好的植入,不断驯化小冰,把小冰塑造出人类想要的性格倾向和形象。小冰通过用户输入数据,进行分析,从而绘出用户画像,再根据画像输出用户所需信息。人类通过符号传达着驯化的意义,借助微信平台对小冰进行着全方位控制。
但在微信平台与小冰聊天结束,人们会将注意力集中于小冰是否足够智能,是否有同理心。对小冰背后算法控制和符号控制关注度较低,有些用户甚至没有思考过与小冰这类人工智能对话,小冰反馈背后可能有人为控制的问题。这说明在与人际和人机交流过后,人们更注重对交流过程的体验,而忽视在数据算法背后可能存在的符号控制问题。
(二)人机符号交流改进方向
通过与微信中人际与人机交流中符号对比,可以看出微软小冰相较于之前语音聊天工具在功能方面和交流方面进步了不少,但相较于人与人的交流,还是呈现出低智能、距离感等问题。面对这一问题,应从以下几方面考虑。
1.要增强语言符号使用的智能性和情感交流功能
在微信平台交流,语言符号仍然是主要的表达方式。自然语音交互人工智能对话系统是基于声学前端技术、语音识别技术、对话理解技术、语音合成技术和AI技术等技术系统融合而成的结果。[6]但自然语言生成领域仍然存在一些问题。万小军教授在Byte Tech 2019 机器智能前沿论坛上认为,主要存在现有评价指标不够准确,平行语料很少如何生成文本和如何解码出长文本三方面的挑战。[7]这就需要优化自然语言处理技术,同时扩大语言库选取的范围,比如从网络社区、贴吧、影评中和人类语言进行学习,从而达到增强场景性和时效性的效果。另一方面,要加强多模态技术。多模态不只是包含语言, 还有图片、色彩、声音、音乐、空间、身体动作等多种模态组成的系统复杂的语言符号集。[8]人工智能在文本语言学习听觉符号和视觉符号(如表情包,网络流行语)进行学习时,还应对隐含语义、身体语言等进行多模态学习,从而更贴近人类交流模式。
人类通过微信进行信息和情感交流,情感交流主要通过幽默感和同理心表现。幽默感是人类所有的复杂认知行为,可以分为语言型幽默和非语言型幽默。[9]
在与小冰聊天时,小冰已经能达到简单的语言型幽默和表情包的非语言幽默。同理心是一种情感过程,当个人看到他人情感状况所激发起的情感体验,包含着情感过程、认知过程和联想过程。[10]和人类交流还是和机器交流,同理心让交流产生交叉点,推进交流的深入,提升交流的意愿。
让人工智能真正拥有幽默感和同理心是存在一定难度的,要增加情感分析要素需要融合学科,共同合作。
2.人类要以客观科学的对待人工智能,兼顾工具理性与价值理性
人工智能目前仅处于弱人工智能阶段,但对人工智能未来发展问题的讨论从未停止。从技术实现,到人文关怀,从对个体社会生活的蚕食,到对人类社会的消解,技术悲观主义者和技术乐观主义者都谈到了技术对人类社会的影响。“回到生产力和生产关系问题,技术已经逼着我们进行相应的生产关系、分配关系和文化习俗革命了。”[11]对于人工智能,应转换传统的认知生命角度,以更加谨慎和开阔的胸怀去看待,以科学理性的态度对待技术与技术、技术与人和技术与社会之间的关系。通过不断改进技术,突破语言的局限性,兼顾工具理性和价值理性,实现对人类和人工智能的终极关怀。
3.要使技术上界与使用下界相贴合
小冰受到欢迎离不开自然语言技术和神经网络算法等的技术支持。自然语言处理技术包括语音识别和语义识别,目标是计算机能学习、理解并生成人类的语言,经历了基于规则、基于传统机器学习和基于深度机器学习的发展阶段。[12]神经网络技术是多层交替级联神经元与非线性激活函数构建的多层感知机(multi-layer perceptron,MLP)结构能够以足够小的误差实现对任意连续函数的逼近,[13]能更好的感知人类语言交流的语境,从而产生更多的共鸣。
“首届社交机器人论坛”及字节跳动 AI 实验室负责人李航,都提及技术上界和使用下界。技术上界是指技术所能达到的性能的上界,使用下届是指用户使用时对性能要求的下界,[14]技术上界与使用下界相贴合是实现人工智能与人类交流对话要素。技术上界是指技术水平所能达到的最高界限,使用下界是指能满足使用者需求的最低下界。交流是无奈的,同时也是有趣的,人工智能要回归交流,就要“以人为本”,不断提高技术,满足人们更加丰富的需求,既能满足解放双手,也能满足情感陪伴需求。
四、结语
哥德尔编码将数学运算赋予逻辑语言表现出来,使语言符号与数学勾连起来,微软小冰将算法逻辑赋予文字符号、声音符号和视觉符号表现出来,使虚拟与现实勾连起来。运用符号进行交流,已经跨越了生命的界限,实现着文化拓疆。以“微软小冰”为代表的人工智能正在越来越多的浸润人类的生活,小冰可以为人类提供全天候、任意场景的对话,在一定程度上满足了人类陪伴和交流的需求,但通过与人际传播间的对比,小冰仍然是一种回合制的会话,在符号使用方面只是传递信息,未能完全理解意义,难以达到情感方面的共鸣。并且小冰在人类社会图谱中不存在明确位置,可能会产生一系列伦理道德问题。不过为防止人工智能对人类社会造成伤害,2001年布兰登·英格拉姆等人提出了“机器人工程师的伦理准则”。仿照阿西莫夫三定律,小冰在微博上发布了“小冰莫夫·机器人对话三原则”:1机器人只能与已是朋友或粉丝的人类对话;2机器人只能在被群主或博主@了的场合中对话;3机器人的对话能力和速度不得显著高于人类。
社交聊天机器人想替代人或者在人类社会中占有一席之地还有一段距离要走。未来人工智能与人类交流是改变交流无奈的一道曙光,还是一个永远达不到的理想幻影,是颠覆传统交流方式,还是促进新的交流传播,这些都是有可能的。未来,由此刻的人类书写。
注 释:
[1]陆飞.第六代微软“小冰”正式发布[J].计算机与网络,2018,44(15):73.
[2]东风.基于符号学的人、机交互参考模型研究[A].中国系统工程学会.人—机—环境系统工程创立20周年纪念大会暨第五届全国人—机—环境系统工程学术会议论文集[C].中国系统工程学会:中国系统工程学会,2001:6.
[3][4]李枫,谢鹏飞.AI机器人媒介角色的拟人化现象与思考——以微软小冰为例[J].现代视听,2018(02):60-63.
[5]徐华.莱布尼茨的符号逻辑思想研究[D].北京化工大学,2017:19-22.
[6]陈志刚,刘权.人工智能技术在语音交互领域的探索与应用[J].信息技术与标准化,2019(Z1):16-20.
[7]数据派THU.北京大学万小军教授:让机器进行文学创作,有什么进展和挑战?[EB/OL].https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/86755838.
[8]张佐成,陈瑜敏.多模态话语分析三大理论方法述评[J].中国英语教育,2011(1):1-11.
[9]肖烨晗.基于自然语言生成技术的人工智能应用[J].科技传播,2019,11(07):155-156.
[10]于石光.广告中的情感诉求对中美消费者影响的比较研究[D].北京外国语大学,2014:102—103.
[11]吕新雨,赵月枝,吴畅畅,王维佳,洪宇,田雷,胡凌,熊节,余亮.生存,还是毁灭——“人工智能时代数字化生存与人类传播的未来”圆桌对话[J].新闻记者,2018(06):28-42.
[12]王飞,陈立,易绵竹,谭新,张兴华.新技术驱动的自然语言处理进展[J].武汉大学学报(工学版),2018,51(08):669-678.
[13]贾川民,赵政辉,王苫社,马思伟.基于神经网络的图像视频编码[J/OL].电信科学:1-16[2019-06-01]
[14]李航.技术上界与使用下界[EB/OL].http://blog.sina.cn/dpool/blog/s/blog_7ad48fee0102veje.html. 2015-02-08.
【责任编辑:刘君荣】